Big Data e Análise Preditiva

A medida que o uso de ambientes Big Data se consolida nas organizações, novos casos de uso e novos tipos de análises passam a ser requeridas pelos clientes. Além do uso de análises descritivas ou históricas, que relatam a performance dos negócios no passado, análises que visam prever comportamentos e tendências podem também ser realizadas, a medida que podemos combinar novas fontes de informações, que até então não conseguiam ser reunidas facilmente. Como exemplos de uso destas análises no dia a dia das companhias temos aplicações para detecção de fraudes, classificação de e-mails, previsões de venda, detecção de mudança de comportamento de clientes, previsões de defeitos, previsões de produção, etc. Nestes tipos de análises preditivas, os algorítimos mais empregados são os que envolvem regressão linear e cluster. Na regressão linear estimamos o valor de uma variável y, modificando os valores de uma variável x. Na análise de cluster procuramos agrupar os objetos que são similares, gerando os chamados clusters. 

 
Regressão Linear
Análise Cluster


Para trabalhar com estas análises estatísticas mais avançadas no ambiente Hadoop, podemos utilizar a biblioteca Pattern, do framework Cascading (www.cascading.org/pattern). A API Pattern , trabalha com modelos preditivos e pode ler arquivos XML baseados em PMML (Predictive Model Markup Language) para gerar as análises desejadas. O padrão PMML é baseado em XML e foi desenvolvido pelo “Data Mining Group” (www.dmg.org) para facilitar a descrição e troca de modelos entre aplicações. Diversos exemplos de uso do Pattern podem ser obtidos no Github (https://github.com/Cascading/pattern/tree/wip-1.0/pattern-examples).



Além do framework Pattern, diversos fornecedores, tais como SAS, Teradata Aster, etc, possuem soluções especializadas para construção de análises preditivas em ambientes Big Data. 

Como exemplo do uso de análises preditivas na indústria de Óleo e Gás, temos o projeto de otimização da produção do campo de Perdido, da Shell Exploration and Production Upstream Americas, , localizado no Golfo do México, que utiliza o software SAS Predictive Asset Maintenance (PAM).







Com este software são analisados enormes volumes de dados em tempo real visando obter melhor performance e confiabilidade dos poços neste campo. A partir deste tipo de análise é possível prevenir falhas, reduzir paradas não programadas das operações, otimizar os ciclos de manutenção e obter um melhor retorno financeiro dos ativos de produção.

Bem, até o próximo post.









  

Comentários

Postagens mais visitadas deste blog

Hive, o que é ?

O que é o HDFS ?

O que é o HBASE ?