Big Data e Análise Preditiva
A medida
que o uso de ambientes Big Data se consolida nas organizações,
novos casos de uso e novos tipos de análises passam a ser requeridas
pelos clientes. Além do uso de análises descritivas ou históricas,
que relatam a performance dos negócios no passado, análises que
visam prever comportamentos e tendências podem também ser
realizadas, a medida que podemos combinar novas fontes de
informações, que até então não conseguiam ser reunidas
facilmente. Como exemplos de uso destas análises no dia a
dia das companhias temos aplicações para detecção de fraudes,
classificação de e-mails, previsões de venda, detecção de
mudança de comportamento de clientes, previsões de defeitos,
previsões de produção, etc. Nestes tipos de análises
preditivas, os algorítimos mais empregados são os que envolvem
regressão linear e cluster. Na regressão linear estimamos o valor
de uma variável y, modificando os valores de uma variável x. Na
análise de cluster procuramos agrupar os objetos que são similares,
gerando os chamados clusters.
Análise Cluster |
Para
trabalhar com estas análises estatísticas mais avançadas no
ambiente Hadoop, podemos utilizar a biblioteca Pattern,
do framework Cascading (www.cascading.org/pattern).
A API Pattern , trabalha com modelos preditivos e pode ler arquivos
XML baseados em PMML (Predictive Model Markup Language) para gerar as
análises desejadas. O padrão PMML é baseado em XML e foi
desenvolvido pelo “Data Mining Group” (www.dmg.org)
para facilitar a descrição e troca de modelos entre aplicações.
Diversos exemplos de uso do Pattern podem ser obtidos no Github
(https://github.com/Cascading/pattern/tree/wip-1.0/pattern-examples).
Além do
framework Pattern, diversos fornecedores, tais como SAS, Teradata
Aster, etc, possuem soluções especializadas para construção de
análises preditivas em ambientes Big Data.
Como
exemplo do uso de análises preditivas na indústria de Óleo e Gás,
temos o projeto de otimização da produção do campo de Perdido, da
Shell Exploration and Production Upstream Americas, , localizado no Golfo do
México, que utiliza o software SAS Predictive Asset Maintenance
(PAM).
Com este software são analisados enormes volumes de dados em
tempo real visando obter melhor performance e confiabilidade dos
poços neste campo. A partir deste tipo de análise
é possível prevenir falhas, reduzir paradas não programadas das
operações, otimizar os ciclos de manutenção e obter
um melhor retorno financeiro dos ativos de produção.
Bem, até o próximo post.
Comentários
Postar um comentário