Integrando Hadoop, BI e DW


O relatório sobre integração do Hadoop com ambientes de Business Intelligence e Data Warehouse corporativos (TDWI_BPReport_Q213_IntegratingHadoopBIDW_rev.pdf), publicado pela TDWI (www.tdwi.org) no final do primeiro semestre de 2013, indica que a maioria das empresas consultadas veem o Hadoop e seu ecossistema de produtos e parceiros como uma oportunidade para complementar os seus ambientes de BI e Data Warehouse, possibilitando o desenvolvimento de novos tipos de relatórios analíticos,  originados de fontes não estruturadas, gerados por máquinas, navegação em servidores web, dados de sensores, RFID, georeferenciamento, etc. 



Como já falamos em posts anteriores, o Hadoop tem como sistema de arquivos padrão o HDFS, que permite adicionar mais processamento e área de armazenamento ao cluster Hadoop a partir do uso de equipamentos de baixo custo e facilmente encontrados no mercado. Desta forma ao adicionar o Hadoop ao ambiente de BI e DW,  podemos utilizar o HDFS como área de staging ou sandbox para  os DW corporativos, assim como também é podemos utilizar o HDFS como área de arquivamento e repositório para conteúdos digitais tais como vídeos, áudios e documentos.  



Outro ponto importante em que o Hadoop pode auxiliar é na questão da escalabilidade e performance dos ambientes de BI. As aplicações de BI que muitas vezes levam horas de processamento noturno para gerar resultados para os clientes, podem se beneficiar da escalabilidade e do processamento em paralelo da plataforma Hadoop.  Os dados de origem, vindos de diversas fontes, podem ser tratados na área de staging HDFS, utilizando o MapReduce, o Pig ou o Hive, gerando as agregações e granularidades necessárias que serão posteriormente transferidas para um banco de dados relacional utilizando ferramentas de integração similares ao Apache Sqoop.   

Existe também a possibilidade de mesclar o consumo de informações armazenadas em ambiente Hadoop (Hive, HBASE, etc) com informações existentes em ambientes relacionais, consolidando as mesmas em um único Dashboard.   Uma das ferramentas de BI que permite realizar este tipo de operação é a ferramenta Tableau ( www.tableausoftware.com ).




Atualmente o Hadoop já está sendo aplicado para aplicações analíticas que envolvem o processamento de registros de detalhes de chamadas em telecomunicações (CDRs), documentos XML empregados em portais da indústria da cadeia de suprimentos, documentos não estruturados usados nas reivindicações de seguros, uso de dados espaciais em aplicações de logística e transporte, e em uma grande variedade de analíticos baseados em dados de registro de máquinas e sensores. 

Estes relatórios analíticos baseados em Hadoop são muitas vezes utilizados em silos departamentais, mas a tendência é de integração de dados do Hadoop e do DW corporativo, de forma que tenhamos uma maior visibilidade e integração das informações possibilitando uma melhor análise dos processos e desempenho dos negócios empresariais.

Até o próximo post.





Comentários

Postagens mais visitadas deste blog

Hive, o que é ?

O que é o HBASE ?

O que é o HDFS ?