Integrando Hadoop, BI e DW
O relatório sobre integração do
Hadoop com ambientes de Business Intelligence e Data Warehouse corporativos
(TDWI_BPReport_Q213_IntegratingHadoopBIDW_rev.pdf), publicado pela TDWI (www.tdwi.org) no final do primeiro semestre de
2013, indica que a maioria das empresas consultadas veem o Hadoop e seu
ecossistema de produtos e parceiros como uma oportunidade para
complementar os seus ambientes de BI e Data Warehouse, possibilitando o
desenvolvimento de novos tipos de relatórios analíticos, originados de fontes não estruturadas,
gerados por máquinas, navegação em servidores web, dados de sensores, RFID,
georeferenciamento, etc.
Como já falamos em posts
anteriores, o Hadoop tem como sistema de arquivos padrão o HDFS, que permite
adicionar mais processamento e área de armazenamento ao cluster Hadoop a partir
do uso de equipamentos de baixo custo e facilmente encontrados no mercado. Desta
forma ao adicionar o Hadoop ao ambiente de BI e DW, podemos utilizar o HDFS como área de staging ou sandbox para os DW corporativos, assim como também é
podemos utilizar o HDFS como área de arquivamento e repositório para conteúdos
digitais tais como vídeos, áudios e documentos.
Outro ponto importante em que o
Hadoop pode auxiliar é na questão da escalabilidade e performance dos ambientes
de BI. As aplicações de BI que muitas vezes levam horas de processamento
noturno para gerar resultados para os clientes, podem se beneficiar da
escalabilidade e do processamento em paralelo da plataforma Hadoop. Os dados de origem, vindos de diversas fontes, podem ser tratados na
área de staging HDFS, utilizando o MapReduce, o Pig ou o Hive, gerando as
agregações e granularidades necessárias que serão posteriormente transferidas para um banco de
dados relacional utilizando ferramentas de integração similares ao Apache Sqoop.
Existe também a possibilidade de mesclar o consumo de informações
armazenadas em ambiente Hadoop (Hive, HBASE, etc) com informações existentes em ambientes relacionais,
consolidando as mesmas em um único Dashboard.
Uma das ferramentas de BI que permite realizar este tipo de operação é a
ferramenta Tableau ( www.tableausoftware.com ).
Atualmente o Hadoop já está sendo aplicado para
aplicações analíticas que envolvem o processamento de registros de detalhes de
chamadas em telecomunicações (CDRs), documentos XML empregados em portais da
indústria da cadeia de suprimentos, documentos não estruturados usados nas
reivindicações de seguros, uso de dados espaciais em aplicações de logística e
transporte, e em uma grande variedade de analíticos baseados em dados de registro de máquinas e
sensores.
Estes relatórios analíticos baseados em Hadoop são muitas vezes
utilizados em silos departamentais, mas a tendência é de integração de dados do
Hadoop e do DW corporativo, de forma que tenhamos uma maior visibilidade e
integração das informações possibilitando uma melhor análise dos processos e
desempenho dos negócios empresariais.
Até o próximo post.
Comentários
Postar um comentário