Postagens

Mostrando postagens de abril, 2014

O que é o Spark ?

Imagem
Para realizar análises de grandes quantidades de dados, localizados em clusters com diversos nós, precisamos de recursos tradicionais de SQL e Datawarehouse ( Star schemas, drill down, etc ), assim como precisamos ter algorítimos e estruturas de dados para otimizar as consultas em caso de falhas em qualquer um dos nós envolvidos.  Outro ponto que observamos mais recentemente nestas análises massivas de dados é o uso de algorítimos chamados de “machine learning” (Page-Ranking, Clustering, Regression, etc), que fazem um reuso de dados muito frequente.  O framework MapReduce da plataforma Hadoop simplificou e automatizou bastante a análise de quantidades massivas de dados em clusters,  mas a medida que as análises passam a exigir um reuso de dados, a leitura e gravação para disco podem se tornar um problema.  Precisamos ressaltar que o Hadoop MapReduce não é um framework orientado para transações e análises que precisem de baixo tempo de resposta. Visando atender

Benefícios do uso de soluções de Big Data para operadoras de serviços de comunicação

Até a algum tempo atrás, as soluções de Inteligência de Negócios e Relatórios Analíticos estavam muito voltadas para entender o que havia acontecido com os negócios da companhia, sendo normalmente baseadas apenas nos dados corporativos coletados em bancos de dados e em planilhas. Esta coleta de dados implicava na construção de muitos programas para extrair, transformar e carregar os dados em um armazém de dados corporativo. Estes armazéns focavam em dados relacionais, não tendo integração com outras fontes de dados, tais como sites e portais das companhias, uso de redes sociais, etc. Normalmente estas cargas de dados eram realizadas em períodos noturnos. Outro problema existente era a dificuldade e os custos envolvidos de hardware e software para obter maior escalabilidade para este tipo de solução.  Com a evolução da plataforma Hadoop, as companhias podem dispor atualmente de um ambiente de Inteligência de Negócios e Relatórios Analíticos com alta escalabilidade e capacidade