Utilizando Big Data
No post de hoje listamos algumas companhias que utilizam Big
Data.
As aplicações de BI e
Datawarehouse do Facebook, chaves para o entendimento do comportamento do
usuário e métricas de campanhas, estavam
sendo impactadas pela grande quantidade de dados ( 10TB / dia ) e a
plataforma Hadoop, HDFS/ Hive mostrou
ser a melhor solução. Os logs dos
servidores Apache são coletados via Scribe, os dados são transferidos para o
cluster Hadoop / HDFS e é utilizado o Hive para sumarizar os mesmos. Os sumários incluem page views,
número de usuários, permanência no site, performance de campanhas e análises
específicas.
Rackspace
O Rackspace provê serviços de
hosting, e-mail e infraestrutura em geral para diversas companhias. Os serviços de e-mail geram diariamente um
volume muito grande de dados que não estava sendo mais processado em tempo
hábil por instãncias MySQL. A solução encontrada foi transferir os logs para um
cluster Hadoop / HDFS, utilizar programas MapReduce para fazer o processamento
destes logs e gerar Datasets que podem ser facilmente analisados.
Netflix
A Netflix tem 27 milhões de
assinantes nos Estados Unidos e aproximadamente 33 milhões em todo o
mundo. A companhia acompanha quais
conteúdos são executados (30 milhões de
plays por dia, pausas, rewinds, fast forwards), 3 milhões de buscas realizadas
diariamente, tipos de dispositivos
utilizados para visualização, dados de geo-localização, dados de audiência
recebidos de parceiros (Nielsen), dados de mídias sociais (Facebook e Twitter).
A ideia principal é saber o que os clientes assistem para entender como poderá ser o
interesse por um determinado conteúdo a ser colocado no ar.
Para procesar estas centenas de
terabytes, a Netflix utiliza um data warehouse baseado no Hadoop com o
armazenamento de dados no Amazon Simple Storage Server (S3), processando os
Jobs MapReduce com o Amazon Elastic MapReduce.Além destes softwares utiliza o Hive, HBASE e NoSQL.
Yahoo!
O Yahoo! foi a primeira companhia
a utilizar o Hadoop em larga escala e hoje a maioria das suas aplicações de produção
rodam em MapReduce. No início a
companhia utilizava o Hadoop para processamento batch em larga escala.
Atualmente procura utilizar agregações e dados de navegação visando transformar
rapidamente dados brutos em informações que possam gerar receita. Alguns dados do Yahoo!: 100 bilhões de
eventos são coletados todos os dias, 2PB de dados armazenados no HBASE, 365 PB de Storage HDFS.
Microsoft
O Windows Azure Marketplace da
Microsoft mantém um depósito de dados com informações sobre índices e tipos de
crimes nos Estados Unidos, que pode ser acessado por clientes. Estes dados estão em uma plataforma Hadoop/
HD Insights da MS.
Além destes grandes players, Twitter, Adobe, Meetup, eBay e outras grandes companhias dos mais diversos setores, tais como Finanças, Medicina, Segurança, Petróleo e Gás, etc já estão utilizando a plataforma Hadoop.
No próximo post falamos sobre o HBASE.
Comentários
Postar um comentário