Utilizando Big Data



No post de hoje listamos algumas companhias que utilizam Big Data.





  

Facebook  

As aplicações de BI e Datawarehouse do Facebook, chaves para o entendimento do comportamento do usuário e métricas de campanhas,  estavam sendo impactadas pela grande quantidade de dados ( 10TB / dia ) e a plataforma  Hadoop, HDFS/ Hive mostrou ser a melhor solução.  Os logs dos servidores Apache são coletados via Scribe, os dados são transferidos para o cluster Hadoop / HDFS e é utilizado o Hive para sumarizar os  mesmos. Os sumários incluem page views, número de usuários, permanência no site, performance de campanhas e análises específicas.


Rackspace
O Rackspace provê serviços de hosting, e-mail e infraestrutura em geral para diversas companhias.  Os serviços de e-mail geram diariamente um volume muito grande de dados que não estava sendo mais processado em tempo hábil por instãncias MySQL. A solução encontrada foi transferir os logs para um cluster Hadoop / HDFS, utilizar programas MapReduce para fazer o processamento destes logs e gerar Datasets que podem ser facilmente analisados. 

Netflix
A Netflix tem 27 milhões de assinantes nos Estados Unidos e aproximadamente 33 milhões em todo o mundo.  A companhia acompanha quais conteúdos são executados  (30 milhões de plays por dia, pausas, rewinds, fast forwards), 3 milhões de buscas realizadas diariamente, tipos de  dispositivos utilizados para visualização, dados de geo-localização, dados de audiência recebidos de parceiros (Nielsen), dados de mídias sociais (Facebook e Twitter). A ideia principal é saber o que os clientes assistem para entender como poderá ser o interesse por um determinado conteúdo a ser colocado no ar. 

Para procesar estas centenas de terabytes, a Netflix utiliza um data warehouse baseado no Hadoop com o armazenamento de dados no Amazon Simple Storage Server (S3), processando os Jobs MapReduce com o Amazon Elastic MapReduce.Além destes softwares utiliza o Hive, HBASE e NoSQL.

 
Yahoo!

O Yahoo! foi a primeira companhia a utilizar o Hadoop em larga escala e hoje a maioria das suas aplicações de produção rodam em MapReduce.   No início a companhia utilizava o Hadoop para processamento batch em larga escala. Atualmente procura utilizar agregações e dados de navegação visando transformar rapidamente dados brutos em informações que possam  gerar receita.  Alguns dados do Yahoo!: 100 bilhões de eventos são coletados todos os dias, 2PB de dados armazenados no HBASE,  365 PB de Storage HDFS.

Microsoft

O Windows Azure Marketplace da Microsoft mantém um depósito de dados com informações sobre índices e tipos de crimes nos Estados Unidos, que pode ser acessado por clientes.  Estes dados estão em uma plataforma Hadoop/ HD Insights da MS.

Além destes grandes players, Twitter, Adobe, Meetup, eBay e outras grandes companhias dos mais diversos setores, tais como Finanças, Medicina,  Segurança, Petróleo e Gás, etc já estão utilizando a plataforma Hadoop.

No próximo post falamos sobre o HBASE.


Comentários

Postagens mais visitadas deste blog

Hive, o que é ?

O que é o HBASE ?

O que é o HDFS ?