O que é Big Data ?

Vivemos em um mundo Pós-Crise 2008, no qual temos uma recuperação econômica gradual dos Estados Unidos e grandes investimentos oriundos da China. Um mundo cada vez mais globalizado e cada vez mais digital, no qual os algorítimos controlam as transações em bolsas de valores e um simples navegar em um site pode gerar dados sobre preferências pessoais orientando fabricação de produtos e configurações de serviços. Dados não estruturados, originados de posts no Facebook, tweets, vídeos no YouTube, resultados de buscas, geolocalização entre outros, representam aproximadamente 80% dos dados que as empresas precisam lidar atualmente.

 A partir destas montanhas complexas de dados que são geradas e armazenadas diariamente, de fontes heterogêneas, que tem um valor intrínseco e que precisam ser analisadas no menor tempo possível para chegar ao seu valor final, foi cunhado o termo “Big Data”. Big Data envolve 3 Vs : Volume (grande volume de dados), Variedade ( grande variedade nos tipos de dados ) e Velocidade (velocidade de processamento no tempo necessário ao negócio).

 De acordo com uma das definições do Wikipedia ( http://en.wikipedia.org/wiki/Big_data ), Big Data envolve o uso de grandes conjuntos de dados de diferentes fontes, que podem ser estruturadas ou não, cujo processamento por ferramentas de sistemas de gerenciamento de banco dados e aplicações se tornam muitas vezes complexos. Os desafios de lidar com estes grandes volumes incluem capturar, armazenar, buscar, pesquisar, analisar, compartilhar e visualizar estes dados no tempo determinado e necessário pelo negócio. Os tamanhos destes conjuntos de dados vão de dezenas de Terabytes a muitos Petabytes. 

Para o Gartner Group, Big data envolve ativos de informação com altos volumes, velocidade e variabilidade, que demandam formas inovadoras de processamento da informação para obter os melhores resultados de análises que possam refletir no processo de decisão. 

A abordagem tradicional de armazenagem de dados e clusterização simples em um outro nó não consegue obter a performance necessária para realizar leituras completas e análises destes imensos conjuntos de dados. Para vencer estes novos desafios, novas plataformas de software e novas técnicas precisaram ser desenvolvidas. De acordo com pesquisas realizadas, até 2015 o mercado de Big Data deverá crescer 40% ao ano. 

No próximo post vou abordar como o Big Data pode ser utilizado na indústria de Óleo & Gás. Mais adiante vamos falar sobre Hadoop, MapReduce, HDFS, etc. 

Até breve, 
Flávio Fonte

Comentários

Postagens mais visitadas deste blog

Hive, o que é ?

O que é o HBASE ?

O que é o HDFS ?