Usando Shark na Nuvem da Amazon


No último post falamos sobre utilização e benefícios de computação na nuvem e seus diversos modelos (IAAS, PAAS e SAAS). Neste post de hoje exemplificamos como podemos rapidamente criar um ambiente de Big Data na Nuvem usando o ambiente Hadoop.


Em abril deste ano abordamos o Spark, que é um projeto que foi iniciado na UC Berkley, que permite realizar análises rápidas em quantidades massivas de dados, uma vez que estes são carregados para estruturas de memória compartilhadas integradas ao ambiente Hadoop. 

Para executar estas análises rápidas sobre a plataforma Spark foi criado, também pela UC Berkley, o software Shark (http://shark.cs.berkeley.edu/ ). O Shark é um motor de queries SQL baseado no ambiente Hadoop, que é compatível com o Apache Hive, permitindo assim o uso de instruções HiveQL para acessar e tratar os dados. Como o Shark usa dados que estão em memória os resultados podem ser até 30 vezes mais rápidos que os mesmos utilizando o Hive.  O Shark também suporte características do Hive, tais como uso de metastore, serialização e UDFs.



A Amazon Web Services (AWS) dispõe hoje de um serviço de computação na nuvem chamado de Amazon EMR (Amazon Elastic MapReduce), no qual o cliente pode montar o seu cluster rodando o Hadoop, Hive, Shark, etc e utilizar servidores virtuais Amazon EC2 (Elastic Cluster) rodando diversas distribuições de Linux. Desta forma o cliente pode ter o seu próprio negócio e realizar as suas análises de dados, sem precisar montar um data center físico, pagando apenas pela capacidade necessária, no período em que utilizar.

Caso decida utilizar o Shark, como este utiliza dados em memória, as necessidades de CPU e memória podem variar bastante de uma análise para outra, mas estes fatores podem facilmente serem ajustados, de forma que o cluster tenha sempre a capacidade de acordo com a demanda. 

A figura abaixo mostra uma instância Shark rodando em um cluster Amazon EMR, utilizando servidores virtuais Amazon EC2 e Amazon S3 como solução de armazenamento de dados.



Após configurar o ambiente Shark na nuvem da Amazon, o cliente pode acessá-lo usando a ferramenta popular de Telnet Putty, criar e popular as suas tabelas e executar suas queries usando HiveQL. 

Também é possível monitorar o seu ambiente usando o Amazon CloudWatch. 




Ao finalizar as suas análises, o cliente pode "terminar" seu cluster, realizando o “shut down” e deletar os dados armazenados no Amazon S3.

A computação na nuvem é uma realidade que está reduzindo o tempo para disponibilização de soluções de TI para os negócios e simplificando a manutenção destas soluções. As organizações devem estar atentas a este novo paradigma e procurar aproveitar os seus benefícios. 

No próximo post vamos falar sobre SAAS e como podemos relacioná-lo com a plataforma Big Data.

Bem, até o próximo post !  





 

 

Comentários

Postagens mais visitadas deste blog

Hive, o que é ?

O que é o HBASE ?

O que é o HDFS ?