Usando o Cloudera Hadoop

Uma das lacunas que existe na plataforma de software Hadoop, que também existe em outros softwares livres, está relacionada ao serviço de suporte e manutenção. A medida que as empresas passam a utilizar um software livre, muitas destas não dispõem de pessoas com competências técnicas para suportar este tipo de software e precisam de respostas rápidas para possíveis problemas que aconteçam no seu uso diário. De uma forma geral estas empresas não podem basear o suporte aos seus serviços em mensagens trocadas em grupos de usuários, o que pode representar um sério risco. Uma outra lacuna que também existe na plataforma Hadoop está relacionada às ferramentas para gerenciamento do ambiente como um todo.



A partir destas necessidades do mercado, algumas empresas começaram a trabalhar a partir da distribuição Hadoop da Apache Foundation para gerar as suas próprias distribuições, com suporte e atualizações pagas, assim como também desenvolvendo ferramentas de administração que facilitam o gerenciamento do ambiente Hadoop.



Uma das distribuições do Hadoop existentes no mercado é a da empresa Cloudera (www.cloudera.com), que além de fornecer a sua distribuição do software Apache Hadoop, chamada Cloudera Hadoop, fornece também suporte, treinamento e serviços profissionais.



Para aqueles que desejam aprender Hadoop, MapReduce, Hive, Hbase, fazer o download da versão de demo Cloudera QuickStart VM é uma das opções mais rápidas. O link para o download da versão é http://www.cloudera.com/content/support/en/downloads/download-components/download-products.html?productID=F6mO278Rvo . Neste pacote estão disponíveis o CentOS 6.2, o CDH4.3 (Cloudera Hadoop), o Cloudera Manager 4.6, o Cloudera Impala 1.0.1 e o Cloudera Search .9 Beta.



Após instalar o ambiente de máquina virtual ( VMWARE, KVM ou Virtual Box ) em seu Windows, basta importar rapidamente a VM e iniciar a utilização.



 
Um dos diferenciais da distribuição da Cloudera é o Cloudera Manager. Com o Cloudera Manager é possível administrar facilmente via interface web todo o ambiente Hadoop. Os diversos pacotes (MapReduce, Hive, HBASE, Impala, etc) podem ser iniciados e parados usando um console web bastante simples.




 
Outra vantagem de utilizar uma versão com suporte pago é o acesso a atualizações do produto. No caso da Cloudera, normalmente a cada 4 meses são lançadas correções para bugs e novas features para os usuários.



O pacote Cloudera Quickstart VM Demo traz um ambiente de desenvolvimento pronto, incluindo a ferramenta Eclipse, o que torna o aprendizado do Hadoop, MapReduce, Hive, etc mais rápido e evita que o desenvolvedor tenha que focar em configurações de arquivos e variáveis de ambiente.



Após a instalação da VM e configuração dos diretórios compartilhados, em menos de 1 hora é possível ver o resultado de um Job MapReduce. 



  Bem, até o próximo post !!!

Comentários

Postagens mais visitadas deste blog

Hive, o que é ?

O que é o HBASE ?

O que é o HDFS ?