Postagens

Mostrando postagens de outubro, 2013

O framework Cascading

Imagem
Nos posts anteriores vimos que um dos grandes diferenciais da plataforma Hadoop é a sua capacidade de armazenar e tratar enormes quantidades de dados estruturados e não estruturados, mas para que estes dados tenham valor precisam ser refinados e analisados de acordo com as necessidades da companhia. Como opções para processamento de dados nesta plataforma, já abordamos o MapReduce, o Hive, o HBase, etc, cada um tendo um perfil de uso específico e necessitando de competências diferenciadas por parte da equipe de desenvolvimento e suporte. No caso da utilização do MapReduce, muitas vezes existe um certo grau de dificuldade por parte dos desenvolvedores para traduzir os requisitos de negócios da empresa para programas em MapReduce, que trabalham tipicamente com chaves e valores e dois tipos básicos de lógica (mapear e reduzir). Visando criar um novo nível de abstração e facilitar o processamento de dados no ambiente Hadoop, foi criado o framework Cascading ( http://www.casc

Usando o Cloudera Hadoop

Imagem
Uma das lacunas que existe na plataforma de software Hadoop, que também existe em outros softwares livres, está relacionada ao serviço de suporte e manutenção. A medida que as empresas passam a utilizar um software livre, muitas destas não dispõem de pessoas com competências técnicas para suportar este tipo de software e precisam de respostas rápidas para possíveis problemas que aconteçam no seu uso diário. De uma forma geral estas empresas não podem basear o suporte aos seus serviços em mensagens trocadas em grupos de usuários, o que pode representar um sério risco. Uma outra lacuna que também existe na plataforma Hadoop está relacionada às ferramentas para gerenciamento do ambiente como um todo. A partir destas necessidades do mercado, algumas empresas começaram a trabalhar a partir da distribuição Hadoop da Apache Foundation para gerar as suas próprias distribuições, com suporte e atualizações pagas, assim como também desenvolvendo ferramentas de administração que

Importando e exportando dados com Sqoop

Imagem
A plataforma Hadoop consegue realizar o processamento distribuído de informações de origens diversas, que podem ser estruturadas ou não, possibilitando o desenvolvimento de novas aplicações e novas formas de analisar os negócios.  Atualmente grande parte das informações estruturadas das companhias está armazenada em bancos de dados relacionais e precisam ser integradas com informações não estruturadas no ambiente Hadoop. Para realizar a importação e exportação de dados entre bancos de dados relacionais e o Hadoop foi criada a ferramenta Sqoop (http://sqoop.apache.org), também da Fundação Apache. O pacote Sqoop obtido no site da Fundação Apache fornece conectores específicos para MySQL, PostGreSQL, Oracle, SQL Server e DB2, assim como tem também um conector genérico para JDBC (Java Database Connectivity), que pode ser usado para conexão com qualquer banco de dados ou ferramenta que suporte JDBC. Existem também no mercado outros conectores para Netezza, Teradata, No