Utilizando o MapReduce

julho 02, 2013

O MapReduce é um conjunto de bibliotecas que permite realizar processamento em paralelo, de grandes quantidades de dados, usando todo o hardware disponível no cluster Hadoop, dividindo este processamento em 2 etapas, uma chamada Map, que é o mapeamento e validação dos dados e a outra chamada Reduce, que tem como entrada o resultado da fase Map anterior, gerando o resultado final. Utiliza-se normalmente processamento de pares de valores chaves.

Como exemplo de uso na indústria de óleo e gás, podemos obter milhares de arquivos de logs em formato texto, com informações de pressão e temperatura oriundas de um poço, mapear e validar os dados destes arquivos e em um segundo passo obter a maior temperatura e pressão do conjunto analisado. Esta tarefa pode ser feita usando programas em Java. Neste caso teríamos um programa para realizar o mapeamento, um programa para realizar a redução e um programa controlador que executa os outros dois. A API Java MapReduce se encarrega de resolver todas as complexidades do processamento paralelo, deixando a cargo do programador apenas a lógica de realizar a validação e iteração nos conjuntos de dados.

Para realizar testes com a biblioteca MapReduce, devemos obter uma versão do Hadoop, realizando o download do software a partir do site da Apache. Caso deseje executar em um computador com sistema Windows, será necessário instalar também o Cygwin. É necessário também instalar o JDK , configurar as variáveis Java Home, Hadoop Home, Classpath e Hadoop Classpath. Conhecimentos de configuração de ambiente Java e Classpath são importantes nesta fase de configuração do ambiente.

Recomendo também a leitura do livro Hadoop : The Definitive Guide, de Tom White.

O livro tem exemplos muito interessantes e é bastante esclarecedor.

No próximo post falamos sobre o HDFS. Até breve !

Pesquisar este blog

Big Data Brazil Blog

Utilizando o MapReduce

Comentários

Postar um comentário

Postagens mais visitadas deste blog

Hive, o que é ?

Utilizando o HBASE

Importando e exportando dados com Sqoop