Utilizando o MapReduce

O MapReduce é um conjunto de bibliotecas que permite realizar processamento em paralelo, de grandes quantidades de dados, usando todo o hardware disponível no cluster Hadoop, dividindo este processamento em 2 etapas, uma chamada Map, que é o mapeamento e validação dos dados e a outra chamada Reduce, que tem como entrada o resultado da fase Map anterior, gerando o resultado final.  Utiliza-se normalmente processamento de pares de valores chaves.

Como exemplo de uso na indústria de óleo e gás, podemos obter milhares de arquivos de logs em formato texto, com informações de pressão e temperatura oriundas de um poço, mapear e validar os dados destes arquivos e em um segundo passo obter a maior temperatura e pressão do conjunto analisado.  Esta tarefa pode ser feita usando programas em Java. Neste caso teríamos um programa para realizar o mapeamento, um programa para realizar a redução e um programa controlador que executa os outros dois. A API Java MapReduce se encarrega de resolver todas as complexidades do processamento paralelo, deixando a cargo do programador apenas a lógica de realizar a validação e iteração nos conjuntos de dados.  

Para realizar testes com a biblioteca MapReduce, devemos obter uma versão do Hadoop, realizando o download do software a partir do site da Apache. Caso deseje executar em um computador com sistema Windows, será necessário instalar também o Cygwin.  É necessário também instalar o JDK , configurar as variáveis Java Home, Hadoop Home, Classpath e Hadoop Classpath. Conhecimentos de configuração de ambiente Java e Classpath são importantes nesta fase de configuração do ambiente.

Recomendo também a leitura do livro Hadoop : The Definitive Guidede Tom White.



 O livro tem exemplos muito interessantes e é bastante esclarecedor.

 No próximo post falamos sobre o HDFS.  Até breve !






Comentários

Postagens mais visitadas deste blog

Hive, o que é ?

O que é o HDFS ?

O que é o HBASE ?