Utilizando o MapReduce
O MapReduce é um conjunto de
bibliotecas que permite realizar processamento em paralelo, de grandes
quantidades de dados, usando todo o hardware disponível no cluster Hadoop, dividindo
este processamento em 2 etapas, uma chamada Map, que é o mapeamento e validação
dos dados e a outra chamada Reduce, que tem como entrada o resultado da fase
Map anterior, gerando o resultado final.
Utiliza-se normalmente processamento de pares de valores chaves.
Como exemplo de uso na indústria
de óleo e gás, podemos obter milhares de arquivos de logs em formato texto, com
informações de pressão e temperatura oriundas de um poço, mapear e validar os
dados destes arquivos e em um segundo passo obter a maior temperatura e pressão
do conjunto analisado. Esta tarefa pode
ser feita usando programas em Java. Neste caso teríamos um programa para
realizar o mapeamento, um programa para realizar a redução e um programa
controlador que executa os outros dois. A API Java MapReduce se encarrega de resolver
todas as complexidades do processamento paralelo, deixando a cargo do
programador apenas a lógica de realizar a validação e iteração nos conjuntos de
dados.
Para realizar testes com a
biblioteca MapReduce, devemos obter uma versão do Hadoop, realizando o download
do software a partir do site da Apache. Caso deseje executar em um computador com
sistema Windows, será necessário instalar também o Cygwin. É necessário também instalar o JDK ,
configurar as variáveis Java Home, Hadoop Home, Classpath e Hadoop Classpath.
Conhecimentos de configuração de ambiente Java e Classpath são importantes
nesta fase de configuração do ambiente.
O livro tem exemplos muito
interessantes e é bastante esclarecedor.
No próximo post falamos sobre o HDFS. Até breve !
Comentários
Postar um comentário