Processamento de Dados Massivos/Projeto e implementação de aplicações Big Data/Classificação associativa incremental (LAC): diferenças entre revisões
[edição não verificada] | [edição não verificada] |
Conteúdo apagado Conteúdo adicionado
Linha 124:
Por padrão o Hadoop divide cada arquivo de entrada em vários chunks que são processador por diferentes mappers, este processo é feito para aumentar o grau de paralelismo.
[[Ficheiro:Hadoop-chunking1.png|commoldura|centro|Divisão de um arquivo de Entrada em Chunks]]
Contudo, este processo não é o adequado para nossa aplicação, visto que queremos processar cada arquivo em um único mapper desta forma a cache do LAC será aproveitada adequadamente. Para garantir que cada arquivo seja processado por apenas um mapper foi extendida a classe de input desejada, no nosso caso '''KeyValueTextInputFormat''', e sobrecarregamos o método '''isSplitable()''' de forma que retornase '''false'''. ▼
▲Contudo, este processo não é o adequado para nossa aplicação, visto que queremos processar cada arquivo em um único mapper desta forma a cache do LAC será aproveitada adequadamente. Para garantir que cada arquivo seja processado por apenas um mapper foi extendida a classe de input desejada, no nosso caso '''KeyValueTextInputFormat''', e sobrecarregamos o método '''isSplitable()''' de forma que retornase '''false'''.
==== Distribuindo o Classificador ====
|