Diferenças entre edições de "Processamento de Dados Massivos/Projeto e implementação de aplicações Big Data/Avaliação do algoritmo PageRank"

sem resumo de edição
=== Hadoop ===
 
A implementação do PageRank usando Hadoop executa um número de iterações definido como argumento do programa. Cada iteração tem uma fase de “map”"map" e “reduce”"reduce", além das fases de leitura de dados da iteração anterior e escrita para o próxima iteração. O programa começa lendo um arquivo de entrada contendo o grafo e carrega os dados do grafo no Hadoop.
 
O “damping"damping factor”factor" é um argumento opcional do programa. O valor padrão é 0.85 e para desativar basta definir o valor como 1.0.
 
==== Estratégias de paralelização ====
 
A etapa “map”"map" é executada paralelamente para cada dado. Ela tem como entrada a chave sendo o identificador do nodo e como valor o rank atual do nó. Cada nodo passa no “map”"map" uma vez e tem como saída cada nodo apontado por ele e o valor de rank dividido pelo número de nodos apontados.
 
A etapa “reduce”"reduce" tem como entrada a chave sendo o identificador do nodo e uma lista de valores de rank/número de nodos apontados já calculados na etapa anterior. Essa etapa vai somar os valores dessa lista e retornar o novo valor de rank para o nodo identificado pela chave.
 
Como foi falado, essa estratégia não garante balanceamento de carga na etapa “reduce”"reduce", porque o tempo de execução para nodos com mais apontadores seria mais longo por ter mais valores no iterador para somar.
 
==== Estratégias de armazenamento ====
Utilizador anónimo