Processamento de Dados Massivos/Projeto e implementação de aplicações Big Data/Agrupamento baseado em densidade: diferenças entre revisões

[edição não verificada][edição não verificada]
Conteúdo apagado Conteúdo adicionado
Linha 112:
 
== Requisitos ==
 
Os principais requisitos para a execução distribuída ou em paralelo do ''DBScan'' são a escalabilidade, o balanceamento e a tolerância a falhas.
 
=== Escalabilidade ===
A escalabilidade é um fator fundamental nesse contexto de algoritmos para dados massivos. Para que a escalabilidade seja satisfeita, é necessário garantir que não haja gargalos, ou seja, a memória, o processador e a rede de todos os nós devem estar trabalhando com a mesma carga, sem ociosidade em espera por outro evento.
 
=== Balanceamento de carga ===
O balanceamento de carga é um dos fatores que contribui para escalabilidade. A divisão desbalanceada dos dados e tarefas entre os nós em uma abordagem distribuída tem como consequência a formação de gargalos e ociosidade, que deixariam ineficiente a aplicação para dados massivos.
 
=== Tolerância a falhas ===
A tolerância a falhas é importante para o agrupamento distribuído pois a ausência de alguns registros no processo tem o poder de influenciar a qualidade do resultado. Na maioria das aplicações voltadas para dados massivos, a tolerância de falhas é satisfeita com a replicação de registros em diferentes nós e com a projeção de algoritmos que não possuem um único ponto de falha.
 
== Paralelizações existentes ==