Processamento de Dados Massivos/Projeto e implementação de aplicações Big Data/Agrupamento baseado em densidade: diferenças entre revisões
Processamento de Dados Massivos/Projeto e implementação de aplicações Big Data/Agrupamento baseado em densidade (editar)
Revisão das 15h32min de 15 de fevereiro de 2013
, 15 de fevereiro de 2013→Requisitos
[edição não verificada] | [edição não verificada] |
== Requisitos ==
Os principais requisitos para a execução distribuída ou em paralelo do ''DBScan'' são a escalabilidade, o balanceamento e a tolerância a falhas.
=== Escalabilidade ===
A escalabilidade é um fator fundamental nesse contexto de algoritmos para dados massivos. Para que a escalabilidade seja satisfeita, é necessário garantir que não haja gargalos, ou seja, a memória, o processador e a rede de todos os nós devem estar trabalhando com a mesma carga, sem ociosidade em espera por outro evento.
=== Balanceamento de carga ===
O balanceamento de carga é um dos fatores que contribui para escalabilidade. A divisão desbalanceada dos dados e tarefas entre os nós em uma abordagem distribuída tem como consequência a formação de gargalos e ociosidade, que deixariam ineficiente a aplicação para dados massivos.
=== Tolerância a falhas ===
A tolerância a falhas é importante para o agrupamento distribuído pois a ausência de alguns registros no processo tem o poder de influenciar a qualidade do resultado. Na maioria das aplicações voltadas para dados massivos, a tolerância de falhas é satisfeita com a replicação de registros em diferentes nós e com a projeção de algoritmos que não possuem um único ponto de falha.
== Paralelizações existentes ==
|