Processamento de Dados Massivos/Projeto e implementação de aplicações Big Data/Agrupamento baseado em densidade: diferenças entre revisões

[edição não verificada][edição não verificada]
O agrupamento é uma tarefa não-supervisionada de mineração de dados que consiste em dividir os registros da base de dados em grupos de forma a deixar os mais similares entre si em grupos iguais e os menos similares em grupos distintos. Essa tarefa possui inúmeras aplicações, dentre as quais pode-se destacar os sistemas de recomendação, predição de funções proteicas e resolução de entidades.
 
Três dos principais algoritmos de agrupamento são o ''K-means'' <ref name="kmeans">[http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.bsmsp/1200512992 K-Means], </ref> , o ''Expectation Maximization - EM'' <ref name="em">[http://www.jstor.org/discover/10.2307/2984875?uid=3737664&uid=2129&uid=2&uid=70&uid=4&sid=21101653427993 Expectation–maximization], </ref> e o ''DBScan'' <ref name="dbscan">[http://dns2.icar.cnr.it/manco/Teaching/2005/datamining/articoli/KDD-96.final.frame.pdf DBScan], </ref>. Ao contrário do ''DBScan'', o ''K-Means'' e o ''EM'' são algoritmos que exigem como parâmetro o número de grupos a serem formados e não são capazes de formar grupos com formatos arbitrários, além de serem sensíveis à presença de exceções. Porém o ''DBScan'' é o algoritmo mais caro entre eles: apresenta custo quadrático em relação ao tamanho da base.
 
Considerando que essa abordagem baseada em densidade é fundamental para algumas aplicações, como por exemplo, quando o número de grupos não é conhecido ou quando há exceções na base, e se observado o crescente volume de dados disponíveis, torna-se desejável a utilização desse algoritmo para suportar dados massivos de forma que o agrupamento possa ser realizado com eficiência e escalabilidade.