Processamento de Dados Massivos/Projeto e implementação de aplicações Big Data/Mineração de Itemsets Frequentes: diferenças entre revisões

A oportunidade de paralelização explorada nesse trabalho é o particionamento da base de dados por transações. Dessa forma, cada nó é responsável por um subconjunto das transações. Vale observar que o particionamento por trasações é mais indicado em casos onde a quantidade de transações é muito maior que a quantidade de itens presentes em cada transação. Caso contrário, o particionamento por itens poderia ser mais mais indicado.
 
A estratégia adotada nesse trabalho é semelhante à oportunidade de paralelização explorada pelo algoritmo Parallel SON (PSON)<ref name="pson">Tao Xiao; Chunfeng Yuan; Yihua Huang; [http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=6128512&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D6128512 Tao Xiao; Chunfeng Yuan; Yihua Huang; , "PSON: A Parallelized SON Algorithm with MapReduce for Mining Frequent Sets,".] Parallel Architectures, Algorithms and Programming (PAAP), 2011 Fourth International Symposium on , vol., no., pp.252-257, 9-11 Dec. 2011]</ref>, um algoritmo paralelo para extração itemsets frequentes. Grosso modo, o PSON é uma versão paralela do algoritmo SON. Assim como no algoritmo SON, no PSON a dependência de dados proveniente do princípio Apriori também não é problema. Na infraestrutura de computação, a qual pode ser descrita como um grafo onde cada nó é uma máquina, a dependência maior é intra nó.
 
O algoritmo SON, e por consequência o PSON, se beneficia do seguinte princípio:
152

edições