Processamento de Dados Massivos/Projeto e implementação de aplicações Big Data/Mineração de Itemsets Frequentes: diferenças entre revisões

[edição não verificada][edição não verificada]
Conteúdo apagado Conteúdo adicionado
Linha 360:
= Avaliação =
 
Nesta Seçãoseção serãosão apresentados os experimentos computacionais e uma discussão analítica acerca dos resultados.
 
=== Carga de trabalho ===
 
Para a execução dos experimentos computacionais, foram utilizados váriasutilizadas bases de dados de diversos tamanhos. As bases de dados se dividem em duas categorias. Na primeira categoria, variou-se o número de transações ('''N''') e fixou-se o número de itens por transação ('''D'''). Enquanto na segunda categoria ocorreu o oposto, ouisto sejaé, o número de transações ('''N''') foi fixado e o número de itens por transação ('''D''') foi variado. A seguir a tabela apresenta as bases de dados utilizadas e seus respectivos tamanhos (em MB):
 
{| class="wikitable"
Linha 381:
|}
 
As duas categorias de base de dados de testes expressam a dimensionalidade dos problemas de mineração de itemsets frequetnesfrequentes em dados massivos, ou seja, no mundo real as grandes bases de dados crescem em termos de número de transação e em número de itens por transação. Por isso foram utilizadas as duas variações.
 
=== Avaliação experimental ===
Linha 389:
O objetivo deste trabalho é apresentar uma solução paralela distribuída que melhore a performance, em termos de tempo de execução, a tarefa de mineração de itemsets frequentes. Para tanto, será apresentado resultados de testes variando-se o número de transações de uma base de dados e também o número de itens por transação, conforme detalhado na Seção anterior.
 
Para cada base de teste, foia executadoestratégia aimplementada soluçãofoi apresentadaexecutada utilizando-se 1, 2, 4 e 8 nós de processamento e foi recolhido o seu tempo total de processamento total.foi Nãomedido foipara consideradoposterior oanálise. tempoVale paraobservar transmitirque asa basesdivisão da base de dados paraé cadauma etapa doanterior clusterao processamento, ouisso seja,representa todasbem asos casos reais visto que o objetivo no final é aplicar o algoritmo em bases deque testesnão foramcaibam replicadasem uma máquina apenas, portanto em todoscasos osreais nósno contexto de processamento massivo a divisão da base também seria feita previamente ao processamento. Assim, o tempo aqui medido desconsidera o trabalho de particionamento da base.
 
==== Ambiente Computacional ====
 
Para a execução dos testes foi utilizado um cluster com oito nós de processamento. Cada nó do cluster é composto de uma VCPU (Virtual CPU (VCPU) com 2 GB de memória RAM e 10 GB de DiscoHD. O sistema operacional utilizado em cada nó foi o Ubuntu 12.04.
 
=== Análise dos resultados ===
 
A seguir são apresentados os gráficos demonstrando o SpeedUp e tempo de execução utilizando-se as bases de dados de testes da primeira categoria, (onde variou-se o número de transações).
 
{|
Linha 404:
|}
 
Também foi coletado o tempo de execução e SpeedUp para a segunda categoria de bases de testes, (onde variou-se o número de itens por transação),. osOs resultados são apresentados nos gráficos a seguir:.
 
{|