Processamento de Dados Massivos/Projeto e implementação de aplicações Big Data/Classificação associativa incremental (LAC): diferenças entre revisões

[edição não verificada][edição não verificada]
Conteúdo apagado Conteúdo adicionado
Linha 171:
 
=== Resultados ===
 
==== Primeira Avaliação ====
 
==== Segunda Avaliação: Particionamentos (1) e (4) =====
 
A avaliação experimental realizada consiste em tomar vantagem da relação temporal da coleção de dados utilizada como forma de obter particionamentos mais coesos. Realizamos dois tipos de experimentos:
 
# LAC Parametrizado: Confiança = 0.01, Suporte = 0.01 e Tamanho Máximo das regras = 3;
# LAC Não Parametrizado: Confiança = 0.00, Suporte = 0.00 e Tamanho Máximo das regras = 3.
 
O objetivo das duas configurações é verificar se as podas por suporte e confiança aumentam a utilização do cache de regras. Na figura a baixo está listado o resultado obtido dos experimentos com as duas configurações e os dois tipos de particionamentos (1) e (4).
 
[[Ficheiro:Chart bigdata.png|commoldura|centro|Relação entre Hit/Miss]]
 
Observa-se que ao processar os dados utilizando o particionamento (4) (Particionamento Temporal) a utilização do cache aumenta consideravelmente em relação ao particionamento (1). Outro resultado evidente é que ao utilizar o LAC Parametrizado o uso do cache também aumenta em relação ao LAC Não Parametrizado quando os dados são processados pelo particionamento (4).
 
Diante destes resultados pode-se concluir que:
 
* Ao definir valores de confiança e suporte aumenta a utilização do cache de regras;
* Para dados temporais o particionamento (4) aumenta a utilização do cache independentemente de configurar valores de Confiança e Suporte para o LAC.
 
Além de avaliar a utilização do cache, neste caso também é necessário avaliar o quão preciso é o LAC utilizando Confiança e Suporte. Veloso et al. 2006<ref name="lac">[http://dl.acm.org/citation.cfm?id=1193367 Veloso, A., Meira Jr., W., and Zaki, M. J. (2006). Lazy associative classification. In Proceedings of the Sixth International Conference on Data Mining, ICDM ’06, pages 645--654, Washington, DC, USA. IEEE Computer Society.] mencionam que não há valores genéricos para Confiança e Suporte, sendo dependente do domínio do dados e da modelagem. Os resutados desta comparação para este trabalho podem ser visualizados na figura a baixo.
 
[[Ficheiro:Chart_bigdata_acc.png|commoldura|centro|centerAcurácia LAC Parametrizado vc LAC Não Parametrizado]]
 
== Conclusão ==