Programação Paralela em Arquiteturas Multi-Core/Aplicações Internet: diferenças entre revisões
Programação Paralela em Arquiteturas Multi-Core/Aplicações Internet (editar)
Revisão das 02h00min de 13 de dezembro de 2007
, 13 de dezembro de 2007→Web Crawlers
[edição não verificada] | [edição não verificada] |
Uma outra aplicação interessante do paralelismo na internet é na construção de web crawlers [http://en.wikipedia.org/wiki/Web_crawler]. Um crawler é um programa que coleta e armazena páginas da internet, sendo muito utilizados em máquinas de busca.
Um crawler geralmente começa a funcionar a partir de um conjunto inicial de URLs [
Com a expansão diária do tamanho da web, fica cada vez mais difícil coletar toda ou uma significante parte da web em um só processo. Então, a paralelização dos web crawlers se tornam uma medida essencial para maximizar a taxa de coleta dos dados.
A construção de web crawlers paralelos tem muitas vantagens mas trás também alguns problemas e desafios interessantes. Entre eles, podemos citar:
* Sobreposição: com muitos processos rodando em paralelo para coletar páginas, é possível que diferentes processos coletem uma mesma página múltiplas vezes.
* Qualidade: geralmente é mais interessante coletar as páginas mais "importantes" primeiro, a fim de maximizar a "qualidade dos dados coletados"
== Conclusão ==
|