40
edições
[edição não verificada] | [edição não verificada] |
==== Arquitetura de um crawler paralelo ====
A figura [[Image: | Arquitetura geral de um crawler paralelo]] nos mostra a arquitetura geral de um crawler paralelo, que consiste de múltiplos processos, referidos por <math>C-proc</math>. Cada <math>C-proc<
** Intra-site crawler: quando todos os processos rodam em uma mesma rede local e se comunicam em alta velocidade. Na figura anterior, isso pode ser observado no caso onde todos os <math>C-proc</math> rodam na rede local da parte de cima.
** Assinalamento Dinâmico: ocorre quando existe uma central de comando que divide a Web em partições pequenas, usando para isto alguma função pré-estabelecida, e dinamicamente assinala cada partição a um processo. Essas partições podem ser feitas em diferentes granularidades, o que afeta a comunicação entre os processos e a central de comando.
** Assinalamento Estático: ocorre quando a Web é particionada e assinalada a cada <math>C-proc</math> antes de começar a coleta. Neste caso, cada <math>C-proc</math> sabe qual <math>C-proc</math> é responsável por qual página, não precisando de uma central de comando para isto.
==== Conclusão ====
|
edições