Processamento de Dados Massivos/Introdução (editar)
Revisão das 16h07min de 14 de fevereiro de 2013
, 14 de fevereiro de 2013sem resumo de edição
[edição não verificada] | [edição não verificada] |
mSem resumo de edição |
mSem resumo de edição |
||
Certamente, '''volume''' é uma dimensão claramente associada a dados massivos. Um [[http://www.bimeanalytics.com/wp-content/uploads/2011/09/world-of-data.jpeg infográfico produzido por GOOD, Oliver Munday e IBM]] representa alguns desses volumes. Entre eles, pode-se ver que a cada minuto são carregados no Youtube o equivalente a 20 horas de vídeo, que há em média 50 milhões de tweets por dia e que 2,9 milhões de mensagens de e-mail são enviados por segundo. Entretanto, a definição de volume massivo deve ser também ajustada em função dos recursos disponíveis para seu processamento. Nem todas as organizações possuem os recursos computacionais de uma empresa como Google ou Facebook; em muitos casos, dados na casa de centenas de Gigabytes já apresentam um desafio para serem processados, considerando-se os recursos disponíveis.
Uma segunda dimensão é a '''velocidade''' com que os dados são gerados e com que precisam ser processados em diversos casos. Por exemplo, o
Finalmente, a '''variedade''' dos dados e dos resultados esperados também são determinantes para a definição de ''big-data''. A possibilidade de se coletar informações textuais, fotos, áudio e vídeo tornam muitas vezes inviável o uso de sistemas de gerência de bancos de dados tradicionais. A exploração de informações de redes complexas, representando relacionamentos entre pessoas e/ou eventos dá origem a grafos complexos, que também não são facilmente armazenados em sistemas convencionais.
Apesar desse modelo de processamento já ser largamente conhecido da comunidade de processamento paralelo, ele também vem ganhando larga aceitação nas tarefas de ''big-data'' pelo surgimento de ambientes de processamento desenvolvidos especificamente para esse tipo de atividade. Além disso, esses grandes volumes de dados surgem normalmente no contexto de aplicações em nuvem, que executam em grandes ''datacenters'', onde recursos para armazenamento e processamento distribuído já existem na forma de um grande número de máquinas convencionais interligadas por redes de alta velocidade.
Considerando todos esses fatores, o restante deste livro abordará os elementos principais para viabilizar o processamento de dados massivos. Na seção
[[Imagem:1de8.svg]]
|