Processamento de Dados Massivos/Introdução: diferenças entre revisões
[edição não verificada] | [edição não verificada] |
Conteúdo apagado Conteúdo adicionado
mSem resumo de edição |
mSem resumo de edição |
||
Linha 5:
Exatamente o que se entende por ''big-data'' depende bastante do contexto . Apesar de normalmente se associar o conceito apenas a volumes extremamente grandes de dados, na verdade a definição abrange três dimensões, que devem ainda ser consideradas em perspectiva para cada usuário: volume, velocidade e variedada .
Certamente, '''volume''' é uma dimensão claramente associada a dados massivos. Um
Uma segunda dimensão é a '''velocidade''' com que os dados são gerados e com que precisam ser processados em diversos casos. Por exemplo, o
Finalmente, a '''variedade''' dos dados e dos resultados esperados também são determinantes para a definição de ''big-data''. A possibilidade de se coletar informações textuais, fotos, áudio e vídeo tornam muitas vezes inviável o uso de sistemas de gerência de bancos de dados tradicionais. A exploração de informações de redes complexas, representando relacionamentos entre pessoas e/ou eventos dá origem a grafos complexos, que também não são facilmente armazenados em sistemas convencionais.
Linha 17:
Considerando todos esses fatores, o restante deste livro abordará os elementos principais para viabilizar o processamento de dados massivos. Na seção 2, o ambiente dos ''datacenters'' atuais é discutido em mais detalhes, para caracterizar melhor as restrições e demandas impostas sobre os ambientes de execução. Um aspecto essencial associado ao ambiente de execução é o sistema de armazenamento dos dados, que também será discutido. Com base nessa análise, a seção 3 discute os desafios enfrentados para se garantir o alto desempenho nesse ambiente. Em seguida, a seção 4 introduz o modelo de programação MapReduce, que se tornou um dos mais populares na área, e a seção 5 dá detalhes do Hadoop, a principal implementação do modelo. Apesar de sua popularidade, entretanto, MapReduce e Hadoop não são a solução para todos os problemas. A seção 6 apresenta ambientes desenvolvidos para facilitar o processamento de certos tipos de dados e certos tipos de algoritmos que não se adaptam bem ao modelo MapReduce. Ainda nesse sentido, a seção 7 descreve uma metodologia para o desenvolvimento de aplicações ''big-data'' e traz diversos estudos de caso desenvolvidos pelos alunos da disciplina Processamento de Dados Massivos do Departamento de Ciência da Computação da Universidade Federal de Minas Gerais (DCC/UFMG). Finalmente, a seção 8 apresenta algumas considerações finais.
{{AutoCat}}
==Referências==
<references/>
|