BigData
Esta página é um monomódulo, ou seja, não está inserida em nenhum livro e/ou não tem subpáginas. Ajude o Wikilivros inserindo-a em um livro existente ou por criar. |
Trabalho de Banco de Dados
O termo Big Data, em Tecnologia da Informação (TI), se refere a um grande conjunto de dados que precisam ser processados e armazenados. O conceito de Big Data surgiu embasado em 3 V’s, referentes a velocidade, volume e variedade. Analisando de maneira trivial, o Big Data funciona como um conjunto de técnicas que são capazes de analisar grandes quantidades de dados, gerando resultados importantes, pois os dados em volumes menores não seriam capazes de apresentar tais resultados. Mas afinal, Big Data são grandes dados ou grande volume de dados? A quantidade de dados não define o Big Data, sendo definido a partir dos três pilares citados anteriormente. Em relação ao volume, a quantidade de informações geradas torna-se relevante. Em oito anos, a quantidade de Exabytes de informação aumentou 20 vezes aproximadamente, variando de 2.834 Exabytes em 2012 para 40.026 Exabytes de informação em 2020. A velocidade enfatiza a eficiência, tornando-se rápido o tempo de resposta. Mediante a variedade, é de suma importância tratar todos os tipos de dados, sendo eles estruturados ou não estruturados, como organizados em tabela, no formato de texto, vídeo, sensores, áudio, xml e outras formas diversas, como por exemplo, centrais de ar condicionado.
Introdução
editarEmbora a terminologia Big Data seja recente, o conceito data de milênios antes de Cristo. Por volta de 3500 a.C., os burocratas da antiga Mesopotâmia precisavam de ferramentas capazes de registrar e manter o controle das transações comerciais, para isso criaram a escrita. "A linguagem escrita permitiu que as primeiras civilizações medissem a realidade, a gravassem e, mais tarde, a evocassem. Juntas, a medição e a gravação facilitaram a criação dos dados. Elas são as bases da dataficação." (MAYER-SCHONBERGER & CUKIER, 2013). Entende-se dataficar como a ação de adequar um fenômeno a um "formato quantificado de modo que possa ser tabulado e analisado." (ibidem). Remetendo às décadas de 1960 e 1970, as primeiras experiências com data centers e banco de dados relacionais tornaram-se realidade. Com o passar do tempo, os mesmos tiveram reformulações em suas estruturas, tornando-se cada vez mais sucintos e aplicáveis. Avançando para 2005, a quantidade de usuários de dados gerados pelo Facebook e Youtube principalmente, afirmou ser significativo. O Hadoop, estrutura de código aberto também foi criado no mesmo ano, com finalidade de armazenar e analisar grandes conjuntos de dados.
Diante do desenvolvimento de estruturas de código aberto, como o Hadoop e o Spark, o crescimento do Big Data eminente, facilitando o armazenamento de dados e com baixo custo. A geração dos dados não se limita apenas aos humanos, dessa forma, a quantidade de dados gerados tende a aumentar significativamente. Com o advento da Internet das Coisas (IoT), conceito que tem sofrido constantes reformulações, a conexão via internet entre dispositivos móveis ou fixos vêm sendo pensado há décadas e de forma contínua, reunindo dados sobre padrões de uso do cliente e desempenho do produto. A estimativa é que existam 20 bilhões de dispositivos conectados em 2020, sendo que eles podem gerar gigabytes de dados todos os dias. Apesar da evolução do Big Data, sua utilidade ainda encontra-se no começo, expandindo mais possibilidades com a computação em nuvem. A nuvem oferece umas escalabilidade verdadeiramente elástica, na qual os desenvolvedores podem simplesmente criar clusters para testar um subconjunto de dados específicos.
Conceitos
editarPara que se avance no estudo do Big Data, é necessário o entendimento de seus predecessores e as tecnologias que ainda são utilizadas, com o intuito de complementar e auxiliar o seu desenvolvimento. Com o crescimento constante do volume de dados e a alta demanda para que se extraia suas informações( que hoje na maioria das vezes são armazenados sem destino ou objetivo certo), surgiu a necessidade de evolução para uma tecnologia mais ampla, que manipule e lide com esses dados de forma a contribuir efetivamente com seus desenvolvedores. A princípio podemos definir o conceito de Big Data como sendo conjuntos de dados extremamente amplos e que, por este motivo, necessitam de ferramentas específicas para lidar com o grande volume de dados, sendo que elas podem ser encontradas, analisadas e aproveitadas em tempo hábil.
Informação é poder, saber utilizar os dados proporciona vantagem competitiva entre as empresas como criar estratégias de marketing mais eficiente e gestão de recursos, trabalhando o custo de oportunidade e definindo fatores importantes para o futuro da empresa. Como já mencionado no prefácio, existe os 3V’s, sendo eles velocidade, volume e variedade. Porém, o conceito se amplia a 5V’S, sendo os outros dois termos a veracidade e o valor. A veracidade dos dados baseia-se em serem verídicos. O conceito de velocidade, já descrito, é bem alinhado ao conceito de veracidade pela necessidade constante de análise em tempo real, isso significa, de dados que condizem com a realidade daquele momento, pois dados passados não podem ser considerados dados verídicos para o momento em que é analisado. A relevância dos dados coletados é tão importante quanto o primeiro conceito. A verificação dos dados coletados para adequação e relevância ao propósito da análise é um ponto chave para se obter dados que agreguem valor ao processo. O valor, de acordo com Brown (Brown, Eric, 2014) remete que, quanto maior a riqueza de dados, mais importante é saber realizar as perguntas certas no início de todo processo de análise. Não é viável realizar todo o processo de Big Data se não se tem questionamentos que ajudem o negócio de modo realístico. Dessa forma, o Big Data aborda tratamento do aspecto cada vez mais "caótico" dos dados para tornar as referidas aplicações e todas as outras mais eficientes e precisas. Para tanto, o conceito considera não somente grandes quantidades de dados, a velocidade de análise e a disponibilização destes, como também a relação com e entre os volumes.
Cientista de Dados
editarCom a geração dessa grande quantidade de dados e o surgimento do conceito Big Data, se tornou necessário a especialização de profissionais para trabalhar por trás de toda gama de informação, surgindo os cientistas de dados. Estes cientistas de dados são capazes de dar assistência a questões técnicas e também operacionais, como armazenamento, processamento e análise dos dados. A função principal dos cientistas de dados é coletar, tratar, analisar e interpretar os dados coletados, além de sintetizar os resultados e armazená-los em relatórios, por exemplo. Segundo Patil (2011), para ser um bom cientista de dados, deve-se ter alguns conhecimentos técnicos, mas principalmente ter curiosidade de pesquisar conhecimentos novos e ser capaz de propor diversas soluções e métodos de melhoria a frente de um problema. Dentre esse processo de trabalho de um cientista, temos também algumas perguntas que são realizadas para conseguir realizar esse estudo detalhado dos dados. Dentre os diferentes tipos de perguntas, temos a descritiva, exploratória, inferencial e causal. A descritiva apresenta os dados que foram gerados, não estudando de fato os reais motivos desses dados que foram gerados. O exploratório procura estudar e encontrar novas relações ainda não confirmadas. Este tipo de pesquisa é útil para descobrir novos meio que podem vir a ser estudados e aprimorados. O inferencial trabalha em cima de pequenas amostras de dados para descobrir relações em populações maiores. Já o causal tem como objetivo descobrir o que acontece com uma variável quando se faz outra variável mudar. Este é um teste de implicação que vai garantir a veracidade da pesquisa. Temos diversos outros tipos além desses, que são técnicas para estudar todos esses dados que vêm sendo armazenados.
Implementação / Ética e Privacidade
editarNo senso comum, não raro pode-se observar sendo formado o entendimento errôneo de ética como fosse esta uma tabela onde estivessem presentes todas as respostas de regimento das condutas humanas e indicado em colunas lado a lado o que deve-se ou não fazer. E assim, a análise ética das condutas estaria condenada à simples classificação de cada conduta de acordo com a coluna na qual esta se enquadra. No entanto, a ética está longe de ser uma tabela pronta, uma vez que estamos a todo momento diante de novos desafios (FILHO, C. De B, 2015 - informação verbal).
Com isso, encontramos um novo desafio do Big data, sendo que este certamente não possui uma tabela com lista de respostas éticas sobre as devidas condutas possíveis a serem tomadas diante do tema. Entretanto, embora a ética do cenário de um Big Data seja mais complexa do que a construção de uma simples tabela que indica o que fazer ou não, é de extrema importância que o tema seja abordado e que as condutas adotadas pelas organizações sejam muito bem analisadas, questionadas e bem ajustadas para que se tenha uma redução dos efeitos colaterais negativos que a utilização da tecnologia pode causar às pessoas.
É necessário que se entenda, também, que o ato de colocar a tecnologia do Big Data sob a visão da ética não é, de forma alguma, uma tentativa de restringir ou limitar a tecnologia em si, mas sim garantir que a mesma seja desenvolvida e evoluída junto à sociedade, e jamais ou contra ela.
Com a utilização do Big Data, é possível analisar e usufruir de qualquer tipo de dado coletado, tanto dados estruturados ( de um sistema ERP, por exemplo ) como dados não estruturados, que podem ser representados hoje pela grande massa de informações gerada que se pode extrair, principalmente, das rede sociais. Esse modo de pensar altera a forma que um dado é utilizado, já que passa a ser interessante a validação de dados que antes eram considerados de pouco valor. Pode-se dizer que, ao invés de analisar apenas uma parte dos dados, como uma amostragem ou um experimento, seriam analisados também dados de outras fontes que nunca antes vieram a ser utilizadas por serem consideradas irrelevantes, como por exemplo um comentário em uma rede social.
Para que a utilização do conceito de Big Data seja feito de forma satisfatória, é de extrema necessidade que as organizações sigam algumas fases essenciais do processo de Big Data. A coleta de dados ou aquisição e agravação é a primeira fase desse processo, sendo feito nessa etapa a análise do volume e da variedade dos dados que serão coletados. É necessário que seja feito uma limpeza, formatação e validação das informações coletadas, para que se evite o surgimento de erros, utilização de dados incompletos e incoerentes. Desta forma, ocorre o barramento da contaminação de análises futuras.
A próxima fase é a fase de integração, agregação e representação dos dados coletados, pois como a coleta é feita em cima de uma grande quantidade de dados, deve-se fazer o tratamento específico dos diferentes tipos e formatos de dados obtidos. Nesta fase é importante que seja definido as categorias de dados e seus respectivos critérios de validação e aceitação, sendo também definidos os critérios de segurança, que variam de acordo com suas fontes. Em seguida encontra-se a fase de análise e modelagem dos dados. Como se trata de uma gama alta de dados que foram coletados de fontes diversas para serem analisados, é de suma importância que seja requerido um conhecimento elevado por parte de seus analistas. Nessa parte do processo é agregado um cientista de dados, sanando a necessidade de possuir alguém qualificado nesta etapa, já que se trata de um profissional com alta habilidade na área de ciência da computação, matemática, estatística e conhecimentos de dados em geral.
Essa fase também necessita de investimentos em pesquisas de novas formas de visualização, ajudando assim na melhoria da interpretação dos dados, se tratando assim da última fase do processo.
Ferramentas
editarAssim como todo tipo de serviço prestado, é necessário o uso de ferramentas para auxiliar no desenvolvimento da tarefa, e no caso do Big Data não é diferente. Diversas ferramentas são utilizadas para gerenciar e manipular toda essa informação que é gerada e armazenada no Big Data. Aqui temos alguns exemplos de ferramentas utilizadas no Big Data: AMBIENTES EM NUVEM: A computação em nuvem é uma grande aliada do Big Data. Este tipo de ambiente vem em principal motivo por conta do seu baixo preço em comparação a Mainframes mais elaborados, que são muito caros e às vezes não são completamente utilizados. Com a utilização do armazenamento em nuvem, empresas menores conseguem investir seu dinheiro em informação, pois nesse caso elas possuem custo por hora de utilização e apenas de acordo com a quantidade de informação que desejam trabalhar. YARN: É um gerenciador dos recursos do cluster. Ele realiza a alocação dos recursos nos nós do cluster. Assim, as aplicações conseguem discernir em qual máquina estão os recursos que se quer trabalhar. Ela mantém o princípio da localidade, que é processar o código no mesmo ambiente em que estão os dados. HADOOP: É a ferramenta mais importante do Big Data. Ela é voltada para o cluster e realiza o processamento de grandes volumes de dados. A ideia central do Hadoop é realizar o tratamento de grande volume de dados sem ter que copiá-los em outro servidor, o que gastaria mais tempo e trabalho. O Hadoop trabalha tratando os dados dentro do servidor em tempo real, gerando mais praticidade e economizando tempo e dinheiro. MACHINE LEARNING: Machine Learning é um termo muito famoso e que vem sendo cada vez mais usado no mundo da tecnologia. Ele é um termo dado para o “aprendizado de máquina”, e isso é passado para as máquinas conseguirem entender o que os dados querem dizer e tirar alguma conclusão disso. A partir de dados assim, é possível entender mais o que um cliente quer dizer por exemplo, em relação a sua satisfação com determinada empresa. Utilizando então técnicas de Inteligência Artificial, a partir do machine learning conseguimos extrair bastante conteúdo das informações.
Vantagens
editarAs vantagens da utilização de um Big Data estão entrelaçadas com dois fatores, sendo elas o efeito da alta quantidade de números, garantindo a validação das análises e a capacidade de adicionar uma multiplicidade de novos vetores de preferência, complementando e enriquecendo a qualidade das análises, já que é feito uma observação dos comportamentos específicos em indivíduos com características similares. Ter conhecimento sobre o que seus clientes desejam, estudando suas rotinas de consumo faz com que se torne possível oferecer ao mesmo exatamente o que deseja, ganhando credibilidade do público.
É primordial conhecer as necessidades dos clientes, potenciais compradores a partir da verificação de redes sociais em tempo real. O desenvolvimento dessa tecnologia permite que pessoas em diferentes localidades geográficas visualizem e tenham conhecimento do produto em tempo real, potencializando a expansão nas vendas. A prevenção de possíveis riscos para o negócio, devido às análises em tempo real de distintas variáveis do mercado. Podemos também analisar em tempo real tudo o que está acontecendo no mercado, para uma melhor tomada de decisão, tomar medidas preventivas e antecipatórias em relação a dificuldades e oportunidades, observando o que a concorrência está produzindo para realizar ofertas especiais, ganhando tempo para pensar em alternativas para aumentar os lucros.
Aplicação Prática
editarA tecnologia do BigData traz consigo a possibilidade de analisar grande quantidade de dados em pouco tempo, podendo encontrar informações que para o ser humano seriam de difícil compreensão e até mesmo a prever o comportamento das pessoas. Vejamos alguns exemplos de como o Big Data pode auxiliar e melhorar o desempenho em diversas áreas da sociedade:
- Agricultura : As aplicações do big data na agricultura podem contribuir para o desenvolvimento econômico de regiões e empresas, mas também podem ser aliadas na redução do impacto ambiental. Medir resultados e métricas era um desafio, com a tecnologia do Big Data vários serviços e produtos foram desenvolvidos para aumentar a eficiência das safras. Como resultado foi possível analisar a previsibilidade das mudas, criar sementes mais fortes e automatizar o processo.
- Saúde : Nesta área seu uso pode salvar vidas. A área da saúde também pode se beneficiar da grande quantidade de dados que ele possui, podendo encontrar padrões invisíveis a olho nu, possibilidades de acidentes e enfermidades, etc. Algumas iniciativas são o gerenciamento de equipe das instituições, auxilio nos conselhos médicos e o engajamento de pacientes.
- Marketing : Nessa área grupos podem ser identificados a fim de exibir promoções de acordo com o interesse pessoal de cada um. Iniciativas criadas nessa área são Publicidade segmentada e Publicidade semântica.
Conclusão
editarA mais importante rede de fast-food do planeta, McDonald's, trabalha com o gerenciamento de mais de 34 mil restaurantes, servindo mais de 69 milhões de pessoas em 118 países. Tudo isso em uma frequência diária! É natural imaginar que um gigante como este gere toneladas de dados diariamente, certo? Mas o que a rede do “M” mais famoso do mundo faz com todos esses rastros? O McDonald's coleta e combina os múltiplos dados de suas lanchonetes ao redor do mundo a fim de padronizá-los e, com isso, compreender as reações de seu público, as expectativas de cada nicho em torno de seus produtos e as alterações logísticas e de design que podem ser feitas para melhorar a cadeia de serviços. Henry Ford dizia que não é o empregador que paga os salários, e sim os clientes.
O ensinamento mostra que quem não conhece seu público dificilmente prosperará no mundo corporativo. Como se não bastasse, o dinamismo do mundo moderno também exige dos gestores altíssimo conhecimento das práticas concorrenciais, além das conjecturas macroeconômicas; tudo com antecedência, antes da eclosão do fato. Ou seja: é preciso ter visão 360º sobre todos os stakeholders, prevendo comportamentos, inovações dos rivais, aumento de custos. Big Data é a bússola suprema de qualquer empreendedor de sucesso que queira usar seu conhecimento privilegiado do mercado para suprimir a concorrência, independentemente do momento econômico.
MARQUESONE, Rosangela. BIG DATA O NOVO DESAFIO DAS EMPRESAS E PROFISSIONAIS DO MERCADO. USP, 2017. Disponível em: <http://paineira.usp.br/lassu/wp-content/uploads/2017/01/2017.02.07-palestra_rosangela_bigdata.pdf>. Acesso em: 20 de nov. de 2019. GALDINO, Natanael. Big Data: Ferramentas e Aplicabilidade. IESSA, 2016. Disponível em: <https://www.aedb.br/seget/arquivos/artigos16/472427.pdf>. Acesso em: 20 de nov. de 2019. O GUIA DEFINITIVO DE BIG DATA PARA INICIANTES. HEKIMA, 2016. Disponível em: <http://www.mettodo.com.br/ebooks/O_guia_definitivo_de_Big_Data_para_iniciantes.pdf>. Acesso em: 20 de nov. de 2019.
O grande livro de Big Data : Um guia prático para tirar o seu primeiro projeto de Big Data do papel. Disponível em: <http://www.lcvdata.com/sist_distr/bigdata_resources.pdf>. Acesso em: 20 de nov. de 2019. FAVARATO, Eduardo Morosini. ÉTICA NO BIG DATA: PROTEÇÃO DOS DADOS E CENÁRIO BRASILEIRO,2018. Disponível em: <https://monografias.brasilescola.uol.com.br/computacao/etica-no-big-data-protecao-dos-dados-cenario-brasileiro.htm>. Acesso em: 20 de nov. de 2019. Guia de Planejamento Saiba mais sobre Big Data. INTEL, 2013. Disponível em:<https://www.intel.com.br/content/dam/www/public/lar/br/pt/documents/articles/90318386-1-por.pdf>. Acesso em: 20 de nov. de 2019 ALVES, Carolina Limeira. Sistemas de Recomendação de Conteúdo: uma Análise sobre a Experiência do Usuário em Produtos Digitais. PUC, 2015. Disponível em: <https://www.maxwell.vrac.puc-rio.br/25573/25573_3.PDF>. Acesso em: 20 de nov. de 2019. VOLPATO, Tiago. BIG DATA TRANSFORMANDO DADOS EM DECISÕES . Unipar, 2015. Disponível em: <https://docplayer.com.br/3437738-Big-data-transformando-dados-em-decisoes.html>. Acesso em: 20 de nov. de 2019. TAURION, Cezar. BIG DATA. São Paulo, 2013. Big Data Tutorial . DevMedia, 2014. Disponível em: <https://www.devmedia.com.br/big-data-tutorial/30918>. Acesso em: 20 de nov. de 2019. CALDAS, Max Silva. Fundamentos e aplicação do Big Data: como tratar informações em uma sociedade de yottabytes. Unipar, 2016. Disponível em: <https://periodicos.ufmg.br/index.php/revistarbu/article/view/3086/1886>. Acesso em: 20 de nov. de 2019.