Big Data – Arquitetura do Ambiente

19 de março de 2014
Compartilhe

Big Data é um dos mais novos buzzwords da computação. E como tal, gera dúvidas não apenas na definição como também se um projeto é ou não de Big Data.

Desde o início, Big Data vem sendo definido com 3 Vs: Volume, Velocidade e Variedade. Alguns acrescentaram mais 2 Vs: Veracidade e Valor. Se quanto aos três primeiros não resta dúvida alguma, os dois últimos merecem um pouco de atenção. Entendo que Veracidade e Valor são atributos específicos do Dado. Sem estes atributos, seja Big Data ou não, o dado não servirá para nada.

De qualquer forma, com três ou cinco Vs, o importante é que Big Data está nos levando a uma nova etapa da forma como lidamos com os dados e abrindo excelentes oportunidades para aumentar a inteligência dos negócios e permitir uma melhoria no processo de tomada de decisão.

Os 3 Vs

O fenômeno Big Data está associado com a multiplicação dos sensores espalhados por diversos dispositivos que se inicia com computadores e se expande para celulares, tablets, GPS, etiquetas de RFID etc. O uso crescente das Redes Sociais e a possibilidade de extração, acompanhamento dos cliques que realizamos em sites e a possibilidade de conexão com outros dispositivos faz com que o volume de dados gerados seja extraordinariamente grande. Mais do que isso, os dados que antes se limitavam a tabelas ou outras formas estruturadas de armazenar dados, agora assumem aspectos diferenciados, como arquivos de áudio, vídeos, e-mails etc. A necessidade de tomar decisões cada vez mais rápidas e a necessidade de capturar o “humor” daquele momento leva à necessidade de oferecer rapidamente estes dados em qualquer formato para o tomador de decisão.

Arquitetura de Big Data

Para atender esta demanda é necessário estabelecer uma arquitetura tecnológica compatível. O momento tecnológico que vivemos permitiu estabelecer formas de armazenar dados não estruturados de maneira mais adequada. Um novo padrão de banco de dados foi criado para isto. Eles são chamados de NoSQL (Not Only SQL).

Os bancos de dados padrão SQL são amplamente conhecidos no mundo corporativo. Eles facilitaram muito o acesso e a disponibilização dos dados nas organizações. Porém, eles foram criados para lidar com dados estruturados. Para manipulação de dados não estruturados utiliza-se muitas vezes o próprio sistema de arquivos (Linux, por exemplo).

Os principais componentes desta arquitetura são (mas não se limitam a):

  1. Hadoop: plataforma para armazenamento e processamento de um grande volume de dados utilizando hardware simples em clusters;
  2. MapReduce: modelo de programação paralela, escalável e que permite a utilização de hardware simples para realizar grandes trabalhos;
  3. NoSQL: banco de dados que permite armazenar e recuperar dados com menos restrições do que os bancos de dados relacionais. Possui uma modelagem mais simples e permite aumentar a escalabilidade e disponibilidade;
  4. SQL: bancos de dados tradicionais que armazenam a maior parte dos dados estruturados nas organizações. Os dados normalmente têm origem em sistemas ERP, SCM (Supply Chain), CRM etc.;
  5. DW: O Data Warehouse é um banco de dados apartado do banco de dados dos sistemas transacionais que são modelados para facilitar a análise de dados para tomada de decisão.

A utilização de alguns destes componentes em conjunto indicam o trabalho em um ambiente de Big Data. Ao se utilizar um dos componentes isoladamente dificilmente se estará trabalhando com Big Data.

 

Celso Poderoso é coordenador dos cursos de MBA da FIAP (MBA em Arquitetura de Redes e Cloud Computing, MBA em Big Data (Data Science), MBA em Arquiteturas e Gestão de Infraestrutura de TI e MBA em Business Intelligence), professor dos cursos de graduação e pós-graduação da FIAP. É mestre em Tecnologia, especialista em redes sociais aplicadas à Educação e economista. Atua desde 1984 na área de TI, especialmente em desenvolvimento de sistemas e banco de dados Oracle, atualmente é gerente de serviços na MicroStrategy.  Possui cinco livros publicados na área de banco de dados, como SQL Curso Prático e Oracle PL/SQL 10g. Todos editados pela Novatec Editora.

Nosso site armazena cookies para coletar informações e melhorar sua experiência. Gerencie seus cookies ou consulte nossa política.

Prosseguir