quinta-feira, 1 de agosto de 2013

Afinal, O Que é Big Data?

Olá Pessoal.

No último ano foram publicadas muitas notícias sobre o chamado Big Data, mas as dúvidas sobre o que esse termo realmente quer dizer ainda continuam em alta, incomodando aqueles que lêem essa palavra o tempo todo sem conseguir compreender sua magnitude. Um dos motivos dessa dúvida é que a informação sobre esse assunto está muito pulverizada na própria Internet e diferentes autores têm sua interpretação pessoal, o que é normal e diria até que desejável, sobre as principais características que definem melhor esse termo.

Nesse artigo trago um esforço para ajudar a organizar alguns dos principais conceitos diretamente relacionados ao assunto, por isso fui buscar algumas definições na essência da origem do termo Big Data! Sempre digo que é a partir da compreensão da origem das coisas que o processo de aprendizado fica mais natural. Aliás, não existe uma definição universal aceita pela academia e indústria, motivo pelo qual esse artigo se torna ainda mais importante para ajudá-lo a formular sua própria interpretação do assunto!

Fonte: Internet

A figura acima já é um clichê na Internet e nas revistas no que diz respeito a esse assunto. E não é para menos, afinal no entorno do termo Big Data podemos encontrar várias palavras que representam ferramentas/tecnologias de suporte ao "misterioso" Big Data, a exemplo de: Internet, redes, informação, compartilhamento, busca, geranciamento, análise, software, negócios, armazenamento, registro, sistemas e várias outras. O interessante é que, dependendo do perfil de cada pessoa, é comum observarmos mais rapidamente aquelas palavras que têm relação direta com o nosso cotidiano.

É claro que em um único artigo seria impossível definir detalhadamente todas essas ferramentas e tecnologias que suportam o Big Data e, na realidade, nem é esse o objetivo. Então vamos tentar organizar melhor as idéias...

Em primeira análise, temos que destacar que Big Data está diretamente relacionado com a Internet moldada pelo uso que fazemos dela atualmente e, é por isso que, em síntese, são as tecnologias de computação em nuvem que suportam o Big Data, seja no contexto técnico da infraestrutura ou na visão de negócios. Essa é uma primeira correlação importante para caminharmos adiante porque mostra que Big Data ultrapassa os limites de uma única organização...

Em segunda análise, temos que entender o motivo pelo qual as empresas têm demonstrado tanto interesse no Big Data. Essa é uma questão mais fácil de responder, afinal informação é crucial para subsidiar a estratégia de qualquer negócio! Até que haja algum critério para definir qual informação é relevante para um negócio, ou seja, aquela que pode agregar valor de alguma forma, então assumimos que toda informação pode ser útil. De forma bastante objetiva podemos afirmar que Big Data é INFORMAÇÃO! Mas reparem que não estamos falando de qualquer informação, estamos falando de muita informação gerada e consumida rapidamente!

Essa análise ainda está superficial, então nesse tocante surge outro conceito importante relacionado ao Big Data, a mineração de dados (ou data mining). Esse é um conceito clássico na Ciência da Computação que consiste, de maneira superficial, em métodos para realizar a extração de informação útil em grandes volumes de dados! Uma analogia que está se consolidando e que pode ajudar nesse entendimento é a seguinte:

1) Pense no Big Data como um telescópio, afinal quando você observa através dele passa a ter a possibilidade de enxergar uma infinidade de coisas e tudo parece estar ali ao seu alcance, mas como saber para onde olhar diante da imensidão do universo?

2) Pense no Data Mining como um microscópio, afinal quando você observa através dele passa a focalizar sua visão nos detalhes de algo específico, ou seja, é esperado que você já saiba qual informação quer obter!

Na realidade o data mining não é assim tão simples como a mera busca de dados, o conceito de mineração envolve complexos algoritmos para auxiliar no processo de identificação de padrões para obtenção de informação útil que possa agregar valor à parte interessada. Há toda uma linha de pesquisa na academia que envolve cientistas engajados no desenvolvimento dessas técnicas, sejamos justos!

Observação: Enquanto que data mining faz referência às técnicas para extração de dados, o termo de negócios mais popular é Bussiness Inteligence (BI). O termo BI compreende, inclusive, outras ferramentas além do data mining.

Estamos evoluindo bem, mas antes de dar seguimento à nossa caminhada no entendimento do Big Data, temos que fazer uma observação. É por envolver técnicas de mineração de dados que muitas vezes o Big Data é confundido com outro elemento clássico da computação: o Data Warehouse (DW).

O Data Warehouse (cuja tradução literal seria armazém de dados) é um repositório consolidado de uma organização e que armazena grande volume de dados (principalmente histórico) originados por fontes no contexto da própria organização. É agora que essa definição pode atrapalhar, afinal ela é muita similar ao conceito de Big Data visto até aqui! Então que tal apontar as diferenças entre as duas coisas? 

A "novidade" do Big Data é que o comportamento do usuário no uso cotidiano que ele faz da Internet irá refletir na geração de informações sobre o seu perfil! E essas informações também serão armazenadas, mesmo que temporariamente, para "posterior" (quase imediata, observe as aspas) consulta! Então repare que você, sem nenhum relacionamento direto com a orgnização, também passa a ser fonte de informação a partir da Internet, por exemplo através da sua interação nas redes sociais! 

Outra forma de enxergar as diferenças é pensar que o Data Warehouse existe no contexto de uma organização e foi devidamente projetado para atender seu propósito, enquanto que o Big Data é um conceito mais amplo e abstrato que simplesmente acontece espontaneamente, afinal ele está aí crescendo desenfreadamente e não pode ser contido! As soluções de Big Data encontradas no mercado são desenvolvidas para fazer a extração em volumes de dados aleatórios sem orgnização estruturada (coletados da Internet), enquanto que o Data Warehouse é previamente projetado para otimizar as posteriores buscas.

Seria ousadia minha, então, pensar que o Big Data poderia ser interpretado como o Data Warehouse da "organização" Internet??? Na realidade eu mesmo discordo dessa afirmação, mas esse é um bom exercício de reflexão! ;-) No final do exercício, qualquer que tenha sido sua resposta, tenho certeza que o processo de reflexão foi de grande valia! 

Como sugestão da material complementar, o vídeo abaixo foi produzido pela EMC², uma empresa líder no mercado de Big Data e soluções de computação em nuvem. Achei conveniente trazê-lo como apoio para essa discussão porque sua abordagem contribui com a proposta desse artigo.


Por fim, é importante destacar que a simples leitura desse artigo não é suficiente para esgotar o assunto e nem tenho essa pretensão. A leitura de outros materiais é recomendada, até mesmo porque a interpretação de outros autores pode apontar para uma direção diferente da minha abordagem e que, de alguma forma, seja mais adequada para alguns leitores do blog.

Abraço.

Samuel.

7 comentários:

  1. Ou seja, Big Data, por si só, não é nada sem um Data Mining eficiente? É isto?

    ResponderExcluir
    Respostas
    1. Olá Anônimo.

      Sim, você está correto. De que adianta toda essa avalanche de dados se não conseguimos extrair informação útil? É por isso que a maior preocupação das chamadas soluções comerciais de Big Data consiste em métodos eficientes para obter informação.

      Abraço.

      Excluir
  2. Caro Samuel,

    Achei bem interessante e didatica a sua conceituação, mas ainda tenho duvidas principalmente quando voce faz um paralelismo entre Big Data e Datawarehouse.
    Imagine o seguinte cenário: uma maquina gerando dados de produção ( uma impressora 3D), que produz material sob encomenda e recebe pedidos e manda dados de produção via um site da internet. Como podemos conceituar isso? Ou seria então o Big Data uma evolução natural do Datawarehouse?

    ResponderExcluir
    Respostas
    1. Olá Ricardo.

      O paralelismo que fiz entre Big Data e Data Warehouse foi justamente para chamar a atenção dos leitores de que são duas coisas distintas. Ou seja, o Big Data NÃO é uma evolução natural do Data Warehouse (DW). Essa dúvida é recorrente porque há vários artigos na Internet que defendem essa abordagem de que um é a evolução do outro, algo que eu discordo!

      Pense que o objetivo principal do DW é manter um repositório consolidado (unificado) da empresa, principalmente com histórico, ou seja, dados relacionados com algo que já aconteceu e que serão posteriormente analisados pela estratégia do negócio. O DW é cuidadosamente projetado por especialistas para armazenar os dados de maneira organizada com o intuito de otimizar o processo de extração da informação.

      Por outro lado, o objetivo principal do Big Data é obter informação útil a partir de dados armazenados em "tempo real" (espontâneos) e por isso esses dados não são estruturados, o que torna a aplicação de técnicas de extração de informação mais difícil! Ou seja, estamos falando de muitos dados que são gerados e consumidos rapidamente. É por isso que dizemos que as características mais marcantes do Big Data são: (i) quantidade e (ii) velocidade.

      Então pegando seu exemplo do e-commerce, a simples transação eletrônica é uma relação direta entre cliente e empresa, o que não é caracterizado como Big Data. Essa transação gera um pedido que representa um histórico sob a visão de negócios da empresa.

      Por outro lado, se a empresa tem ferramentas para analisar o comportamento dos usuários enquanto eles navegam pela sua página de e-commerce, é possível exibir para o usuário somente aqueles produtos que estejam alinhados ao seu perfil, então existe potencial real de maximizar as vendas - isso é Big Data.

      Outro exemplo de Big Data no mesmo contexto do comércio eletrônico e que faz relação com a produção: Se a empresa tem ferramentas para avaliar quais produtos estão sendo mais acessados em seu e-commerce naquele momento, esse pode ser um indicativo de quais produtos devem ser priorizados no ambiente da produção.

      Então repare que os dados foram originados de maneira espontânea e as informações foram consumidas praticamente no mesmo tempo em que foram geradas, por isso essas informações não são estruturadas. Esse é outro exemplo de Big Data.

      Abraço.

      Excluir
  3. Tudo bem Samuel. Realmente poderiamos ficar como estamos hoje, a informação crescendo e os dados sendo analisados, pesquisas encontrar em menos de meio segundo, mas quantidade de informação em todas as áreas não tem fim, a cada dia milhões de blogs postam info novas entre outros tipos de dados. Com certeza essa área de desenvolvimento de algoritmo tem que ser bem remunerado, tem que ser criada de uma forma a pensar no futuro, e não apenas como está hoje as informações, tem que se pensar na expansão do dia a dia. Mas e pra conseguir extrair toda informação e mostrar o que mais é relevante ao usuário. É fantástico e ao mesmo tempo abusivo você acessar um site e ele captar o que você procura e te mostrar informações mais relevantes. Mas o exemplo do youtube é o mais interessante, pois ao procurar sobre um assunto já traz vários outros que você já abre em outra aba. E por aí vai, mas muito interessante com certeza.

    ResponderExcluir
  4. Olá Samuel.

    Na sua opinião, qual é a diferença entre Business Intelligence e Big Data?

    ResponderExcluir
    Respostas
    1. Olá Priscila.

      Não me considero um especialista da área para afirmar categorigamente isso ou aquilo nessa discussão, mas no meu entendimento o BI (Business Intelligence) e BD (Big Data) são ferramentas complementares. Até por conta disso pode ser que venham a convergir para uma solução única!

      De maneira bem objetiva eu diria que a diferença entre os dois conceitos é que Big Data tem mais relação com informações do presente (o que está acontecendo agora), enquanto que BI tem relação com informações de eventos que já ocorreram (histórico).

      Por conta dessa diferença a técnica de extração da informação é diferente em cada uma dessas duas abordagens. No caso do BI o sistema é criteriosamente modelado para trabalhar naquilo que já existe armazenado. No caso do Big Data é mais difícil o processo de modelagem porque a ferramenta tem que lidar com um grande volume de dados gerados espontaneamente (agora).

      Certamente os especialistas nessa área (não é o meu caso) podem oferecer contribuições mais valorosas! ;-)

      Abraço.

      Samuel.

      Excluir