A Nova Era do OLAP – Modernizando o seu EDW [Enterprise Data Warehouse] com Data Lake

Posted on março 8, 2018

0


Introdução

A industria 4.0 é uma realidade e com issos dados passam a não ser somente pedaços de bytes mas sim a parte crucial do seu negócio, a informação traz a vantagem competitiva e diferenciação do seu produto em seu seguimento de atuação no mercado atual.

A realidade é que, mais de 85% dos dados gerados atualmente são dados não-estruturados, sendo um pouco mais específico, a IDC e EMC estimam um crescimento de dados de 40 ZT para 2020.

A maoria das empresas no Brasil aindam não lidam com esse tipo de dado, normalmente dados estruturados é que ainda fazem parte do seu negócio, aonde os mesmos são armazenados e tratados dentro de um banco de dados relacional, porém devido a essa geração “infinita” de dados de formas variadas, empresas agora precisam estar preparadas para lidar com esse tipo de fragmento, esse evento é o que chamamos de Big Data.

OLAP [Online Analytical Processing]

Quando empresas precisam realizar análises de dados complexas dentro de um banco de dados transacional (OLTP) ou de fontes de dados heterogêneas, um dos processos mais realizados para satisfazer essa necessidade é a criação de uma base de dados OLAP através de um processo conhecido chamado de ETL ou ELT.

Uma base de dados analítca refere-se a capacidade de transformação para um modelo mais robusto e conciso aonde consultas utilizam menos passos para encontrar o dado desejável, assim grandes massas de dados podem ser retornadas em segundos ao invês de minutos/horas.

Normalmente tentamos utilizar o famoso modelo star-schema (esquema estrela) porém nem sempre é possível devido a granularidade e nível de análise desejado, com isso o modelo snowflake (flocos de neve) é utilizado, evitamos normalmente ir para esse modelo por “imitar” o modelo transacional, e assim acabamos reduzindo a performance em seu Data Mart e Data Warehousing.

 

EDW [Enterprise Data Warehousing]

Empresas investem grande esforço e tempo para a criação de um EDW – Enterprise Data Warehousing para agrupar dados e os transformá-los em pedaços estratégicos para a sua tomada de decisão.

A criação e manutenção de um EDW além de cara é de fato um dos processos mais complexos e difíceis no que se refere ao gerenciamento da informação, é necessário diversos passos e processos para possuir sua base de dados ágil e disponível.

Porém, nessa nova era na qual nos encontramos, não somente a variedade dos dados mas a velocidade e também o volume influenciam não somente na sua tomada de decisão mas sim também em como sua arquitetura para acomodar esses dados será formada.

Empresas que querem mostrar vantagem competitiva precisam agora não somente analisar dados de forma rápida mas também ter a possibilidade de entender ainda mais o seu nicho e público de atuação e para isso se é necessário analizar dados de locais externos como: Twitter, Facebook, Instagram, LinkedIN, dados públicos, sensores, localização e muito mais.

Com toda essa variedade de dados, podemos agora nos perguntar se armazenar e processar esses dados em um EDW ainda é a melhor forma, até porque todos esses dados obrigatoriamente precisam estar modelados e tratados antes de serem inseridos dentro do seu repositório, isso geralmente pode demorar entre 4,6 a 24 horas de processamento para a informação analítica estar disponível para análise estratégica.

Porém, nem sempre a normalização dos dados é necessária, em muitos casos possuir um Data Lake para armazenar, gerir, performar e garantir qualidade assim como manter o dado em sua forma “original” é o melhor cenário, de fato empresas buscam isso atualmente.

 

Data Lake

Pense em um repositório de dados com a capacidade de se armazenar GB, TB, PB e ZB de dados/arquivos de forma escalável e segura, trazendo a possibilidade da criação de uma “fonte da verdade” em sua empresa, um ponto unificado para analistas e cientista de dados, tratarem higienizarem e criarem modelos de prediç˜eo e recomendação para as posteriores tomadas de decisões em um local centralizado e de rápido acesso.

O Data Lake, possui por característica armazenar e gerir de forma segura e escalável todas as formas de dados, como:

Estruturados = Banco de Dados

Semi-Estruturados = CSV, Logs, XML, JSON

Não-Estruturados = Emails, Documentos, Binários, Áudio, Vídeo, PDF

Atualmente no mercado temos os seguintes Data Lake’s:

         Open-Source = Apache Hadoop [HDFS]

         Microsoft Azure = Azure Data Lake Store [ADLS]

         Amazon AWS = Amazon S3

 O grande ponto de discussão é, em que momento preciso sair do meu modelo de DW ou Data Mart para um Data Lake, ao invês de pensar em como mover seus dados relacionais para o Data Lake porque não pensar em modelo aonde os dois possam servir de forma efetiva.

 

A Modernização de um Data Warehouse

Empresas como Microsoft, Amazon e Google acreditam nessa nova revolução, aonde Data Lake e Data Warehouse possam coabitar no mesmo ecossistema e que possam também enriquecer e qualificar os dados de formá transparente e unificada, porém para que isso aconteça é importante entender alguns pontos essencais que são:

Casos de Uso para um Data Warehouse:

  • Dados Estruturados e Processados
  • Schema-On-Write
  • Caro para Grandes Volumes de Dados
  • Menos Ágil, Processo Fixo – ETL + Modelagem

Casos de Uso para um Data Lake:

  • Todos os Tipos de Dados – Estruturados, Semi-Estruturados e Não- Estruturados
  • Schema-On-Read
  • Desenhado e Concebido para Baixo Custo de Armazenamento
  • Extremamente Ágil, Configurável e Estável

Empresas buscam agressivamente um Data Lake aonde possam trabalhar todos os seus diferentes tipos de dados dentro da organização e que também possam aproveitar e servir o seu Data Warehouse de forma mais ágil e concisa.

 Uma forma na qual gosto de comparar esses dois tópicos é:

  

  • Data Mart/Data Warehouse = possibilidade de visualizar e analisar dados do passado e presente.
  • Data Lake = local unificado de armazenamento para análises de todas as formas e sentidos, nem sempre normalizado ou tratado, porém ótimo ambiente para processamento e exploracão dos dados, especificamente para cientista de dados que desejam extrair dados para seus modelos preditivos.

Nesse modelo moderno você pode buscar pedaços dos dados do seu Data Lake para serem trabalhados em seu Data Warehouse para aplicações de regra no ETL e para visualizações do passado e presente como também utilizar os dados em sua forma natural para entregar análises e visões específicas, veja no gráfico abaixo como essa comunicação pode ser feita.

 

 

Conclusão

Pense cuidadosamente em sua nova estratégia e em como seus dados serão “massageados”, considere a implementação de um Data Lake em sua organização para que você possa não somente armazenar os dados mas sim habilitar uma nova cultura e prover agilidade para toda sua empresa, facilitando o acesso e a democratização do seu dados, com isso você será capaz de não somente olhar para o passado e presente, mas sim para o futuro e continuar competitivo.

Anúncios