Série: Data Quality Services (DQS) – Introdução (Parte 1)

Posted on julho 4, 2012

3


Entendendo o Data Quality Services (DQS)

 

 

Esse novo recurso apresentado no SQL Server 2012 é uma solução para o tratamento de informações. Ele provê para o profissional de TI ou à um Heavy User, manter, padronizar, normalizar e aseguar a qualidade das informações dentro da sua empresa.

O DQS é um solução que possibilita a interatividade do usuário com as informações de diversos locais, tipos e padrões. Esse recurso tem a capacidade de fazer com que o usuário possua um maior conhecimento das informações da empresa fazendo assim com que se possa realizar operações de limpeza de dados, relacionamento de registros, verificação e análise.

A cada dia que se passa, a preocupação em possuir dados incorretos dentro das bases de dados se torna crítica, sendo assim o DQS pode fazer com que falta de pradronização, inconsitência, aplicação de filtros, tratamento de registros sejam feitos para suas informações. Como os dados estão ligados diretamente ao negócio e sabendo que as informações refletem diretamente em como uma empresa pode se comportar ou mudar sua estratégia dentro do mercado de trabalho, com isso dados errôneos fazem com que a empresa perca credibilidade e mercado.

 

 

Por isso o DQS tem esse grande poder, poder de transformação, fazendo com que a credibilidade e confiança das suas informações reflitam possitivamente em sua empresa, tratando os dados de diversas formas e o tornado confiável e tangível.

O DQS provê uma total análise de informações alêm de possibilitar com que a complexidade de se tratar dados incossistentes se torne uma tarefa menos pesada e cansativa. De acordo com isso o DQS pode atuar nos seguintes cenários:

 

Data Cleansing (Limpeza de Dados)

Processo de análise e tratamento das informações dentro de uma ou mais fontes de informação. Com isso é possível rejeitar, aprovar, remover, acrescentar, unir, padronizar dados.

 

Data Cleansing Process in DQS

(Figura 1 – Informações são introduzidas de diversas fontes de dados, com isso a mesma é inserida dentro de um banco de conhecimento aonde passa por um processo de limpeza, e logo após isso as informações são corrigidas e geradas/processadas.)

 

Data Maching (Correspondência de Dados)

Processo que tem como objetivo reduzir a duplicidade e aumentar a precisão das informações. Com isso há algoritmos de probabilidade que encontram normalizações e facilitam esse processo.

 

Matching Process in DQS

(Figura 2 – As informações são importadas, analisadas e depois passam por um processo de normalização e tratamento de duplicidade.)

 

Reference Data Servives (Referência de Serviço de Dados)

Seus dados podem ser verificados pela nuvem. A Microsoft disponibiliza um serviço de referência dentro do Windows Azure DataMarket.

 

• Profilling (Análise)

Análise de todas as informações em cada estágio, base de conhecimento, gerenciamento de domínio, correspondência e limpeza de informações.

 

• Knowledge Base (Base de Conhecimento)

Por ser uma solução de análise de informações, é criado um banco de dados,  aonde permite que o DQS crie processos de qualidade e melhore cada vez mais seus dados.

DQS Process

(Figura 3 – O gerenciamento e tratamento das informações passadas para o DQS vinda de diversas fontes de dados. Com isso os processos de Duplicidade, Descoberta, Implementação de políticas e limpeza de dados são realizadas para que os dados sejam normatizados.)

 

Ciclo de Vida de um Projeto DQS

 

image

(Figura 4 – Ciclo de Vida do DQS.)

Todos os processos involvem intervenção humana, isso porque o tratamento de uma informações não pode ser automatizada por completo, há muitas nuances e regras, podemos realizar a automatização algumas coisas.

 

• Knowledge Acquisition (Aquisição de Conhecimento)

image

Essa é a fase da construção de um (DQKB), Banco de dados de Conhecimento. Com essa base , há o processo de discoberta e extração das informações. Essa fase consiste em algumas em:

• Domain Management (Gerenciamento de Domínio)

Importação manual de valores, regras e opções para sua base de dados.

 

• Knowledge Discovery (Descoberta de Conhecimento)

 Processo automático para extração de informações vinda das fontes de dados.

 

• Discovery Value Management (Descoberta de Valores Encontrados)

Manualmente realiza a descoberta de resultados para cada domínio e realiza a correção de valores incorretos.

 

image

(Figura 4 – A partir do domínio criado, é gerado um processo de automatização que faz com que os resultados encontrados por esse processo seja corrigido, alterado ou substituido.)

 

• Interactive Cleansing (Limpeza Interativa)

image

 

Após a criação da base de conhecimento, há o processo de intervenção, as limpezas para o aprimoramento dessa base é realizada e com isso temos os seguinte passos:

 

         • Cleansing (Limpeza)

Processo automático de limpeza dos dados do DQKB.

        • Interactive Cleansing (Limpeza Interativa)

Além do processo automático, esse passo consiste na análise e complemento do processo.

        • Enrich Knowledge (Melhoria do Conhecimento) 

Esse processo pode ou não ser realizado dentro do Ciclo de vida do DQS, isso porque será              analisado se é necessário a criação de alguma nova estrutura.

 

image

(Figura 5 – A partir da limpeza das informações, o passo manual exige com que seja feito a análise das informações geradas.)

 

• Cleaning & Matching (Limpeza e Correspondência)

 

image

Como último passo para e ciclo do DQS, Teremos uma base de dados concisa, limpa e estável. Essa base servirá para a normalização das informações que forem comparadas.

 

 

Informações Complementares

http://msdn.microsoft.com/en-us/library/gg524800.aspx

http://msdn.microsoft.com/en-us/library/hh213071.aspx