Os passos fundamentais de uma mineração de dados bem-sucedida vêm a partir de fontes de dados (bancos de dados, relatórios, logs de acesso, transações, …) efetua-se uma limpeza (consistência, preenchimento de informações, remoção de ruído e redundâncias, etc). Disto nascem os repositórios organizados (Data Marts  e Data Warehouses  ou big data ), que já são úteis de diversas maneiras.

Veja na figura abaixo o processo de descoberta do conhecimento a partir de uma aplicação de Mineração de Dados.

Mas é a partir dos datas bases que se pode selecionar algumas colunas para atravessarem o processo de mineração. Tipicamente, este processo não é o final da história. De forma interativa e frequentemente usando visualização gráfica, um analista refina e conduz o processo até que valiosos padrões apareçam. Observe que todo esse processo parece indicar uma hierarquia, algo que começa em instâncias elementares (embora volumosas) e terminam em um ponto relativamente concentrado, mas muito valioso.

Este é um conceito importante. Encontrar padrões requer que os dados brutos sejam sistematicamente simplificados de forma a desconsiderar aquilo que é específico e privilegiar aquilo que é genérico. Faz-se isso porque não parece haver muito conhecimento a extrair de eventos isolados.

Uma loja de uma determinada rede que tenha vendido a um cliente em particular uma quantidade impressionante de um determinado produto em uma única data pode apenas significar que esse cliente em particular procurava grande quantidade desse produto naquele exato momento. Mas isso provavelmente não indica nenhuma tendência de mercado.

Em outras palavras, não há como explorar essa informação em particular para que no futuro a empresa lucre mais. Apenas com conhecimento genérico é que isto pode ser obtido. Por essa razão devemos, em Mineração de Dados, controlar nossa vontade de “não perder dados”. Para que o processo dê certo, é necessário sim desprezar os eventos particulares para só manter aquilo que é genérico.

O objetivo da Mineração de Dados é gerar conhecimento a partir de padrões repetitivos em uma base de dados.

O estudo da Mineração de Dados está na área do conhecimento científico.

 

 

Instrutor José Nazareno Morais

Consultor associado da LCM Treinamento Empresarial Ltda

NEWSLETTER

Receba as novidades da LCM Treinamentos

WhatsApp