Aunque
desde un punto de vista académico el término data mining es una etapa dentro de
un proceso mayor llamado extracción de conocimiento en bases de datos
(Knowledge Discovery in Databases o KDD) en el entorno comercial, así como en
este trabajo, ambos términos se usan de manera indistinta. Lo que en verdad
hace el data mining es reunir las ventajas de varias áreas como la Estadística,
la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el
Procesamiento Masivo, principalmente usando como materia prima las bases de
datos. Una definición tradicional es la siguiente: "Un proceso no trivial
de identificación válida, novedosa, potencialmente útil y entendible de
patrones comprensibles que se encuentran ocultos en los datos" (Fayyad y
otros, 1996). Desde nuestro punto de vista, lo definimos como "la integración
de un conjunto de áreas que tienen como propósito la identificación de un
conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia
la toma de decisión" (Molina y otros, 2001).
La idea de
data mining no es nueva. Ya desde los años sesenta los estadísticos manejaban
términos como data fishing, data mining o data archaeology con la idea de
encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A
principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory
Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de data
mining y KDD.[3] A finales de los años ochenta sólo existían un par de empresas
dedicadas a esta tecnología; en 2002 existen más de 100 empresas en el mundo
que ofrecen alrededor de 300 soluciones. Las listas de discusión sobre este
tema las forman investigadores de más de ochenta países. Esta tecnología ha
sido un buen punto de encuentro entre personas pertenecientes al ámbito
académico y al de los negocios.
El data
mining es una tecnología compuesta por etapas que integra varias áreas y que no
se debe confundir con un gran software. Durante el desarrollo de un proyecto de
este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser
estadísticas, de visualización de datos o de inteligencia artificial,
principalmente. Actualmente existen aplicaciones o herramientas comerciales de
data mining muy poderosas que contienen un sinfín de utilerías que facilitan el
desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose
con otra herramienta.
Cada año,
en los diferentes congresos, simposios y talleres que se realizan en el mundo
se reúnen investigadores con aplicaciones muy diversas. Sobre todo en los
Estados Unidos, el data mining se ha ido incorporando a la vida de empresas,
gobiernos, universidades, hospitales y diversas organizaciones que están
interesadas en explorar sus bases de datos.
Podemos
decir que "en data mining cada caso es un caso". Sin embargo, en
términos generales, el proceso se compone de cuatro etapas principales:
- Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining.
- Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining.
- Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
- Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.
No hay comentarios:
Publicar un comentario