miércoles, 26 de mayo de 2010

DATA MINING

En días recientes un compañero de trabajo me pidio si lo podía ayudar un poco con un tema relacionado con el Data Mining, asi que me dispuse ayudarlo y me adentre un poco en este tema,  muy cercano a la estadistica y que intentare resumir en dos entregas: La primera donde me referire al Data Mining y sus modelos y la segunda entrega que publicare mañana donde escribire de la relación entre Data Mining y la estadistica.

El Data Mining es un proceso que, a través del descubrimiento y cuantificación de relaciones predictivas en los datos, permite transformar la información disponible en conocimiento útil de negocio. Esto es debido a que no es suficiente “navegar” por los datos para resolver los problemas de negocio, sino que se hace necesario seguir una metodología ordenada que permita obtener rendimientos tangibles de este conjunto de herramientas y técnicas de las que dispone el usuario.

Data Mining es una herramienta que ayuda a descubrir patrones y relaciones que puedan pasar desapercibidos en el análisis de nuestro negocio. Debe estar orientado a resolver un problema de negocios, y no se debe necesitar ser un especialista en estadística para poder emplearlo.

Algunos ejemplos de las preguntas que se pueden responder con estas herramientas son:

¿Qué características tienen mis mejores clientes?
¿Qué características tienen los clientes que estoy perdiendo?
¿A quienes debería dirigir mi campaña publicitaria?
¿Cuáles son los factores que inciden en que algunas máquinas tengan mayores tasas de fallas que otras?
¿Es efectiva la aplicación de una droga medicinal?
¿Cuáles fueron los cinco grupos que obtuvieron los mejores resultados?
¿A quienes no debo venderles seguros contra todo riesgo?
¿Qué factores inciden en el aumento de la tasa de fallas?

Beneficios del data mining

La tecnología del Data Mining nos aporta dos beneficios clave en los negocios:

1. Modelos descriptivos:
En un contexto de objetivos definidos en los negocios permite a empresas, sin tener en cuenta la industria o el tamaño, explorar automáticamente, visualizar y comprender los datos e identificar patrones, relaciones y dependencias que impactan en los resultados finales de la cuenta de resultados (tales como el aumento de los ingresos, incremento de los beneficios, contención de costos y gestión de riesgos).

2.Modelos predictivos:
Permite que relaciones no descubiertas e identificadas a través del proceso del Data Mining sean expresadas como reglas de negocio o modelos predictivos. Estos outputs pueden comunicarse en formatos tradicionales (presentaciones, informes, información electrónica compartida, embebidos en aplicaciones,...) para guiar la estrategia y planificación de la empresa.

TECNOLOGIA ASOCIADA AL DATA-MINING
Las soluciones que aporta el Data Mining están basadas en la implementación, a través de la programación, de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploración y organización de los datos. Estos algoritmos apoyan la identificación de patrones, relaciones y anomalías de interés potencial para los que toman las decisiones en los negocios.

Se trata de un concepto de explotación de naturaleza radicalmente distinta a la de los sistemas de información de gestión, dado que no se basa en coeficientes de gestión o en información altamente agregada, sino en la información de detalle contenida en el almacén.

Adicionalmente, el usuario no se conforma con la mera visualización de datos, sino que trata de obtener una relación entre los mismos que tenga repercusiones en su negocio.

Técnología asociada al data mining

Para soportar el proceso de Data Mining, el usuario dispone de una extensa gama de técnicas que le pueden ayudar en cada una de las fases de dicho proceso, las cuales pasamos a describir:

Metodología de aplicación

Para utilizar estas técnicas de forma eficiente y ordenada es preciso aplicar una metodología estructurada, al proceso de Data Mining. A este respecto proponemos la siguiente metodología, siempre adaptable a la situación de negocio particular a la que se aplique:

Muestreo (data mart): Extracción de la población muestral sobre la que se va a aplicar el análisis. En ocasiones se trata de una muestra aleatoria, pero puede ser también un subconjunto de datos del Data Warehouse que cumplan unas condiciones determinadas. El objeto de trabajar con una muestra de la población en lugar de toda ella, es la simplificación del estudio y la disminución de la carga de proceso. La muestra más óptima será aquella que teniendo un error asumible contenga el número mínimo de observaciones. En el caso de que se recurra a un muestreo aleatorio, se debería tener la opción de elegir el nivel de confianza de la muestra (usualmente el 95% o el 99%).

El tamaño máximo de la muestra (número máximo de registros), en cuyo caso el sistema deberá informar del el error cometido y la representatividad de la muestra sobre la población original. El error muestral que está dispuesto a cometer, en cuyo caso el sistema informará del número de observaciones que debe contener la muestra y su representatividad sobre la población original. Para facilitar este paso se debe disponer de herramientas de extracción dinámica de información con o sin muestreo (simple o estratificado). En el caso del muestreo, dichas herramientas deben tener la opción de, dado un nivel de confianza, fijar el tamaño de la muestra y obtener el error o bien fijar el error y obtener el tamaño mínimo de la muestra que nos proporcione este grado de error.

Exploración:Una vez determinada la población que sirve para la obtención del modelo se deberá determinar cuales son las variables explicativas que van a servir como "inputs" al modelo. Para ello es importante hacer una exploración por la información disponible de la población que nos permita eliminar variables que no influyen y agrupar aquellas que repercuten en la misma dirección.

El objetivo es simplificar en lo posible el problema con el fin de optimizar la eficiencia del modelo. En este paso se pueden emplear herramientas que nos permitan visualizar de forma gráfica la información utilizando las variables explicativas como dimensiones. También se pueden emplear técnicas estadísticas que nos ayuden a poner de manifiesto relaciones entre variables. A este respecto resultará ideal una herramienta que permita la visualización y el análisis estadístico integrado.

Manipulación: Tratamiento realizado sobre los datos de forma previa a la modelización, en base a la exploración realizada, de forma que se definan claramente los inputs del modelo a realizar (selección de variables explicativas, agrupación de variables similares, etc.).

Modelización: Permite establecer una relación entre las variables explicativas y las variables objeto del estudio, que posibilitan inferir el valor de las mismas con un nivel de confianza determinado.

Valoración: Análisis de la bondad del modelo contrastando con otros métodos estadísticos o con nuevas poblaciones muestrales.

No hay comentarios: