jueves, 27 de mayo de 2010

Data mining vs. Estadística

Continuando con el tema desplegado el día de ayer sobre la importancia de Data Mining y sus conceptos básicos, la presente descripción pretende explicar las diferencias de data mining y estadística desde una perspectiva constructiva en el uso de ambas herramientas analíticas y bajo un contexto empresarial.

Ambas ciencias tienen el mismo objetivo: mejorar la toma de decisiones mediante un conocimiento del entorno. Este entorno lo facilitan los datos almacenados en la compañía, cuantitativos o cualitatitativos y mediante información de terceras empresas.

El data mining aventaja a la estadística en los siguientes aspectos:

Las técnicas estadísticas se centran generalmente en técnicas confirmatorias, mientras que las técnicas de data mining son generalmente exploratorias. Así, cuando el problema al que pretendemos dar respuesta es refutar o confirmar una hipótesis, podremos utilizar ambas ciencias –diferentes conclusiones y más robusta la estadística.

Sin embargo, cuando el objetivo es meramente exploratorio (para concretar un problema o definir cuales son las variables más interesantes en un sistema de información) surge la necesidad de delegar parte del conocimiento analítico de la empresa en técnicas de aprendizaje (inteligencia artificial), utilizando data mining. Aquí hemos detectado una primera diferencia de aplicación de ambas herramientas: data mining se utilizará cuando no partamos de supuestos de partida y pretendamos buscar algún conocimiento nuevo y susceptible de proporcionar información novedosa en la toma de decisiones.

A mayor dimensionalidad del problema el data mining ofrece mejores soluciones.

Cuantas más variables entran en el problema, más dificil resulta encontrar hipótesis de partida interesantes. O, aun cuando pudiera, el tiempo necesario no justificara la inversión. En ese caso, utilizar técnicas de data mining como árboles de decisión nos permitirá encontrar relaciones inéditas para luego concretar la investigación sobre las variables más interesantes.

Las técnicas de data mining son menos restrictivas que las estadísticas. Una vez encontrado un punto de partida interesante y dispuestos a utilizar algún análisis estadístico en particular (por ejemplo, discriminante para diferenciar segmentos de mercado), puede suceder que los datos no satisfagan los requerimientos del análisis estadístico. Entonces, las variables deberán ser examinadas para determinar que tratamiento permite adecuarlas al análisis, no siendo posible o conveniente en todos los casos.

Aquí también destaca el data mining, puesto que es menos restrictivo que la estadística y permite ser utilizado con los mínimos supuesto posibles (permite ‘escuchar’ a los datos).

Cuando los datos de la empresa son muy ‘dinámicos’ las técnicas de data mining inciden sobre la inversión y la actualización del conocimiento de nuestro negocio. Un almacén de datos poco ‘dinámico’ permite que una inversión en un análisis estadístico quede justificada –personal cualificado en estadística, metodología rígida y respuestas a preguntas muy concretas- dado que las conclusiones van a tener un ciclo de vida largo.

Sin embargo, en un almacén ‘muy dinámico’ las técnicas de data mining permiten explorar cambios y determinar cuando una regla de negocio ha cambiado. Permitiendo abordar diferentes cuestiones a corto/medio plazo.

Expongamos ahora aquellos contextos en los que es más adecuado el análisis estadístico que el de data mining:

El objetivo de la investigación es encontrar causalidad. Si se pretende determinar cuales son las causas de ciertos efectos (por ejemplo, si invertir más en la publicidad de cierto producto tiene como consecuencia un incremento de ventas o si es más determinante el ofrecer un descuento a los clientes), deberemos utilizar técnicas de estadística (por ejemplo, ecuaciones estructurales). Las relaciones complejas que subyacen a técnicas de data mining impiden una interpretación certera de diagramas causa-efecto.

Se pretende generalizar sobre poblaciones desconocidas en su globalidad. Si las conclusiones han de ser extensibles a otros elementos de poblaciones similares habran de utilizarse técnicas de inferencia estadística. Esto viene relacionado con situaciones en las que se dispone exclusivamente de muestras (con el consiguiente problema de aportar validez a las muestras). En data mining, se generarán modelos y luego habrán de validarse con otros casos conocidos de la población, utilizando como significación el ajuste de la predicción sobre una población conocida (es lo habitual cuando queremos predecir perfiles de clientes, que ya disponemos de antecedentes para poder validarlo, aunque no siempre es posible acceder a dicha información o no siempre es correcto aplicar ciertas muestras).

Hemos detallado algunos argumentos acerca de cuando es conveniente utilizar data mining o estadística. Llegado a este punto deseamos destacar que ambas perspectivas constituyen una sinergia y que no son excluyentes una de otra.

En este sentido, la metodología de un proyecto de data mining ha de contener referencias a la estadística en dos partes destacables del proceso: preparación de los datos (tratamiento de valores erróneos, valores omitidos,...) y aproximación a las variables de estudio, despliegue del proyecto y posible generación de hipótesis a refutar con una metodología y técnica estadística.

Así pues, data mining y estadística son técnicas complementarias que permiten obtener conocimiento inédito en nuestros almacenes de datos o dar respuestas a cuestiones concretas de negocio.

No hay comentarios: