jueves, 14 de junio de 2012

Modelado de Datos


Dentro de Data Mining existe un técnica que se llama Modelado, lo cual es simplemente el acto de construir un modelo en una situación donde usted conoce la respuesta y luego la aplica en otra situación de la cual desconoce la respuesta. Por ejemplo, si busca un galeón español hundido en los mares lo primero que podría hacer es investigar otros tesoros españoles que ya fueron encontrados en el pasado.

Notaría que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas características respecto de las corrientes oceánicas y ciertas rutas que probablemente tomará el capitán del barco en esa época. Usted nota esas similitudes y arma un modelo que incluye las características comunes a todos los sitios de estos tesoros hundidos. Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo más probabilidad de darse una situación similar. Con un poco de esperanza, si tiene un buen modelo, probablemente encontrará el tesoro.
 
 
Este acto de construcción de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo, seguramente desde antes del auge de las computadoras y de la tecnología de Data Mining. Lo que ocurre en las computadoras, no es muy diferente de la manera en que la gente construye modelos. Las computadoras son cargadas con mucha información acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a través de los datos y distinguir las características de los datos que llevarán al modelo. Una vez que el modelo se construyó, puede ser usado en situaciones similares donde usted no conoce la respuesta.
 
 
Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes, ¿Cómo puede saber si es realmente un buen modelo? La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta. Con Data Mining, la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining. Una vez que el proceso está completo, los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo. Si el modelo funciona, las observaciones deben mantenerse para los datos excluidos.
 
 
Un ejemplo de la minería de datos (Data Mining) con pañales y cervezas: Un caso famoso acerca del comportamiento de los consumidores.

 
Una situación muy popular sucedió en una cadena de víveres en USA. Utilizando un software de minería de datos para estudiar el comportamiento de sus clientes, encontraron relaciones interesantes entre pañales, cervezas, hombres, y día de la semana.

  

Encontraron que los días jueves y sábado, los hombres que compraban pañales también compraban cerveza. Información como esa, que no siempre es evidente a primera vista, puede ser utilizada para reubicar la mercancía en lugares más estratégicos, en este ejemplo, manteniendo a los pañales y a las cervezas cercanos unos de otros.



Este resultado suministrado por un proceso de minería de datos, puede ser analizado en profundidad por expertos humanos. Si ellos encuentran una explicación razonable, esta de seguro será de mucho ayuda para que los ejecutivos de la empresa alcancen sus objetivos de una manera más eficiente.


No hay comentarios: