viernes, 20 de julio de 2012

Mas de Data Mining

Nuestra capacidad para almacenar datos ha crecido en los últimos años a velocidades exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha ido a la par. Por este motivo, el data mining se presenta como una tecnología de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volúmenes de datos. Descubrir nuevos caminos que nos ayuden en la identificación de interesantes estructuras en los datos es una de las tareas fundamentales en el data mining.


En el ámbito comercial, resulta interesante encontrar patrones ocultos de consumo de los clientes para poder explorar nuevos horizontes. Saber que un vehículo deportivo corre un riesgo de accidente casi igual al de un vehículo normal cuando su dueño tiene un segundo vehículo en casa ayuda a crear nuevas estrategias comerciales para ese grupo de clientes. Asimismo, predecir el comportamiento de un futuro cliente, basándose en los datos históricos de clientes que presentaron el mismo perfil, ayuda a poder retenerlo durante el mayor tiempo posible.

Las herramientas comerciales de data mining que existen actualmente en el mercado son variadas y excelentes. Las hay orientadas al estudio del web o al análisis de documentos o de clientes de supermercado, mientras que otras son de uso más general. Su correcta elección depende de la necesidad de la empresa y de los objetivos a corto y largo plazo que pretenda alcanzar. La decisión de seleccionar una solución de data mining no es una tarea simple. Es necesario consultar a expertos en el área con vista a seleccionar la más adecuada para el problema de la empresa.

Como se ha visto a lo largo del este artículo, son muchas las áreas, técnicas, estrategias, tipos de bases de datos y personas que intervienen en un proceso de data mining. Los negocios requieren que las soluciones tengan una integración transparente en un ambiente operativo. Esto nos lleva a la necesidad de establecer estándares para hacer un ambiente interoperable, eficiente y efectivo. Esfuerzos en este sentido se están desarrollando actualmente.
 
En resumen, el data mining se presenta como una tecnología emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles debido a que el producto final involucra "toma de decisiones".

viernes, 13 de julio de 2012

Data mining: conceptos e historia


Aunque desde un punto de vista académico el término data mining es una etapa dentro de un proceso mayor llamado extracción de conocimiento en bases de datos (Knowledge Discovery in Databases o KDD) en el entorno comercial, así como en este trabajo, ambos términos se usan de manera indistinta. Lo que en verdad hace el data mining es reunir las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. Una definición tradicional es la siguiente: "Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos" (Fayyad y otros, 1996). Desde nuestro punto de vista, lo definimos como "la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión" (Molina y otros, 2001).

La idea de data mining no es nueva. Ya desde los años sesenta los estadísticos manejaban términos como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de data mining y KDD.[3] A finales de los años ochenta sólo existían un par de empresas dedicadas a esta tecnología; en 2002 existen más de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones. Las listas de discusión sobre este tema las forman investigadores de más de ochenta países. Esta tecnología ha sido un buen punto de encuentro entre personas pertenecientes al ámbito académico y al de los negocios.

El data mining es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadísticas, de visualización de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose con otra herramienta.

Cada año, en los diferentes congresos, simposios y talleres que se realizan en el mundo se reúnen investigadores con aplicaciones muy diversas. Sobre todo en los Estados Unidos, el data mining se ha ido incorporando a la vida de empresas, gobiernos, universidades, hospitales y diversas organizaciones que están interesadas en explorar sus bases de datos.

Podemos decir que "en data mining cada caso es un caso". Sin embargo, en términos generales, el proceso se compone de cuatro etapas principales:


  1. Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining.
  2. Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining.
  3. Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
  4. Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.


domingo, 8 de julio de 2012

Extensiones del data mining - Web mining




Una de las extensiones del data mining consiste en aplicar sus técnicas a documentos y servicios del Web, lo que se llama web mining (minería de web) . Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (log). Las herramientas de web mining analizan y procesan estos logs para producir información significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vídeo, metadatos o hiperligas, investigaciones recientes usan el término multimedia data mining (minería de datos multimedia) como una instancia del web mining  para tratar ese tipo de datos. Los accesos totales por dominio, horarios de accesos más frecuentes y visitas por día, entre otros datos, son registrados por herramientas estadísticas que complementan todo el proceso de análisis del web mining.

Normalmente, el web mining puede clasificarse en tres dominios de extracción de conocimiento de acuerdo con la naturaleza de los datos:

1. Web content mining (minería de contenido web). Es el proceso que consiste en la extracción de conocimiento del contenido de documentos o sus descripciones. La localización de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexación o la tecnología basada en agentes también pueden formar parte de esta categoría.

 2. Web structure mining (minería de estructura web). Es el proceso de inferir conocimiento de la organización del WWW y la estructura de sus ligas.

 3. Web usage mining (minería de uso web). Es el proceso de extracción de modelos interesantes usando los logs de los accesos al web.

Algunos de los resultados que pueden obtenerse tras la aplicación de los diferentes métodos de web mining son:

El ochenta y cinco por ciento de los clientes que acceden a /productos/home.html y a /productos/noticias.html acceden también a /productos/historias_suceso.html. Esto podría indicar que existe alguna noticia interesante de la empresa que hace que los clientes se dirijan a historias de suceso. Igualmente, este resultado permitiría detectar la noticia sobresaliente y colocarla quizá en la página principal de la empresa.

Los clientes que hacen una compra en línea cada semana en /compra/producto1.html tienden a ser de sectores del gobierno. Esto podría resultar en proponer diversas ofertas a este sector para potenciar más sus compras.

El sesenta por ciento de los clientes que hicieron una compra en línea en /compra/producto1.html también compraron en /compra/producto4.html después de un mes. Esto indica que se podría recomendar en la página del producto 1 comprar el producto 4 y ahorrarse el costo de envío de este producto.

Los anteriores ejemplos nos ayudan a formarnos una pequeña idea de lo que podemos obtener. Sin embargo, en la realidad existen herramientas de mercado muy poderosas con métodos variados y visualizaciones gráficas excelentes.

viernes, 6 de julio de 2012

10 riesgos que puedes anticipar en tu implantación de CRM


Hoy tuve oportunidad de ver un excelente post leido en crmmetrics.com el cual hoy reproduzco en su totalidad sin ningún cambio y que es escrito por Hideki Erigh Hashimura.

A continuación el post:

Siempre escuchamos que los estudios demuestran que un alto porcentaje de las implantaciones de sistemas de gestión como el CRM fallan; lo interesante es que lo que falla no es el sistema, si no mas bien la implantación. Los proyectos de implantación fallan por muchas razones, pero en la mayoría de los casos no es el software el causante del error.

Es posible resumir algunas de las razones por las que, en base a la experiencia del día a día, se puede conocer los riesgos de una implantación. Para garantizar una implantación exitosa es importante conocer de antemano como se van a mitigar estos riesgos antes del inicio del proyecto. A continuación una lista de los errores mas comunes que recomiendo basado en la experiencia.

Riesgo 1. Exigir perfección.

Las personas asignadas como jefes de proyecto, que a menudo tienen poca experiencia implantando sistemas de gestión, suelen demandar que el sistema sea perfecto y debe de adaptarse al modelo de procesos de la empresa de forma “perfecta”. En muchas ocasiones ni siquiera se ha considerado la posibilidad de que los procesos actuales de la empresa se puedan mejorar, o que al mismo tiempo puedan satisfacer otras necesidades de la gestión, como puede ser la de recoger información adecuada para realizar análisis. El resultado de este acercamiento es que las especificaciones funcionales del software terminan siendo de alta complejidad, resultando en un coste elevado y baja rentabilidad (desperdicio de recursos). Adicionalmente, aumenta las complejidad técnica para la evolución del sistema, su integración y su sostenibilidad.

Anticípate: Perfección es un término relativo y no siempre significa valor. Asegúrate de que el sistema se pone en marcha de forma ágil aportando valor en una fase temprana de la implantación, la “perfección”, aunque relativa, vendrá con el tiempo gracias a la evolución natural de los requerimientos que aparecerán tras el uso del día a día por parte de los usuarios.

Riesgo 2. Implantar sin integrar.

Casi cualquier negocio moderno hoy en día posee mas de un sistema que gestiona información, su sitio web, CRM, ERP, herramientas de marketing y mailing, etc. Con la excepción de las pequeñas empresas no es común el caso en el que el sistema CRM exista de forma independiente totalmente aislada. Esta deficiencia generalmente se cubre con la imputación manual de la información en varias fuentes de información; o bien con intervención manual (queries y scripts directamente sobre BBDD, o trabajo manual sobre hojas de cálculo). Desafortunadamente el valor de estas opciones es muy reducido por tres razones fundamentales: 1. no son sostenibles, porque dependen de personas específicas para su continuidad; 2. son de alto riesgo, porque no garantizan la integridad de los datos, y 3. no son escalables. La integración de datos es cada vez más una parte de fundamental importancia para el éxito de la implantación ¿De que sirve un excelente sistema de gestión con datos erróneos?

Anticípate: En el momento de crear el RFP (Request for proposal), o documento de requerimientos del proyecto, es recomendable incluir un análisis, aunque sea de alto nivel, para esta fase del proyecto. Si no cuentas con el conocimiento a nivel interno asegúrate que tu proveedor tiene experiencia y puede hacerlo, o busca asesoría.

Riesgo 3: Limbo. Todos opinan, nadie decide.
En los proyectos participan muchas personas, todas opinan para para asegurar el éxito del proyecto, sin embargo muchas de las discusiones pueden tardar mucho tiempo en dar a luz decisiones porque las cosas se quedan en la sala de reuniones y nadie toma responsabilidad sobre las decisiones. Esta falta de consenso suele tomar lugar cuando existe incertidumbre sobre la información aportada y analizada, generalmente porque las personas no toman propiedad del proyecto, es decir, no se involucran. Finalmente las decisiones se toman de forma ambigua y no consolidad, esto implica dos riesgos: 1. que las decisiones se hayan tomado de forma errónea y 2. nadie se encarga de que se lleven a cabo cuando deben ejecutarse. La caída de la implantación es inminente.

Anticípate: Asegúrate de asignar responsabilidades dentro del proyecto y de que los participantes entienden el impacto de su labor en toda la organización. Si has contratado un consultor asígnale suficiente poder para decidir a favor de la empresa. La responsabilidad tiene que estar claramente adjudicada; como resultado la persona escogida se encargará internamente de obtener consenso en las discusiones para convertirlas en decisiones.

Riesgo 4. El director de proyecto ya no está!
Este es un problema un poco difícil de anticipar ya que los empleados no suelen dar a conocer el hecho de que van a dejar la empresa. La realidad es que si la persona a cargo se va el proyecto sufrirá retrasos. Este es un problema que puede hacer que el proyecto entero se caiga en tiempo record, por ello es necesario entender que el riesgo es alto y prever esta necesidad es esencial para el éxito del proyecto.

Anticípate: Asigna un “adjunto al jefe de proyecto”, desde el principio, que pueda remplazar al original en caso de que sea necesario. Esta persona puede participar pasivamente en las reuniones, estar en copia de las comunicaciones; además ha de entender el porqué de la toma de algunas decisiones clave, para así poder ejercer esta labor si fuese necesario.

Riesgo 5: No existe apoyo del equipo directivo.
El proyecto CRM está compuesto de la tecnología, los procesos y las personas. Si el proyecto no cuenta con el suficiente apoyo y empuje del equipo de dirección, de forma consistente antes, durante y después de la implementación, el riesgo de caída es una importante amenaza para su éxito.

Anticípate: Adjudicar el tiempo y recursos necesarios, es decir no subestimar el esfuerzo requerido, hará posible la viabilidad logística de las personas involucradas en sacar adelante el proyecto. Las tareas derivadas suelen añadir una carga importante a la carga normal del día a día, si los recursos no están bien dimensionados incluso los jefes se quemarán y el proyecto se hundirá.

Riesgo 6. Sistemas toma decisiones de procesos y negocios.
Alguien se ha dado cuenta que la empresa necesita un sistema para gestionar los datos de clientes, se pone en marcha una búsqueda de una solución CRM, se realiza la compra y se inicia el proyecto. Nadie, por otro lado, ha pensado en la implicación de dicho sistema en las diferentes áreas de gestión de la empresa: comercial, marketing, servicio y atención al cliente, logística. Cuando el proyecto ha avanzado salen a la luz incompatibilidades entre los requerimientos de unos y otros y además de las opiniones de las personas de “sistemas de la información”.

Anticípate: Los proyectos iniciados desde los departamentos de “sistemas” han de obtener el soporte, apoyo y compromiso de los departamentos de gestión; así mismo han de analizar y lanzar la idea en conjunto con los jefes de cada departamento y obtener apoyo del equipo directivo.

Riesgo 7. Los requerimientos no están definidos.
Este es el reto, y generalmente la barrera, más común de las Pymes; definir en requerimientos funcionales las necesidades de gestión. Los requerimientos tienen que ser específicos, mientras menos ambiguos mejor.

Anticípate: Todos los requerimientos deberían textualizarse, discutirse y aprobarse antes de escoger el software. Si no entiendes el global empieza por las bases mas simples y realiza una implantación simple, el resto se definirá por sí solo con el uso del día a día. Si no puedes realizar esta labor contrata a un especialista, te ahorrarás mucho tiempo, dinero y dolores de cabeza. Finalmente el documentar te ayudará a entender más claramente como una funcionalidad cumple con la necesidad de un requerimiento de gestión.

Riesgo 8. Los procesos no están definidos.
Este problema en muchas ocasiones se relaciona el número 7, arriba. Generalmente los requerimientos no están definidos porque los procesos no están definidos, o si lo están nadie lo sigue, o nadie los sabe, o nadie los entiende, o son obsoletos. Los sistemas CRM son eso, sistemas, y hacen exactamente lo que se le pide que haga, de forma eficiente, miles de veces de la misma forma, siguiendo un “proceso” definido. Implantar software es caro, procesos mal definidos son la fórmula perfecta para que haya malentendidos con proveedores e incluso dentro del equipo interno.

Anticípate: Implementa automatismos solamente para procesos bien definidos, deja abiertos para gestión manual los procesos menos definidos, así cuando los veas repetirse muchas veces podrás sacar un patrón de uso para definir un nuevo requerimiento o automatismo.

Riesgo 9. Las personas no se involucran.
Un sistema CRM es tan bueno como la gente que lo utiliza. Si las personas no hacen uso del sistema la inversión nunca se amortizará; apalancar en el software como herramienta para crear una ventaja competitiva es imposible si los datos no están al día.

La lección: En la fase final previa al lanzamiento del sistema asegúrate de darle suficiente énfasis a la gestión del cambio y a la formación. Permite un periodo de pruebas para que los usuarios entren y “jueguen” con la herramienta sin temor a equivocarse. Establece un equipo de apoyo, una fuente de consulta, un FAQ y una base de conocimiento para consultas de los usuarios. Haz entender la responsabilidad que tiene cada persona sobre el uso del sistema. Así mismo a la hora de escoger el software es importante conocer el grado de usabilidad del mismo.

Riesgo 10. No se han definido indicadores.
A largo plazo la amenaza más importante de los proyectos CRM, es que no están bien definidas internamente como se quiere rentabilizar la inversión que se ha hecho en el sistema. Si bien, primero hay que entender que es una inversión, y que por defecto debe de haber una forma definida de entender su “razón de ser”. Esta definición debería de ser el motor principal de la puesta en marcha de dicho proyecto. Esta definición va mucho mas allá que simplemente definir requerimientos, se trata de definir como la empresa va a apalancar en una herramienta tecnológica para mejorar su rendimiento, que va a aportar esta a la empresa que al empresa no tenga ya.

Anticípate: En vez de justificar un gasto diciendo: “necesito un sistema para saber el estado de las ventas”, es necesario plantear una unidad de medida capaz de facilitar la toma de decisión para realizar una inversión, por ejemplo: “como podemos apalancar y apoyarnos en un software para generar mas ventas, reducir el churn y aportar mas valor a nuestro clientes”. El planteamiento ha de ser analítico desde el inicio.

Conclusiones:

Esta lista no es tan completa como desearía, pero estas barreras son las mas comunes en las implantaciones en las Pymes y conocerlas puede ayudarte a reducir el riesgo de tu proyecto y garantizar su éxito. Por sobre todas las cosas la medida preventiva para evitar la caída de la implantación es la experiencia, interna y externa, del equipo de implantación. Si tu equipo no tiene experiencia implantando sistemas de gestión te recomiendo contratar un jefe de proyecto interino que se un especialista y que tenga un visión objetiva, basada en experiencia, para llevar el proyecto a su éxito.