Cada día
generamos una gran cantidad de información, algunas veces conscientes de que lo
hacemos y otras veces inconscientes de ello porque lo desconocemos. Nos damos
cuenta de que generamos información cuando registramos nuestra entrada en el
trabajo, cuando entramos en un servidor para ver nuestro correo, cuando pagamos
con una tarjeta de crédito o cuando reservamos un billete de avión. Otras veces
no nos damos cuenta de que generamos información, como cuando conducimos por
una vía donde están contabilizando el número de automóviles que pasan por
minuto, cuando se sigue nuestra navegación por Internet o cuando nos sacan una
fotografía del rostro al haber pasado cerca de una oficina gubernamental.
¿Con qué
finalidad queremos generar información? Son muchos los motivos que nos llevan a
generar información, ya que nos pueden ayudar a controlar, optimizar,
administrar, examinar, investigar, planificar, predecir, someter, negociar o
tomar decisiones de cualquier ámbito según el dominio en que nos desarrollemos.
La información por sí misma está considerada un bien patrimonial. De esta
forma, si una empresa tiene una pérdida total o parcial de información provoca
bastantes perjuicios. Es evidente que la información debe ser protegida, pero
también explotada.
¿Qué nos ha
permitido poder generar tanta información? En los últimos años, debido al
desarrollo tecnológico a niveles exponenciales tanto en el área de cómputo como
en la de transmisión de datos, ha sido posible que se gestionen de una mejor
manera el manejo y almacenamiento de la información. Sin duda existen cuatro
factores importantes que nos han llevado a este suceso:
1.
El
abaratamiento de los sistemas de almacenamiento tanto temporal como
permanente.
2.
El
incremento de las velocidades de cómputo en los procesadores.
3.
Las
mejoras en la confiabilidad y aumento de la velocidad en la transmisión de
datos.
4.
El
desarrollo de sistemas administradores de bases de datos más poderosos.
Actualmente
todas estas ventajas nos han llevado a abusar del almacenamiento de la información
en las bases de datos. Podemos decir que algunas empresas almacenan un cierto
tipo de datos al que hemos denominado dato-escritura, ya que sólo se guarda (o
escribe) en el disco duro, pero nunca se hace uso de él. Generalmente, todas
las empresas usan un dato llamado dato-escritura-lectura, que utilizan para
hacer consultas dirigidas. Un nuevo tipo de dato al cual hemos denominado
dato-escritura-lectura-análisis es el que proporciona en conjunto un verdadero
conocimiento y nos apoya en las tomas de decisiones. Es necesario contar con
tecnologías que nos ayuden a explotar el potencial de este tipo de datos.
La cantidad
de información que nos llega cada día es tan inmensa que nos resulta difícil
asimilarla. Basta con ir al buscador Altavista y solicitar la palabra
information para ver que existen 171.769.416 sitios donde nos pueden decir algo
al respecto. Suponiendo que nos tomemos un minuto para ver el contenido de cada
página, tardaríamos entonces 326 años en visitarlas todas. Esto es imposible, y,
por lo tanto, existe una clara necesidad de disponer de tecnologías que nos
ayuden en nuestros procesos de búsqueda y, aún más, de tecnologías que nos
ayuden a comprender su contenido.
El data
mining surge como una tecnología que intenta ayudar a comprender el contenido
de una base de datos. De forma general, los datos son la materia prima bruta.
En el momento que el usuario les atribuye algún significado especial pasan a
convertirse en información. Cuando los especialistas elaboran o encuentran un
modelo, haciendo que la interpretación del confronto entre la información y ese
modelo represente un valor agregado, entonces nos referimos al conocimiento. En
la figura 1 se ilustra la jerarquía que existe en una base de datos entre dato,
información y conocimiento (Molina, 1998). Se observa igualmente el volumen que
presenta en cada nivel y el valor que los responsables de las decisiones le dan
en esa jerarquía. El área interna dentro del triángulo representa los objetivos
que se han propuesto. La separación del triángulo representa la estrecha unión
entre dato e información, no así entre la información y el conocimiento. El
data mining trabaja en el nivel superior buscando patrones, comportamientos,
agrupaciones, secuencias, tendencias o asociaciones que puedan generar algún
modelo que nos permita comprender mejor el dominio para ayudar en una posible
toma de decisión.
No hay comentarios:
Publicar un comentario