Introducción a la minería de datos

Introducción a la minería de datos

La minería de datos (o Data Mining) es un proceso de extracción de información y búsqueda de patrones de comportamiento que a simple vista se ocultan entre grandes cantidades de información.

Existen algunas herramientas diseñadas para extraer conocimientos desde bases de datos que contienen grandes cantidades de información. Las más populares de estas herramientas son SPSS Clementine, Oracle Data Miner y Weka. Esta última herramienta es la más asequible y popular ya que se desarrolla en Java y bajo licencia GPL.

Concretamente Weka permite cargar los datos para analizar desde una base de datos, un fichero .csv o ficheros .arff (el formato propio de Weka).

Supongamos que tenemos un conjunto de datos distribuidos en filas que se agrupan entre sí formando grupos a clusters. Una vez cargados los datos en Weka, podemos utilizar la herramienta para detectar cuáles son los datos más relevantes que permiten clasificar las datos en esos grupos.

Es más, podemos utilizar esos datos para crear árboles de decisión o reglas de clasificación que nos ayuden a entender por qué cada fila de datos cae en un determinado grupo.

También podemos utilizar esta herramienta de data mining para clasificar nuestros datos en grupos (clusters) utilizando algoritmos de clustering como por ejemplo k-means.

En definitiva, este tipo de herramientas harán las delicias de los fanáticos de las estadísticas ansiosos de exprimir los datos para obtener más información. Esto es sólo una pequeña parte de lo que permite Weka pero, si tenemos acceso a alguna de las otras herramientas de pago que mencionaba, quedaremos asombrados con la posibilidad de hacer aún muchas más cosas.

Saludos.

Locualo webmaster.

http://www.locualo.net

Sé el primero en Comentar

Recibir un email cuando alguien contesta a mi comentario