Los mejores 10 algoritmos en minería de datos

Por greg day
Los mejores 10 algoritmos en minería de datos
Thinkstock Images/Comstock/Getty Images

La minería de datos ("Data Mining" en inglés) es el proceso de analizar y resumir los datos desde distintas perspectivas. Trabaja para encontrar patrones de datos y relaciones en grandes conjuntos de información usando algoritmos, que son conjuntos de reglas para resolver un problema mediante una serie de pasos concretos (piensa en el algoritmo euclídeo en álgebra, que encuentra los dos números del máximo común divisor). La Conferencia Internacional del IEEE (siglas en inglés del Instituto de Ingeniería Eléctrica y Electrónica) de 2006 sobre minería de datos puntuó los mejores 10 algoritmos del campo.

Árboles de decisión

Los algoritmos de árbol de decisión consisten en organizar los datos en elecciones que compiten formando ramas de influencia después de una decisión inicial. El tronco del árbol representa la decisión inicial, y empieza con una pregunta de sí o no, como tomar o no el desayuno. Tomar desayuno y no tomar desayuno serían las dos ramas divergentes del árbol, y cada elección posterior tendría sus propias ramas divergentes que llevan a un punto final.

El algoritmo K-means

El algoritmo K-means se basa en el análisis de grupos. Trata de dividir los datos recogidos en "bloques" ("clusters" en inglés) separados agrupados por características comunes.

Máquinas de vectores de soporte

Los algoritmos de máquinas de vectores de soporte toman datos de entrada y predicen cuál de las dos posibles categorías incluyen los datos de entrada. Un ejemplo sería recoger los códigos postales de un grupo de votantes e intentar predecir si un votante es demócrata o republicano.

El algoritmo apriori

El algoritmo apriori normalmente controla los datos de transacciones. Por ejemplo, en una tienda de ropa, el algoritmo podría controlar qué camisas suelen comprar juntas los clientes.

El algoritmo EM

Este algoritmo define parámetros analizando los datos y predice la posibilidad de una salida futura o evento aleatorio dentro de los parámetros de datos. Por ejemplo, el algoritmo EM podría intentar predecir el momento de una siguiente erupción de un géiser según los datos de tiempo de erupciones pasadas.

Algoritmo PageRank

El algoritmo PageRank es un algoritmo base para los motores de búsqueda. Puntúa y estima la relevancia de un trozo determinado de datos dentro de un gran conjunto, como un único sitio web dentro de un conjunto mayor de todos los sitios web de Internet.

Algoritmo AdaBoost

El algoritmo AdaBoost funciona dentro de otros algoritmos de aprendizaje que anticipan un comportamiento según los datos observados para que sean sensibles a extremos estadísticos. Aunque el algoritmo EM puede sesgarse debido a un géiser que tiene dos erupciones en menos de un minuto cuando normalmente tiene una erupción una vez al día, el algoritmo AdaBoost modificaría la salida del algoritmo EM analizando la relevancia del extremo.

Algoritmo del vecino k más cercano

Este algoritmo reconoce patrones en la ubicación de los datos y los asocia a los datos con un identificador mayor. Por ejemplo, si quieres asignar una oficina postal a cada ubicación geográfica del hogar y tienes un conjunto de datos para cada ubicación geográfica del hogar, el algoritmo del vecino k más cercano asignará las casas a la oficina postal más cercana según su proximidad.

Naive Baye

El algoritmo Naive Baye predice la salida de una identidad basándose en los datos de observaciones conocidas. Por ejemplo, si una persona tiene una altura de 6 pies y 6 pulgadas (1,97 m) y lleva una talla 14 de zapatos, el algoritmo Naive Baye podría predecir con una determinada probabilidad que la persona es un hombre.

Algoritmo CART

"CART" es una sigla en inglés que significa análisis de árbol regresivo y de clasificación. Al igual que los análisis de árboles de decisión, organiza los datos según opciones que compiten, como si una persona ha sobrevivido a un terremoto. Al contrario que los algoritmos de árboles de decisión, que sólo pueden clasificar una salida o una salida numérica basada en la regresión, el algoritmo CART puede usar los dos para predecir la probabilidad de un evento.