Skip to main content
Machine learning

Machine Learning: una ventana al universo de los datos

1 estrella2 estrellas3 estrellas4 estrellas5 estrellas (376 votos, promedio: 4,80 de 5)
Cargando…

La cantidad de datos que se generan actualmente en las empresas está experimentando un incremento exponencial, lo cual representa una enorme capacidad para desarrollar acciones de negocio más competitivas. Es posible aprovechar este potencial si se utilizan los análisis y tecnologías adecuados con el fin de extraer información valiosa de los datos.

El Machine Learning o Aprendizaje Automático dentro del campo de la computación y, más concretamente, en la rama de la inteligencia artificial, es una disciplina que tiene por objetivo que las máquinas aprendan a generalizar comportamientos a partir de unos datos iniciales.

El hecho de extraer patrones a partir de un gran número de datos es una tarea que presenta dificultades para la mente humana cuando el número de variables que caracterizan el problema es muy elevado. Sin embargo, un ordenador adecuadamente entrenado mediante algoritmos puede generar un modelo que permita hacer predicciones a partir de nuevos datos y, de esa manera, tomar las decisiones más adecuadas en cada caso. Además, las técnicas de Aprendizaje Automático permiten obtener de forma rápida modelos flexibles y con gran capacidad de adaptación a nuevos datos, evitando al mismo tiempo la necesidad de disponer de un gran número de expertos que programen soluciones a medida para cada caso.

 

¿Para qué utilizamos Machine Learning?

Los posibilidades de aplicación de las técnicas de Machine Learning son muy diversas y abarcan un gran número de ámbitos. Entre las más prometedoras cabe destacar:

  • Identificar a los clientes que sean más propensos a contratar un determinado servicio.

  • Evitar la fuga de clientes estudiando sus patrones de comportamiento.

  • Detectar posibles fraudes en transacciones.

  • Predecir fallos en equipos tecnológicos.

  • Realizar diagnósticos médicos basados en los síntomas del paciente.

Dependiendo del problema a tratar, existen distintos tipos de aprendizaje, que se agrupan en función del tipo de respuesta que se va a proporcionar.

Figura 1: Tipos de Aprendizaje

 

 

Un aprendizaje para cada respuesta

Aprendizaje Supervisado

El Aprendizaje Supervisado se basa en un conjunto de datos que ya han sido etiquetados previamente. Las instancias, que son cada uno de los elementos que forman el conjunto de datos, se componen de una serie de campos de características o atributos y un campo objetivo, que es el que se encuentra etiquetado en los datos de entrenamiento. El objetivo de este tipo de aprendizaje es extraer un conjunto de reglas que permitan predecir el campo objetivo para nuevos casos de estudio.

Los problemas de Aprendizaje Supervisado se dividen en dos categorías: Regresión y Clasificación. Estas dos categorías se distinguen esencialmente en el tipo de campo objetivo, que es numérico en el caso de la Regresión y categórico en el caso de la Clasificación.

 

Regresión

En los problemas de Regresión se busca predecir qué valor tendrá el campo objetivo para una nueva instancia, es decir, dadas la propiedades de un caso del que no conocemos el valor del campo objetivo, el modelo que hayamos obtenido tras el proceso de entrenamiento debe ser capaz de predecirlo lo más correctamente posible. Dicha predicción se realizará a partir de los valores de las variables y de la relación entre las mismas. La capacidad de obtener más o menos información de las variables dependerá en gran medida de la manera en la que hayamos preparado nuestros datos y también del algoritmo que utilicemos en el proceso de entrenamiento.

Desde el punto de vista de negocio, los problemas de regresión pueden utilizarse en análisis de mercado, para estimar la demanda de productos y también para predecir el volumen de ventas que se espera alcanzar para un determinado producto.

 

Predecir valores    Figura 2: Problemas de Regresión

 

 

Clasificación

Los problemas de Clasificación son aquellos en los que se busca predecir a qué categoría pertenece el campo objetivo de cada instancia a partir de una lista de posibles categorías. En los casos en los que sólo hay dos categorías posibles, nos encontramos ante un problema de Clasificación Binaria; mientras que los casos que requieren respuestas complejas y predicciones entre múltiples categorías (más de dos) corresponden a problemas de Clasificación Multiclase.

El valor de negocio de los problemas de Clasificación es muy amplio y abarca, entre otros, los campos de la economía, la tecnología y la medicina. La posibilidad de predecir si un cliente va a contratar o tiene tendencia a abandonar un determinado servicio, nos permite ofrecerle atención personalizada y aumentar la eficiencia de nuestro negocio y la efectividad del contacto con el cliente. Por otra parte, la capacidad de predecir fallos en dispositivos tecnológicos puede ahorrar muchos costes, permitiendo aplicar el mantenimiento preventivo a nuestros equipos. Finalmente, la posibilidad de desarrollar aplicaciones de diagnóstico médico a partir de los datos de pacientes puede constituir una potente herramienta de apoyo a los profesionales sanitarios.

 

Predecir categorías

Figura 3: Problemas de Clasificación

 

 

Aprendizaje No Supervisado

En este tipo de aprendizaje no se requiere un etiquetado previo de las instancias, pues el objetivo es encontrar relaciones de similitud, diferencia o asociación en el conjunto de datos. Dependiendo de cuál sea dicho objetivo, los problemas se clasificarán en tres tipos diferentes: Clustering, Detección de Anomalías y Asociaciones.

 

Clustering

En los modelos de Clustering el objetivo es generar agrupaciones o clusters buscando las instancias que son similares entre sí. Una vez obtenido el modelo, éste nos permitirá predecir a qué grupo pertenecerá una nueva instancia. Suele aplicarse, entre otros casos, para agrupar productos de mercado en función de sus características y su importe. De esta manera, se pueden ofrecer a los clientes productos del mismo tipo de los que suelen consumir. También permite hacer estudios de precios de mercado aplicados, por ejemplo, al importe y características de inmuebles.

 

Descubrir estructurasFigura 4: Problemas de Clustering

 

 

Detección de Anomalías

Al contrario que en los modelos de Clustering, lo que se busca en la Detección de Anomalías son las instancias que se diferencian de las demás. Desde el punto de vista de negocio, un ejemplo habitual de aplicación es el de detectar fraudes en actividades económicas, como los préstamos bancarios. También se puede aplicar la Detección de Anomalías para limpiar los datos de instancias anómalas y poder después aplicar otro tipo de modelo, como, por ejemplo, el Clustering.

 

Encontrar instancias inusuales

Figura 5: Problemas de Detección de Anomalías

 

 

Asociaciones

En este último caso de Aprendizaje no Supervisado, el objetivo es encontrar relaciones entre los diferentes valores que toman los campos de una instancia. De esta manera, se pueden deducir reglas de asociación que nos indican que cuando uno de los campos toma un determinado valor, en general, otro de los campos suele tomar un valor concreto con mucha más frecuencia que si esto ocurriera aleatoriamente. Es habitual aplicar los modelos de Asociaciones para encontrar relaciones en la venta de productos y poder indicar cuáles de ellos se adquieren con mayor probabilidad si previamente se ha adquirido otro producto concreto.

 

Detectar asociaciones de CamposFigura 6: Problemas de Asociaciones

 

 

Machine Learning: la herramienta de competitividad del mañana

Las técnicas de Machine Learning nos abren una amplia ventana al mundo de los datos, ofreciéndonos grandes posibilidades para mejorar la eficiencia y el rendimiento de nuestro negocio y elevar, en consecuencia, la competitividad de nuestra empresa. En este sentido, apenas hemos comenzado a vislumbrar el gran potencial que nos ofrece el Aprendizaje Automático para abordar problemas reales y crear modelos que proporcionen predicciones de alto valor, permitiendo, de esta forma, tomar decisiones más adecuadas y desarrollar mejores acciones de negocio.

Por tanto, es conveniente aprovechar la oportunidad de obtener información valiosa a partir de nuestros datos y no perder de vista las ventajas competitivas que nos puede brindar el asomarnos al extenso e incipiente universo del Machine Learning.

Artículo realizado en colaboración con Verónica Blanco.

 

Bárbara-Rosario Montes Núñez

Bárbara-Rosario Montes Núñez

Consultora Junior y miembro de Consulting Services de Gfi. Doctorado en el experimento ArDM en el CIEMAT, Máster en Física Fundamental y Licenciada en Física por la UCM. Experiencia en Machine Learning, Arquitecturas SOA y plataforma WSO2.

Bárbara-Rosario Montes Núñez ha escrito 2 entradas


Bárbara-Rosario Montes Núñez

Bárbara-Rosario Montes Núñez

Consultora Junior y miembro de Consulting Services de Gfi. Doctorado en el experimento ArDM en el CIEMAT, Máster en Física Fundamental y Licenciada en Física por la UCM. Experiencia en Machine Learning, Arquitecturas SOA y plataforma WSO2.

Un comentario en “Machine Learning: una ventana al universo de los datos

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *