Skip to main content

PROYECTOS MACHINE LEARNING: UNA CARRERA DE OBSTÁCULOS

1 estrella2 estrellas3 estrellas4 estrellas5 estrellas (2 votos, promedio: 5,00 de 5)
Cargando…

Cuando decidimos desarrollar un proyecto de Machine Learning, independientemente del sector donde se aplique, sabemos que nos espera un camino más parecido a una carrera de obstáculos en comparación a un planning de proyecto.  Dependiendo del grado de madurez de la organización, encontraremos obstáculos más o menos complejos. 

El desarrollo de un proyecto de Machine Learning conlleva el realizar los siguientes pasos:

  1. COMPRENSIÓN DEL PROBLEMA

En las organizaciones más inexpertas, la primera etapa de la carrera es definir qué quieren hacer y para qué.  Muchas empresas desean implementar proyectos de ML/DL porque esperan incrementar los beneficios económicos, reduciendo costes o generando más ingresos.  Suelen albergar dudas respecto al área o proceso donde conviene aplicarlo y esperan asesoría del experto de negocio.

A su vez el experto técnico necesita conocer el negocio para ofrecer una orientación adecuada.  Una pieza clave es la integración/sinergia entre el equipo funcional -de negocio- y el equipo técnico -Data Scientists.  El primero conoce en detalle el negocio, sus procesos y puede identificar las oportunidades de mejora.  Si el equipo técnico logra comprender la naturaleza de los problemas, podrá identificar la estrategia adecuada para su resolución.

Por otra parte, las organizaciones con experiencia previa en la implementación de este tipo de proyectos identifican fácilmente los procesos susceptibles de mejoras.  La dificultad en estos casos radica en que caen ante la tentación de sobreestimar las capacidades de un modelo predictivo o prescriptivo.  

Es importante que el equipo funcional esté conformado con participantes de las áreas de negocio involucradas o afectadas por el proyecto.  La identificación de la solución adecuada requiere información relativa a los roles y procesos que se modificarán con su implementación.

A fin de facilitar la selección de la estrategia de ML/DL adecuada al problema planteado, es recomendable:

  • Definir el criterio de éxito (KPI) del análisis predictivo como medida de un objetivo SMART.
  • Realizar un diagnóstico de la situación actual: requerimientos, recursos y supuestos.

La estrategia seleccionada definirá el diseño de la solución, lo que se traduce en tiempos, costes y medición de resultados.  Suele suceder que la solución para algunos de los problemas presentados esté más enfocada al desarrollo de herramientas Business Intelligence o la implementación de algoritmos de optimización.

  1. LOS DATOS. LOS TEMIDOS DATOS… ¿existen?

El siguiente obstáculo de la carrera es crítico y determina la posibilidad de resolución: Los datos. 

Si la posible solución requiere de datos -hay paradigmas de ML/DL que no los requieren- surge la pregunta obligada:

¿Disponen de datos relevantes y suficientes? 

Se requiere un set de datos válidos y suficientes para la fase de modelado.  La valoración técnica de la información que aportan (calidad del dato) debe ser corroborada por el equipo funcional.

En la actualidad, la generación de datos y contenidos es abrumadora.  Pero eso no quiere decir que los datos generados sean relevantes o suficientes para el desarrollo de modelos predictivos o prescriptivos. 

En este contexto, calidad no es sinónimo de cantidad.  Es posible disponer de millones de datos con tan poca variabilidad que resultan ineficientes para generar un modelo generalizado.  Pensemos, por ejemplo, en la cantidad de producto dispensada por una máquina de alta precisión: Millones de datos idénticos en un largo periodo de tiempo.  En este caso, pensar en una infraestructura Big Data que procese un alto volumen de datos seguiría siendo insuficiente para generar un modelo predictivo eficiente.

También es posible que se recopilan muchos datos de medidas que no son relevantes para explicar el comportamiento de la variable objetivo.  Así, la información proporcionada es insuficiente para generar modelos precisos.

El equipo técnico debe evaluar la pertinencia de una solución Big Data o Small Data en función de la calidad de la información de aportan los datos disponibles.

Cuando la información resulta insuficiente para desarrollar un modelo predictivo, es conveniente evaluar la viabilidad de generar más información.  Esto puede lograrse a través de simulación computacional, pruebas en laboratorios o ampliando el tiempo de observación; pero al final, depende de la viabilidad financiera -análisis coste/beneficio- y técnica -capacidad física y tecnológica de generarla-.

  1. PREPARACIÓN DE LOS DATOS: Paciencia…

Los datos existen, sí.  Y son relevantes y suficientes.  Eso nos enfrenta con el siguiente gran obstáculo: Diseñar y realizar el proceso de extracción, consolidación y preparación de los datos.  La volumetría definirá la infraestructura necesaria, pero más allá de esto, es una fase extensa, que no proporciona resultados preliminares de interés funcional, la mayoría de las veces.  Y resulta muy frustrante para ambos equipos.

  1. HABLAN LOS DATOS: Las hipótesis preliminares

Comprendiendo los datos podemos establecer hipótesis de negocio y supuestos técnicos necesarios para ajustar modelos ML de máximo rendimiento.  En otras palabras, un modelo que obtenga los mejores resultados a partir de los datos disponibles.

Los primeros beneficios tangibles se obtienen de la exploración analítica: Identificación de patrones; exclusión de valores atípicos o anomalías, cuantificación de correlaciones (causales y no casuales) para excluir factores irrelevantes e identificar aquellos que afectan significativamente a la variable objetivo (selección de características y reducción de la dimensionalidad); segmentación de las observaciones en grupos de comportamiento homogéneos (clustering).

Establecer conclusiones a priori, desde el punto de vista técnico, sin validar con los expertos de negocio los hallazgos de esta etapa, puede conducir a modelos poco reales y sin ningún valor de producción.  Es precipitado sobreestimar los resultados analíticos sin trasladarlos al contexto funcional.  Lo mismo ocurre si la exploración analítica no es completa: se subestima el problema.

  1. EVALUACIÓN/SELECCIÓN DEL MODELO

La evaluación de los modelos ajustados se desarrolla desde el punto de vista técnico y funcional.  De estas evaluaciones debe decidirse si el modelo es correcto y suficiente o es necesario replantear hipótesis, alimentar el modelo con datos distintos o tomar estrategias alternativas.

 

La evaluación técnica se basa en la comparación de métricas sobre las predicciones de cada modelo, análisis de errores y técnicas de backtesting (testear una estrategia antes de utilizarla) que, además de la precisión del modelo, evalúe en qué medida se está incurriendo en overfitting (sobre-entrenamiento).

La evaluación funcional depende de la valoración en costes financieros, de inversión de tiempo o recursos y la fiabilidad de las predicciones.  Incluye también la valoración del alcance respecto al objetivo planteado y a la eficiencia de la solución.

Una valoración funcional adecuada disminuye la cantidad de ciclos de revisión y mejora la calidad de información.

  1. DESPLIEGUE DEL MODELO

Es el momento de explotar utilidad del modelo seleccionado, integrándolo en las tareas de producción o toma de decisiones de la organización.  Esta tarea ha de ser factible, rentable y debe asimilarse por las áreas vinculadas.

Para que sea factible y rentable se evalúa la viabilidad de la implementación respecto a tiempos de ejecución, capacidad y coste de la toma de datos y la reinyección de los resultados en el proceso productivo.

Si la valoración resulta positiva, se procede a canalizar el modelo en un entorno de producción o semejante para el consumo de los equipos involucrados.  La frecuencia de cálculo de las predicciones responderá a las necesidades de uso.  Deben incluirse un calendario de actividades relativas a la Gestión del Cambio para garantizar que esta implementación se integre al proceso productivo de la organización de forma natural y efectiva.

  1. SEGUIMIENTO

Nada más lejos de la realidad que pensar que con la implementación hemos terminado el trabajo.  Cada cambio de configuración del proceso productivo o de la dinámica de los datos que definen el modelo, generan desajustes en el modelo.  Por ello es indispensable planificar tareas monitorización, mantenimiento y recalibración.

Monitorizar la eficiencia de las predicciones del modelo en el tiempo permitirá identificar el momento en el que las predicciones comiencen a perder precisión o traspasen los niveles de tolerancia establecidos.  En este punto será necesario volver al punto 4 para identificar los factores que generan las desviaciones.  Nuevamente, el consenso entre los equipos técnico y funcional para establecer la causa raíz hace el proceso más corto y efectivo.

Es posible también prever cambios en la dinámica del evento que se modela por motivos de negocio o modificaciones en la generación y procesamiento de datos.  Tanto en este caso como el anterior, es necesario recalibrar el modelo para garantizar su validez.

Y finalmente, todas las mejoras posibles relacionadas a actualización de los entornos y software utilizando en los procesos de entrenamiento y el cálculo de predicciones del modelo debe realizarse periódicamente.  Con un entorno preparado y actualizado es mucho más sencillo añadir mejoras al modelo que incrementen los KPI del objetivo de negocio que se persigue. 

Lissete Marinela Alvarez Colmenares

Lissete Marinela Alvarez Colmenares

Lissete Marinela Alvarez Colmenares ha escrito 1 entradas


Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.