Skip to main content

AIOPS: ¿Con cuántos grados de fiebre se quedan los androides en casa?

1 estrella2 estrellas3 estrellas4 estrellas5 estrellas (Ninguna valoración todavía)
Cargando…

 

Es lunes y Daniel, un chaval de 12 años, se acaba de levantar. Según da sus primeros pasos nota un pequeño dolor de cabeza, un moqueo interminable y unas ganas infinitas de volver al abrigo de las sábanas de Batman.

– “Mamá” – dice Daniel- “Creo que estoy malito”-

María, su madre, de naturaleza desconfiada ante esta afirmación, sobre todo en día de examen de Lengua, se acerca a su hijo y le toca suavemente la frente. María alza de forma magistral la ceja izquierda y se dispone a aplicar la prueba definitiva:

– “Ponte el termómetro” –

El mercurio no miente, con 38.5 grados de temperatura, Daniel tiene fiebre.

– “Si es que… El sábado jugando el parque en mangas de camisa, normal que te hayas resfriado.  Ya ayer estabas moqueando un poco. Anda, desayuna que te llevo al médico”-

Esta escena define uno -de los muchos- casos que se estudian en AIOPS. Como sucesor natural de DevOPS, AIOPS (Artificial Intelligence Operations) analiza los sistemas informáticos de una compañía y utilizando de técnicas de Machine Learning, construye modelos que realizan predicciones sobre las que se pueden realizar acciones preventivas ante el fallo de alguna de las máquinas del sistema.

El pequeño Daniel representa a nuestros sistemas informáticos, la temperatura podría ser la memoria de alguna de las máquinas llegando a sus niveles críticos y la madre sería la herramienta de AIOPS que, con modelos de predicción creados a partir de experiencias pasadas, decide enviar una alerta a los técnicos (el médico) para que desplieguen actividades de mantenimientos, antes de que se produzca el fallo.

AIOPS en el presente

La pregunta que viene a continuación es clara: ¿Qué podemos hacer?

Dentro del mundo de AIOPS se encuentran una infinidad de casos de uso, que dependerán del estado del sistema y de las necesidades del usuario.  Las diferencias se deben sobre todo a detalles específicos, como qué agrupaciones se van a realizar o cuál es el nivel de incidencia que se va a considerar, pero en términos generales los casos se dividen en:

  • Volumetría: El análisis se encamina a predecir el número de eventos/incidencias que se producen a lo largo de un periodo de tiempo fijo (una hora, un día, una semana…). Definir la volumetría permite dimensionar los equipos de mantenimiento de una forma más precisa, de acuerdo a la carga de trabajo prevista, reduciendo costes de mano de obra en el periodo del análisis.
  • Correlación entre problemas/servidores: Al igual que en el caso del niño enfermo, el contagio es altamente probable. Sin embargo, una acción rápida puede evitar que este contagio se produzca. En el caso de los sistemas, se realiza un análisis para identificar y comprobar los sistemas que tienen una conexión (ya sea directa o indirecta), para adelantar acciones de mantenimiento sobre la siguiente máquina de la cadena, cuando se produzca un error en una máquina. También se pueden prever fallas consecuentes; por ejemplo, un problema de memoria puede generar un problema de conexión.
  • Detección de fallos mediante anomalías: Analizando los rangos entre los cuales se mueven -normalmente- ciertos parámetros del sistema (rango habitual de memoria, por ejemplo), se puede construir un modelo de clasificación que indique cuándo se va a producir un fallo en una máquina específica. Si el modelo creado es además lo suficientemente sencillo, puede identificar el motivo que genera la predicción de fallo.

Estos son algunos de los casos más habituales, pero de cara al futuro, empiezan a vislumbrarse casos avanzados que permitan mayores interacciones automáticas.

AIOPS en el futuro

A cada año que pasa, la potencia de cómputo se incrementa, así como la capacidad de almacenamiento. Los mismos cambios que han llevado al desarrollo de AIOPS tal y como lo conocemos ahora, nos invita a pensar cómo será este campo a futuro.  Desde entrenamientos constantes que permitan adaptar los modelos a cada momento, a conocer cada vez más variables con las que conocer al dedillo el funcionamiento de cada máquina obteniendo no ya correlaciones, sino causalidades reales.

El límite, como en muchos de los campos de la ingeniería de datos, está sólo en la imaginación. Pero no es necesario irnos a elucubraciones para empezar a vislumbrar nuevos caminos dentro del mundo de AIOPS.

  • Automatización de protocolos: En algunos casos empezamos a ver que los procesos de Machine Learning no sólo arrojan correlaciones o conexiones entre ciertos parámetros y el hecho de que se produzca un fallo, sino que además se entrena al modelo para que aprenda a identificar cuál de las acciones a su disposición es la que logra una resolución más eficiente del problema. Un sistema de estas características, instalado en las máquinas, puede realizar predicciones de cuándo se va a producir un fallo y aplicar el remedio para éste. Así, es la propia máquina la que se repara, dejando a la acción humana únicamente los fallos más graves.
  • Reinterpretación de los datos: En muchos casos se producen eventos o alertas redundantes en los que la máquina está continuamente avisando de su estado una vez se produce el fallo. Este ruido puede ser eliminado si se enseña a la máquina a discriminar entre alarmas nuevas o que corresponden a fallos anteriores. Esto ayuda al equipo de mantenimiento en la revisión de los logs producidos y además mejora la calidad de los datos para alimentar otros casos de uso.

Estos son sólo algunos de los ejemplos de las numerosas posibilidades que ofrece AIOPS, pero al mismo tiempo que se ofrecen nuevas soluciones para problemas ya existentes, la creación de estas herramientas invoca nuevos desafíos para no sólo lograr una solución, sino la mejor solución.

Jose-Luis Garcia-Iranzo

Jose-Luis Garcia-Iranzo

Jose-Luis Garcia-Iranzo ha escrito 1 entradas


Archivos adjuntos

File File size Downloads
png 1 81 KB 6
png 2 220 KB 6
png 3 41 KB 6

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.