📡 QUÉ PENSAMOS

Observabilidad 2025

Monitorizar ya no es suficiente. En sistemas distribuidos donde un request atraviesa 12 servicios antes de devolver una respuesta, saber que algo falla es trivial. Saber por qué falla y cómo remediarlo en menos de 5 minutos es el problema real.

OpenTelemetry: el estándar que cambió las reglas

Antes de OpenTelemetry, instrumentar para observabilidad significaba elegir un vendor (Datadog, New Relic, Dynatrace) e instalar su agente propietario en cada servicio. Cambiar de vendor implicaba reinstrumentar toda la aplicación. El coste de ese lock-in era real y calculable, y llevaba a muchos equipos a mantener contratos renovados por inercia más que por valor.

OpenTelemetry (OTel) rompe ese modelo al separar la instrumentación del backend de destino. Instrumentas una vez con las APIs y SDKs de OTel — disponibles para todos los lenguajes mayores — y configuras el Collector para enviar los datos a cualquier backend compatible. La migración de Datadog a Grafana Tempo, o la adición de un segundo backend para comparar, se convierte en configuración, no en código.

En 2025, OTel es el estándar de facto. Los tres señales principales — trazas, métricas y logs — tienen especificaciones estables y SDKs maduros. La instrumentación automática para los frameworks más usados (Express, FastAPI, gRPC, Spring Boot, .NET) cubre la mayor parte de los casos sin modificar el código de la aplicación. La adopción en nuevos proyectos debería ser la opción por defecto, no una decisión a evaluar.

SLOs: gestionar fiabilidad con contratos explícitos

Los Service Level Objectives son la herramienta más potente para alinear a los equipos de ingeniería con las expectativas del negocio sobre fiabilidad. Un SLO convierte "el sistema tiene que estar disponible" en "el 99.5% de los requests deben completarse en menos de 500ms, medido sobre una ventana de 28 días". Esa especificidad cambia fundamentalmente cómo el equipo prioriza trabajo.

El concepto de error budget es la consecuencia más valiosa de los SLOs: si tu objetivo es 99.5% de éxito, tienes un presupuesto de 0.5% de fallos. Mientras ese presupuesto no esté agotado, el equipo puede desplegar con confianza y asumir cierto riesgo. Cuando el presupuesto está cerca de agotarse, las alertas cambian: no alertas sobre errores individuales, alertas sobre consumo de error budget. Esta distinción elimina el ruido de alertas de baja severidad que nadie atiende y concentra la atención en lo que importa.

Implementar SLOs correctamente requiere elegir los SLIs (Service Level Indicators) adecuados — las métricas que de verdad representan la experiencia del usuario, no las métricas de infraestructura que son fáciles de medir pero proxy imperfectos. Para servicios HTTP, la ratio de éxito y la latencia en percentil 95 suelen ser los indicadores correctos. Para sistemas de procesamiento batch, el throughput y el lag de la cola. La elección del indicador correcto es más difícil que la implementación técnica.

Correlación de señales: de datos a diagnóstico

Las tres señales de observabilidad — métricas, logs y trazas — por separado tienen valor limitado. Una métrica que muestra latencia elevada dice que hay un problema. Un log con un error dice dónde está el problema. Una traza distribuida muestra el camino completo que siguió la petición fallida. La correlación automática entre estas tres señales es lo que reduce el tiempo de diagnóstico de horas a minutos.

La correlación funciona cuando las tres señales comparten contexto común: un trace ID que aparece tanto en el span de la traza como en el log generado durante ese request, y una etiqueta de servicio que permite ligar la métrica de latencia con el servicio específico que la traza identifica como cuello de botella. Esto no ocurre solo — requiere que la instrumentación sea coherente y que el pipeline de datos (el OTel Collector, el agente de logs) propaguen estos identificadores sin truncarlos.

Las plataformas que mejor han implementado esta correlación en 2025 son Grafana Stack (con Tempo para trazas, Loki para logs y Mimir/Prometheus para métricas), Honeycomb (con su modelo de wide events que unifica los tres tipos en una sola estructura), y Datadog APM con su Log Management integrado. La elección entre ellas depende más del tamaño del equipo, el volumen de datos y el modelo económico que de diferencias técnicas fundamentales.

AIOps: dónde la IA aporta valor real en operaciones

AIOps es uno de los términos más sobrecargados del sector. En la práctica, hay tres áreas donde los modelos de ML aplicados a operaciones demuestran valor real y repetible: reducción de ruido de alertas (agrupando alertas relacionadas en un único incidente), detección de anomalías en series temporales (identificando patrones inusuales antes de que se manifiesten como fallos) y análisis de causa raíz asistido (correlacionando el timing del incidente con deployments, cambios de configuración y eventos de infraestructura recientes).

La detección de anomalías tiene el mayor impacto demostrado en producción. Los sistemas que generan millones de métricas por minuto no pueden ser monitorizados con umbrales manuales — hay demasiadas variables y demasiados patrones estacionales (horas punta, ciclos semanales, efectos de campañas de marketing) para definir thresholds estáticos que sean sensibles pero no generen falsos positivos. Los modelos de series temporales entrenados sobre el comportamiento histórico del sistema detectan desviaciones estadísticamente significativas con una tasa de falsos positivos consistentemente inferior a los thresholds manuales.

El análisis de causa raíz automatizado es el área con mayor potencial y mayor margen de maduración. Las herramientas actuales (Moogsoft, BigPanda, las capacidades de Dynatrace Davis AI) son útiles para incidentes con causa raíz en un cambio reciente y bien documentado, pero tienen limitaciones significativas en incidentes con causas acumuladas o en sistemas con alta interdependencia. La dirección de integrar LLMs con contexto de observabilidad para generar hipótesis de causa raíz es prometedora — los primeros productos en esta línea (Datadog Bits AI, Grafana Sift) están en producción pero aún en fase temprana de adopción.

¿Hablamos?

¿Cuánto tiempo tarda tu equipo en diagnosticar un incidente?

Diseñamos e implementamos tu stack de observabilidad desde cero o mejoramos el actual: OTel, SLOs, correlación y reducción de ruido. Con métricas de mejora medibles desde el día uno.

Contactar ahora Ver Observabilidad