Monitoreo Pipelines de Datos 2026: Métricas Clave, Alertas, SLAs

El costo de pipelines sin monitoreo

En 2025 trabajamos con una empresa que tomó decisiones de pricing por 6 semanas con datos de despacho rotos. El pipeline "funcionaba" (DAGs verdes), pero la transformación estaba cortando datos. Costo: $14M MXN.

El monitoreo no es opcional: es el cinturón de seguridad de tu data stack.

Los 3 niveles de monitoreo

Nivel 1: Infra (bajo)

¿El DAG corrió?
¿Hubo errores?
¿Tiempo de ejecución?

Herramientas: Airflow UI, Datadog, CloudWatch

Nivel 2: Data quality (medio)

¿Los registros son esperados (volumen)?
¿Hay nulls donde no debería?
¿Los rangos son lógicos?
¿Las relaciones son íntegras?

Herramientas: dbt tests, Great Expectations, Soda

Nivel 3: Business meaning (alto)

¿Los KPIs son consistentes con lo esperado?
¿Hay drift del patrón histórico?
¿Los dashboards aguas abajo reflejan la realidad?

Herramientas: Monte Carlo, Bigeye, Elementary, custom

Las 10 métricas esenciales

De ejecución

DAG success rate (últimos 30 días) — target >99%
Average runtime — alertar si 2σ fuera de media
Task failures — alertar inmediatamente
Queue time — tareas esperando > 15 min

De data quality

Row count deltas — variación día-a-día vs histórico
Null rate — % de nulls por columna crítica
Freshness — cuánto tiempo desde última actualización
Schema drift — cambios no anunciados en esquema de fuentes

De negocio

KPI stability — ventas de hoy vs media móvil 30d
Cross-dashboard consistency — mismo número en dos dashboards

Herramientas recomendadas 2026

Presupuesto bajo ($0 - $10K MXN/mes)

dbt tests (incluido en dbt)
Airflow logs (configurables)
Grafana + Prometheus

Presupuesto medio ($10K - $50K MXN/mes)

Great Expectations (open-source)
Elementary (para usuarios dbt)
Datadog (infra + logs + APM)

Presupuesto alto ($50K+ MXN/mes)

Monte Carlo (data observability completa)
Bigeye
Acceldata

Cómo configurar alertas efectivas

Regla 1: Menos es más

Alertas excesivas = alert fatigue = alertas ignoradas. Máximo 3-5 alertas/semana en steady-state.

Regla 2: Severidad clara

P1 (page): productividad bloqueada, data crítica rota
P2 (Slack): degradación importante, revisar en horas
P3 (email): info, revisar en días

Regla 3: Alerta accionable

"Pipeline falló" no sirve. "Pipeline X falló en task Y por error Z; runbook: link" sirve.

Regla 4: Test las alertas

Silenciar no-falsos-positivos durante primeras 2 semanas. Ajustar umbrales.

SLAs realistas

Nivel	Disponibilidad	Latencia datos	Acción
Critical (finanzas, pagos)	99.9%	<15 min	24/7 on-call
Business-critical (reportería ejecutiva)	99%	<6 horas	On-call horas laborales
Analytical (data science)	95%	<24 horas	Best-effort
Experimental	90%	N/A	Sin SLA

Runbooks: qué hacer cuando algo falla

Cada alerta debe tener un runbook:

Ejemplo: "Pipeline Concretera falló"

1. Check Airflow logs → ¿qué task falló?
2. Check Fivetran → ¿source está sano?
3. Check BigQuery → ¿warehouse responde?
4. Run dbt → ¿transformación falla?
5. Escalar a: data-eng-team@

Caso real: Implementación de monitoreo

Cliente: retail con 80 tiendas.

Antes (sin monitoreo dedicado):

2-3 incidentes/mes detectados por USUARIOS (vergonzoso)
Tiempo de detección: 2-5 días
Costo incidente: $500K MXN/mes

Después (Monte Carlo + dbt tests):

0 incidentes detectados por usuarios
Tiempo de detección: <30 minutos
Costo ahorrado: $350K MXN/mes

Inversión: $35K MXN/mes en Monte Carlo + 4 semanas setup. Payback: 2 meses.

Errores comunes

"Lo haré después" — después nunca llega
Monitoring como feature, no como sistema — necesita equipo dedicado
Ignorar alertas no-críticas — tarde o temprano una era real
No medir el valor del monitoreo — ROI se justifica con incidents evitados

FAQ

¿Cuánto invertir en monitoreo? 5-10% del budget total de data.

¿Cuándo vale la pena contratar data observability SaaS? Cuando tienes 50+ pipelines o SLAs de >99%.

¿Monte Carlo vs Bigeye vs Acceldata? Todas son sólidas. Monte Carlo lidera en UX. Bigeye en integración. Acceldata en data lake observability.

Conclusión

Un pipeline sin monitoreo es pasivo-agresivo: funciona hasta que no, y cuando falla, ya hiciste daño.

Invierte en monitoreo antes de necesitarlo. Las empresas data-mature gastan 8-12% de su budget data en observabilidad.

Teseo Data Lab implementa frameworks de observabilidad end-to-end. Consulta.

¿Quieres analizar tu proyecto en México?

Nuestro equipo puede generar un análisis personalizado con inteligencia de mercado específica para tu zona.

Solicitar análisis

Preguntas frecuentes

¿Qué se debe monitorear en un pipeline de datos?

Tres niveles. Infra: si el DAG corrió, si hubo errores, cuánto tardó. Data quality: volumen esperado, nulos donde no debería haberlos, rangos lógicos, integridad de relaciones. Business meaning: si los KPIs son consistentes con lo esperado y si hay desviación del patrón histórico. La mayoría de equipos solo cubre el primero.

¿Por qué un pipeline "en verde" puede estar entregando datos incorrectos?

Porque el monitoreo de infraestructura solo confirma que el proceso se ejecutó, no que el resultado sea correcto. En un caso real de 2025, una empresa tomó decisiones de pricing durante seis semanas con datos de despacho rotos: los DAGs estaban en verde mientras la transformación cortaba datos. El costo fue de 14 millones de pesos.

¿Cuánto cuesta monitorear un pipeline de datos?

Se puede escalar por presupuesto. Con menos de $10,000 MXN al mes se cubre lo esencial con dbt tests y alertas propias; entre $10,000 y $50,000 entran herramientas de observabilidad dedicadas. El punto de comparación no es el costo de la herramienta sino el de una decisión tomada con datos rotos.

¿Qué herramientas se usan para cada nivel de monitoreo?

Para infraestructura, la UI de Airflow, Datadog o CloudWatch. Para calidad de dato, dbt tests, Great Expectations o Soda. Para significado de negocio, monitoreo de métricas y detección de desviación sobre los KPIs finales.

¿Cuándo hay que definir las alertas de un pipeline?

Desde el diseño, no después del primer incidente. Y toda alerta necesita destinatario y umbral explícitos: una alerta que nadie recibe equivale a no tenerla, y una demasiado sensible se ignora en semanas.

Monitoreo de Pipelines de Datos: Métricas, Alertas y SLAs (2026)