Volver a Data Analytics
Data Analytics

Monitoreo de Pipelines de Datos: Métricas, Alertas y SLAs (2026)

Teseo Data Lab9 de abril de 20265 min de lectura
Monitoreo pipelines datos 2026

El costo de pipelines sin monitoreo

En 2025 trabajamos con una empresa que tomó decisiones de pricing por 6 semanas con datos de despacho rotos. El pipeline "funcionaba" (DAGs verdes), pero la transformación estaba cortando datos. Costo: $14M MXN.

El monitoreo no es opcional: es el cinturón de seguridad de tu data stack.

Los 3 niveles de monitoreo

Nivel 1: Infra (bajo)

  • ¿El DAG corrió?
  • ¿Hubo errores?
  • ¿Tiempo de ejecución?

Herramientas: Airflow UI, Datadog, CloudWatch

Nivel 2: Data quality (medio)

  • ¿Los registros son esperados (volumen)?
  • ¿Hay nulls donde no debería?
  • ¿Los rangos son lógicos?
  • ¿Las relaciones son íntegras?

Herramientas: dbt tests, Great Expectations, Soda

Nivel 3: Business meaning (alto)

  • ¿Los KPIs son consistentes con lo esperado?
  • ¿Hay drift del patrón histórico?
  • ¿Los dashboards aguas abajo reflejan la realidad?

Herramientas: Monte Carlo, Bigeye, Elementary, custom

Las 10 métricas esenciales

De ejecución

  1. DAG success rate (últimos 30 días) — target >99%
  2. Average runtime — alertar si 2σ fuera de media
  3. Task failures — alertar inmediatamente
  4. Queue time — tareas esperando > 15 min

De data quality

  1. Row count deltas — variación día-a-día vs histórico
  2. Null rate — % de nulls por columna crítica
  3. Freshness — cuánto tiempo desde última actualización
  4. Schema drift — cambios no anunciados en esquema de fuentes

De negocio

  1. KPI stability — ventas de hoy vs media móvil 30d
  2. Cross-dashboard consistency — mismo número en dos dashboards

Herramientas recomendadas 2026

Presupuesto bajo ($0 - $10K MXN/mes)

  • dbt tests (incluido en dbt)
  • Airflow logs (configurables)
  • Grafana + Prometheus

Presupuesto medio ($10K - $50K MXN/mes)

  • Great Expectations (open-source)
  • Elementary (para usuarios dbt)
  • Datadog (infra + logs + APM)

Presupuesto alto ($50K+ MXN/mes)

  • Monte Carlo (data observability completa)
  • Bigeye
  • Acceldata

Cómo configurar alertas efectivas

Regla 1: Menos es más

Alertas excesivas = alert fatigue = alertas ignoradas. Máximo 3-5 alertas/semana en steady-state.

Regla 2: Severidad clara

  • P1 (page): productividad bloqueada, data crítica rota
  • P2 (Slack): degradación importante, revisar en horas
  • P3 (email): info, revisar en días

Regla 3: Alerta accionable

"Pipeline falló" no sirve. "Pipeline X falló en task Y por error Z; runbook: link" sirve.

Regla 4: Test las alertas

Silenciar no-falsos-positivos durante primeras 2 semanas. Ajustar umbrales.

SLAs realistas

NivelDisponibilidadLatencia datosAcción
Critical (finanzas, pagos)99.9%<15 min24/7 on-call
Business-critical (reportería ejecutiva)99%<6 horasOn-call horas laborales
Analytical (data science)95%<24 horasBest-effort
Experimental90%N/ASin SLA

Runbooks: qué hacer cuando algo falla

Cada alerta debe tener un runbook:

Ejemplo: "Pipeline Concretera falló"

1. Check Airflow logs → ¿qué task falló?
2. Check Fivetran → ¿source está sano?
3. Check BigQuery → ¿warehouse responde?
4. Run dbt → ¿transformación falla?
5. Escalar a: data-eng-team@

Caso real: Implementación de monitoreo

Cliente: retail con 80 tiendas.

Antes (sin monitoreo dedicado):

  • 2-3 incidentes/mes detectados por USUARIOS (vergonzoso)
  • Tiempo de detección: 2-5 días
  • Costo incidente: $500K MXN/mes

Después (Monte Carlo + dbt tests):

  • 0 incidentes detectados por usuarios
  • Tiempo de detección: <30 minutos
  • Costo ahorrado: $350K MXN/mes

Inversión: $35K MXN/mes en Monte Carlo + 4 semanas setup. Payback: 2 meses.

Errores comunes

  1. "Lo haré después" — después nunca llega
  2. Monitoring como feature, no como sistema — necesita equipo dedicado
  3. Ignorar alertas no-críticas — tarde o temprano una era real
  4. No medir el valor del monitoreo — ROI se justifica con incidents evitados

FAQ

¿Cuánto invertir en monitoreo? 5-10% del budget total de data.

¿Cuándo vale la pena contratar data observability SaaS? Cuando tienes 50+ pipelines o SLAs de >99%.

¿Monte Carlo vs Bigeye vs Acceldata? Todas son sólidas. Monte Carlo lidera en UX. Bigeye en integración. Acceldata en data lake observability.

Conclusión

Un pipeline sin monitoreo es pasivo-agresivo: funciona hasta que no, y cuando falla, ya hiciste daño.

Invierte en monitoreo antes de necesitarlo. Las empresas data-mature gastan 8-12% de su budget data en observabilidad.

Teseo Data Lab implementa frameworks de observabilidad end-to-end. Consulta.

¿Quieres analizar tu proyecto en México?

Nuestro equipo puede generar un análisis personalizado con inteligencia de mercado específica para tu zona.

Solicitar análisis