PRODUCCIÓN

Módulo 20: Observabilidad y evaluación

ACTUALIZADO Q3 2026

Observabilidad y evaluación: medir si tu IA funciona

"It works on my prompt" no es una métrica. Necesitas logging, eval datasets, y dashboards para saber cuándo tu IA se rompe, cuánto cuesta, y si un cambio de prompt mejoró o empeoró las cosas.

Punto clave

Sin eval pipeline, no sabes cuándo tu IA se rompe. Evals automáticas en CI como quality gate: ningún cambio de prompt llega a producción sin pasar las evals.

Logging de 10 campos

Cada llamada a un LLM debe loguear: timestamp, request_id, model, input_tokens, output_tokens, latency_ms, temperature, status, agent, task_type.

Eval datasets

# Formato JSONL
{"input": "¿Cuántos días de vacaciones tengo?", "expected": "22 días laborables", "category": "rrhh"}
{"input": "¿Política de teletrabajo?", "expected": "3 días por semana", "category": "rrhh"}

# Ejecutar evals
accuracy = run_eval("evals/rrhh.jsonl", model="sonnet")
# 87% → 3 fallos identificados → ajustar prompt → re-evaluar

CI/CD con quality gate

# .github/workflows/eval.yml
- name: Run evals
  run: python scripts/run_evals.py
- name: Check threshold
  run: |
    ACCURACY=$(cat eval_results.json | jq '.accuracy')
    if (( $(echo "$ACCURACY < 85" | bc -l) )); then
      echo "EVAL FAILED: $ACCURACY% < 85%"; exit 1
    fi

Prompt versioning

docs/prompts/
├── researcher_search_v1.0.txt
├── researcher_search_v1.1.txt
├── researcher_search_v2.0.txt  # Eval: 92% (up from 85%)
└── CHANGELOG.md

Pon a prueba tus conocimientos

Quiz: logging, evals, CI gate, prompt versioning.

Hacer quiz