PRODUCCIÓN
Módulo 20: Observabilidad y evaluación
ACTUALIZADO Q3 2026
Observabilidad y evaluación: medir si tu IA funciona
"It works on my prompt" no es una métrica. Necesitas logging, eval datasets, y dashboards para saber cuándo tu IA se rompe, cuánto cuesta, y si un cambio de prompt mejoró o empeoró las cosas.
Punto clave
Sin eval pipeline, no sabes cuándo tu IA se rompe. Evals automáticas en CI como quality gate: ningún cambio de prompt llega a producción sin pasar las evals.
Logging de 10 campos
Cada llamada a un LLM debe loguear: timestamp, request_id, model, input_tokens, output_tokens, latency_ms, temperature, status, agent, task_type.
Eval datasets
# Formato JSONL
{"input": "¿Cuántos días de vacaciones tengo?", "expected": "22 días laborables", "category": "rrhh"}
{"input": "¿Política de teletrabajo?", "expected": "3 días por semana", "category": "rrhh"}
# Ejecutar evals
accuracy = run_eval("evals/rrhh.jsonl", model="sonnet")
# 87% → 3 fallos identificados → ajustar prompt → re-evaluar
CI/CD con quality gate
# .github/workflows/eval.yml
- name: Run evals
run: python scripts/run_evals.py
- name: Check threshold
run: |
ACCURACY=$(cat eval_results.json | jq '.accuracy')
if (( $(echo "$ACCURACY < 85" | bc -l) )); then
echo "EVAL FAILED: $ACCURACY% < 85%"; exit 1
fi
Prompt versioning
docs/prompts/
├── researcher_search_v1.0.txt
├── researcher_search_v1.1.txt
├── researcher_search_v2.0.txt # Eval: 92% (up from 85%)
└── CHANGELOG.md