El coste de LLM domina
En apps de IA a escala, el LLM es el 80-95% del coste total. Hosting, BD y storage son commodities baratos. Optimizar LLM = optimizar margen.
1. Elegir el modelo correcto
No uses Opus/GPT-4o para clasificar emails. Haiku/GPT-4o-mini para tareas simples, Sonnet para producción general, Opus solo para razonamiento complejo. Ahorro: 60-80%.
2. Prompt Caching (90% ahorro input)
Si tu system prompt no cambia entre requests, cáchéalo. Claude: cache_control: {type: ephemeral}. Cache read cuesta 0.1x del precio normal. Para 100 requests con 5K tokens de system prompt: de $1.50 a $0.18.
3. Batch API (50% descuento)
Procesamiento no urgente: clasificación masiva, generación de contenido en lote, evals. Anthropic procesa en hasta 24h a mitad de precio.
4. Reducir tokens de input
No envíes documentos completos. Usa RAG para extraer solo los chunks relevantes. 50K tokens de documento completo → 2K tokens de chunks relevantes = 25x ahorro.
5. Reducir tokens de output
"Responde en máximo 3 frases" + max_tokens=200 + stop_sequences. Cada token de output cuenta.
6. Model routing
Clasificar complejidad del request (Haiku, rápido) → enviar al modelo adecuado. 70% de queries son simples (Haiku), 25% medianas (Sonnet), 5% complejas (Opus).
7. Monitoring de costes
Loguear tokens input/output + modelo + cache read/write en cada request. Dashboard de coste por request, por usuario, por feature. Alertas si coste/request sube inesperadamente.
Combinando todo
Cache + Batch + modelo correcto + RAG: de $500/mes a $50/mes para el mismo volumen. 90% ahorro real en producción.
Aprende más en IAcademy
Los 3 primeros módulos son gratis. 151 módulos cubriendo Claude API, LangChain, Ollama, fine-tuning y más.
Empieza gratisCurso completo: 151 módulos de IA aplicada
13 especializaciones. Claude API, LangChain, Ollama, fine-tuning. Dashboard con progreso. Desde 399 EUR.