Que es Prompt Caching
Cuando envias el mismo system prompt en 100 requests, sin cache pagas 100 veces el procesamiento. Con Prompt Caching, pagas una vez (cache write) y las siguientes a 0.1x del precio normal (cache read). Ahorro: hasta 90%.
Como funciona
Marcas bloques con cache_control: {"type": "ephemeral"}. El cache dura 5 minutos desde el último uso (TTL sliding). Mínimo 1024 tokens para cachear. Hasta 4 breakpoints por request.
Precios
Sonnet 4.6: input normal $3/M, cache write $3.75/M (1.25x), cache read $0.30/M (0.1x). Para system prompts repetidos, el ahorro es masivo.
Ejemplo en Python
message = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=2048,
system=[{
"type": "text",
"text": system_prompt_largo, # 5000 tokens
"cache_control": {"type": "ephemeral"}
}],
messages=[{"role": "user", "content": "Pregunta aqui"}]
)
Primera request: cache_creation_input_tokens = 5000. Segunda request: cache_read_input_tokens = 5000 (90% más barato).
Patrones avanzados
RAG cacheado: cachea el documento base, solo la pregunta cambia. Multi-turno: cachea el historial de conversación que no cambia. Combinar con Batch API: cache + batch = 95% ahorro.
Aprende más en IAcademy
Los 3 primeros módulos son gratis. Cubre desde prompting hasta agentes IA y deploy en producción.
Empieza gratisCurso completo: 151 módulos de IA aplicada
13 especializaciones. Claude API, LangChain, Ollama, fine-tuning. Dashboard con progreso. Desde 399 EUR.