Prompt Caching en Claude: ahorra 90% en costes de API

Que es Prompt Caching

Cuando envias el mismo system prompt en 100 requests, sin cache pagas 100 veces el procesamiento. Con Prompt Caching, pagas una vez (cache write) y las siguientes a 0.1x del precio normal (cache read). Ahorro: hasta 90%.

Como funciona

Marcas bloques con cache_control: {"type": "ephemeral"}. El cache dura 5 minutos desde el último uso (TTL sliding). Mínimo 1024 tokens para cachear. Hasta 4 breakpoints por request.

Precios

Sonnet 4.6: input normal $3/M, cache write $3.75/M (1.25x), cache read $0.30/M (0.1x). Para system prompts repetidos, el ahorro es masivo.

Ejemplo en Python

message = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=2048,
    system=[{
        "type": "text",
        "text": system_prompt_largo,  # 5000 tokens
        "cache_control": {"type": "ephemeral"}
    }],
    messages=[{"role": "user", "content": "Pregunta aqui"}]
)

Primera request: cache_creation_input_tokens = 5000. Segunda request: cache_read_input_tokens = 5000 (90% más barato).

Patrones avanzados

RAG cacheado: cachea el documento base, solo la pregunta cambia. Multi-turno: cachea el historial de conversación que no cambia. Combinar con Batch API: cache + batch = 95% ahorro.

Aprende más en IAcademy

Los 3 primeros módulos son gratis. Cubre desde prompting hasta agentes IA y deploy en producción.

Empieza gratis

Curso completo: 151 módulos de IA aplicada

13 especializaciones. Claude API, LangChain, Ollama, fine-tuning. Dashboard con progreso. Desde 399 EUR.

Ver precios Acceder al portal