Fine-tuning de LLMs: guía práctica con LoRA y QLoRA

Cuando hacer fine-tuning (y cuando no)

Fine-tuning es caro, lento y puede empeorar tu modelo. Antes de fine-tunear, agota estas alternativas: (1) mejora el prompt, (2) usa RAG para conocimiento específico, (3) prueba un modelo más grande.

Fine-tuning solo si: necesitas un estilo/formato consistente que prompts no logran, clasificación con categorías de dominio, o reducir latencia con modelo pequeno que rinda como grande.

LoRA y QLoRA explicados

LoRA (Low-Rank Adaptation) congela el modelo base y solo entrena matrices pequenas (adapters) encima. Resultado: 95-99% de calidad con 5-10% de recursos.

QLoRA anade cuantizacion 4-bit al modelo base. Un modelo 7B que normalmente necesita 60GB de VRAM para fine-tuning completo, con QLoRA cabe en 6GB.

Preparar datos en formato ChatML

{"messages": [
  {"role": "system", "content": "Eres un analista SOC."},
  {"role": "user", "content": "Alerta: 500 login fallidos desde IP 10.0.0.1"},
  {"role": "assistant", "content": "Severidad: Alta. Categoria: Brute force. Accion: Bloquear IP."}
]}

Reglas: calidad > cantidad (500 ejemplos excelentes > 10K mediocres), formato consistente, incluir edge cases, train/test split 90/10.

Fine-tuning con Unsloth

Unsloth es 2-5x más rápido que HuggingFace + PEFT. API limpia. Soporta Qwen, Llama, Mistral, Phi.

Setup: pip install unsloth. Cargar modelo con FastLanguageModel.from_pretrained(), configurar LoRA con get_peft_model(), entrenar con SFTTrainer.

Hiperparametros recomendados: lr=2e-4, epochs=3, batch=4, LoRA r=16, alpha=32.

Evaluación

SIEMPRE evalua contra un test set. Si no mejora 5-10% vs el modelo base, el fine-tuning no valio la pena. Usa metricas automaticas (accuracy, F1) + LLM judge para calidad subjetiva.

Deploy

Desarrollo: exportar a GGUF, cargar en Ollama. Producción: vLLM con --enable-lora sirve modelo base + adapter desde la misma instancia.

Coste hardware: Google Colab Pro ($10/mes) es suficiente para QLoRA de modelos 7B.

Aprende más en IAcademy

Los 3 primeros módulos son gratis. Cubre desde prompting hasta agentes IA y deploy en producción.

Empieza gratis

Curso completo: 151 módulos de IA aplicada

13 especializaciones. Claude API, LangChain, Ollama, fine-tuning. Dashboard con progreso. Desde 399 EUR.

Ver precios Acceder al portal