Prompts de IA para Analistas de Datos

Por Alicia Fernandez · · 20 min lectura

En este artículo

  1. IA como copiloto del analista
  2. Prompt 1: Análisis exploratorio automatizado
  3. Prompt 2: Generador de consultas SQL
  4. Prompt 3: Limpieza y transformacion de datos
  5. Prompt 4: Informe de datos para no técnicos
  6. Errores criticos a evitar
  7. Preguntas frecuentes

El analista de datos vive entre dos mundos: el técnico (Python, SQL, pandas, visualización) y el de negocio (que preguntas responder, como comunicar hallazgos, que decisiones recomendar). La IA acelera ambos mundos. Genera código, propone análisis y traduce números a narrativa de negocio. Pero solo si le das el contexto correcto.

El error más comun de un analista usando IA es pedir "analiza estos datos" sin especificar que busca, para quien es el análisis ni en que formato lo necesita. El resultado: un análisis generico que no responde a ninguna pregunta de negocio concreta.

En esta guía encontraras 4 prompts profesionales para analistas de datos: análisis exploratorio, generación de SQL, limpieza de datos y reporting ejecutivo. Cada uno esta disenado para producir resultados accionables, no ejercicios academicos.

Nota: Si buscas prompts generales para análisis de datos, consulta prompts para análisis de datos. Para automatizar pipelines de datos, la guía de automatización con IA cubre los flujos de trabajo.
Guía principal: Este artículo forma parte de la Prompting profesional.

Resumen rápido

4 prompts para analistas: EDA automatizado con código Python, generador de SQL a partir de preguntas en lenguaje natural, pipeline de limpieza de datos con pandas y traductor de hallazgos técnicos a informe ejecutivo.

IA como copiloto del analista

Un analista de datos dedica aproximadamente el 60% de su tiempo a preparar datos (limpiar, transformar, validar) y solo el 40% a analizar e interpretar. La IA invierte esa proporcion: si un prompt bien escrito genera el código de limpieza en 2 minutos en vez de 2 horas, ese tiempo se redirige al análisis real.

Las tres áreas donde la IA tiene mayor impacto para un analista:

Prompt 1: Análisis exploratorio automatizado

El EDA (Exploratory Data Analysis) es la primera tarea con cualquier dataset nuevo. Este prompt genera código Python completo para un análisis exploratorio estandar, adaptado a tu dataset específico.

Prompt: EDA completo en Python

Eres un data scientist senior con experiencia en analisis exploratorio.

DATASET:
- Nombre: [nombre descriptivo]
- Tamano aproximado: [filas x columnas]
- Columnas principales:
  [nombre_columna_1]: [tipo: numerico/categorico/fecha/texto] - [descripcion breve]
  [nombre_columna_2]: [tipo] - [descripcion]
  [...]
- Pregunta de negocio principal: [que queremos descubrir con estos datos]

Tarea: Genera codigo Python (pandas + matplotlib/seaborn) para un EDA completo.

El codigo debe incluir:

1. CARGA Y PRIMERA INSPECCION
   - df.info(), df.describe(), df.head()
   - Tipos de datos, valores nulos, duplicados

2. ANALISIS UNIVARIANTE
   - Distribucion de cada variable numerica (histograma + estadisticos)
   - Frecuencia de cada variable categorica (bar chart + tabla)
   - Deteccion de outliers (IQR method)

3. ANALISIS BIVARIANTE
   - Correlacion entre variables numericas (heatmap)
   - Relacion entre la variable objetivo y las predictoras principales
   - Cross-tabs para variables categoricas relevantes

4. ANALISIS TEMPORAL (si hay columna de fecha)
   - Tendencia, estacionalidad, anomalias

5. RESUMEN DE HALLAZGOS
   - Print con los 5 hallazgos mas relevantes para la pregunta de negocio

Formato: Codigo Python listo para ejecutar en Jupyter Notebook.
Comentarios en espanol explicando cada seccion.
Restricciones: Usar solo pandas, matplotlib y seaborn (sin librerias exoticas).
El codigo debe manejar valores nulos sin fallar.

Ejemplo práctico: Para un dataset de ventas (50K filas, columnas: fecha, producto, region, importe, canal, cliente), el modelo genera un notebook completo de 80-100 lineas que: carga los datos, detecta 3% de nulos en la columna region, muestra la distribucion de importes (asimetria positiva, mediana 450 EUR), genera un heatmap de correlaciones, identifica que el canal online tiene ticket medio un 30% inferior pero un 60% más de transacciones, y detecta un pico de ventas inusual en noviembre (posible Black Friday). Todo con gráficos y comentarios listos para presentar.

Prompt 2: Generador de consultas SQL

Escribir SQL complejo (window functions, CTEs, subqueries correladas) consume tiempo y es propenso a errores. Este prompt traduce preguntas en lenguaje natural a consultas SQL optimizadas.

Prompt: SQL desde lenguaje natural

Eres un ingeniero de datos senior con experiencia en PostgreSQL/MySQL.

ESQUEMA DE BASE DE DATOS:
[Pega el schema: tablas, columnas, tipos, relaciones FK]

Ejemplo:
- clientes (id, nombre, email, fecha_alta, segmento, pais)
- pedidos (id, cliente_id FK, fecha, importe, estado, canal)
- productos (id, nombre, categoria, precio)
- lineas_pedido (id, pedido_id FK, producto_id FK, cantidad, precio_unitario)

PREGUNTA DE NEGOCIO:
[Escribe la pregunta en lenguaje natural, tal como la haria un director]

Ejemplo: "Cuales son los 10 clientes que mas han gastado en los ultimos
6 meses, desglosado por categoria de producto, y como se compara con
el mismo periodo del ano anterior?"

Tarea: Genera la consulta SQL con:

1. La query principal, optimizada y legible
2. Explicacion linea por linea de la logica
3. Indices recomendados si la query puede ser lenta
4. Resultado esperado: describe que columnas y formato devolvera
5. Variaciones: 2 versiones alternativas (por ejemplo, con CTE vs subquery)

Formato: SQL formateado con indentacion clara. Comentarios en espanol.
Motor: [PostgreSQL / MySQL / BigQuery / otro]
Restricciones: Usar CTEs para legibilidad cuando la query tiene mas de 2
niveles de anidamiento. No usar SELECT * (especificar columnas).
Manejar NULLs explicitamente.

Ejemplo práctico: Pregunta: "Cual es la tasa de retencion mensual de clientes por cohorte de mes de alta?" El modelo genera una query con CTE de cohortes, window functions para calcular retencion y pivoteo por mes. Además explica: "La CTE 'cohortes' asigna cada cliente a su mes de primera compra. La CTE 'actividad' detecta en que meses cada cliente tuvo actividad. La query final cruza ambas y calcula el porcentaje de clientes activos en cada mes relativo al mes de alta. Índice recomendado: CREATE INDEX idx_pedidos_cliente_fecha ON pedidos(cliente_id, fecha)."

Prompt 3: Limpieza y transformacion de datos

La limpieza de datos es la tarea más tediosa y la que más tiempo consume. Este prompt genera un pipeline de limpieza en pandas a partir de los problemas que detectas en tu dataset.

Prompt: Pipeline de limpieza de datos

Eres un data engineer especializado en calidad de datos.

PROBLEMAS DETECTADOS EN EL DATASET:
[Lista los problemas que has encontrado. Ejemplos:]
- Columna "fecha" tiene formatos mixtos (DD/MM/YYYY y YYYY-MM-DD)
- Columna "importe" tiene valores negativos que no deberian existir
- Columna "pais" tiene variaciones del mismo valor ("Espana", "ESPANA", "ES", "Spain")
- 12% de nulos en columna "email"
- Filas duplicadas (mismo cliente_id + misma fecha + mismo importe)
- Columna "telefono" tiene formatos inconsistentes

REGLAS DE NEGOCIO:
- [Regla 1: ej. los importes negativos son devoluciones, no errores]
- [Regla 2: ej. los clientes sin email deben mantenerse, no eliminarse]
- [Regla 3: ej. considerar duplicado si coincide cliente + fecha + importe]

Tarea: Genera un script de limpieza en Python (pandas) que:

1. DIAGNOSTICO: Genera un informe de calidad del dataset antes de limpiar
   (% nulos por columna, duplicados, tipos incorrectos)
2. LIMPIEZA: Paso a paso, cada problema con su solucion
3. VALIDACION: Genera un informe post-limpieza confirmando que cada
   problema se resolvio
4. LOG: Registra cuantas filas se modificaron/eliminaron en cada paso

Formato: Script Python listo para ejecutar. Funciones separadas por paso.
Restricciones: No eliminar filas sin justificacion. Preferir corregir
antes que eliminar. Documentar cada decision de limpieza con comentarios.

Ejemplo práctico: Para el problema de paises inconsistentes, el modelo genera: "# Paso 3: Normalizar columna pais. mapping_pais = {'ESPANA': 'Espana', 'ES': 'Espana', 'Spain': 'Espana', 'españa': 'Espana', ...}. df['pais'] = df['pais'].str.strip().str.title().replace(mapping_pais). # Validación: print(f'Valores unicos de pais: {df["pais"].nunique()} (antes: {antes})'. # Log: modificadas {n} filas."

Prompt 4: Informe de datos para no técnicos

El 90% del valor de un análisis esta en como lo comunicas. Un hallazgo brillante que nadie entiende es un hallazgo inutil. Este prompt traduce resultados técnicos a narrativa ejecutiva.

Prompt: Traductor de datos a negocio

Eres un analista de negocio que traduce datos tecnicos a decisiones ejecutivas.

HALLAZGOS TECNICOS:
[Pega aqui los resultados de tu analisis: numeros, correlaciones,
tendencias, anomalias, resultados de tests estadisticos]

AUDIENCIA: [CEO / director de marketing / equipo de producto / inversores]
CONTEXTO DE NEGOCIO: [que decision se esta intentando tomar]

Tarea: Genera un informe ejecutivo que:

1. TITULAR: una frase que resuma el hallazgo principal en terminos de
   impacto de negocio (no "la correlacion es 0.73" sino "los clientes
   que usan la feature X gastan un 40% mas")

2. LOS 3 DATOS QUE IMPORTAN: traduce los hallazgos mas relevantes a
   lenguaje de impacto (ingresos, costes, crecimiento, riesgo)

3. VISUALIZACIONES SUGERIDAS: describe 2-3 graficos que contarian la
   historia de los datos (tipo de grafico + que muestra + por que ese tipo)

4. RECOMENDACIONES: 2-3 acciones concretas basadas en los datos, con
   impacto estimado si se implementan

5. LIMITACIONES: que NO dicen los datos (para evitar sobreinterpretacion)

Formato: Maximo 400 palabras. Cero jerga estadistica.
Tono: Directo, basado en datos, orientado a accion.
Restricciones: Cada afirmacion debe estar respaldada por un dato concreto.
No usar "significativo" en sentido estadistico sin explicar que significa
para el negocio.

Ejemplo práctico: Tus hallazgos técnicos: "Correlacion Pearson entre uso de feature X y LTV: r=0.73, p<0.001. Mediana de LTV con feature: 2.340 EUR. Sin feature: 1.670 EUR. Tasa de churn con feature: 8%. Sin feature: 22%." El modelo traduce: "Titular: Los usuarios que activan la Feature X valen 2,3x mas y se quedan 3x mas tiempo. Dato 1: Los clientes que usan Feature X generan 2.340 EUR de por vida, un 40% mas que los que no la usan. Dato 2: Solo el 8% de estos clientes cancelan, frente al 22% de los demas. Dato 3: Actualmente solo el 31% de clientes activan Feature X. Recomendacion: Crear un onboarding que guie a los nuevos usuarios a activar Feature X en los primeros 7 dias. Impacto estimado: si el 50% de nuevos usuarios la activan (vs 31% actual), el LTV medio sube un 15%."

Errores criticos a evitar

  1. Ejecutar código sin revisarlo. El código generado por IA puede tener errores logicos sutiles: un LEFT JOIN que deberia ser INNER, un filtro que excluye filas validas, una agregacion que cuenta duplicados. Revisa la lógica linea por linea.
  2. Confundir correlacion con causalidad. La IA puede decir "hay una fuerte correlacion entre X e Y". Eso no significa que X cause Y. Anade siempre la sección de limitaciones para evitar sobreinterpretacion.
  3. Pasar datos sensibles sin anonimizar. Antes de pasar un dataset a un modelo de IA, elimina o anonimiza columnas con datos personales (nombres, emails, NIFs, telefonos). Usa hashes o identificadores sinteticos.
  4. No validar los números finales. Si el modelo dice "el crecimiento interanual es del 23%", calcula tu mismo con los datos originales. Los modelos de lenguaje no son fiables en aritmetica.

Preguntas frecuentes

Puede la IA sustituir a un analista de datos?

No en tareas que requieren juicio de negocio: decidir que analizar, interpretar resultados en el contexto de la empresa, comunicar hallazgos a stakeholders no técnicos y recomendar acciones. Si en tareas mecanicas: limpiar datos, generar código repetitivo, crear gráficos estandar y documentar pipelines. El analista que usa IA como copiloto produce 3-5x más análisis que el que no la usa.

Debo confiar en el código que genera la IA?

Nunca ejecutes código generado por IA sin revisarlo. El modelo puede generar código que funciona sintacticamente pero tiene errores logicos sutiles (filtros incorrectos, agregaciones erroneas, joins que duplican filas, off-by-one errors en fechas). Revisa siempre la lógica, ejecuta con un subset de datos de prueba y compara los resultados con calculos manuales para los primeros registros.

Que modelo es mejor para generar código Python o SQL?

ChatGPT con Code Interpreter es el más rápido para ejecutar y iterar en el momento (ejecuta el código y te muestra el resultado). Claude genera código más limpio, mejor documentado y con mejor manejo de edge cases. Para SQL complejo (window functions, CTEs recursivas), ambos funcionan bien. Gemini es útil para consultar documentación de librerias menos conocidas.

50 prompts profesionales listos para usar

Descarga gratis nuestra coleccion de 50 prompts para profesionales de administracion, finanzas, marketing y más. Sin registro, sin spam.

Descargar gratis

Curso completo: 108 módulos de IA aplicada

11 especializaciones por departamento. Dashboard con progreso. Quizzes y skills desbloqueables. Desde 399 EUR.

Ver precios Acceder al portal