Guía gratis · Karpathy Loop

El Karpathy Loop: tutorial no-code para que la IA evalúe su propio trabajo

Tutorial paso a paso para implementar el Karpathy Loop sin código: cómo definir una métrica de calidad, estructurar la instrucción de iteración, y hacer que la IA mejore su propio output hasta cumplir el estándar que defines.

← Todas las guías

Karpathy Loop Flujos de trabajo Razonamiento Instrucciones7 min de lectura · Publicado en julio 2026

Comparte:

El Karpathy Loop: el método no-code para que la IA evalúe su propio trabajo

Por qué estás aquí

Hay una forma de trabajar con IA que cambia fundamentalmente quién hace el trabajo de revisión: el Karpathy Loop. En el flujo normal, tú pides, la IA produce, tú revisas, tú corriges, vuelves a pedir. En el Karpathy Loop, tú defines qué hace que el resultado sea bueno, y la IA itera sobre su propio output hasta cumplir ese estándar. El trabajo de revisión lo hace la IA, no tú. Si normalmente le das 3 vueltas de edición a una propuesta antes de mandarla, esto puede reducir eso a una sola revisión tuya al final. Si comentaste LOOP, aquí está el paso a paso completo para implementarlo sin escribir una línea de código.

El concepto: de dónde viene y por qué funciona

Andrej Karpathy, ex-Director de IA en Tesla y ex-investigador en OpenAI, describió un principio simple: los mejores resultados de IA vienen de sistemas donde el modelo puede evaluar su propio output contra una métrica definida y mejorar iterativamente.

En el mundo técnico, esto se implementa con código. En el mundo no-code, se implementa con una instrucción que le dice al modelo exactamente tres cosas:

La tarea: qué producir
La métrica: qué criterios usa para saber si cumplió la tarea bien
El proceso: que debe evaluar su propio output, identificar qué criterio no cumple, mejorar, y repetir hasta cumplirlos todos

El resultado no es perfecto, pero suele ser significativamente mejor que el primer borrador directo, y no requiere que tú seas quien hace cada vuelta de revisión.

La instrucción maestra del Karpathy Loop

Esta es la instrucción base. Ajusta los corchetes a tu tarea específica:

Personaliza · 1 de 4

describe la tarea con precisión. Qué necesitas que produzca, para quién, con qué objetivo.

⌘ + Enter para continuar

Tarea: [describe la tarea con precisión. Qué necesitas que produzca, para quién, con qué objetivo.]

Métrica de calidad, un buen resultado cumple TODOS estos criterios:
1. [Criterio 1, específico y verificable. Ejemplo: "El problema del cliente aparece descrito en sus propios términos, no en los míos"]
2. [Criterio 2, específico y verificable. Ejemplo: "El valor prometido incluye un número concreto: tiempo, dinero, o resultado medible"]
3. [Criterio 3, específico y verificable. Ejemplo: "Los próximos pasos son tan claros que el cliente sabe exactamente qué hacer para empezar"]

Proceso de iteración:
Paso 1: Produce un primer resultado completo.
Paso 2: Evalúa ese resultado contra cada uno de los tres criterios. ¿Los cumple? ¿Cuál no se cumple completamente?
Paso 3: Identifica el criterio más débil y mejora específicamente ese punto.
Paso 4: Repite los pasos 2 y 3 hasta que los tres criterios se cumplan.
Paso 5: Cuando estés satisfecha con el resultado, preséntalo con una línea breve explicando cómo cumple cada criterio.

No me muestres los borradores intermedios. Solo el resultado final y la evaluación de criterios.

Variante de verificación: si quieres comprobar que el Loop de verdad detecta y corrige algo, cambia esa última línea por "Muéstrame el puntaje criterio por criterio en cada pasada". Verás en qué falló cada versión y cómo lo corrigió.

Cómo definir buenos criterios: el paso más importante

La calidad del Loop depende completamente de la calidad de la métrica. Un criterio vago produce iteración de calidad baja.

Criterios que no funcionan:

"Que suene profesional" (¿qué significa "profesional"?)
"Que sea claro" (claro para quién, con qué nivel de conocimiento)
"Que sea bueno" (circular, sin información útil)

Criterios que funcionan:

"Máximo 150 palabras y cada palabra aporta algo"
"Quien lee sabe exactamente qué acción tomar al terminar"
"No hay ni una frase de relleno: nada de 'en líneas generales', 'es importante destacar', 'sin duda alguna'"
"El tono es el mismo de principio a fin, no empieza formal y termina coloquial"
"La primera oración es suficientemente buena para usarse como asunto de email"

Un criterio bien definido es un test que el modelo puede aplicar sin ambigüedad. Si el criterio puede interpretarse de dos formas, es demasiado vago.

Ejemplos de métricas por tipo de trabajo

Para una propuesta de cliente

Métrica de calidad:
1. El problema que resuelvo aparece descrito desde la perspectiva del cliente, con sus propias palabras posibles, no con mi jerga
2. El valor tiene un número concreto: horas recuperadas, ingresos proyectados, o costo evitado
3. Los próximos pasos son tan específicos que el cliente sabe exactamente qué hacer para empezar, sin necesitar otra reunión de aclaración

Por qué te importa: una propuesta más precisa en el primer envío es una llamada de aclaración menos.

Para un email de seguimiento

Métrica de calidad:
1. Cabe en pantalla sin scroll en un teléfono normal (menos de 120 palabras)
2. Hay exactamente una acción pedida, no dos ni tres
3. No hay ninguna frase de relleno: eliminar "Espero que hayas tenido una buena semana", "Me pongo en contacto para", "Quedo a tu disposición"

Para un análisis de situación

Métrica de calidad:
1. Identifica al menos un riesgo que no es obvio: algo que no mencioné en la descripción de la situación
2. La recomendación final es una sola acción concreta, no una lista de opciones con pros y contras
3. No usa adjetivos de evaluación sin evidencia: nada de "claramente", "evidentemente", "sin duda", a menos que la evidencia sea explícita

Para un resumen ejecutivo

Métrica de calidad:
1. Alguien que no leyó el documento original entiende el punto central con solo leer el resumen
2. Hay exactamente una frase de "Acción inmediata" al final, específica con fecha si aplica
3. Cada punto está en máximo 2 oraciones: si requiere más, es que no es un resumen sino una explicación

Cuándo el Loop funciona mejor

El Karpathy Loop vale los 5-10 minutos de configurar la métrica cuando la tarea normalmente te cuesta varias rondas de ida y vuelta: una propuesta, un análisis para un cliente exigente, y cuando tú serías quien haría esa diferencia manualmente.

Funciona muy bien para:

Propuestas a clientes donde el tono y la precisión son críticos
Emails importantes donde el estándar de calidad es alto y el margen de error bajo
Un mensaje de cobro a un cliente que se atrasó, donde el tono debe ser firme sin quemar la relación
Análisis estratégicos donde necesitas que el modelo empuje más allá de la respuesta obvia
Contenido de marca donde la consistencia de voz es no negociable

No vale la pena para:

Tareas simples o de bajo riesgo
Borradores internos donde el estándar es "funcional" y no "excelente"
Cualquier tarea donde el primer borrador ya es un punto de partida aceptable

El límite del Loop: lo que siempre defines tú

El modelo puede iterar, pero no puede inventar tu criterio. No sabe qué hace que tu propuesta sea buena para tu cliente específico. No sabe qué tono funciona con tu audiencia. No sabe qué riesgos son los que a ti te preocupan en este proyecto particular.

Tú sigues siendo quien decide qué es un buen resultado; el Loop solo automatiza el chequeo contra ese estándar.

Si la métrica es vaga, el Loop produce iteraciones de calidad mediocre con mucha actividad. Si la métrica es precisa, el Loop produce resultados que de otra forma te tomarían varias rondas de tu propia revisión. Multiplica esas rondas por lo que vale tu hora: ese es el costo real que te ahorra.

La inversión real no es aprender a usar el Loop. Es tomarte 5-10 minutos para definir qué hace que el resultado sea bueno, específicamente para la tarea en la que estás trabajando.

Una advertencia técnica

Un detalle importante: dentro de una sola respuesta, la IA se está revisando a sí misma en el momento, no vuelve a empezar desde cero con cada criterio. Para tareas de calidad media, eso ya mejora bastante el resultado. Cuando necesitas más control (una propuesta de alto monto, un análisis crítico), fuerza un loop de verdad: pega el resultado de vuelta en un segundo mensaje y pídele que se evalúe criterio por criterio. Si tu modelo lo permite, activa el razonamiento extendido antes de correr el Loop: la diferencia entre el primer borrador y el resultado final se nota más y es más fácil de verificar.

Tu próximo paso

La próxima vez que tengas que escribir una propuesta, un cobro atrasado o un análisis para un cliente exigente, define primero la métrica de esta guía y deja que la IA revise su propio borrador contra ella antes de pasártelo. Empieza con una tarea real que tengas pendiente hoy: copia la instrucción base y, en el primer corchete, describe esa tarea.

Referencias

Karpathy, A. *Andrej Karpathy on AI agents and eval loops.* youtube.com/andrejkarpathy. Presentaciones donde describió el concepto original
Shinn, N. et al. *Reflexion: Language Agents with Verbal Reinforcement Learning.* arXiv:2303.11366. El paper que formalizó el concepto de auto-reflexión en modelos de lenguaje
Anthropic. *Extended thinking and iterative reasoning.* docs.anthropic.com
Andrej Karpathy: YouTube
Reflexion paper

Comparte:

Lectura adicional

7 min

Leer

Gestión de contexto y memoria en Proyectos: la guía práctica

Guía paso a paso para configurar Proyectos en Claude y ChatGPT: qué guardar, cómo escribir instrucciones permanentes, y cómo eliminar el setup repetido de cada conversación.

ContextoProyectos

8 min

Leer

5 instrucciones que uso cada semana: cópialas y adaptalas

Cinco instrucciones estructuradas con el framework Rol + Contexto + Tarea + Formato, listas para copiar y adaptar a trabajo profesional real: seguimiento de clientes, preparación de reuniones, revisión de propuestas, resúmenes y análisis estratégico.

InstruccionesFlujos de trabajo

7 min

Leer

3 flujos de trabajo con mayor impacto en posicionamiento salarial

Los tres flujos de trabajo con IA que más impactan en lo que vales profesionalmente: análisis de documentos con criterio propio, preparación de reuniones estratégicas, y producción de entregables de alta calidad.

ROI & SalarioFlujos de trabajo

¿Quieres dos ideas de IA todos los días?

Gratis, en Instagram, en español, FACILITOOOO y para todos. Solo cosas que funcionan de verdad.

sigueme @heypiili