Guía gratis · Karpathy Loop
El Karpathy Loop: tutorial no-code para que la IA evalúe su propio trabajo
Tutorial paso a paso para implementar el Karpathy Loop sin código: cómo definir una métrica de calidad, estructurar la instrucción de iteración, y hacer que la IA mejore su propio output hasta cumplir el estándar que defines.
El Karpathy Loop: el método no-code para que la IA evalúe su propio trabajo
Por qué estás aquí
Hay una forma de trabajar con IA que cambia fundamentalmente quién hace el trabajo de revisión: el Karpathy Loop. En el flujo normal, tú pides, la IA produce, tú revisas, tú corriges, vuelves a pedir. En el Karpathy Loop, tú defines qué hace que el resultado sea bueno, y la IA itera sobre su propio output hasta cumplir ese estándar. El trabajo de revisión lo hace la IA, no tú. Si normalmente le das 3 vueltas de edición a una propuesta antes de mandarla, esto puede reducir eso a una sola revisión tuya al final. Si comentaste LOOP, aquí está el paso a paso completo para implementarlo sin escribir una línea de código.
El concepto: de dónde viene y por qué funciona
Andrej Karpathy, ex-Director de IA en Tesla y ex-investigador en OpenAI, describió un principio simple: los mejores resultados de IA vienen de sistemas donde el modelo puede evaluar su propio output contra una métrica definida y mejorar iterativamente.
En el mundo técnico, esto se implementa con código. En el mundo no-code, se implementa con una instrucción que le dice al modelo exactamente tres cosas:
- La tarea: qué producir
- La métrica: qué criterios usa para saber si cumplió la tarea bien
- El proceso: que debe evaluar su propio output, identificar qué criterio no cumple, mejorar, y repetir hasta cumplirlos todos
El resultado no es perfecto, pero suele ser significativamente mejor que el primer borrador directo, y no requiere que tú seas quien hace cada vuelta de revisión.
La instrucción maestra del Karpathy Loop
Esta es la instrucción base. Ajusta los corchetes a tu tarea específica:
describe la tarea con precisión. Qué necesitas que produzca, para quién, con qué objetivo.
⌘ + Enter para continuar
Tarea: [describe la tarea con precisión. Qué necesitas que produzca, para quién, con qué objetivo.] Métrica de calidad, un buen resultado cumple TODOS estos criterios: 1. [Criterio 1, específico y verificable. Ejemplo: "El problema del cliente aparece descrito en sus propios términos, no en los míos"] 2. [Criterio 2, específico y verificable. Ejemplo: "El valor prometido incluye un número concreto: tiempo, dinero, o resultado medible"] 3. [Criterio 3, específico y verificable. Ejemplo: "Los próximos pasos son tan claros que el cliente sabe exactamente qué hacer para empezar"] Proceso de iteración: Paso 1: Produce un primer resultado completo. Paso 2: Evalúa ese resultado contra cada uno de los tres criterios. ¿Los cumple? ¿Cuál no se cumple completamente? Paso 3: Identifica el criterio más débil y mejora específicamente ese punto. Paso 4: Repite los pasos 2 y 3 hasta que los tres criterios se cumplan. Paso 5: Cuando estés satisfecha con el resultado, preséntalo con una línea breve explicando cómo cumple cada criterio. No me muestres los borradores intermedios. Solo el resultado final y la evaluación de criterios.
Variante de verificación: si quieres comprobar que el Loop de verdad detecta y corrige algo, cambia esa última línea por "Muéstrame el puntaje criterio por criterio en cada pasada". Verás en qué falló cada versión y cómo lo corrigió.
Cómo definir buenos criterios: el paso más importante
La calidad del Loop depende completamente de la calidad de la métrica. Un criterio vago produce iteración de calidad baja.
Criterios que no funcionan:
- "Que suene profesional" (¿qué significa "profesional"?)
- "Que sea claro" (claro para quién, con qué nivel de conocimiento)
- "Que sea bueno" (circular, sin información útil)
Criterios que funcionan:
- "Máximo 150 palabras y cada palabra aporta algo"
- "Quien lee sabe exactamente qué acción tomar al terminar"
- "No hay ni una frase de relleno: nada de 'en líneas generales', 'es importante destacar', 'sin duda alguna'"
- "El tono es el mismo de principio a fin, no empieza formal y termina coloquial"
- "La primera oración es suficientemente buena para usarse como asunto de email"
Un criterio bien definido es un test que el modelo puede aplicar sin ambigüedad. Si el criterio puede interpretarse de dos formas, es demasiado vago.
Ejemplos de métricas por tipo de trabajo
Para una propuesta de cliente
Métrica de calidad: 1. El problema que resuelvo aparece descrito desde la perspectiva del cliente, con sus propias palabras posibles, no con mi jerga 2. El valor tiene un número concreto: horas recuperadas, ingresos proyectados, o costo evitado 3. Los próximos pasos son tan específicos que el cliente sabe exactamente qué hacer para empezar, sin necesitar otra reunión de aclaración
Por qué te importa: una propuesta más precisa en el primer envío es una llamada de aclaración menos.
Para un email de seguimiento
Métrica de calidad: 1. Cabe en pantalla sin scroll en un teléfono normal (menos de 120 palabras) 2. Hay exactamente una acción pedida, no dos ni tres 3. No hay ninguna frase de relleno: eliminar "Espero que hayas tenido una buena semana", "Me pongo en contacto para", "Quedo a tu disposición"
Para un análisis de situación
Métrica de calidad: 1. Identifica al menos un riesgo que no es obvio: algo que no mencioné en la descripción de la situación 2. La recomendación final es una sola acción concreta, no una lista de opciones con pros y contras 3. No usa adjetivos de evaluación sin evidencia: nada de "claramente", "evidentemente", "sin duda", a menos que la evidencia sea explícita
Para un resumen ejecutivo
Métrica de calidad: 1. Alguien que no leyó el documento original entiende el punto central con solo leer el resumen 2. Hay exactamente una frase de "Acción inmediata" al final, específica con fecha si aplica 3. Cada punto está en máximo 2 oraciones: si requiere más, es que no es un resumen sino una explicación
Cuándo el Loop funciona mejor
El Karpathy Loop vale los 5-10 minutos de configurar la métrica cuando la tarea normalmente te cuesta varias rondas de ida y vuelta: una propuesta, un análisis para un cliente exigente, y cuando tú serías quien haría esa diferencia manualmente.
Funciona muy bien para:
- Propuestas a clientes donde el tono y la precisión son críticos
- Emails importantes donde el estándar de calidad es alto y el margen de error bajo
- Un mensaje de cobro a un cliente que se atrasó, donde el tono debe ser firme sin quemar la relación
- Análisis estratégicos donde necesitas que el modelo empuje más allá de la respuesta obvia
- Contenido de marca donde la consistencia de voz es no negociable
No vale la pena para:
- Tareas simples o de bajo riesgo
- Borradores internos donde el estándar es "funcional" y no "excelente"
- Cualquier tarea donde el primer borrador ya es un punto de partida aceptable
El límite del Loop: lo que siempre defines tú
El modelo puede iterar, pero no puede inventar tu criterio. No sabe qué hace que tu propuesta sea buena para tu cliente específico. No sabe qué tono funciona con tu audiencia. No sabe qué riesgos son los que a ti te preocupan en este proyecto particular.
Tú sigues siendo quien decide qué es un buen resultado; el Loop solo automatiza el chequeo contra ese estándar.
Si la métrica es vaga, el Loop produce iteraciones de calidad mediocre con mucha actividad. Si la métrica es precisa, el Loop produce resultados que de otra forma te tomarían varias rondas de tu propia revisión. Multiplica esas rondas por lo que vale tu hora: ese es el costo real que te ahorra.
La inversión real no es aprender a usar el Loop. Es tomarte 5-10 minutos para definir qué hace que el resultado sea bueno, específicamente para la tarea en la que estás trabajando.
Una advertencia técnica
Un detalle importante: dentro de una sola respuesta, la IA se está revisando a sí misma en el momento, no vuelve a empezar desde cero con cada criterio. Para tareas de calidad media, eso ya mejora bastante el resultado. Cuando necesitas más control (una propuesta de alto monto, un análisis crítico), fuerza un loop de verdad: pega el resultado de vuelta en un segundo mensaje y pídele que se evalúe criterio por criterio. Si tu modelo lo permite, activa el razonamiento extendido antes de correr el Loop: la diferencia entre el primer borrador y el resultado final se nota más y es más fácil de verificar.
Tu próximo paso
La próxima vez que tengas que escribir una propuesta, un cobro atrasado o un análisis para un cliente exigente, define primero la métrica de esta guía y deja que la IA revise su propio borrador contra ella antes de pasártelo. Empieza con una tarea real que tengas pendiente hoy: copia la instrucción base y, en el primer corchete, describe esa tarea.
Referencias
- Karpathy, A. *Andrej Karpathy on AI agents and eval loops.* youtube.com/andrejkarpathy. Presentaciones donde describió el concepto original
- Shinn, N. et al. *Reflexion: Language Agents with Verbal Reinforcement Learning.* arXiv:2303.11366. El paper que formalizó el concepto de auto-reflexión en modelos de lenguaje
- Anthropic. *Extended thinking and iterative reasoning.* docs.anthropic.com
- Andrej Karpathy: YouTube
- Reflexion paper
Lectura adicional
¿Quieres dos ideas de IA todos los días?
Gratis, en Instagram, en español, FACILITOOOO y para todos. Solo cosas que funcionan de verdad.
sigueme @heypiili