Keep Working: una baraja de prompts de un solo botón donde cada carta se ganó su sitio

Keep Working es el botón que te gustaría tener al lado de Enviar. En el minuto 47 de una sesión larga con un LLM sabes que el modelo necesita otro empujón, pero estás demasiado cansado para escribir uno bueno. Keep Working te lo sirve como una carta: pulsa Espacio para el siguiente prompt, S para una versión más incisiva de la misma categoría, C para copiar, F para girar la carta y leer por qué funciona ese prompt. Cada carta tiene un permalink compartible, y la primera carta se renderiza en el servidor, así que la página es útil desde el primer instante.

Puedes ver el producto funcionando aquí: keepworking.urbanodx.com.

El listón de calidad: evaluar antes de publicar

La baraja parece más grande de lo que es, a propósito. Se distribuye en dos niveles:

Core: 4 categorías, unos 86 prompts. Cada categoría core venció tanto a "¿estás seguro?" como a "revisa tu última respuesta en busca de errores" en un duelo ciego juzgado por tres modelos independientes, sobre un total de 184 valoraciones ciegas.

Experimental: 12 categorías, unos 275 prompts. Prometedoras pero sin demostrar, o directamente demostradas como contraproducentes. Disponibles solo con opt-in explícito.

Por defecto solo se reparte el nivel core. Promocionar una categoría de experimental a core exige una evaluación nueva, y el historial de evals se conserva en el repositorio, incluidas las iteraciones que empeoraron la baraja antes de estabilizarse. El hallazgo honesto detrás del producto: la mayoría de los consejos de prompting pierden en un test ciego contra baselines triviales, así que la baraja por defecto solo contiene lo que aprobó.

Un dataset, tres interfaces

Keep Working es un servicio pequeño de FastAPI. La web, la API JSON y la CLI leen el mismo archivo de prompts, así que las tres interfaces van siempre sincronizadas, y el archivo se monta en el contenedor en solo lectura, de modo que la baraja se puede cambiar en caliente sin rebuild. La documentación interactiva de la API viene de serie en /docs, y /health devuelve el número de prompts y categorías para la monitorización de disponibilidad.

Qué demuestra

Disciplina de evaluación a la escala más pequeña posible. El mismo razonamiento de sets de evaluación que aplicamos a los flujos de IA de nuestros clientes: si un patrón no vence a un baseline en un test ciego, no se publica como predeterminado. Escribimos sobre la versión de workflow de esto en revisión humana en flujos de IA.

Diseño de producto API-first. Un dataset canónico que alimenta una web, una API JSON documentada y una CLI, con monitorización de estado desde el primer día.

Lo pequeño se puede lanzar. Un producto de un solo botón con evals honestas es más útil que una biblioteca enorme de prompts que nadie ha probado.

Si quieres esta disciplina aplicada a tu propio flujo de IA, ese es literalmente nuestro trabajo: un AI Workflow Teardown de alcance cerrado te dice qué pasos de tu proceso sobrevivirían a una evaluación ciega, antes de construir nada.