Plantilla de evaluación de prompts y flujos de trabajo con LLM

Usa esta plantilla para comprobar si un flujo de trabajo con LLM es lo bastante fiable para un piloto real.

Dimensiones de evaluación

El objetivo no es un prompt perfecto. El objetivo es un flujo de trabajo que se comporte de forma lo bastante predecible para un uso con revisión humana.

Éxito en la tarea
Calidad de la evidencia
Latencia
Aceptación del revisor
Comportamiento de respaldo
Registros de auditoría

Qué probar

Evalúa el flujo de trabajo completo, no solo el texto del prompt. El prompt puede estar bien mientras la recuperación, la forma de los datos, la UI o la ruta de revisión son débiles.

Ejemplos representativos
Casos límite
Entradas incorrectas
Evidencia de origen ausente
Correcciones del revisor

Qué medir

Una evaluación útil tiene un conjunto de pruebas pequeño, el comportamiento esperado, notas del revisor y una decisión sobre si el flujo de trabajo está listo para un piloto.

Criterios de aprobado/suspenso
Aceptado con edición
Salida rechazada
Rango de latencia
Tasa de respaldo

Evaluation template output

Test set: Representative examples, edge cases, and known failure cases.
Scoring rubric: Criteria for success, evidence quality, reviewer effort, and fallback behavior.
Result log: Outputs, reviewer notes, accepted edits, rejected responses, and prompt versions.
Pilot gate: A recommendation to pilot, revise, narrow, or stop the workflow.

Preguntas frecuentes

¿Cuántos ejemplos hacen falta?: Empieza en pequeño: de 20 a 50 casos representativos pueden revelar muchos problemas del flujo de trabajo antes de una evaluación mayor.
¿La evaluación debe incluir la latencia?: Sí. Una respuesta correcta pero demasiado lenta puede seguir fallando como flujo de trabajo de producto.