Agentes de IA vs. flujos de trabajo de IA: qué está listo de verdad para producción

Todos los pitches de proveedor en 2026 dicen "agentes". La mayor parte de lo que de verdad corre en producción, incluso dentro de empresas que se presentan como agent-first, es algo más simple. No es una crítica: es la razón por la que esos sistemas siguen funcionando en el mes seis.

La confusión cuesta dinero real. Los equipos compran "un agente" esperando un sistema fiable, reciben una demo que improvisa y concluyen que la automatización con IA no funciona. En la mayoría de esos casos la tecnología estaba bien. La arquitectura era la equivocada para el trabajo.

Flujo de trabajo, paso LLM o agente: el espectro real

"Agente" no es una propiedad de sí o no. Hay tres niveles, y las diferencias de riesgo y coste operativo son mayores que las diferencias de capacidad:

Flujo de trabajo determinista. Pasos fijos en orden fijo; ningún modelo decide nada. Llega una factura, se extraen los campos con reglas, se escribe el registro. Aburrido, testeable y todavía la respuesta correcta para una parte sorprendente de la automatización.

Flujo de trabajo con pasos LLM. La estructura sigue fija, pero pasos concretos llaman a un modelo: clasificar este email, resumir este documento, extraer estos campos a un esquema JSON. El modelo nunca controla qué pasa después: lo controla el flujo de trabajo.

Bucle de agente con herramientas. El modelo recibe un objetivo y un conjunto de herramientas, y decide en tiempo de ejecución qué herramienta llamar, en qué orden y cuándo ha terminado. La capacidad alcanza aquí su máximo. La varianza también.

La pregunta útil nunca es "¿queremos agentes?". Es "¿cuál es el punto más barato de este espectro que resuelve este problema?".

Qué llega a producción en 2026 y qué solo luce en la demo

En nuestros datos internos de entregas, el nivel intermedio (flujos de trabajo fijos con pasos LLM) concentra la gran mayoría de los sistemas que sobreviven al piloto. Son lo bastante predecibles para ponerlos detrás de un SLA, lo bastante baratos para funcionar a volumen y lo bastante simples para depurarlos a las 2 de la madrugada.

Los bucles de agente también llegan a producción. Los que llegan comparten un perfil: objetivo estrecho, menos de diez herramientas, presupuesto de iteraciones con tope y una aprobación humana delante de todo lo irreversible. Los que se quedan en piloto también comparten perfil:

Agentes de investigación sin tope de iteraciones, cuyo tiempo y coste varían 20x entre tareas similares

Agentes que escriben directamente en sistemas de registro sin paso de aprobación

Agentes juzgados por impresión ("parece listo") en lugar de por un conjunto de evaluación

Agentes con acceso a todas las herramientas de la empresa "por si acaso"

Dónde ganan de verdad los agentes

Investigación abierta. Comparativas de proveedores, escaneos de mercado, briefings de due diligence. El camino no se puede escribir de antemano, así que un flujo de trabajo fijo no puede codificarlo.

Triaje con escalado. Tickets entrantes y buzones compartidos: el agente resuelve la mayoría fácil y escala a una persona todo lo que queda por debajo de un umbral de confianza. Esa ruta de escalado es lo que lo hace seguro en producción.

Borradores detrás de una revisión ya existente. Propuestas, respuestas e informes que un humano ya revisa. La varianza del agente la absorbe un paso de revisión que el negocio ya estaba pagando.

Dónde ganan los flujos de trabajo

Cualquier cosa con SLA: el tiempo de respuesta y el coste por ejecución deben ser predecibles

Procesamiento de alto volumen, donde un 2% de fallos significa cientos de incidencias al mes

Pasos regulados o auditados, donde hay que explicar exactamente qué pasó y por qué

Procesos estables que no han cambiado en un año: no queda nada que un agente deba decidir

Cómo acotar con seguridad un primer PoC de agente

Los primeros proyectos de agente fracasan por ser abiertos. El remedio es la misma disciplina que cualquier proyecto de automatización de flujos de trabajo con IA, más cuatro reglas específicas de agentes:

Herramientas acotadas. De tres a siete herramientas con entradas y salidas tipadas. Las de solo lectura son baratas de conceder; cada herramienta de escritura necesita su propia justificación.

Logs de auditoría desde el primer día. Cada llamada a herramienta, cada decisión del modelo, cada entrada y salida quedan en una sola tabla. No es opcional ni fase dos: así es como se depura el piloto.

Aprobación humana obligatoria. Toda acción cara de revertir (enviar, pagar, borrar, publicar) pasa a una cola que una persona despeja. Documentamos el patrón en revisión humana en flujos de trabajo de IA.

Un conjunto de evaluación antes del lanzamiento. De treinta a cincuenta casos reales con resultados correctos acordados. Si el equipo no puede producirlos, nadie puede decir qué significa "funciona", y la construcción no debería empezar.

Con ese alcance, un primer agente cabe con holgura en un sprint de dos semanas: el formato de nuestro Quick DX PoC ($12,500-$18,000). Un agente, una cola, demos semanales y un informe de evaluación al final en lugar de una sensación.

La checklist de decisión

Recorre esta lista antes de comprometer presupuesto:

¿Se pueden escribir los pasos de antemano? Construye un flujo de trabajo determinista.

¿Pasos fijos, pero algunos requieren juicio (clasificar, extraer, resumir)? Flujo de trabajo con pasos LLM.

¿El camino varía de verdad según el caso, de formas que no puedes enumerar? Candidato a agente.

¿Hay SLA de latencia o de coste por ejecución? Acerca el diseño de nuevo al flujo de trabajo.

¿Toda acción irreversible pasa por una aprobación humana? Si no, añádela o detente.

¿Tienes 30+ casos reales con resultado correcto conocido? Si no, recopílalos primero.

¿Puedes limitar las iteraciones y el gasto del agente por tarea? Si no, no está listo para desplegarse.

Empieza un nivel por debajo de lo que apunta la demo

Los equipos que llevan agentes a producción casi siempre empiezan un nivel por debajo de donde apuntaba la demo del proveedor. El flujo de trabajo que pones en producción este trimestre te enseña los contratos de datos, los modos de fallo y los hábitos de revisión de los que dependerá un agente el trimestre que viene, y de paso se paga solo.

Si estás decidiendo dónde cae un proceso concreto en el espectro, nuestros paquetes empiezan con una auditoría de una semana que responde exactamente esa pregunta por escrito. El ingeniero senior que define el alcance es el mismo que construye (sin subcontratación), así que la respuesta y la entrega no se separan.