Saltar al contenido principal

Auto Summarize

Auto Summarize mantiene en funcionamiento las conversaciones largas de los agentes comprimiendo el historial previo cuando se acerca al límite de contexto del modelo.

Qué hace

Cada agente tiene esta herramienta habilitada de forma predeterminada. Antes de cada turno, Fetch Hive comprueba si el historial acumulado de la conversación se está acercando a la ventana de contexto del modelo. Si es así, los turnos previos se resumen automáticamente en un único mensaje compacto, y el agente continúa con ese resumen como contexto inicial en lugar del historial sin procesar. El agente conserva plena conciencia de lo que se discutió: simplemente trabaja a partir de una versión condensada de los turnos anteriores en lugar de cada token literal.

Cómo se dispara

Auto Summarize no es una herramienta que el agente llame. Se ejecuta como una verificación del lado del servidor antes de que el modelo vea la conversación. El agente y el LLM no son conscientes de ello: desde la perspectiva del modelo, simplemente recibe un historial de conversación bien formado que cabe en su ventana de contexto. Cuando el resumen se dispara durante una ejecución en streaming, llega un evento summary al inicio del stream antes de cualquier token de respuesta:
{
  "type": "summary",
  "summary_text": "The conversation covered AI infrastructure trends. The user asked about evals...",
  "original_token_count": 15234,
  "context_limit": 200000,
  "model": "gpt-4.1",
  "provider": "openai"
}
En el panel Chat dentro del editor del agente, aparece un acordeón Chat summarized en la conversación en el punto donde ocurrió el resumen. Haz clic para expandirlo y leer el texto completo del resumen y los conteos de tokens. Consulta Ejecutar con API para saber cómo manejar este evento en tu propia integración.

Habilitar y deshabilitar

El nodo de la herramienta aparece en el lienzo de cada agente con una insignia System. Para deshabilitarlo en un agente específico:
  1. Selecciona el nodo Auto Summarize en el editor.
  2. En el panel de configuración, cambia el interruptor a Disabled.
Deshabilitarlo significa que el agente enviará el historial sin procesar completo en cada turno. Si la conversación crece más allá del límite de contexto del modelo, los mensajes más antiguos serán truncados por el proveedor del modelo.

Configuración

No hay opciones de configuración por agente para esta herramienta. El umbral de resumen y el modelo usado para escribir los resúmenes se establecen a nivel de plataforma por el operador de tu espacio de trabajo.

Casos de uso

  • Conversaciones largas de soporte o investigación que abarcan muchos turnos sin perder el contexto anterior.
  • Agentes que se ejecutan en modo thread_id donde las conversaciones persisten a través de múltiples sesiones.
  • Cualquier caso de uso donde quieras que el agente permanezca coherente durante una interacción larga sin gestión manual del historial.

Notas

  • Auto Summarize solo se dispara en hilos persistentes (llamadas que incluyen un thread_id). Las llamadas únicas y el historial sin estado pasado a través del campo messages no se ven afectados.
  • La llamada de resumen la realiza Fetch Hive: no cuenta para tu uso de tokens en ese turno.
  • Si el servicio de resumen no está disponible por cualquier motivo, la ejecución del agente procede normalmente con el historial completo. La función falla de forma abierta.
  • Para probarlo, usa Chat en el editor del agente: el acordeón Chat summarized aparece cuando se cruza el umbral.