Website Scrape

Usa Website Scrape cuando quieras que un paso del flujo de trabajo obtenga una página de la web y devuelva las partes de esa página que tu flujo de trabajo necesita.

Configuración

Opción	Requerido	Descripción
Name	No	Etiqueta del paso en el lienzo del flujo de trabajo.
URL	Sí	URL en URL. Este campo admite variables del flujo de trabajo mediante Insert Variable.
HTML Output	No	Controla si se devuelve la salida HTML.
Markdown Output	No	Controla si se devuelve la salida Markdown.
Links Output	No	Controla si se devuelven los Links extraídos.
Subpages	No	Controla si está habilitado el rastreo de Subpages.
Crawl Mode	No	Comportamiento de rastreo seleccionado en Crawl Mode.
Max Characters	No	Tamaño máximo de salida establecido en Max Characters.
Max Retries	No	Conteo de reintentos en Max Retries.
Timeout (ms)	No	Valor de tiempo de espera en Timeout (ms).
Screenshot	No	Controla si se captura una captura de pantalla de la página.
Screenshot Type	No	Modo de captura de pantalla en Screenshot Type cuando las capturas están habilitadas.
When the step fails	No	Controla si el flujo de trabajo debe Terminate Workflow o Continue si este paso falla.
Agrega este paso desde el grupo Research en Search steps….

El campo URL admite Insert Variable. Debajo, el panel de configuración te permite elegir qué tipos de salida devolver: HTML, Markdown, Links y Subpages. Usa Crawl Mode para controlar cómo Fetch Hive recupera la página:

Preferred intenta primero un rastreo en vivo y luego recurre a la caché.
Always siempre usa un rastreo en vivo.
Fallback usa primero la caché y luego rastrea si es necesario.
Never solo usa la caché.

Si activas Screenshot, aparece Screenshot Type con las opciones Viewport y Full Page.

Salida

Haz clic en Run en el encabezado del paso para probar el paso. Fetch Hive muestra el resultado del scrape en Output después de que se complete la ejecución. Usa el selector de variables en un paso posterior para insertar la ruta de salida exacta disponible para esa ejecución. La referencia base es:

{{STEP_IDENTIFIER.output}}

Los campos exactos dependen de qué salidas habilitaste. Por ejemplo, los campos relacionados con HTML, markdown, links, datos de subpáginas y capturas de pantalla solo aparecen cuando esas salidas están activadas. Usa el selector de variables después de una ejecución de prueba para inspeccionar los campos devueltos.

Ejemplo

Agrega Website Scrape desde el grupo Research en Search steps…. Establece Name en algo como Scrape product page. Pega la página en URL. Si la URL proviene de un paso anterior del flujo de trabajo, haz clic en Insert Variable y agrega esa referencia. Activa las salidas que necesites. Por ejemplo, habilita Markdown para contenido limpio, Links para enlaces extraídos y Subpages si quieres que se rastree una subpágina desde la página principal. Elige un Crawl Mode, luego establece Max Characters, Max Retries y Timeout (ms) para la ejecución. Si necesitas una captura visual, activa Screenshot y elige Viewport o Full Page en Screenshot Type. Haz clic en Run y revisa el resultado del scrape en Output antes de enviarlo a pasos posteriores del flujo de trabajo.

Notas

El resultado devuelto depende de qué interruptores de salida habilites, así que inspecciona el selector de variables después de una ejecución si necesitas nombres de campo exactos.
El editor muestra una advertencia para URL directas de LinkedIn. Las URL de LinkedIn no son compatibles para scraping.
Usa Markdown cuando quieras contenido de página más limpio, HTML cuando necesites markup sin procesar y Links cuando solo necesites URL extraídas.

Consulta también: Creación y edición, Pruebas e iteración y Manejo de errores

Copilot Search RSS Feed

​Website Scrape

​Configuración

​Salida

​Ejemplo

​Notas

Website Scrape

Configuración

Salida

Ejemplo

Notas