Saltar al contenido principal

Website Scrape

Usa Website Scrape cuando quieras que un paso del flujo de trabajo obtenga una página de la web y devuelva las partes de esa página que tu flujo de trabajo necesita.

Configuración

OpciónRequeridoDescripción
NameNoEtiqueta del paso en el lienzo del flujo de trabajo.
URLURL en URL. Este campo admite variables del flujo de trabajo mediante Insert Variable.
HTML OutputNoControla si se devuelve la salida HTML.
Markdown OutputNoControla si se devuelve la salida Markdown.
Links OutputNoControla si se devuelven los Links extraídos.
SubpagesNoControla si está habilitado el rastreo de Subpages.
Crawl ModeNoComportamiento de rastreo seleccionado en Crawl Mode.
Max CharactersNoTamaño máximo de salida establecido en Max Characters.
Max RetriesNoConteo de reintentos en Max Retries.
Timeout (ms)NoValor de tiempo de espera en Timeout (ms).
ScreenshotNoControla si se captura una captura de pantalla de la página.
Screenshot TypeNoModo de captura de pantalla en Screenshot Type cuando las capturas están habilitadas.
When the step failsNoControla si el flujo de trabajo debe Terminate Workflow o Continue si este paso falla.
Agrega este paso desde el grupo Research en Search steps….
El campo URL admite Insert Variable. Debajo, el panel de configuración te permite elegir qué tipos de salida devolver: HTML, Markdown, Links y Subpages. Usa Crawl Mode para controlar cómo Fetch Hive recupera la página:
  • Preferred intenta primero un rastreo en vivo y luego recurre a la caché.
  • Always siempre usa un rastreo en vivo.
  • Fallback usa primero la caché y luego rastrea si es necesario.
  • Never solo usa la caché.
Si activas Screenshot, aparece Screenshot Type con las opciones Viewport y Full Page.

Salida

Haz clic en Run en el encabezado del paso para probar el paso. Fetch Hive muestra el resultado del scrape en Output después de que se complete la ejecución. Usa el selector de variables en un paso posterior para insertar la ruta de salida exacta disponible para esa ejecución. La referencia base es:
{{STEP_IDENTIFIER.output}}
Los campos exactos dependen de qué salidas habilitaste. Por ejemplo, los campos relacionados con HTML, markdown, links, datos de subpáginas y capturas de pantalla solo aparecen cuando esas salidas están activadas. Usa el selector de variables después de una ejecución de prueba para inspeccionar los campos devueltos.

Ejemplo

Agrega Website Scrape desde el grupo Research en Search steps…. Establece Name en algo como Scrape product page. Pega la página en URL. Si la URL proviene de un paso anterior del flujo de trabajo, haz clic en Insert Variable y agrega esa referencia. Activa las salidas que necesites. Por ejemplo, habilita Markdown para contenido limpio, Links para enlaces extraídos y Subpages si quieres que se rastree una subpágina desde la página principal. Elige un Crawl Mode, luego establece Max Characters, Max Retries y Timeout (ms) para la ejecución. Si necesitas una captura visual, activa Screenshot y elige Viewport o Full Page en Screenshot Type. Haz clic en Run y revisa el resultado del scrape en Output antes de enviarlo a pasos posteriores del flujo de trabajo.

Notas

  • El resultado devuelto depende de qué interruptores de salida habilites, así que inspecciona el selector de variables después de una ejecución si necesitas nombres de campo exactos.
  • El editor muestra una advertencia para URL directas de LinkedIn. Las URL de LinkedIn no son compatibles para scraping.
  • Usa Markdown cuando quieras contenido de página más limpio, HTML cuando necesites markup sin procesar y Links cuando solo necesites URL extraídas.
Consulta también: Creación y edición, Pruebas e iteración y Manejo de errores