Website Scrape
Usa Website Scrape cuando quieras que un paso del flujo de trabajo obtenga una página de la web y devuelva las partes de esa página que tu flujo de trabajo necesita.Configuración
| Opción | Requerido | Descripción |
|---|---|---|
| Name | No | Etiqueta del paso en el lienzo del flujo de trabajo. |
| URL | Sí | URL en URL. Este campo admite variables del flujo de trabajo mediante Insert Variable. |
| HTML Output | No | Controla si se devuelve la salida HTML. |
| Markdown Output | No | Controla si se devuelve la salida Markdown. |
| Links Output | No | Controla si se devuelven los Links extraídos. |
| Subpages | No | Controla si está habilitado el rastreo de Subpages. |
| Crawl Mode | No | Comportamiento de rastreo seleccionado en Crawl Mode. |
| Max Characters | No | Tamaño máximo de salida establecido en Max Characters. |
| Max Retries | No | Conteo de reintentos en Max Retries. |
| Timeout (ms) | No | Valor de tiempo de espera en Timeout (ms). |
| Screenshot | No | Controla si se captura una captura de pantalla de la página. |
| Screenshot Type | No | Modo de captura de pantalla en Screenshot Type cuando las capturas están habilitadas. |
| When the step fails | No | Controla si el flujo de trabajo debe Terminate Workflow o Continue si este paso falla. |
| Agrega este paso desde el grupo Research en Search steps…. |
- Preferred intenta primero un rastreo en vivo y luego recurre a la caché.
- Always siempre usa un rastreo en vivo.
- Fallback usa primero la caché y luego rastrea si es necesario.
- Never solo usa la caché.
Salida
Haz clic en Run en el encabezado del paso para probar el paso. Fetch Hive muestra el resultado del scrape en Output después de que se complete la ejecución. Usa el selector de variables en un paso posterior para insertar la ruta de salida exacta disponible para esa ejecución. La referencia base es:Ejemplo
Agrega Website Scrape desde el grupo Research en Search steps…. Establece Name en algo comoScrape product page.
Pega la página en URL. Si la URL proviene de un paso anterior del flujo de trabajo, haz clic en Insert Variable y agrega esa referencia.
Activa las salidas que necesites. Por ejemplo, habilita Markdown para contenido limpio, Links para enlaces extraídos y Subpages si quieres que se rastree una subpágina desde la página principal.
Elige un Crawl Mode, luego establece Max Characters, Max Retries y Timeout (ms) para la ejecución.
Si necesitas una captura visual, activa Screenshot y elige Viewport o Full Page en Screenshot Type.
Haz clic en Run y revisa el resultado del scrape en Output antes de enviarlo a pasos posteriores del flujo de trabajo.
Notas
- El resultado devuelto depende de qué interruptores de salida habilites, así que inspecciona el selector de variables después de una ejecución si necesitas nombres de campo exactos.
- El editor muestra una advertencia para URL directas de LinkedIn. Las URL de LinkedIn no son compatibles para scraping.
- Usa Markdown cuando quieras contenido de página más limpio, HTML cuando necesites markup sin procesar y Links cuando solo necesites URL extraídas.

