跳转到主要内容

Website Scrape

当你希望工作流步骤从网络获取页面并返回工作流所需的页面部分时,请使用 Website Scrape

配置

选项是否必填说明
Name步骤在工作流画布中的标签。
URLURL 中的 URL。此字段通过 Insert Variable 支持工作流变量。
HTML Output控制是否返回 HTML 输出。
Markdown Output控制是否返回 Markdown 输出。
Links Output控制是否返回提取的 Links
Subpages控制是否启用 Subpages 爬取。
Crawl ModeCrawl Mode 中选择的爬取行为。
Max CharactersMax Characters 中设置的最大输出大小。
Max RetriesMax Retries 中的重试次数。
Timeout (ms)Timeout (ms) 中的超时值。
Screenshot控制是否捕获页面截图。
Screenshot Type启用截图时 Screenshot Type 中的截图模式。
When the step fails控制此步骤失败时工作流应 Terminate Workflow 还是 Continue
Search steps…Research 分组添加此步骤。
URL 字段支持 Insert Variable。在其下方,设置面板允许你选择要返回的输出类型:HTMLMarkdownLinksSubpages 使用 Crawl Mode 控制 Fetch Hive 检索页面的方式:
  • Preferred 首先尝试实时爬取,然后回退到缓存。
  • Always 始终使用实时爬取。
  • Fallback 首先使用缓存,然后按需爬取。
  • Never 仅使用缓存。
如果开启 Screenshot,Screenshot Type 会出现,带有 ViewportFull Page 选项。

输出

点击步骤标题中的 Run 来测试步骤。运行完成后,Fetch Hive 会在 Output 中显示抓取结果。 在后续步骤中使用变量选择器插入该次运行可用的确切输出路径。基础引用为:
{{STEP_IDENTIFIER.output}}
具体字段取决于你启用了哪些输出。例如,HTML、markdown、links、subpage 数据和与截图相关的字段只在这些输出开启时出现。在测试运行后使用变量选择器检查返回的字段。

示例

Search steps…Research 分组中添加 Website Scrape Name 设置为类似 Scrape product page 的内容。 将页面粘贴到 URL 中。如果 URL 来自早前的工作流步骤,点击 Insert Variable 并添加该引用。 开启你需要的输出。例如,启用 Markdown 以获得干净的内容,启用 Links 以获得提取的链接,如果你希望从主页面爬取一个子页面,则启用 Subpages 选择 Crawl Mode,然后为此次运行设置 Max CharactersMax RetriesTimeout (ms) 如果你需要可视化捕获,开启 Screenshot 并在 Screenshot Type 中选择 ViewportFull Page 点击 Run 并在 Output 中查看抓取的结果,然后再将其发送到后续工作流步骤。

备注

  • 返回的结果取决于你启用了哪些输出开关,因此如果你需要确切的字段名称,请在运行后检查变量选择器。
  • 编辑器会对直接 LinkedIn URL 显示警告。不支持抓取 LinkedIn URL。
  • 当你想要更干净的页面内容时使用 Markdown,需要原始标记时使用 HTML,只需要提取的 URL 时使用 Links
另见:创建和编辑测试与迭代错误处理