Firecrawl 可以递归地搜索 URL 的子域名,并收集内容。
allowBackwardLinks
参数。async crawl
函数,这将返回一个 ID
,您可以使用它来检查爬取的状态。
next
URL 参数。您必须请求此 URL 以检索下一组 10MB 的数据。如果缺少 next
参数,则表示爬取数据的结束。
skip 参数设置了每次返回的结果块的最大数量。
webhook
参数传递给 /crawl
端点。这将在爬取开始、更新和完成时向指定的 URL 发送 POST 请求。
Webhook 现在将对每个爬取的页面触发,而不仅仅是在最后整个结果结束时触发。
crawl.started
- 当爬取开始时触发。crawl.page
- 对每个爬取的页面触发。crawl.completed
- 当爬取完成时触发,让您知道它已完成(Beta)。**crawl.failed
- 当爬取失败时触发。success
- 如果 webhook 成功爬取页面。type
- 发生的事件类型。id
- 爬取的 ID。data
- 被抓取的数据(数组)。这仅在 crawl.page
上非空,并且如果页面被成功抓取,将包含一个项目。响应与 /scrape
端点的响应相同。error
- 如果 webhook 失败,这将包含错误消息。crawl.completed
事件可能在最后的 crawl.page
事件仍在处理时被触发。我们正在修复这个问题。