开发工具包
Python
Firecrawl Python SDK 是 Firecrawl API 的封装,帮助您轻松将网站转换为 Markdown。
注意:这是使用已弃用的 Firecrawl API v0 版本。我们建议切换到 v1。
安装
要安装 Firecrawl Python SDK,可以使用 pip:
使用
- 从 firecrawl.dev 获取 API 密钥。
- 将 API 密钥设置为环境变量
FIRECRAWL_API_KEY
,或将其作为参数传递给FirecrawlApp
类。
以下是如何使用 SDK 的示例:
抓取 URL
要抓取单个 URL,请使用 scrape_url
方法。它接受 URL 作为参数,并返回抓取的数据作为字典。
从 URL 提取结构化数据
使用 LLM 提取,您可以轻松地从任何 URL 中提取结构化数据。我们支持 pydantic 模式,以使操作更加简便。以下是使用方法:
爬取网站
要爬取网站,请使用 crawl_url
方法。它接受起始 URL 和可选参数作为参数。params
参数允许您指定爬取作业的其他选项,如最大页面数、允许的域名以及输出格式。
wait_until_done
参数决定该方法是否应等待爬取作业完成再返回结果。如果设置为 True
,该方法将定期检查爬取作业的状态,直到完成或达到指定的 timeout
(秒)。如果设置为 False
,该方法将立即返回作业 ID,您可以手动使用 check_crawl_status
方法检查爬取作业的状态。
如果 wait_until_done
设置为 True
,crawl_url
方法将在作业完成后返回爬取结果。如果作业失败或停止,将引发异常。
检查爬取状态
要检查爬取作业的状态,请使用 check_crawl_status
方法。它接受作业 ID 作为参数,并返回当前爬取作业的状态。
搜索查询
用于搜索网络,获取最相关的结果,抓取每个页面并返回 Markdown。
错误处理
SDK 处理 Firecrawl API 返回的错误,并引发适当的异常。如果在请求期间发生错误,将引发带有描述性错误消息的异常。