安装
要安装 Firecrawl Python SDK,可以使用 pip:Python
使用
- 从 firecrawl.dev 获取一个 API 密钥
- 将 API 密钥设置为名为
FIRECRAWL_API_KEY
的环境变量,或者将其作为参数传递给FirecrawlApp
类。
Python
抓取 URL
要抓取单个 URL,请使用scrape_url
方法。它接受 URL 作为参数,并返回抓取到的数据作为字典。
Python
爬取网站
要爬取网站,请使用crawl_url
方法。它接受起始 URL 和可选参数作为参数。params
参数允许你指定爬取作业的其他选项,例如要爬取的最大页面数、允许的域和输出格式。
Python
异步爬取
要异步爬取网站,请使用crawl_url_async
方法。它返回爬取作业的 ID
,你可以用它来检查爬取作业的状态。它接受起始 URL 和可选参数作为参数。params
参数允许你指定爬取作业的其他选项,例如要爬取的最大页面数、允许的域和输出格式。
Python
检查爬取状态
要检查爬取作业的状态,请使用check_crawl_status
方法。它接受作业 ID 作为参数,并返回爬取作业的当前状态。
Python
取消爬取
要取消异步爬取作业,请使用cancel_crawl
方法。它接受异步爬取作业的作业 ID 作为参数,并返回取消状态。
Python
绘制网站图
使用map_url
生成网站的 URL 列表。params
参数允许你自定义绘图过程,包括排除子域或利用站点地图的选项。
Python
使用 WebSockets 爬取网站
要使用 WebSockets 爬取网站,请使用crawl_url_and_watch
方法。它接受起始 URL 和可选参数作为参数。params
参数允许你指定爬取作业的其他选项,例如要爬取的最大页面数、允许的域和输出格式。
Python