Firecrawl Python SDK 是 Firecrawl API 的包装器,帮助你轻松将网站转换为 Markdown。
FIRECRAWL_API_KEY
的环境变量,或者将其作为参数传递给 FirecrawlApp
类。scrape_url
方法。它接受 URL 作为参数,并返回抓取到的数据作为字典。
crawl_url
方法。它接受起始 URL 和可选参数作为参数。params
参数允许你指定爬取作业的其他选项,例如要爬取的最大页面数、允许的域和输出格式。
crawl_url_async
方法。它返回爬取作业的 ID
,你可以用它来检查爬取作业的状态。它接受起始 URL 和可选参数作为参数。params
参数允许你指定爬取作业的其他选项,例如要爬取的最大页面数、允许的域和输出格式。
check_crawl_status
方法。它接受作业 ID 作为参数,并返回爬取作业的当前状态。
cancel_crawl
方法。它接受异步爬取作业的作业 ID 作为参数,并返回取消状态。
map_url
生成网站的 URL 列表。params
参数允许你自定义绘图过程,包括排除子域或利用站点地图的选项。
crawl_url_and_watch
方法。它接受起始 URL 和可选参数作为参数。params
参数允许你指定爬取作业的其他选项,例如要爬取的最大页面数、允许的域和输出格式。