
欢迎使用 Firecrawl
Firecrawl 是一个 API 服务,它接受一个 URL,抓取并转换为干净的 markdown。我们会抓取所有可访问的子页面,为您提供每个页面的干净 markdown。无需站点地图。如何使用?
我们提供了易于使用的 API 和托管版本。您可以在 这里 找到游乐场和文档。如果您愿意,也可以自行托管后端。 以下是开始使用的资源:- API: 文档
- SDKs: Python, Node, Go, Rust
- LLM 框架: Langchain (python), Langchain (js), Llama Index, Crew.ai, Composio, PraisonAI, Superinterface, Vectorize
- 低代码框架: Dify, Langflow, Flowise AI, Cargo, Pipedream
- 其他: Zapier, Pabbly Connect
API 密钥
要使用 API,您需要在Firecrawl上注册并获取一个 API 密钥。功能
- 抓取: 抓取 URL 并以 LLM 准备就绪的格式(markdown、结构化数据通过LLM 提取、截图、html)获取其内容
- 爬虫: 抓取网页的所有 URL 并返回 LLM 准备就绪的格式的内容
- 地图: 输入一个网站并获取所有网站 URL - 非常快速
- 提取: 使用 AI 从单个页面、多个页面或整个网站获取结构化数据。
强大的功能
- LLM 准备就绪的格式: markdown、结构化数据、截图、HTML、链接、元数据
- 硬核功能: 代理、反机器人机制、动态内容(js 渲染)、输出解析、编排
- 可定制性: 排除标签、使用自定义头部在认证墙后面爬取、最大爬取深度等…
- 媒体解析: pdfs、docx、图像。
- 可靠性第一: 设计用于获取您需要的数据——无论有多难。
- 操作: 点击、滚动、输入、等待等操作,然后再提取数据
爬虫
用于抓取一个 URL 及其所有可访问的子页面。这将提交一个爬虫任务并返回一个作业 ID,以便检查爬虫的状态。安装
使用
async crawl
函数,这将返回一个ID
,您可以使用该 ID 来检查爬虫的状态。
检查爬虫任务
用于检查爬虫任务的状态并获取其结果。响应
根据爬虫的状态,响应将有所不同。对于未完成或超过 10MB 的大响应,会提供next
URL 参数。您必须请求此 URL 以检索下一批 10MB 的数据。如果缺少next
参数,则表示爬虫数据的结束。
抓取
要抓取单个 URL,请使用scrape_url
方法。它接受 URL 作为参数并返回抓取的数据作为字典。
响应
SDK 将直接返回数据对象。cURL 将返回如下所示的有效载荷。提取
使用 LLM 提取,您可以轻松地从任何 URL 中提取结构化数据。我们支持 pydantic 模式,以便让您更容易使用。以下是如何使用它的方法: v1 目前仅在 node、python 和 cURL 上受支持。JSON
无模式提取(新功能)
您现在可以通过仅传递一个prompt
到端点来进行无模式提取。llm 选择数据的结构。
JSON