注意:此集成仍在使用 v0 版本的 Firecrawl API。你可以安装 Python SDK 的 0.0.20 版本或 Node SDK 的 0.0.36 版本。

安装

pip install firecrawl-py==0.0.20

使用

你需要获取自己的 API 密钥。请参见 https://firecrawl.dev

from langchain_community.document_loaders import FireCrawlLoader

loader = FireCrawlLoader(
    api_key="YOUR_API_KEY", url="https://firecrawl.dev", mode="crawl"
)

docs = loader.load()

模式

Scrape: 抓取单个 URL 并返回 Markdown。 Crawl: 抓取 URL 及其所有可访问的子页面,并返回每个页面的 Markdown。

loader = FireCrawlLoader(
    api_key="YOUR_API_KEY",
    url="https://firecrawl.dev",
    mode="scrape",
)

data = loader.load()

爬虫选项

你还可以向加载器传递参数。这是一个字典形式的选项,传递给爬虫。更多信息请参阅 FireCrawl API 文档。

Langchain JS

要在 Langchain JS 中使用它,你可以通过 npm 安装:

npm install @mendableai/firecrawl-js

然后,你可以这样使用它:

import { FireCrawlLoader } from "langchain/document_loaders/web/firecrawl";

const loader = new FireCrawlLoader({
  url: "https://firecrawl.dev", // 要抓取的 URL
  apiKey: process.env.FIRECRAWL_API_KEY, // 可选,默认为环境变量中的 `FIRECRAWL_API_KEY`。
  mode: "scrape", // 运行爬虫的模式。可以是 "scrape"(用于单个 URL)或 "crawl"(用于所有可访问的子页面)
  params: {
    // 根据 Firecrawl API 文档的可选参数
    // 查看 API 文档,请访问 https://docs.firecrawl.dev
  },
});

const docs = await loader.load();