注意:此集成仍在使用 v0 版本的 Firecrawl API。你可以安装 Python SDK 的 0.0.20 版本或 Node SDK 的 0.0.36 版本。
pip install firecrawl-py==0.0.20
你需要获取自己的 API 密钥。请参见 https://firecrawl.dev
from langchain_community.document_loaders import FireCrawlLoader
loader = FireCrawlLoader(
api_key="YOUR_API_KEY", url="https://firecrawl.dev", mode="crawl"
)
docs = loader.load()
Scrape: 抓取单个 URL 并返回 Markdown。
Crawl: 抓取 URL 及其所有可访问的子页面,并返回每个页面的 Markdown。
loader = FireCrawlLoader(
api_key="YOUR_API_KEY",
url="https://firecrawl.dev",
mode="scrape",
)
data = loader.load()
爬虫选项
你还可以向加载器传递参数。这是一个字典形式的选项,传递给爬虫。更多信息请参阅 FireCrawl API 文档。
Langchain JS
要在 Langchain JS 中使用它,你可以通过 npm 安装:
npm install @mendableai/firecrawl-js
然后,你可以这样使用它:
import { FireCrawlLoader } from "langchain/document_loaders/web/firecrawl";
const loader = new FireCrawlLoader({
url: "https://firecrawl.dev", // 要抓取的 URL
apiKey: process.env.FIRECRAWL_API_KEY, // 可选,默认为环境变量中的 `FIRECRAWL_API_KEY`。
mode: "scrape", // 运行爬虫的模式。可以是 "scrape"(用于单个 URL)或 "crawl"(用于所有可访问的子页面)
params: {
// 根据 Firecrawl API 文档的可选参数
// 查看 API 文档,请访问 https://docs.firecrawl.dev
},
});
const docs = await loader.load();