注意:此集成仍在使用 v0 版本的 Firecrawl API。您可以安装 Python SDK 的 0.0.20 版本或 Node SDK 的 0.0.36 版本。

安装

pip install firecrawl-py==0.0.20 llama_index llama-index llama-index-readers-web

用法

使用 FireCrawl 爬取整个网站

from llama_index.readers.web import FireCrawlWebReader
from llama_index.core import SummaryIndex
import os

# 初始化 FireCrawlWebReader 以爬取网站
firecrawl_reader = FireCrawlWebReader(
    api_key="<your_api_key>",  # 用您在 https://www.firecrawl.dev/ 上的实际 API 密钥替换
    mode="scrape",  # 选择 "crawl" 和 "scrape" 进行单页抓取
    params={"additional": "parameters"}  # 可选的额外参数
)

# 设置虚拟密钥的环境变量
os.environ["OPENAI_API_KEY"] = "<OPENAI_API_KEY>"

# 从单个页面 URL 加载文档
documents = firecrawl_reader.load_data(url="http://paulgraham.com/")
index = SummaryIndex.from_documents(documents)

# 将日志级别设置为 DEBUG 以获取更详细的输出
query_engine = index.as_query_engine()
response = query_engine.query("作者小时候做了什么?")
display(Markdown(f"<b>{response}</b>"))

使用 FireCrawl 抓取单个页面

from llama_index.readers.web import FireCrawlWebReader

# 使用您的 API 密钥和所需模式初始化 FireCrawlWebReader
firecrawl_reader = FireCrawlWebReader(
    api_key="<your_api_key>",  # 用您在 https://www.firecrawl.dev/ 上的实际 API 密钥替换
    mode="scrape",  # 选择 "crawl" 和 "scrape"
    params={"additional": "parameters"}  # 可选的额外参数
)

# 从指定 URL 加载文档
documents = firecrawl_reader.load_data(url="http://paulgraham.com/worked.html")
index = SummaryIndex.from_documents(documents)

# 将日志级别设置为 DEBUG 以获取更详细的输出
query_engine = index.as_query_engine()
response = query_engine.query("作者小时候做了什么?")
display(Markdown(f"<b>{response}</b>"))