集成
Llamaindex
集成
Llamaindex
Firecrawl 集成了 LlamaIndex 作为文档阅读器。
注意:此集成仍在使用 v0 版本的 Firecrawl API。您可以安装 Python SDK 的 0.0.20 版本或 Node SDK 的 0.0.36 版本。
安装
pip install firecrawl-py==0.0.20 llama_index llama-index llama-index-readers-web
用法
使用 FireCrawl 爬取整个网站
from llama_index.readers.web import FireCrawlWebReader
from llama_index.core import SummaryIndex
import os
# 初始化 FireCrawlWebReader 以爬取网站
firecrawl_reader = FireCrawlWebReader(
api_key="<your_api_key>", # 用您在 https://www.firecrawl.dev/ 上的实际 API 密钥替换
mode="scrape", # 选择 "crawl" 和 "scrape" 进行单页抓取
params={"additional": "parameters"} # 可选的额外参数
)
# 设置虚拟密钥的环境变量
os.environ["OPENAI_API_KEY"] = "<OPENAI_API_KEY>"
# 从单个页面 URL 加载文档
documents = firecrawl_reader.load_data(url="http://paulgraham.com/")
index = SummaryIndex.from_documents(documents)
# 将日志级别设置为 DEBUG 以获取更详细的输出
query_engine = index.as_query_engine()
response = query_engine.query("作者小时候做了什么?")
display(Markdown(f"<b>{response}</b>"))
使用 FireCrawl 抓取单个页面
from llama_index.readers.web import FireCrawlWebReader
# 使用您的 API 密钥和所需模式初始化 FireCrawlWebReader
firecrawl_reader = FireCrawlWebReader(
api_key="<your_api_key>", # 用您在 https://www.firecrawl.dev/ 上的实际 API 密钥替换
mode="scrape", # 选择 "crawl" 和 "scrape"
params={"additional": "parameters"} # 可选的额外参数
)
# 从指定 URL 加载文档
documents = firecrawl_reader.load_data(url="http://paulgraham.com/worked.html")
index = SummaryIndex.from_documents(documents)
# 将日志级别设置为 DEBUG 以获取更详细的输出
query_engine = index.as_query_engine()
response = query_engine.query("作者小时候做了什么?")
display(Markdown(f"<b>{response}</b>"))
On this page