Documentation Index
Fetch the complete documentation index at: https://firecrawl.web3doc.top/llms.txt
Use this file to discover all available pages before exploring further.
LLMs.txt生成器端点介绍(Alpha)📃
/llmstxt端点允许您将任何网站转换为干净的LLM准备就绪的文本文件。只需提供网址,Firecrawl就会爬取该网站并生成可用于与任何LLM进行训练或分析的llms.txt和llms-full.txt文件。
工作原理
LLMs.txt生成器:
- 爬取提供的网址及其链接页面
- 提取干净、有意义的文本内容
- 生成两种格式:
llms.txt: 简洁总结和关键信息
llms-full.txt: 更详细的完整文本内容
示例用法
from firecrawl import FirecrawlApp
# 初始化客户端
firecrawl = FirecrawlApp(api_key="your_api_key")
# 定义生成参数
params = {
"maxUrls": 2, # 要分析的最大URL数量
"showFullText": True # 在结果中包含全文
}
# 使用轮询生成 LLMs.txt
results = firecrawl.generate_llms_text(
url="https://example.com",
params=params
)
# 访问生成结果
if results['success']:
print(f"状态: {results['status']}")
print(f"生成的数据: {results['data']}")
else:
print(f"错误: {results.get('error', '未知错误')}")
关键参数:
- url: 要生成LLMs.txt文件的网站URL
- maxUrls (可选): 要爬取的最大页面数(1-100,默认值:10)
- showFullText (可选): 除了
llms.txt外,还生成llms-full.txt(默认值:false)
有关更多详细信息,请参见API参考。
检查生成状态
LLMs.txt生成是异步进行的。进行异步调用并监控状态:
from firecrawl import FirecrawlApp
# 初始化客户端
firecrawl = FirecrawlApp(api_key="your_api_key")
# 创建异步任务
job = firecrawl.async_generate_llms_text(
url="https://example.com",
)
if job['success']:
job_id = job['id']
# 检查 LLMs.txt 生成状态
status = firecrawl.check_generate_llms_text_status("job_id")
# 打印当前状态
print(f"Status: {status['status']}")
if status['status'] == 'completed':
print("LLMs.txt 内容:", status['data']['llmstxt'])
if 'llmsfulltxt' in status['data']:
print("完整文本内容:", status['data']['llmsfulltxt'])
print(f"处理过的 URLs: {len(status['data']['processedUrls'])}")
状态示例
进行中
{
"success": true,
"data": {
"llmstxt": "# Firecrawl.dev llms.txt
- [Web Data Extraction Tool](https://www.firecrawl.dev/)...",
"llmsfulltxt": "# Firecrawl.dev llms-full.txt
"
},
"status": "processing",
"expiresAt": "2025-03-03T23:19:18.000Z"
}
已完成
{
"success": true,
"data": {
"llmstxt": "# http://firecrawl.dev llms.txt
- [Web数据提取工具](https://www.firecrawl.dev/): 轻松将网站转换为干净的、适用于LLM的数据。
- [灵活的网页抓取定价](https://www.firecrawl.dev/pricing): 提供灵活的网页抓取和数据提取定价计划。
- [网页抓取与人工智能](https://www.firecrawl.dev/blog): 浏览有关网页抓取和人工智能的教程和文章...",
"llmsfulltxt": "# http://firecrawl.dev llms-full.txt
## Web数据提取工具
介绍 /extract - 通过提示获取网页数据 [立即尝试](https://www.firecrawl.dev/extract)
[💥购买年度计划可享受2个月免费](https://www.firecrawl.dev/pricing)..."
},
"status": "completed",
"expiresAt": "2025-03-03T22:45:50.000Z"
}
已知限制(Alpha)
-
访问限制
只能处理公开可访问的页面。登录保护或付费墙内容不受支持。
-
站点大小
在alpha阶段,我们只允许处理最多5000个URL。
-
Alpha状态
作为一个Alpha功能,输出格式和处理可能会根据反馈而演变。
计费和使用
计费基于处理的URL数量:
- 基础费用:每个处理的URL收费1个积分
- 使用
maxUrls参数控制URL成本
有反馈或需要帮助吗?发送邮件至 help@firecrawl.dev。