LLMs.txt生成器端点介绍(Alpha)📃
/llmstxt
端点允许您将任何网站转换为干净的LLM准备就绪的文本文件。只需提供网址,Firecrawl就会爬取该网站并生成可用于与任何LLM进行训练或分析的llms.txt
和llms-full.txt
文件。
工作原理
LLMs.txt生成器:
- 爬取提供的网址及其链接页面
- 提取干净、有意义的文本内容
- 生成两种格式:
llms.txt
: 简洁总结和关键信息
llms-full.txt
: 更详细的完整文本内容
示例用法
from firecrawl import FirecrawlApp
firecrawl = FirecrawlApp(api_key="your_api_key")
params = {
"maxUrls": 2,
"showFullText": True
}
results = firecrawl.generate_llms_text(
url="https://example.com",
params=params
)
if results['success']:
print(f"状态: {results['status']}")
print(f"生成的数据: {results['data']}")
else:
print(f"错误: {results.get('error', '未知错误')}")
关键参数:
- url: 要生成LLMs.txt文件的网站URL
- maxUrls (可选): 要爬取的最大页面数(1-100,默认值:10)
- showFullText (可选): 除了
llms.txt
外,还生成llms-full.txt
(默认值:false)
有关更多详细信息,请参见API参考。
检查生成状态
LLMs.txt生成是异步进行的。进行异步调用并监控状态:
from firecrawl import FirecrawlApp
firecrawl = FirecrawlApp(api_key="your_api_key")
job = firecrawl.async_generate_llms_text(
url="https://example.com",
)
if job['success']:
job_id = job['id']
status = firecrawl.check_generate_llms_text_status("job_id")
print(f"Status: {status['status']}")
if status['status'] == 'completed':
print("LLMs.txt 内容:", status['data']['llmstxt'])
if 'llmsfulltxt' in status['data']:
print("完整文本内容:", status['data']['llmsfulltxt'])
print(f"处理过的 URLs: {len(status['data']['processedUrls'])}")
状态示例
进行中
已完成
已知限制(Alpha)
-
访问限制
只能处理公开可访问的页面。登录保护或付费墙内容不受支持。
-
站点大小
在alpha阶段,我们只允许处理最多5000个URL。
-
Alpha状态
作为一个Alpha功能,输出格式和处理可能会根据反馈而演变。
计费和使用
计费基于处理的URL数量:
- 基础费用:每个处理的URL收费1个积分
- 使用
maxUrls
参数控制URL成本
有反馈或需要帮助吗?发送邮件至 help@firecrawl.dev。