抓取
LLM 提取
通过LLM从页面中提取结构化数据
使用Firecrawl抓取和提取结构化数据
Firecrawl利用大型语言模型(LLM)高效地从网页中提取结构化数据。以下是操作步骤:
-
模式定义: 使用JSON Schema(遵循OpenAI工具模式)定义要抓取的URL和所需的数据模式。该模式指定了您期望从页面中提取的数据结构。
-
抓取端点: 将URL和模式传递给抓取端点。该端点的文档可以在这里找到: 抓取端点文档
-
结构化数据检索: 以您定义的模式接收抓取到的数据。然后,您可以根据需要在应用程序中使用这些数据或进行进一步处理。
这种方法简化了数据提取过程,减少了手动操作并提高了效率。
提取结构化数据
/scrape(带提取)端点
用于从抓取的页面中提取结构化数据。
输出:
JSON
无模式提取(新功能)
现在可以通过仅传递一个prompt
给端点来进行无模式提取。LLM会选择数据的结构。
输出:
JSON
提取对象
extract
对象接受以下参数:
schema
: 用于提取的模式。systemPrompt
: 用于提取的系统提示。prompt
: 用于无模式提取的提示。