学习如何使用高级选项改进您的Firecrawl抓取。
/scrape
端点。
/scrape
端点抓取一个PDF链接并获得该PDF的文本内容。您可以通过设置pageOptions.parsePDF
为false
来禁用此功能。
/scrape
端点时,您可以使用pageOptions
参数自定义抓取行为。以下是可用选项:
onlyMainContent
)boolean
false
includeHtml
)boolean
html
键。false
includeRawHtml
)boolean
rawHtml
键。false
screenshot
)boolean
false
waitFor
)integer
0
html
键中包含原始 HTML 内容。/scrape
端点时,可以通过 extractorOptions
参数指定从页面内容中提取结构化信息的选项。以下是可用的选项:
string
["llm-extraction", "llm-extraction-from-raw-html"]
llm-extraction
:从清理和解析后的内容中提取信息。llm-extraction-from-raw-html
:直接从原始 HTML 中提取信息。string
object
timeout
参数(以毫秒为单位)来调整抓取过程的超时时间。
/crawl
端点。此端点允许你指定要爬取的基础 URL,并将爬取所有可访问的子页面。
/crawl
端点时,可以通过 crawlerOptions
参数自定义抓取行为。以下是可用的选项:
includes
array
["/blog/*", "/products/*"]
excludes
array
["/admin/*", "/login/*"]
returnOnlyUrls
boolean
true
,响应将只包含URL列表,而不是完整的文档数据。false
maxDepth
integer
maxDepth
为 0 时仅抓取输入的URL。maxDepth
为 1 时抓取输入的URL及其所有一级页面。maxDepth
为 2 时抓取输入的URL及其所有最多两级的页面。更高的值遵循相同的模式。2
mode
string
["default", "fast"]
fast
模式在没有站点地图的情况下抓取网站速度快4倍,但可能准确性较低,不建议用于重度JavaScript渲染的网站。default
limit
integer
10000
/blog/*
和 /products/*
模式的URL。/admin/*
和 /login/*
模式的URL。pageOptions
和 crawlerOptions
参数来自定义整个抓取行为。
/blog/*
和 /products/*
模式的URL。