学习如何使用高级选项提升您的Firecrawl抓取效果。
/scrape
端点。
/scrape
端点来抓取PDF链接并获取PDF的文本内容。您可以通过设置parsePDF
为false
来禁用此功能。
/scrape
端点时,您可以使用许多参数来自定义抓取行为。以下是可用的选项:
formats
设置响应中的内容格式array
["markdown", "links", "html", "rawHtml", "screenshot", "json"]
markdown
: 返回抓取内容的Markdown格式。links
: 包括页面上找到的所有超链接。html
: 提供HTML格式的内容。rawHtml
: 提供未经处理的原始HTML内容。screenshot
: 包括页面在浏览器中的截图。json
: 使用LLM从页面中提取结构化信息。["markdown"]
onlyMainContent
获取完整的页面内容作为Markdownboolean
false
以返回完整页面内容。true
includeTags
设置要包含的标签array
excludeTags
设置要排除的标签array
waitFor
integer
- 描述:仅在万不得已时使用。等待指定的毫秒数以加载页面,然后再获取内容。0
timeout
整数
30000
(30秒)<h1>
、<p>
、<a>
和具有类名.main-content
的元素,同时排除任何具有ID#ad
和#footer
的元素。/scrape
端点时,您可以指定用于从页面内容中提取结构化信息的选项,通过extract
参数实现。以下是可用的选项:
对象
字符串
字符串
"提取产品的功能"
object
type
: "screenshot"
fullPage
: 截图是否应为全页还是视口大小?(默认: false
)object
type
: "click"
selector
: 用于查找元素的查询选择器。object
type
: "write"
text
: 要输入的文本。selector
: 输入字段的查询选择器。object
type
: "press"
key
: 要按下的键。object
type
: "scroll"
direction
: 滚动方向 ("up"
或 "down"
)。amount
: 以像素为单位的滚动量。/crawl
端点。此端点允许您指定要爬取的基本 URL,所有可访问的子页面都将被爬取。
next
参数。该参数是下一页结果的 URL。您可以使用此参数获取下一页的结果。
/crawl
端点时,您可以使用请求体参数自定义爬取行为。以下是可用选项:
includePaths
array
["/blog/*", "/products/*"]
excludePaths
array
["/admin/*", "/login/*"]
maxDepth
integer
2
#### limit
整数
10000
allowBackwardLinks
布尔值
example.com/blog/topic
,启用此选项将允许爬取像example.com/blog
或example.com
这样的页面,这些页面在路径层次结构上相对于基URL来说是向后的。false
allowExternalLinks
布尔值
limit
和maxDepth
值停止。false
scrapeOptions
参数。此参数允许您为每个页面自定义抓取行为。
对象
{"formats": ["markdown", "links", "html", "rawHtml", "screenshot"], "includeTags": ["h1", "p", "a", ".main-content"], "excludeTags": ["#ad", "#footer"], "onlyMainContent": false, "waitFor": 1000, "timeout": 15000}
{ "formats": ["markdown"] }
/blog/*
和/products/*
匹配的URL。/admin/*
和/login/*
匹配的URL。/map
映射网站链接/map
端点擅长识别与给定网站上下文相关的URL。此功能对于理解站点的上下文链接环境至关重要,可以极大地帮助进行战略性站点分析和导航规划。
/map
端点,您需要发送一个带有要映射页面URL的GET请求。以下是一个使用curl
的示例:
search
字符串
"blog"
limit
整数
100
ignoreSitemap
布尔值
true
includeSubdomains
布尔值
false