CrewAI | Firecrawl

在CrewAI中使用Firecrawl

Firecrawl与CrewAI，一个用于协调AI代理的框架集成。本页面介绍了添加到该框架中的所有Firecrawl工具。

pip install firecrawl-py 'crewai[tools]'

如下使用FirecrawlScrapeFromWebsiteTool，以允许您的代理加载网站：

from crewai_tools import FirecrawlCrawlWebsiteTool

tool = FirecrawlCrawlWebsiteTool(url='firecrawl.dev')

api_key: 可选。指定Firecrawl API密钥。默认为FIRECRAWL_API_KEY环境变量。
url: 要开始爬取的基础URL。
page_options: 可选。
- onlyMainContent: 可选。仅返回页面的主要内容，不包括标题、导航栏、页脚等。
- includeHtml: 可选。包括页面的原始HTML内容。将在响应中输出一个html键。
crawler_options: 可选。控制爬取行为的选项。
- includes: 可选。包含在爬取中的URL模式。
- exclude: 可选。从爬取中排除的URL模式。
- generateImgAltText: 可选。使用LLM生成图片的alt文本（需要付费计划）。
- returnOnlyUrls: 可选。如果为真，则只返回URL列表作为爬取状态。注意：响应将是data内的URL列表，而不是文档列表。
- maxDepth: 可选。最大爬取深度。深度1是基础URL，深度2包括基础URL及其直接子项，依此类推。
- mode: 可选。使用的爬取模式。快速模式在没有站点地图的网站上爬取速度提高4倍，但可能不如JavaScript渲染密集型网站准确。
- limit: 可选。要爬取的最大页面数。
- timeout: 可选。爬取操作的超时时间（毫秒）。

如下使用FirecrawlScrapeWebsiteTool，以允许您的代理加载网站：

from crewai_tools import FirecrawlScrapeWebsiteTool

tool = FirecrawlScrapeWebsiteTool(url='firecrawl.dev')

api_key: 可选。指定Firecrawl API密钥。默认为FIRECRAWL_API_KEY环境变量。
url: 要抓取的URL。
page_options: 可选。
- onlyMainContent: 可选。仅返回页面的主要内容，不包括标题、导航栏、页脚等。
- includeHtml: 可选。包括页面的原始HTML内容。将在响应中输出一个html键。
extractor_options: 可选。基于LLM从页面内容中提取结构化信息的选项
- mode: 使用的提取模式，当前支持’llm-extraction’
- extractionPrompt: 可选。描述从页面中提取哪些信息的提示
- extractionSchema: 可选。要提取的数据的模式
timeout: 可选。请求的超时时间（毫秒）

如下使用FirecrawlSearchTool，以允许您的代理加载网站：

from crewai_tools import FirecrawlSearchTool

tool = FirecrawlSearchTool(query='what is firecrawl?')

api_key: 可选。指定Firecrawl API密钥。默认为FIRECRAWL_API_KEY环境变量。
query: 用于搜索的查询字符串。
page_options: 可选。结果格式化选项。
- onlyMainContent: 可选。仅返回页面的主要内容，不包括标题、导航栏、页脚等。
- includeHtml: 可选。包括页面的原始HTML内容。将在响应中输出一个html键。
- fetchPageContent: 可选。获取页面的全部内容。
search_options: 可选。控制爬取行为的选项。
- limit: 可选。要爬取的最大页面数。