为Dify工作流同步网站数据

Firecrawl可以在Dify的LLM工作流构建器中使用。本页介绍了如何从网页中抓取数据,将其解析为Markdown,并使用他们的Firecrawl集成将其导入到Dify知识库中。

配置Firecrawl

首先,您需要在设置页面的数据源部分配置Firecrawl凭证。

登录您的Firecrawl账户并获取您的API Key,然后在Dify中输入并保存它。

抓取目标网页

现在是有趣的部分,抓取和爬取。在知识库创建页面上,选择“从网站同步”并输入要抓取的URL。

配置选项包括:是否爬取子页面、页面爬取限制、页面抓取最大深度、排除路径、仅包含路径以及内容提取范围。完成配置后,点击“运行”以预览解析后的页面。

查看导入结果

将网页解析后的文本导入后,它会存储在知识库文档中。查看导入结果并点击“添加URL”继续导入新的网页。