当前位置：首页 > 工具系统 > 其他工具 > RAG进阶之通用文档处理：从RAGFlow、TextMonkey到mPLUG-DocOwl 1.5

RAG进阶之通用文档处理：从RAGFlow、TextMonkey到mPLUG-DocOwl 1.5

时间：2024-05-05 07:05:21 来源：网络cs 作者：焦糖栏目：其他工具阅读：4

标签：处理通用

1.1 允许用户上传并管理自己的文档(文档类型可以是任意类型)

首先， RAGFlow 是一款完整的 RAG 解决方案，它允许用户上传并管理自己的文档，文档类型可以是任意类型，例如 PDF、Word、PPT、Excel、当然也包含 TXT，在完成智能解析之后，让数据以正确地格式进入到数据库，然后用户可以采用任意大模型对自己上传的文档进行提问。也就是说，包含了如下完整的端到端流程

1.2 基于 AI 模型的智能文档处理系统

其次，RAGFlow 的最大特色，就是多样化的文档智能处理，保证用户的数据从 Garbage In Garbage Out 变为 Quality In Quality Out

为了做到这一点， RAGFlow 没有采用现成的 RAG 中间件，而是完全重新研发了一套智能文档理解系统，并以此为依托构建 RAG 任务编排体系

这个系统的特点包含以下4个点

1.2.1 AI 模型的智能文档处理系统

它是一套基于 AI 模型的智能文档处理系统：对于用户上传的文档，它需要自动识别文档的布局，包括标题，段落，换行等等，还包含难度很大的图片和表格。

对于表格来说，不仅仅要识别出文档中存在表格，还会针对表格的布局做进一步识别，包括内部每一个单元格，多行文字是否需要合并成一个单元格，等等，并且表格的内容还会结合表头信息处理，确保以合适的形式送到数据库，从而完成 RAG 针对这些细节数字的“大海捞针”

1.2.2 包含各种不同模板的智能文档处理系统

它是一套包含各种不同模板的智能文档处理系统：不同行业不同岗位所用到的文档不同，行文格式不同，对文档查阅的需求也不同。比如：

会计一般最常接触到的凭证，发票，Excel报表
查询的一般都是数字，如：看一下上月十五号发生哪些凭证，总额多少？上季度资产负债表里面净资产总额多少？合同台账中下个月有哪些应付应收？作为一个HR平时接触最庞杂的便是候选人简历
且查询最多的是列表查询，如：人才库中985/211的3到5年的算法工程师有哪些？985 硕士以上学历的人员有哪些？赵玉田的微信号多少？香秀哪个学校的来着？作为科研工作者接触到最多的可能是就是论文了，快速阅读和理解论文，梳理论文和引文之间的关系成了他们的痛点

这样看来凭证/报表、简历、论文的文档结构是不一样的，查询需求也是不一样的，那处理方式肯定是不一样。因此RAGFlow 在处理文档时，给了不少的选择：Q&A，Resume，Paper，Manual，Table，Book，Law，通用(当然，这些分类还在不断继续扩展中，处理过程还有待完善)...

1.2.3 智能文档处理的可视化和可解释性

智能文档处理的可视化和可解释性：用户上传的文档到底被处理成啥样了，如：分割了多少片，各种图表处理成啥样了，毕竟任何基于 AI 的系统只能保证大概率正确，作为系统有必要给出这样的空间让用户进行适当的干预，作为用户也有把控的需求，黑箱不敌白箱

特别是对于 PDF，行文多种多样，变化多端，而且广泛流行于各行各业，对于它的把控尤为重要，RAGFlow不仅给出了处理结果，而且可以让用户查看文档解析结果并一次点击定位到原文，对比和原文的差异，可增可减可改可查

1.2.4 让用户随时查看 LLM 是基于哪些原文来生成答案的

最后， RAGFlow 是一个完整的 RAG 系统，而目前开源的 RAG，大都忽视了 RAG 本身的最大优势之一：可以让 LLM 以可控的方式回答问题，或者换种说法：有理有据、消除幻觉

我们都知道，随着模型能力的不同，LLM 多少都会有概率会出现幻觉，在这种情况下，一款 RAG 产品应该随时随地给用户以参考，让用户随时查看 LLM 是基于哪些原文来生成答案的，这需要同时生成原文的引用链接，并允许用户的鼠标 hover 上去即可调出原文的内容，甚至包含图表。如果还不能确定，再点一下便能定位到原文

// 待更

第二部分通用文档理解：多模态大模型TextMonkey

// 待更

第三部分阿里7B多模态文档处理系统：mPLUG-DocOwl 1.5

// 待更

参考文献与推荐阅读

端到端 RAG 解决方案 RAGFlow 正式开源通用文档理解新SOTA，多模态大模型TextMonkey来了阿里7B多模态文档理解大模型拿下新SOTA｜开源...

本文链接：https://www.kjpai.cn/news/2024-05-05/164934.html，文章来源：网络cs，作者：焦糖，版权归作者所有，如需转载请注明来源和作者，否则将追究法律责任！

上一篇：国内主要激光雷达公司产品简介

下一篇：返回列表

跨境派

RAG进阶之通用文档处理：从RAGFlow、TextMonkey到mPLUG-DocOwl 1.5

1.2 基于 AI 模型的智能文档处理系统

1.2.1 AI 模型的智能文档处理系统

1.2.2 包含各种不同模板的智能文档处理系统

1.2.3 智能文档处理的可视化和可解释性

1.2.4 让用户随时查看 LLM 是基于哪些原文来生成答案的

第二部分通用文档理解：多模态大模型TextMonkey

第三部分阿里7B多模态文档处理系统：mPLUG-DocOwl 1.5

参考文献与推荐阅读

相关文章

文章评论

RAG进阶之通用文档处理：从RAGFlow、TextMonkey到mPLUG-DocOwl 1.5

1.2 基于 AI 模型的智能文档处理系统

1.2.1 AI 模型的智能文档处理系统

1.2.2 包含各种不同模板的智能文档处理系统

1.2.3 智能文档处理的可视化和可解释性

1.2.4 让用户随时查看 LLM 是基于哪些原文来生成答案的

第二部分 通用文档理解：多模态大模型TextMonkey

第三部分 阿里7B多模态文档处理系统：mPLUG-DocOwl 1.5

参考文献与推荐阅读

相关文章

文章评论

第二部分通用文档理解：多模态大模型TextMonkey

第三部分阿里7B多模态文档处理系统：mPLUG-DocOwl 1.5