當前位置: 華文頭條 > 推薦

我們為什麽放棄傳統RAG?實測案例告訴你,多模態RAG有多強!

2025-05-10推薦

基於文本的傳統 RAG 缺陷

我們團隊近期主要在做兩件事:

  1. 已有的文本知識庫產品進行客戶交付以及提供一些咨詢服務
  2. 正在研發一款多模態 RAG 產品

在基於文本的知識庫實際企業落地過程中,客戶反饋最大的問題還是 準確率不足 。出現準確略不足的最主要原因還是資料來源的復雜性,文件中存在圖片、表格、頁首頁尾、邊框等都會影響到輸出的準確性。即使在 RAGFlow 的 DeepDOC 和三方視覺模型加持下仍然時有問題出現。

舉個簡單的例子,以下是一份 PDF 文件,內容為一個計畫的開發排期表:

用基於文本的知識庫去提問「排期工作量共有多少天?」,市面上常見的一些文本知識庫產品大多難以準確回復,回答的結果千奇百怪。 本質的原因在於 RAG 從文件解析、內容切分、向量化、檢索召回任意過程都可能存在資訊遺失

多模態業界方向

準確率是 RAG 系統極為重要的一個指標,我們查閱國內外相關的一些論文和博文,挑出一些價值較高的觀點分享給大家。

首先分享下來自 The Rise and Evolution of RAG in 2024 A Year in Review | RAGFlow,含金量很高,節選內容如下:

回到 RAG 本身,如果我們能夠使用 RAG 根據使用者查詢在大量 PDF 中尋找包含答案的影像和文本,那麽我們就可以使用 VLM 生成最終答案。這就是多模態 RAG 的意義所在;它超越了對日常物品進行簡單的影像搜尋。

為了實作這一點,如前所述,一種方法是使用模型將多模態文件轉換為文本,然後再進行索引以供檢索。另一種方法利用 VLM 的進步,直接生成向量,繞過復雜的 OCR 過程。一個先驅範例是 ColPali ,它於 2024 年夏天問世。ColPali 將影像視為 1024 個影像塊,並為每個影像塊生成嵌入,從而有效地將單個影像表示為一個張量。

多模態模型

從上述圖中已經可以看出來多模態的優勢,能夠很深入的 理解文件圖片的語意 ,而不僅僅是透過 OCR 提取文件的內容。

再看下來自微信公眾號文章: 多模態RAG文件檢索競賽前三獲獎方案解讀:MMDocIR/KR任務。

該文章內容說明了 多模態RAG檢索的評測比賽以及對應的前三名獲獎方案。 我們就其中一個方案,詳細說明下。

Task1_MMDocIR任務,使用的方案為:

思路很簡單:

基於影像和VLM文本,使用基於ColQwen的模型生成每一頁的影像和文本嵌入向量,並將這些嵌入向量進行融合。根據文本查詢(即問題)找到查詢嵌入向量。利用延遲互動機制,計算頁面嵌入向量與查詢嵌入向量之間的相似度分數。最終檢索出相似度最高的前5頁。

對於Task2_M2KR任務,根據查詢檔名從維基百科文章中抓取影像(或者你可以選擇使用傳統的OpenCV技術從維基百科截圖中提取影像:檢視extract_images.py),使用基於Transformer的視覺模型(ColQwen2)生成密集嵌入向量,使用 FAISS(IndexFlatL2)對段落影像進行索引;每個查詢檢索出最相關的top-k影像。

透過 ColQwen 模型對影像和文本嵌入向量並融合,檢索時計算查詢向量和嵌入向量的相似度。這樣實作了真正意義上的文本和影像融合,在業務場景上的好處是,可以輸入和輸出圖片和文本,同時還能夠理解圖片。

多模態 RAG 實測效果

基於上述論文中的思路,我們已經實作了 Demo 並驗證其效果。簡單來說: 回復的準確性令人震驚!

案例一( PDF 表格 ):文中開始部份「曝光排期」PDF 文件

效果圖如下,完美回復,這裏我就不再到 RAGFlow 進行對比了,有興趣同學去對比下。

案例二( PDF 圖片 ):輸入一份文件,總結出目錄

源文件:

實測效果, 又是完美還原

案例三( PDF 文本 ):輸入一份讀書筆記文本

實測效果 :文本也不在話下

結論

多模態 RAG 核心優勢在於對圖片以及文字的理解,基於 ColPali 的方案由於省去了 OCR 過程,檢索速度反而非常快。劣勢在於向量化過程高度依賴計算 ,實測至少 4090 以上 GPU 顯卡可以正常在 5s 內解析 5M 左右文件 。另外視覺大模型對於硬體配置要求以及 token 的消耗也遠遠比普通的文本 LLM 大得多。但這些問題對於本地私有化部署問題不大,相比於問答品質的提升,這些問題反而不是那麽重要。

KnowFlow 將會持續在多模態 RAG 方向打造出卓越的產品,為企業知識管理和套用賦能,讓知識真正的流動起來。

參考文獻

  1. 多模態RAG文件檢索競賽前三獲獎方案解讀:MMDocIR/KR任務:https://mp.weixin.qq.com/s/MEgilART1t9KNEi82BScGQ
  2. 2024 年 RAG 的崛起與演變年度回顧:https://ragflow.io/blog/the-rise-and-evolution-of-rag-in-2024-a-year-in-review

關於我們

對大模型&知識圖譜&RAG&文件理解感興趣的,可以關註公眾號:KnowFlow 企業知識庫。