艾倫研究所與華盛頓大學推出OpenScholar，用小引數超越GPT-4o

近幾十年來，全球科學研究的進展促使論文數量迅猛增長，每年有數百萬篇研究成果被髮表，這一方面為科研人員提供了豐富的參考資源，推動了知識的積累和共享，但另一方面，也帶來了難以應對的資訊過載問題。科研人員面對如此龐大的文獻量，往往難以快速找到高質量、相關性強的研究，從而影響了科研效率和創新。

直到人工智慧憑藉其能力給這一問題帶來解決方案。從最初的嚐鮮與不信任，再到現在逐漸融入科研日常，越來越多的研究人員開始使用 ChatGPT、Perplexity 等 AI 工具來進行文獻檢索和資訊綜合。

然而，這些通用模型在處理科學問題時往往存在生成幻覺、成本高昂以及引數規模過大的缺陷，限制了它們在科學領域的適用性。

為此，由艾倫人工智慧研究所 (Ai2) 和華盛頓大學合作，開發了一個針對科研的開源模型 OpenScholar。

作為一種“檢索增強型語言模型”（Retrieval-Augmented Language Model），它將尖端檢索系統與經過微調的語言模型相結合，旨在應對科學查詢時能夠檢索出相關文獻並生成帶有真實引用的綜合性回答，其核心架構由以下部分構成。

就其資料儲存而言，主要包含來自 Semantic Scholar 的 4500 萬篇開放獲取的論文和約 2.5 億個相應的段落嵌入。這些資料來自 peS2o 的更新版本其中包含截至 2024 年 10 月的論文，是目前科學領域最大的開源資料庫之一。

每篇文獻都被分割為獨立的段落，並透過嵌入技術進行向量化處理，使模型可以根據查詢高效地檢索到最相關的內容。相比於通常只依靠訓練資料的語言模型，OpenScholar 能夠較大程度地克服許多傳統模型存在的“幻覺”（即生成不存在或錯誤引用）的不足，提升內容的可信度和引用的準確性。

在檢索時，模型會利用經過專門訓練的檢索器（OpenScholar-Retriever）從中找到與查詢最相關的文獻段落。檢索器的初始候選段落由雙編碼器（bi-encoder）進行預篩選，然後透過交叉編碼器（cross-encoder）進行重排，以確保檢索結果的準確性和相關性。

雙編碼器主要用於對文獻段落和查詢進行編碼，並透過計算餘弦相似度來進行初步篩選，生成候選段落集合。接下來，交叉編碼器會對每個候選段落與查詢進行聯合編碼，以捕捉更深層次的語義關聯，從而生成更精確的重排分數。這種組合使用雙編碼器和交叉編碼器的方式，既保證了初步檢索的速度，又確保了最終返回段落的質量。

接下來，經過篩選的文獻段落會被傳遞給 OpenScholar 的生成模組——一個經過專門訓練的 Llama 3.1 8B 引數語言模型。該模型結合上下文段落與輸入的科研問題，生成初步的回答。在生成回答後，OpenScholar 引入了一種自我反饋機制。

這種自我反饋迭代過程被稱為檢索增強的自我反饋推理，它包含三個主要步驟：（1）初步回答生成及反饋生成，（2）基於反饋的檢索與迭代改進，以及（3）引用驗證。

首先，初步回答生成及反饋生成的步驟中，模型不僅生成對問題的回答，還會生成一系列自然語言的反饋，這些反饋包含對初步回答中可能存在的問題的描述，例如需要補充哪些細節、改進哪些組織結構等。

其次，在基於反饋的檢索與迭代改進階段，模型使用生成的反饋來檢索更多相關文獻，進一步完善回答內容。最後，在引用驗證階段，模型會對回答中的每個引用進行核查，以確保每個科學論斷都有足夠的文獻支援。

為了評估 OpenScholar 的效能，研究團隊開發了首個跨學科的大規模文獻檢索基準—ScholarQABench，涵蓋了計算機科學、物理學、神經科學和生物醫學等領域，共包括 2967 個專家編寫的問題和 208 個長篇回答。

與現有系統相比，OpenScholar 表現出顯著優勢。在測試中，OpenScholar-8B 的回答準確度超過了 GPT-4o 模型 5%，比基於 GPT-4o 構建的 PaperQA2 高出 7%。

在回答開放式研究問題時，團隊發現 GPT-4o 在 78%–90% 的情況下會生成虛假的引用，OpenScholar 卻達到了與人類專家相當的引用準確度。

值得一提的是，OpenScholar 的資料儲存、檢索器和重新排序模型以及自反饋生成管道還可以應用於其他現成的語言模型。將其應用在 GPT-4o 時，模型的準確度提高了 12%。

另外，專家評審中，在對比模型生成的回答與人類專家編寫的回答時，51% 的情況下，專家更傾向於 OpenScholar-8B 的回答，而 OpenScholar 結合 GPT-4o 的版本更是達到了 70% 的偏好率，遠超 GPT-4o 的 32%。

不過，在剩餘的 30% 的情況中，模型也存在未能引用基礎論文或選擇代表性較低的研究等不足。

另外，由於該模型的資料主要來自於開放獲取論文，這在一定程度上限制了它在一些高風險領域（如製藥業）的應用，因為這些領域的大部分研究是付費獲取的。且其生成成果在很大程度上依賴於檢索資料的質量。如果檢索步驟失敗，整個流程可能會產生次優的結果。

所以，這類人工智慧工具的存在，依舊是為了增強而非取代人類的專業知識。它的目標是透過處理耗時的文獻綜合任務來幫助研究人員，使他們能夠專注於解釋和推進知識。

目前，OpenScholar 的程式碼、模型、資料儲存、評估工具等已全部開源（專案地址：https://github.com/AkariAsai/OpenScholar）。

參考資料：

1. https://openscholar.allen.ai/paper

2. https://allenai.org/blog/openscholar

3.https://venturebeat.com/ai/openscholar-the-open-source-a-i-thats-outperforming-gpt-4o-in-scientific-research/

運營/排版：何晨龍