時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

艾倫研究所與華盛頓大學推出OpenScholar,用小引數超越GPT-4o

2024-11-23 08:29:18

近幾十年來,全球科學研究的進展促使論文數量迅猛增長,每年有數百萬篇研究成果被髮表,這一方面為科研人員提供了豐富的參考資源,推動了知識的積累和共享,但另一方面,也帶來了難以應對的資訊過載問題。科研人員面對如此龐大的文獻量,往往難以快速找到高質量、相關性強的研究,從而影響了科研效率和創新。

直到人工智慧憑藉其能力給這一問題帶來解決方案。從最初的嚐鮮與不信任,再到現在逐漸融入科研日常,越來越多的研究人員開始使用 ChatGPT、Perplexity 等 AI 工具來進行文獻檢索和資訊綜合。

然而,這些通用模型在處理科學問題時往往存在生成幻覺、成本高昂以及引數規模過大的缺陷,限制了它們在科學領域的適用性。

為此,由艾倫人工智慧研究所 (Ai2) 和華盛頓大學合作,開發了一個針對科研的開源模型 OpenScholar。

作為一種“檢索增強型語言模型”(Retrieval-Augmented Language Model),它將尖端檢索系統與經過微調的語言模型相結合,旨在應對科學查詢時能夠檢索出相關文獻並生成帶有真實引用的綜合性回答,其核心架構由以下部分構成。

就其資料儲存而言,主要包含來自 Semantic Scholar 的 4500 萬篇開放獲取的論文和約 2.5 億個相應的段落嵌入。這些資料來自 peS2o 的更新版本其中包含截至 2024 年 10 月的論文,是目前科學領域最大的開源資料庫之一。

每篇文獻都被分割為獨立的段落,並透過嵌入技術進行向量化處理,使模型可以根據查詢高效地檢索到最相關的內容。相比於通常只依靠訓練資料的語言模型,OpenScholar 能夠較大程度地克服許多傳統模型存在的“幻覺”(即生成不存在或錯誤引用)的不足,提升內容的可信度和引用的準確性。

在檢索時,模型會利用經過專門訓練的檢索器(OpenScholar-Retriever)從中找到與查詢最相關的文獻段落。檢索器的初始候選段落由雙編碼器(bi-encoder)進行預篩選,然後透過交叉編碼器(cross-encoder)進行重排,以確保檢索結果的準確性和相關性。

雙編碼器主要用於對文獻段落和查詢進行編碼,並透過計算餘弦相似度來進行初步篩選,生成候選段落集合。接下來,交叉編碼器會對每個候選段落與查詢進行聯合編碼,以捕捉更深層次的語義關聯,從而生成更精確的重排分數。這種組合使用雙編碼器和交叉編碼器的方式,既保證了初步檢索的速度,又確保了最終返回段落的質量。

接下來,經過篩選的文獻段落會被傳遞給 OpenScholar 的生成模組——一個經過專門訓練的 Llama 3.1 8B 引數語言模型。該模型結合上下文段落與輸入的科研問題,生成初步的回答。在生成回答後,OpenScholar 引入了一種自我反饋機制。

這種自我反饋迭代過程被稱為檢索增強的自我反饋推理,它包含三個主要步驟:(1)初步回答生成及反饋生成,(2)基於反饋的檢索與迭代改進,以及(3)引用驗證。

首先,初步回答生成及反饋生成的步驟中,模型不僅生成對問題的回答,還會生成一系列自然語言的反饋,這些反饋包含對初步回答中可能存在的問題的描述,例如需要補充哪些細節、改進哪些組織結構等。

其次,在基於反饋的檢索與迭代改進階段,模型使用生成的反饋來檢索更多相關文獻,進一步完善回答內容。最後,在引用驗證階段,模型會對回答中的每個引用進行核查,以確保每個科學論斷都有足夠的文獻支援。

為了評估 OpenScholar 的效能,研究團隊開發了首個跨學科的大規模文獻檢索基準—ScholarQABench,涵蓋了計算機科學、物理學、神經科學和生物醫學等領域,共包括 2967 個專家編寫的問題和 208 個長篇回答。

與現有系統相比,OpenScholar 表現出顯著優勢。在測試中,OpenScholar-8B 的回答準確度超過了 GPT-4o 模型 5%,比基於 GPT-4o 構建的 PaperQA2 高出 7%。

在回答開放式研究問題時,團隊發現 GPT-4o 在 78%–90% 的情況下會生成虛假的引用,OpenScholar 卻達到了與人類專家相當的引用準確度。

值得一提的是,OpenScholar 的資料儲存、檢索器和重新排序模型以及自反饋生成管道還可以應用於其他現成的語言模型。將其應用在 GPT-4o 時,模型的準確度提高了 12%。

另外,專家評審中,在對比模型生成的回答與人類專家編寫的回答時,51% 的情況下,專家更傾向於 OpenScholar-8B 的回答,而 OpenScholar 結合 GPT-4o 的版本更是達到了 70% 的偏好率,遠超 GPT-4o 的 32%。

不過,在剩餘的 30% 的情況中,模型也存在未能引用基礎論文或選擇代表性較低的研究等不足。

另外,由於該模型的資料主要來自於開放獲取論文,這在一定程度上限制了它在一些高風險領域(如製藥業)的應用,因為這些領域的大部分研究是付費獲取的。且其生成成果在很大程度上依賴於檢索資料的質量。如果檢索步驟失敗,整個流程可能會產生次優的結果。

所以,這類人工智慧工具的存在,依舊是為了增強而非取代人類的專業知識。它的目標是透過處理耗時的文獻綜合任務來幫助研究人員,使他們能夠專注於解釋和推進知識。

目前,OpenScholar 的程式碼、模型、資料儲存、評估工具等已全部開源(專案地址:https://github.com/AkariAsai/OpenScholar)。

參考資料:

1. https://openscholar.allen.ai/paper

2. https://allenai.org/blog/openscholar

3.https://venturebeat.com/ai/openscholar-the-open-source-a-i-thats-outperforming-gpt-4o-in-scientific-research/

運營/排版:何晨龍

熱門資訊
  • 經典力學和電動力學的調和者,狹義相對論的核心:洛倫茲變換! | 2025-02-02 17:45:46
  • 新型 H3 火箭 5 號機發射升空,搭載日本版 GPS 衛星 | 2025-02-02 18:43:01
  • 清華大學張瑩瑩教授AM綜述——用於可穿戴電子的生物高分子基衍生碳材料 | 2025-02-02 19:28:52
  • 門店倉庫“擠滿”已售暫存商品! “國補”帶旺春節檔家電消費|新春永珍錄 | 2025-02-02 20:08:47
  • 用 OLED 怕燒屏,華為新專利“妙手回春” | 2025-02-02 20:14:25
  • 日本科學家又立功!52周讓盲人重見光明,業內:下一個聖地在中國 | 2025-02-02 20:37:15
  • 銘凡推出新款迷你主機:頂配N150晶片 支援三屏顯示 | 2025-02-02 21:56:56
  • DeepSeek,緊急宣告 | 2025-02-07 09:17:53
  • 小米眼鏡官方微博上線,或將在本月釋出產品 | 2025-02-07 09:18:11
  • 2月6日外媒科學網站摘要:網際網路和AI真會讓人記憶減退? | 2025-02-07 09:18:12
  • OpenAI正在為"星際之門"選址,還在強調藉此戰勝中國AI | 2025-02-07 09:18:14
  • 重磅!三大運營商正式上線DeepSeek | 2025-02-07 09:18:15
  • 亞馬遜Q4營收1878億美元 淨利潤200億同比增88.7% | 2025-02-07 09:18:17
  • 地球環境研究所揭示黃土高原土壤有機質累積的微生物學機制方面取得進展 | 2025-02-07 09:18:19
  • 古爾曼: 新iPhone SE最快下週官宣,本月晚些時候上市 | 2025-02-07 09:18:22
  • 微星計劃二季度推出 5 張 AMD B850 主機板新品,包括兩款背插型號 | 2025-02-07 09:19:18
  • 英特爾至強伺服器CPU銷量創14年新低 多條業務線形勢嚴峻 | 2025-02-07 09:19:24
  • 繼退出顯示卡業務後,EVGA 論壇宣佈關閉發帖功能 | 2025-02-07 09:19:27
  • 蘋果 Vision Pro 生態再添一環:手柄專利設計浮出水面 | 2025-02-07 09:19:32
  • 蘋果稱霸全球Pad市場,華為、聯想、小米進前五 | 2025-02-07 09:19:34
  • 蛇年第一款Ultra驚現3.5mm耳機孔!華碩Zenfone 12 Ultra圖賞 | 2025-02-07 09:19:36
  • RTX 5080/5090系列顯示卡玩《絕地求生》崩潰!開發商:建議安裝英偉達最新驅動 | 2025-02-07 09:19:37
  • 榮耀新款智慧手錶真機首曝,支援航班資訊提醒 | 2025-02-07 09:19:39
  • 榮耀朱臣才透露 HUNTER 系列筆記本將搭載 50 系顯示卡 | 2025-02-07 09:19:41
  • 小米下場!DeepSeek催熱“百鏡大戰” 消費電子迎全新機遇 | 2025-02-07 09:24:12
  • 電視王者黯然退場!松下被海信、TCL徹底幹懵了? | 2025-02-07 09:24:18
  • 免費升級?玩家購買RTX 5080公版卡發現上面寫著5090 | 2025-02-07 09:24:20
  • 玩家買到錯版英偉達顯示卡:公版 RTX 5080 用上 RTX 5090 背板 | 2025-02-07 09:24:22
  • NVIDIA幹嘛呢!玩家入手公版RTX 5080 卻打著RTX 5090的標 | 2025-02-07 09:24:26
  • Dream Machines 最早三月底釋出其首款 AMD R9-9955HX3D 遊戲本 | 2025-02-07 09:24:28
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們