時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

UCLA華人提出全新自我對弈機制!LLM自己訓自己,效果碾壓GPT-4專家指導

2024-02-02 19:29:42

新智元報道

編輯:潤

【新智元導讀】來自UCLA的華人團隊提出一種全新的LLM自我對弈系統,能夠讓LLM自我合成數據,自我微調提升效能,甚至超過了用GPT-4作為專家模型指導的效果。

合成數據已經成為了大語言模型進化之路上最重要的一塊基石了。

在去年底,有網友扒出前OpenAI首席科學家Ilya曾經在很多場合表示過,LLM的發展不存在資料瓶頸,合成數據可以解決大部分的問題。

英偉達高階科學家Jim Fan在看了最近的一批論文後也認為,使用合成數據,再加上傳統用於遊戲和影象生成的技術思路,可以讓LLM完成大幅度的自我進化。

而正式提出這個方法的論文,是由來自UCLA的華人團隊。

論文地址:https://arxiv.org/abs/2401.01335v1

他們透過自我對弈機制(SPIN)生成合成資料,再透過自我微調的方法,不使用新的資料集,讓效能較弱的LLM在Open LLM Leaderboard Benchmark上將平均分從58.14提升至63.16。

研究人員提出了一種名為SPIN的自我微調的方法,透過自我對弈的方式——LLM與其前一輪迭代版本進行對抗,從而逐步提升語言模型的效能。

這樣就無需額外的人類標註資料或更高階語言模型的反饋,也能完成模型的自我進化。

主模型和對手模型的引數完全一致。用兩個不同的版本進行自我對弈。

對弈過程用公式可以概括為:

自我對弈的訓練方式,總結起來思路大概是這樣:

透過訓練主模型來區分對手模型生成的響應和人類目標響應,對手模型是輪迭代獲得的語言模型,目標是生成儘可能難以區分的響應。

假設第t輪迭代得到的語言模型引數為θt,則在第t+1輪迭代中,使用θt作為對手玩家,針對監督微調資料集中每個prompt x,使用θt生成響應y。

然後最佳化新語言模型引數θt+1,使其可以區分y和監督微調資料集中人類響應y。如此可以形成一個漸進的過程,逐步逼近目標響應分佈。

這裡,主模型的損失函式採用對數損失,考慮y和y的函式值差。

對手模型加入KL散度正則化,防止模型引數偏離太多。

具體的對抗博弈訓練目標如公式4.7所示。從理論分析可以看出,當語言模型的響應分佈等於目標響應分佈時,最佳化過程收斂。

如果使用對弈之後生成的合成數據進行訓練,再使用SPIN進行自我微調,能有效提高LLM的效能。

但之後在初始的微調資料上再次簡單地微調卻又會導致效能下降。

而SPIN僅需要初始模型本身和現有的微調資料集,就能使得LLM透過SPIN獲得自我提升。

特別是,SPIN甚至超越了透過DPO使用額外的GPT-4偏好資料訓練的模型。

而且實驗還表明,迭代訓練比更多epoch的訓練能更加有效地提升模型效能。

延長單次迭代的訓練持續時間不會降低SPIN的效能,但會達到極限。

迭代次數越多,SPIN的效果的就越明顯。

網友在看完這篇論文之後感嘆:

合成數據將主宰大語言模型的發展,對於大語言模型的研究者來說將會是非常好的訊息!

自我對弈讓LLM能不斷提高

具體來說,研究人員開發的SPIN系統,是由兩個相互影響的模型相互促進的系統。

用表示的前一次迭代t的LLM,研究人員使用它來生成對人工註釋的SFT資料集中的提示x的響應y。

接下來的目標是找到一個新的LLM,能夠區分生成的響應y和人類生成的響應y。

這個過程可以看作是一個兩人遊戲:

主要玩家或新的LLM試圖辨別對手玩家的響應和人類生成的響應,而對手或舊的LLM生成響應與人工註釋的SFT資料集中的資料儘可能相似。

透過對舊的進行微調而獲得的新LLM更喜歡的響應,從而產生與更一致的分佈。

在下一次迭代中,新獲得的LLM成為響應生成的對手,自我對弈過程的目標是LLM最終收斂到,使得最強的LLM不再能夠區分其先前生成的響應版本和人類生成的版本。

如何使用SPIN提升模型效能

研究人員設計了個兩人遊戲,其中主要模型的目標是區分LLM生成的響應和人類生成的響應。與此同時,對手的作用是產生與人類的反應無法區分的反應。研究人員的方法的核心是訓練主要模型。

首先說明如何訓練主要模型來區分LLM的回覆和人類的回覆。

研究人員方法的核心是自我博弈機制,其中主玩家和對手都是相同的LLM,但來自不同的迭代。

更具體地說,對手是上一次迭代中的舊LLM,而主玩家是當前迭代中要學習的新LLM。在迭代t+1時包括以下兩個步驟:(1)訓練主模型,(2)更新對手模型。

訓練主模型

首先,研究人員將說明如何訓練主玩家區分LLM反應和人類反應。受積分機率度量(IPM)的啟發,研究人員制定了目標函式:

更新對手模型

對手模型的目標是找到更好的LLM,使其產生的響應與主模型的p資料無異。

實驗

SPIN有效提升基準效能

研究人員使用HuggingFace Open LLM Leaderboard作為廣泛的評估來證明 SPIN的有效性。

在下圖中,研究人員將經過0到3次迭代後透過SPIN微調的模型與基本模型zephyr-7b-sft-full的效能進行了比較。

研究人員可以觀察到,SPIN透過進一步利用SFT資料集,在提高模型效能方面表現出了顯著的效果,而基礎模型已經在該資料集上進行了充分的微調。

在第0次迭代中,模型響應是從zephyr-7b-sft-full生成的,研究人員觀察到平均得分總體提高了2.66%。

在TruthfulQA和GSM8k基準測試中,這一改進尤其顯著,分別提高了超過5%和10%。

在迭代1中,研究人員採用迭代0中的LLM模型來生成SPIN的新響應,遵循演算法1中概述的過程。

此迭代平均產生1.32%的進一步增強,在Arc Challenge和TruthfulQA基準測試中尤其顯著。

隨後的迭代延續了各種任務增量改進的趨勢。同時,迭代t+1時的改進自然更小

zephyr-7b-beta是從zephyr-7b-sft-full衍生出來的模型,使用DPO在大約62k個偏好資料上訓練而成。

研究人員注意到,DPO需要人工輸入或高階語言模型反饋來確定偏好,因此資料生成是一個相當昂貴的過程。

相比之下,研究人員的SPIN只需要初始模型本身就可以。

此外,與需要新資料來源的DPO不同,研究人員的方法完全利用現有的SFT資料集。

下圖顯示了SPIN在迭代0和1(採用50k SFT資料)與DPO訓練的效能比較。

研究人員可以觀察到,雖然DPO利用了更多新來源的資料,但基於現有SFT資料的SPIN從迭代1開始,SPIN甚至超過了DPO的效能、SPIN在排行榜基準測試中的表現甚至超過了DPO。

參考資料:

https://arxiv.org/abs/2401.01335v1

熱門資訊
  • 前沿生物:在研專案覆蓋長效抗HIV病毒藥物、小核酸藥物和高階仿製藥 | 2024-11-26 07:59:20
  • Neuralink獲准進行新試驗,探索“意念操控機械臂” | 2024-11-26 07:59:25
  • 美積電,差點意思 | 2024-11-26 07:59:28
  • 訊息稱英偉達 2025 年 1 月 29 日前釋出 RTX 5090 D 顯示卡 | 2024-11-26 08:11:07
  • 英偉達展示人工智慧新模型 能修改聲音生成新聲音 | 2024-11-26 08:12:20
  • NASA核動力直升機將前往土衛六 SpaceX 2028年負責發射 | 2024-11-26 08:12:28
  • 京東宣告:部分造謠抹黑京東者已被公安機關處罰 | 2024-11-26 08:20:20
  • 亞馬遜正部署10萬顆二代自研晶片,挑戰行業壟斷 | 2024-11-26 08:20:24
  • 特朗普不補貼電車 加州:我補 但不含特斯拉 | 2024-11-26 08:26:47
  • SpaceX摘獲NASA近2.57億美元大單,計劃 2028 年發射“蜻蜓號” | 2024-11-26 08:27:26
  • 曝一加Watch 3將面向全球釋出 最快2025年1月亮相 | 2024-11-26 09:03:36
  • 遊戲效能提高最多 13.23%,華擎 Z890 主機板獲推英特爾 PPM 驅動 | 2024-11-26 09:09:55
  • 哈趣 NEW K2 投影儀:口袋裡的大屏魔法 | 2024-11-26 09:27:36
  • 英特爾醞釀關鍵微碼更新,將修復提升 Arrow Lake 處理器效能 | 2024-11-26 09:40:40
  • 訊息稱三星有望初期獨供英偉達桌面端 RTX 50 系顯示卡 GDDR7 視訊記憶體 | 2024-11-26 09:40:42
  • Nat. Chem. | 中國科大黃漢民教授課題組建立烷基胺動態排序新正規化——Huang-Complex應用研究取得重要進展 | 2024-11-26 09:41:17
  • 國際領先!騰訊CSIG獲CSIG科技進步一等獎:頭髮絲1/50粗細缺陷都能發現 | 2024-11-26 09:44:13
  • 三季度中國膝上型電腦線上TOP10品牌公佈:小米第七 | 2024-11-26 09:46:44
  • 大疆農業釋出 T100 和 T70 系列無人機,標準版套裝價 36999 元起 | 2024-11-26 09:58:31
  • 英偉達RTX 50系顯示卡將採用三星視訊記憶體 最高可達32 Gbps | 2024-11-26 09:58:54
  • 國際空間站又出現問題了!宇航員緊急關閉艙門:“有毒”氣體洩漏 | 2024-11-26 10:24:02
  • Intel酷睿Ultra 200S遊戲效能暴增13.23%!華擎Z890最新PPM驅動助陣 | 2024-11-26 10:30:14
  • 榮耀300 Ultra支援3D超聲波指紋:溼手無憂解鎖 | 2024-11-26 10:30:17
  • 綜合性能均衡的一款人像攝影手機 OPPO Reno13系列評測 | 2024-11-26 10:38:19
  • 綜合性能均衡,OPPO Reno13系列評測 | 2024-11-26 10:41:41
  • 金一南:于敏退休才評院士!何祚庥痛批! | 2024-11-26 10:44:15
  • 傳國產射頻晶片大廠裁員:研發裁了40%,補償N+1 | 2024-11-26 10:44:25
  • 小米米家空調Pro配置公佈:超大風量3分鐘全屋速冷暖 | 2024-11-26 10:49:21
  • 友達將同英國 Smartkem 合作開發新一代可捲曲透明 MicroLED 螢幕 | 2024-11-26 10:49:23
  • 【新工藝】2nm將至,還是蘋果首發 | 2024-11-26 10:58:18
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們