時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

收斂速度最高8倍,準確率提升超30%!華科釋出MoE Jetpack框架 | NeurIPS 2024

2024-11-23 03:32:07

新智元報道

編輯:LRST

【新智元導讀】華中科技大學的研究人員提出了MoE Jetpack框架,通Checkpoint Recycling方法和SpheroMoE結構,將密集啟用模型的預訓練權重微調為混合專家(MoE)模型,從而免去了MoE模型的預訓練過程,大幅提升了MoE在下游任務中的精度和收斂速度。

混合專家模型(MoE, Mixture of Experts)是一種透過動態啟用網路的部分結構來提升計算效率的架構,可以在保持相對穩定的計算成本的前提下大幅增加引數量,從而有效提升模型效能。

這一特性使得MoE能夠兼顧模型的規模與效率,已廣泛應用於各種大規模任務。

然而,MoE模型通常需要在大型資料集上預訓練以獲得理想效能,導致其對時間和計算資源的需求極高,這也限制了其在深度學習社群中的普及性。

為解決這一問題,華中科技大學的研究人員提出了MoE Jetpack框架,利用密集模型的預訓練權重(Dense checkpoints)來微調出視覺混合專家模型(MoE,Mixture of Experts)。

目前,這項工作已被NeurIPS 2024接收。

論文標題:MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks

論文地址: https://arxiv.org/abs/2406.04801

程式碼地址: https://github.com/Adlith/MoE-Jetpack

MoE Jetpack框架的核心創新包括:

1. Checkpoint recycling:透過取樣密集模型權重產生差異化的專家,組成MoE模型的初始化權重,從而加速模型收斂、提升效能,並避免大規模的MoE模型預訓練。

2. SpheroMoE Layer:透過調整MoE結構,利用交叉注意力機制進行專家分配,將query和key投影到超球空間以提升微調過程的穩定性,並透過一系列專家正則化方法有效緩解MoE模型微調過程中的過擬合現象。

實驗結果表明,MoE Jetpack在多個數據集和網路結構上實現了顯著的效能提升。在ImageNet-1K上,模型收斂速度提升2倍,準確率提高了2.8%;在小規模資料集上,收斂速度可達8倍提升,準確率提升超過30%。

圖1 (a)MoE Jetpack將密集預訓練權重轉化為MoE模型的初始化權重,在效能提升的同時保持等效的FLOPs。(b) 未預訓練的ViT、微調的ViT、未預訓練的Soft MoE 與MoE Jetpack在多個視覺資料集上的效能比較。

在多個下游資料集上的實驗表明,該框架能夠高效利用預訓練權重,實現更快的收斂速度和更優的效能表現。

研究方法

MoE Jetpack的核心由兩個階段組成:Checkpoint Recycling(用於MoE模型的初始化)和SpheroMoE層(用於微調MoE模型),如下圖所示。

圖2 Checkpoint Recycling和SpheroMoE結構

Checkpoint Recycling:作為MoE Jetpack的基礎階段,Checkpoint Recycling透過將預訓練的密集模型權重轉換為高質量的MoE初始化權重,使新模型在效能和收斂速度上都得以提升。

具體地,Checkpoint Recycling從密集權重的多層感知器(MLP)中取樣出部分權重構建專家層,以確保專家的多樣性和靈活性。

本文比較了四種主要的權重回收策略:

1. 重要性取樣(Importance-Based Weight Sampling):重要性取樣是 MoE Jetpack 預設的權重取樣方法,透過計算輸出特徵的均值,選擇top-d 個最重要的特徵維度,同時根據隱藏單元的啟用值大小進行獨立取樣。這種方法確保每個專家包含關鍵的特徵和隱藏單元,有助於提升模型的初始化質量和訓練效率。

2. 圖劃分法(Co-Activation Graph Partitioning):圖劃分法透過構建共啟用圖,將常一起啟用的隱藏單元分組,使用圖劃分演算法(如 Metis),將密集權重的隱藏單元劃分成多個子圖,組合不同的子圖形成不同專家層,確保專家專注於不同的功能區域,提升模型的特徵表達能力。

3. 均勻取樣(Uniform Weight Selection):均勻取樣在特徵維度和隱藏單元上均勻選擇權重,保證每個 MoE 專家層均衡分佈初始化權重。此方法實現簡單,但不考慮特徵重要性,因此效能提升效果較為一般。

4. 隨機取樣(Random Weight Sampling):隨機取樣在特徵維度和隱藏單元中隨機抽取,生成專家層的初始化權重。該方法實現簡便,但由於沒有關注特徵的重要性,效能通常較低。

Checkpoint Recycling引入的計算開銷幾乎可以忽略,同時顯著提升模型效能並與收斂速度。

SpheroMoE層

在MoE模型權重初始化後,SpheroMoE層進一步最佳化微調過程。SpheroMoE 層的引入解決了 MoE 模型在最佳化過程中面臨的數值不穩定、專家過度專一等問題。它透過三種機制來提升模型在下游任務的效能和穩定性:

1. 超球路由機制:利用cross attention結構,將輸入動態分配給 MoE 模型的不同專家。這種機制首先對隨機初始化的專家查詢(Q, query)和輸入鍵(K, key)進行歸一化投影(L2 Norm)至超球空間,以確保數值穩定性,並透過餘弦相似度來選擇輸入對應的專家。最終輸出由各個專家的結果組合而成,保證 MoE 模型的輸出特徵和密集模型之間的分佈一致性。

2. 自適應雙路徑MoE:為提升計算效率,SpheroMoE路由將輸入劃分為高重要性和低重要性兩類,並引導其進入不同計算路徑:高重要性輸入分配至包含更大引數量的核心專家;低重要性輸入則進入包含較小專家的通用路徑。這樣的雙路徑結構透過劃分細粒度的專家增加了專家的數量,優化了資源利用,提升了模型的效能與計算效率。

圖3 自適應雙路徑MoE

3. 專家正則化:為避免專家層過度專注於特定輸入或出現過度特化,本文引入可學習的軟溫度引數,用以調整softmax的平滑程度以精確控制輸入的分配和輸出的組合。

此外,使用專家隨機失活機制能有效防止模型對特定專家的依賴。

這些設計使MoE Jetpack在下游任務微調中不僅具備了更快的收斂速度,還實現了顯著的效能提升。

實驗結果

本文在 ViT 和 ConvNeXt 兩種典型網路結構以及八個影象分類任務上進行了廣泛實驗。實驗結果表明,MoE Jetpack 在效能上顯著優於隨機初始化的 Soft MoE 模型,並且利用密集權重的微調效果明顯超過直接微調經過預訓練的密集模型。

表1 MoE Jetpack基於ViT和ConvNeXt在8個下游資料集上的效能表現

此外,論文還對MoE Jetpack的多種配置進行了深入研究,系統分析了不同專家數量、不同原始網路尺寸大小等因素對模型效能的影響。

表2 各種引數量的MoE Jetpack都展示出了顯著的效能提升

下圖展示了微調的全過程中MoE Jetpack對加速模型收斂速度和提升模型效能方面的效果,突顯了其作為 MoE 模型預訓練替代方法的潛力。

圖4 MoE Jetpack帶來了收斂速度提升

專家注意力圖展示了不同的專家關注影象的不同區域,各司其職。專家貢獻分佈圖表明,核心專家和普通專家在不同層次的貢獻差異顯著,展示了模型的自適應路由排程機制。

圖5 專家注意力圖和專家貢獻分佈圖

總結

MoE Jetpack是一個創新框架,旨在將預訓練的密集模型權重高效轉換為MoE模型。透過提出Checkpoint Recycling技術,MoE Jetpack能夠有效繼承密集模型的知識;引入的SpheroMoE 層,顯著提升微調過程的穩定性和效能。

該框架不僅降低了MoE模型的訓練成本和硬體要求,還減少了對環境的影響,使得研究者在普通計算資源下也能輕鬆使用混合專家模型,為MoE的廣泛研究與應用提供了有力支援。

參考資料:

https://arxiv.org/abs/2406.04801

熱門資訊
  • 東南大學李全院士團隊Angew: 基於機械基團誘導自由基聚合的力可訓練型液晶彈性體 | 2025-02-02 08:43:14
  • 上海科技大學劉巍AFM:纖維增強超薄固體聚合物電解質實現高能量密度固態鋰金屬電池 | 2025-02-02 09:04:39
  • 小米交付超2萬輛,小鵬再破3萬輛超越理想 | 2025-02-02 09:14:22
  • LeCun痛批矽谷傲慢病!圈內爆火長文 | 2025-02-02 09:17:28
  • 雷諾抬價,日產本田合併生變 | 2025-02-02 09:17:30
  • “木頭姐”談DeepSeek啟示:在AI領域成功不用那麼燒錢 | 2025-02-02 09:17:36
  • 全球首次!沃達豐使用普通智慧手機完成衛星視訊通話,理論上支援任何4G/5G手機【附衛星網際網路行業發展現狀】 | 2025-02-02 09:23:30
  • 羅技將釋出微型雷達感測器Spot 可讓管理員看到房間是否有人 | 2025-02-02 09:38:13
  • 為什麼民科根本沒有資格研究“統一場論”? | 2025-02-02 10:19:12
  • 2025年度國家自然科學基金形式審查明細表(PDF下載) | 2025-02-02 10:19:13
  • 天宮“智慧大腦”揭秘:有效載荷運控中心 | 2025-02-02 10:49:43
  • 英偉達 RTX 5060 Ti 和 RTX 5060 顯示卡被曝 3 月釋出 | 2025-02-02 11:00:32
  • 神舟十九號在軌超3月!女航天員王浩澤還能出艙嗎?神二十待命中 | 2025-02-02 11:08:34
  • 南京大學陸延青教授/孔德聖教授AFM:基於液態金屬/離子導體複合透明電極的高效能可拉伸電致發光畫素顯示屏 | 2025-02-02 11:47:05
  • 最新論文顯示,在臨床醫學決策中,ChatGPT-o1略勝一籌,但DeepSeek-R1更靈活可用 | 2025-02-02 11:47:07
  • 訊息稱 AMD 將在 3 月推出銳龍 9 9000X3D 處理器和 RX 9070 顯示卡 | 2025-02-02 11:52:36
  • 車鑰匙尺寸超小滑鼠:日企推出 CapacMouse Pro,僅重 30g | 2025-02-02 12:26:07
  • 英偉達RTX 5060系列顯示卡被曝3月推出 最高16GB視訊記憶體 | 2025-02-02 12:36:46
  • 特朗普密會黃仁勳,特供版H20恐遭封殺?英偉達100億訂單或成泡影 | 2025-02-02 12:43:51
  • NXP釋出了一顆RISC-V晶片 | 2025-02-02 13:04:09
  • 僅重19g!24年滑鼠太能捲了:有的帶螢幕,有的模組化 | 2025-02-02 13:25:53
  • 項立剛怒斥臺積電創始人張忠謀:二三十年優勢?你在做白日夢! | 2025-02-02 13:44:24
  • 突破“卡脖子”困境!MoE 架構在國產叢集上跑通:昇騰雲上線 DeepSeek | 2025-02-02 14:09:42
  • 關鍵時刻華為挺身而出,全面適配DeepSeek!強大國運打贏這場科技上甘嶺! | 2025-02-02 14:10:09
  • Chiplets,全是挑戰 | 2025-02-02 14:43:34
  • 支援 DLSS4,遊戲《心靈殺手2》更新適配英偉達RTX50系列顯示卡 | 2025-02-02 16:12:32
  • 996 萬、資訊系統一體化(軟體)大單:東軟(中) | 2025-02-02 16:53:55
  • 什麼是卷積? | 2025-02-02 17:23:43
  • TP-Link 推出 Archer GE550 三頻 Wi-Fi 7 路由器,6999 新臺幣 | 2025-02-02 17:23:58
  • 男性身高及其預期薪水存在一定的關聯? | 2025-02-02 17:25:17
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們