時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

英偉達聯手MIT清北釋出SANA 1.5!線性擴散Transformer再刷文生圖新SOTA

2025-02-07 17:04:11

新智元報道

編輯:英智 好睏

【新智元導讀】SANA 1.5是一種高效可擴充套件的線性擴散Transformer,針對文字生成影象任務進行了三項創新:高效的模型增長策略、深度剪枝和推理時擴充套件策略。這些創新不僅大幅降低了訓練和推理成本,還在生成質量上達到了最先進的水平。

近年來,文字生成影象的技術不斷突破,但隨著模型規模的擴大,計算成本也隨之急劇上升。

為此,聯合MIT、清華、北大等機構的研究人員提出了一種高效可擴充套件的線性擴散Transformer——SANA,在大幅降低計算需求的情況下,還能保持有競爭力的效能。

SANA1.5在此基礎上,聚焦了兩個關鍵問題:

線性擴散Transformer的可擴充套件性如何?

在擴充套件大規模線性DiT時,怎樣降低訓練成本?

論文連結:https://arxiv.org/pdf/2501.18427

SANA 1.5:高效模型擴充套件三大創新

SANA 1.5在SANA 1.0(已被ICLR 2025接收)的基礎上,有三項關鍵創新。

首先,研究者提出了一種高效的模型增長策略,使得SANA可以從1.6B(20層)擴充套件到4.8B(60層)引數,同時顯著減少計算資源消耗,並結合了一種節省記憶體的8位最佳化器。

與傳統的從頭開始訓練大模型不同,透過有策略地初始化額外模組,可以讓大模型保留小模型的先驗知識。與從頭訓練相比,這種方法能減少60%的訓練時間。

其二,引入了模型深度剪枝技術,實現了高效的模型壓縮。透過識別並保留關鍵的塊,實現高效的模型壓縮,然後透過微調快速恢復模型質量,實現靈活的模型配置。

其三,研究者提出了一種推理期間擴充套件策略,引入了重複取樣策略,使得SANA在推理時透過計算而非引數擴充套件,使小模型也能達到大模型的生成質量。

透過生成多個樣本,並利用基於視覺語言模型(VLM)的選擇機制,將GenEval分數從0.72提升至0.80。

與從頭開始訓練大模型不同,研究者首先將一個包含N個Transformer層的基礎模型擴充套件到N+M層(在實驗中,N=20,M=40),同時保留其學到的知識。

在推理階段,採用兩種互補的方法,實現高效部署:

模型深度剪枝機制:識別並保留關鍵的Transformer塊,從而在小的微調成本下,實現靈活的模型配置。

推理時擴充套件策略:藉助重複取樣和VLM引導選擇,在計算資源和模型容量之間權衡。

同時,記憶體高效CAME-8bit最佳化器讓單個消費級GPU上微調十億級別的模型成為可能。

下圖展示了這些元件如何在不同的計算資源預算下協同工作,實現高效擴充套件。

模型增長

研究者提出一種高效的模型增長策略,目的是對預訓練的DiT模型進行擴充套件,把它從層增加到+層,同時保留模型已經學到的知識。

研究過程中,探索了三種初始化策略,最終選定部分保留初始化方法。這是因為該方法既簡單又穩定。

在這個策略裡,預訓練的N層繼續發揮特徵提取的作用,而新增加的M層一開始是隨機初始化,從恆等對映起步,慢慢學習最佳化特徵表示。

實驗結果顯示,與迴圈擴充套件和塊擴充套件策略相比,這種部分保留初始化方法在訓練時的動態表現最為穩定。

模型剪枝

本文提出了一種模型深度剪枝方法,能高效地將大模型壓縮成各種較小的配置,同時保持模型質量。

受Minitron啟發,透過輸入輸出相似性模式分析塊的重要性:

這裡的表示第i個transformer的第t個token。

模型的頭部和尾部塊的重要性較高,而中間層的輸入和輸出特徵相似性較高,表明這些層主要用於逐步最佳化生成的結果。根據排序後的塊重要性,對transformer塊進行剪枝。

剪枝會逐步削弱高頻細節,因為,在剪枝後進一步微調模型,以彌補資訊損失。

使用與大模型相同的訓練損失來監督剪枝後的模型。剪枝模型的適配過程非常簡單,僅需100步微調,剪枝後的1.6B引數模型就能達到與完整的4.8B引數模型相近的質量,並且優於SANA 1.0的1.6B模型。

推理時擴充套件

SANA 1.5經過充分訓練,在高效擴充套件的基礎上,生成能力有了顯著提升。受LLM推理時擴充套件的啟發,研究者也想透過這種方式,讓SANA 1.5表現得更好。

對SANA和很多擴散模型來說,增加去噪步數是一種常見的推理時擴充套件方法。但實際上,這個方法不太理想。一方面,新增的去噪步驟沒辦法修正之前出現的錯誤;另一方面,生成質量很快就會達到瓶頸。

相較而言,增加取樣次數是更有潛力的方向。

研究者用視覺語言模型(VLM)來判斷生成影象和文字提示是否匹配。他們以NVILA-2B為基礎模型,專門製作了一個資料集對其進行微調。

微調後的VLM能自動比較並評價生成的影象,經過多輪篩選,選出排名top-N的候選影象。這不僅確保了評選結果的可靠性,還能有效過濾與文字提示不匹配的影象。

模型增長、模型深度剪枝和推理擴充套件,構成了一個高效的模型擴充套件框架。三種方法協同配合,證明了精心設計的最佳化策略,遠比單純增加引數更有效。

模型增長策略探索了更大的最佳化空間,挖掘出更優質的特徵表示。

模型深度剪枝精準識別並保留了關鍵特徵,從而實現高效部署。

推理時間擴充套件表明,當模型容量有限時,藉助額外的推理時間和計算資源,能讓模型達到與大模型相似甚至更好的效果。

為了實現大模型的高效訓練與微調,研究者對CAME進行擴充套件,引入按塊8位量化,從而實現CAME-8bit最佳化器。

CAME-8bit相比AdamW-32bit減少了約8倍的記憶體使用,同時保持訓練的穩定性。

該最佳化器不僅在預訓練階段效果顯著,在單GPU微調場景中更是意義非凡。用RTX 4090這樣的消費級GPU,就能輕鬆微調SANA 4.8B。

研究揭示了高效擴充套件不僅僅依賴於增加模型容量。透過充分利用小模型的知識,並設計模型的增長-剪枝,更高的生成質量並不一定需要更大的模型。

SANA 1.5 評估結果

實驗表明,SANA 1.5的訓練收斂速度比傳統方法(擴大規模並從頭開始訓練)快2.5倍。

訓練擴充套件策略將GenEval分數從0.66提升至0.72,並透過推理擴充套件將其進一步提高至0.80,在GenEval基準測試中達到了最先進的效能。

模型增長

將SANA-4.8B與當前最先進的文字生成影象方法進行了比較,結果如表所示。

從SANA-1.6B到4.8B的擴充套件帶來了顯著的改進:GenEval得分提升0.06(從0.66增加到0.72),FID降低0.34(從5.76降至5.42),DPG得分提升0.2(從84.8增加到85.0)。

和當前最先進的方法相比,SANA-4.8B模型的引數數量少很多,卻能達到和大模型一樣甚至更好的效果。

SANA-4.8B的GenEval得分為0.72,接近Playground v3的0.76。

在執行速度上,SANA-4.8B的延遲比FLUX-dev(23.0秒)低5.5倍;吞吐量為0.26樣本/秒,是FLUX-dev(0.04樣本/秒)的6.5倍,這使得SANA-4.8B在實際應用中更具優勢。

模型剪枝

為了和SANA 1.0(1.6B)公平比較,此次訓練的SANA 1.5(4.8B)模型,沒有用高質量資料做監督微調。

所有結果都是針對512×512尺寸的影象評估得出的。經過修剪和微調的模型,僅用較低的計算成本,得分就達到了0.672,超過了從頭訓練模型的0.664。

推理時擴充套件

將推理擴充套件應用於SANA 1.5(4.8B)模型,並在GenEval基準上與其他大型影象生成模型進行了比較。

透過從2048張生成的影象中選擇樣本,經過推理擴充套件的模型在整體準確率上比單張影象生成提高了8%,在「顏色」「位置」和「歸屬」子任務上提升明顯。

不僅如此,藉助推理時擴充套件,SANA 1.5(4.8B)模型的整體準確率比Playground v3 (24B)高4%。

結果表明,即使模型容量有限,提高推理效率,也能提升模型生成影象的質量和準確性。

SANA:超高效文生圖

在這裡介紹一下之前的SANA工作。

SANA是一個超高效的文字生成影象框架,能生成高達4096×4096解析度的影象,不僅畫質清晰,還能讓影象和輸入文字精準匹配,而且生成速度超快,在膝上型電腦的GPU上就能執行。

SANA為何如此強大?這得益於它的創新設計:

深度壓縮自動編碼器:傳統自動編碼器壓縮影象的能力有限,一般只能壓縮8倍。而SANA的自動編碼器能達到32倍壓縮,大大減少了潛在tokens數量,計算效率也就更高了。

線性DiT:SANA用線性注意力替換了DiT中的標準注意力。在處理高解析度影象時,速度更快,還不會降低影象質量。

僅解碼文字編碼器:SANA不用T5做文字編碼器了,而是採用現代化的小型僅解碼大模型。同時,透過上下文學習,設計出更貼合實際需求的指令,讓生成的影象和輸入文字對應得更好。

高效訓練與取樣:SANA提出了Flow-DPM-Solver方法,減少了取樣步驟。再配合高效的字幕標註與選取,讓模型更快收斂。

經過這些最佳化,SANA-0.6B表現十分出色。

它生成影象的質量和像Flux-12B這樣的現代大型擴散模型差不多,但模型體積縮小了20倍,資料處理能力卻提升了100倍以上。

SANA-0.6B執行要求不高,在只有16GB視訊記憶體的筆記本GPU上就能執行,生成一張1024×1024解析度的影象,用時不到1秒。

這意味著,創作者們用普通的膝上型電腦,就能輕鬆製作高質量影象,大大降低了內容創作的成本。

研究者提出新的深度壓縮自動編碼器,將壓縮比例提升到32倍,和壓縮比例為8倍的自動編碼器相比,F32自動編碼器生成的潛在tokens減少了16倍。

這一改進對於高效訓練和超高解析度影象生成,至關重要。

研究者提出一種全新的線性DiT,用線性注意力替代傳統的二次複雜度注意力,將計算複雜度從原本的O(N²) 降低至O(N)。另一方面,在MLP層引入3×3深度可分卷積,增強潛在tokens的區域性資訊。

在生成效果上,線性注意力與傳統注意力相當,在生成4K影象時,推理延遲降低了1.7倍。Mix-FFN結構讓模型無需位置編碼,也能生成高質量影象,這讓它成為首個無需位置嵌入的DiT變體。

在文字編碼器的選擇上,研究者選用了僅解碼的小型大語言模型Gemma,以此提升對提示詞的理解與推理能力。相較於CLIP和T5,Gemma在文字理解和指令執行方面表現更為出色。

為充分發揮Gemma的優勢,研究者最佳化訓練穩定性,設計複雜人類指令,藉助Gemma的上下文學習能力,進一步提高了影象與文字的匹配質量。

研究者提出一種自動標註與訓練策略,藉助多個視覺語言模型(VLM)生成多樣化的重新描述文字。然後,運用基於CLIPScore的策略,篩選出CLIPScore較高的描述,以此增強模型的收斂性和對齊效果。

在推理環節,相較於Flow-Euler-Solver,Flow-DPM-Solver將推理步驟從28-50步縮減至14-20步,不僅提升了速度,生成效果也更為出色。

參考資料:

https://huggingface.co/papers/2501.18427

https://x.com/xieenze_jr/status/1885510823767875799

https://nvlabs.github.io/SANA/

熱門資訊
  • 《科學》:耐藥菌真是太猛了!科學家首次發現,超級細菌MRSA竟用獨特的分裂方式征服抗生素丨科學大發現 | 2024-12-01 18:43:58
  • 重磅發現:人類心臟擁有巨大的再生潛能,存在著啟動自我修復的金鑰 | 2024-12-01 18:55:09
  • 華為引領科技健康新風尚:從HUAWEI WATCH D2品鑑會開始 | 2024-12-01 19:02:20
  • 氧化鎵的產業化與挑戰 | 2024-12-01 19:04:45
  • 銳龍9 9950X3D/9900X3D確認明年1月釋出:Intel只能仰望 | 2024-12-01 19:17:44
  • 水月雨“知更鳥聯動耳機”保修期延長至兩年 | 2024-12-01 19:34:28
  • 南京大學/中山大學《Nature Communications》:雙層鎳氧化物La3Ni2O7中的強電子關聯和部分能隙 | 2024-12-01 19:36:00
  • 高超音速重返大氣層: 回顧 OSIRIS-REx 任務如何改變空間科學 | 2024-12-01 19:44:38
  • 中國晶片太成功,歐洲也忍不住要學習了,搶著做成熟晶片 | 2024-12-01 20:23:11
  • V 社新款頭顯手柄 3D 模型現身 SteamVR 軟體包,取代 Index | 2024-12-01 20:48:45
  • 首發49.9元 喬思伯帶來FR-606系列ARGB風扇:正反葉可選 | 2024-12-01 20:51:27
  • 受PROTAC啟發,許巧兵團隊開發出基於抗原靶向降解的癌症疫苗 | 2024-12-01 21:25:43
  • 種茶養魚、碼垛運貨都用得上,5G在浙江落地走出了哪些新路徑? | 2024-12-01 21:26:38
  • 臺電 P50AI 平板電腦開售:全志 A733 + 6G + 128G 售 799 元起 | 2024-12-01 21:49:44
  • 銳龍9000X3D加速更容易了!無需離開Windows | 2024-12-01 22:00:59
  • 華碩愛速特 6/12 盤位 M.2“穿雲箭”全閃 NAS 上架,3999 元起 | 2024-12-01 22:20:45
  • 馬斯克放言:SpaceX市值有一天將會突破萬億美元 | 2024-12-01 23:05:52
  • 臺積電欲在2025年後將先進2nm製造轉移美國! | 2024-12-01 23:27:46
  • 驚訝!中國多團隊聯合發現冠狀病毒在青海湖和甘肅鼠兔中持續傳播!警惕潛在風險! | 2024-12-01 23:55:27
  • 銘瑄正式加入Intel顯示卡陣營!同步首發 可能背插 | 2024-12-02 00:41:13
  • 軟體更新。。。一國家網路。。。崩了。。。 | 2024-12-02 00:42:53
  • 資料 | 三大運營商領導班子及31x3省分總經理彙總(截止20241201) | 2024-12-02 01:41:36
  • AMD 首款 B850 主機板圖片在網上曝光 | 2024-12-02 02:01:35
  • 中國又要創造世界第一!“天問三號”取樣點公佈,這速度老美咋追 | 2024-12-02 02:42:44
  • 中國移動個人點對點 5G 訊息今起收費:文字 0.1 元 / 條 | 2024-12-02 03:41:16
  • 真有意思!中聯通(中)。。。中移動(剛)。。。中電信(中)。。。 | 2024-12-02 05:09:13
  • OLED迎重大突破:中日韓公司都將採用新方案 | 2024-12-02 06:43:11
  • 11月成績單:小鵬首破3萬,比亞迪破50萬 | 2024-12-02 07:12:38
  • 我國首型4米級運載火箭長征十二號首飛成功 | 2024-12-02 07:12:46
  • 長征系列火箭首次使用煤基航天煤油 | 2024-12-02 07:13:13
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們