時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

蘋果和英偉達合作新的推測解碼方法,可將文字生成速度提升2.7倍

2024-12-21 19:43:18

眾所周知,對於自迴歸模型而言,記憶體頻寬一直是制約推理效能的關鍵瓶頸。當模型生成文字時,它需要反覆執行前向傳播來預測每個 token,這個過程不僅需要大量的計算資源,更重要的是會頻繁訪問記憶體來獲取模型權重和中間狀態。這種記憶體密集型的特性導致了較高的延遲,影響使用者體驗。

去年,學界興起了一種稱為推測解碼(Speculative Decoding)的技術用以緩解這一問題。這種方法使用較小的“草稿”模型來預測可能的未來 token 序列,再由主模型驗證,從而實現並行化生成,提高推理效率。

圖丨自迴歸解碼和推測解碼(來源:arXiv)

今年初,提出了一種新的推測解碼方法 Recurrent Drafter (ReDrafter),對原有方法進行了改進。透過將 RNN 草稿模型與動態樹注意力機制相結合,ReDrafter 在每個生成步驟中最多可接受 3.5 個 token,超越了此前方法的水平。

最近,蘋果又宣佈與展開深度技術合作,將其創新的 ReDrafter 推測解碼技術整合到英偉達 TensorRT-LLM 推理加速框架中。這項合作將幫助開發者在英偉達 GPU 上實現更高效的 LLM 推理效能。

ReDrafter 的核心是一個基於(RNN)的草稿模型。與先前的方法(如 Medusa)類似,它使用 Transformer 最後一層的輸出作為輸入。創新之處在於,它還將歷史 token 的嵌入作為迴圈輸入提供給草稿頭。

當 LLM 生成一個 token(比如“quiet”)時,草稿模型會獲取這個 token 的嵌入向量 et 和 LLM 最後一層的輸出 h,然後透過 RNN 更新隱藏狀態:st = f(Ust-1 + W et + b)。更新後的狀態 gt = [st, h] 被用來預測下一個 token。這種遞迴設計讓模型能夠維護動態的上下文表示,大大提升了預測準確性。

圖丨草稿模型以 LLM 的最後隱藏狀態 h 作為輸入來預測接下來的幾個標記。(來源:arXiv)

另一方面,ReDrafter 使用束搜尋來探索多個可能的序列延續。為了提高效率,它引入了動態樹注意力演算法來處理候選序列中的共同字首。

來看一個具體例子:當生成多個候選序列時,比如“morning sipping coffee and watching”和“morning sipping coffee on her”,這些序列往往共享相同的字首。傳統方法會對每個序列獨立計算,而 ReDrafter 透過動態構建字首樹來合併重複計算。系統使用張量運算實現了高效的字首檢測和合並處理,在實踐中可以減少 30%-60% 的計算量。

此外,為了提高草稿模型的預測質量,ReDrafter 採用了一種新的知識蒸餾訓練方法。系統會直接學習 LLM 的 token 生成分佈,而不是簡單地擬合真實序列。訓練目標被定義為最小化 LLM 和草稿模型輸出分佈之間的 KL 散度:min(pdraft) KL(pllm(y1:T)|pdraft(y1:T))。

在每個訓練位置 t,系統從 LLM 取樣未來 T 個 token,並最佳化經驗損失:min(pdraft) Σt −log pdraft(ŷt+1:t+T|y1:t)。這種方法確保了草稿模型能夠更好地模仿 LLM 的行為。

研究結果顯示,在 MT-Bench 基準測試中,ReDrafter 在 Vicuna 7B 和 13B 模型上實現了 2.8 倍的加速。且 ReDrafter 在每個生成步驟平均可接受 4.2 個 token,這意味著相比傳統的每步生成一個 token 的方式,ReDrafter 顯著提升了並行度。在大規模批處理場景下,系統的最高吞吐量可達到每秒 1636 個 token。

並且,在不同的硬體平臺上,ReDrafter 都展現出良好的適應性。在搭載 M2 Ultra 的系統上,13B 引數量的模型達到了 1.94 倍的加速比。即使在計算資源相對有限的 M1 Max 上,系統仍然實現了 1.37 倍的效能提升。

為了讓 ReDrafter 的效能優勢更好地在 TensorRT-LLM 上發揮,英偉達的工程團隊進行了一系列創新。其最重要的改進是將驗證邏輯直接整合到引擎內部,而不是依賴執行時處理。這種設計不僅降低了系統開銷,還為核心選擇和排程最佳化提供了更大的自由度。

在批處理方面,研究團隊採用了一種創新的 inflight-batching(IFB)策略。當處理混合的請求流時,系統會智慧地將上下文階段和生成階段的請求分開處理,每類請求使用專門最佳化的計算流水線。這種設計在保持低延遲的同時,顯著提升了 GPU 利用率。

圖丨 ReDrafter 的 TensorRT-LLM 引擎的線上批處理相容計算工作流程(來源:英偉達)

尤其值得一提的是系統對字首樹計算的最佳化。英偉達開發了專門的運算元來處理動態樹結構,這些運算元經過深度最佳化,能充分利用 Tensor Core 等硬體特性。同時,透過精心設計的記憶體管理策略,系統能夠高效處理不同長度的序列,減少記憶體碎片。

在實際部署測試中,研究團隊使用一個擁有數百億引數的生成模型進行了全面評估。在貪婪解碼模式下,系統實現了 2.7 倍的生成速度提升。這種效能改進不僅降低了使用者感知延遲,還減少了所需的 GPU 數量和能源消耗。

圖丨使用英偉達 TensorRT-LLM 和 ReDrafter 與自迴歸相比,每秒令牌速度加快。(來源:蘋果)

這種效能改進將直接轉化為實際價值:它能最大限度地減少使用者延遲並減少所需的硬體數量。英偉達在其部落格中強調,這次合作顯著增強了 TensorRT-LLM 框架的能力。透過提供標準化的介面和最佳化的實現,使得開發者能夠更容易地部署複雜的語言模型。

ReDrafter 此前已在 GitHub 開源,專案地址:https://github.com/apple/ml-recurrent-drafter。

參考資料:

1.https://machinelearning.apple.com/research/redrafter-nvidia-tensorrt-llm

2.https://arxiv.org//2403.09919v5

3.https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/

排版:劉雅坤

熱門資訊
  • 盤中寶對標百萬銷量爆款,小米計劃推出新一代AI眼鏡,這家企業已在智慧眼鏡方面佈局,和小米有進行初步接觸溝通 | 2024-11-14 00:32:59
  • NASA向提出可持續先進飛機概念的廠商授予1150萬美元獎金 | 2024-11-14 02:53:59
  • 空客:A330neo將於2025年首架交付中國 | 2024-11-14 02:54:07
  • OpenStar:核聚變突破,商業化或六年:新設計 | 2024-11-14 03:54:12
  • 國外參展商:今年的中國航展更成功,採購商更多 | 2024-11-14 03:56:27
  • 蘋果因 AirPods Pro 耳機雜音問題在美國遭遇集體訴訟 | 2024-11-14 04:05:18
  • 業界首款1700V氮化鎵開關IC面世,碳化矽面臨被替代? | 2024-11-14 04:20:53
  • 工信部發布新材料研發重點 | 2024-11-14 05:35:56
  • 日媒:新加坡“深度科技”悄然崛起 | 2024-11-14 05:44:47
  • 67.8億!國產GLP-1雙靶點新藥授權出海 | 2024-11-14 06:22:31
  • 空中客車預測未來20年中國將新增9500架新飛機 天津A320飛機第二條總裝線預計2026年初投產 | 2024-11-14 06:30:19
  • Nature Aging:清除衰老細胞可促進皮膚傷口癒合 | 2024-11-14 06:43:06
  • 湖南大學鄒雨芹團隊JACS:吸附調控實現木質素β-O-4連線鍵中的Caryl-O(C)鍵選擇性裂解 | 2024-11-14 06:43:11
  • 蘋果iPad在美國銷售穩健:Pro 以 45% 主導、基礎款佔 33% | 2024-11-14 06:52:38
  • Oura CEO稱蘋果不太可能推出智慧戒指:做好很難 | 2024-11-14 07:19:10
  • 蘋果釋出Mac版Logic Pro 11.1更新 包含多項增強功能 | 2024-11-14 07:19:12
  • 騰訊電話會:未來幾個季度將看到更多AI應用 | 2024-11-14 07:24:59
  • 一度至93400美元,比特幣再創新高,自美國大選以來已漲超30% | 2024-11-14 07:25:02
  • 蘋果iPad在美國銷售穩健:Pro以45%主導、基礎款佔33% | 2024-11-14 07:25:08
  • 蘋果更新 Mac / iPad 版 Final Cut Pro 影片編輯應用 | 2024-11-14 07:26:54
  • 光啟技術:超材料引領航空航天新突破 709二期竣工 | 2024-11-14 07:45:41
  • 全球首發第二代英特爾酷睿Ultra!聯想YOGA Air 15 Aura元啟圖賞 | 2024-11-14 08:05:04
  • 微星推出白色版萬圖師 RTX 3050 顯示卡:8GB 視訊記憶體、128bit 位寬 | 2024-11-14 08:12:44
  • 群聯將展示 Pascari D205V:PCIe Gen5 128TB 資料中心級 SSD | 2024-11-14 08:17:37
  • 大眾最好的路:成中國新能源的海外代理人 | 2024-11-14 08:24:07
  • 傳OpenAI即將推出新款智慧體 能為使用者自動執行任務 | 2024-11-14 08:24:08
  • OpenAI呼籲建立“北美人工智慧聯盟” 好與中國競爭 | 2024-11-14 08:24:12
  • AirPods Pro爆音問題成為新一項集體訴訟的目標 | 2024-11-14 08:24:18
  • Oura執行長稱蘋果不會生產智慧戒指 因為"要做好這類產品很難" | 2024-11-14 08:24:20
  • AMD確認裁員4% 以專注於"大規模增長機會" | 2024-11-14 08:27:05
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們