時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

英偉達提出全新Star Attention,10倍加速LLM推理!登頂Hugging Face論文榜

2024-12-06 06:43:08

新智元報道

編輯:peter東 喬楊

【新智元導讀】大模型如今已具有越來越長的上下文,而與之相伴的是推理成本的上升。最新提出的Star Attention,能夠在不損失精度的同時,顯著減少推理計算量,從而助力邊緣計算。

當下的手機及AIPC中都會安裝本地大模型,然而上下文長度增加,推理時的計算成本也會顯著增長。最明顯的一個後果就是,使用者輸入問題後需要等待很久才能看到結果。

為此,已有多種最佳化方案提出,例如Flash Attention,而11月26日英偉達提出的Star Attention機制,可用於提升Transformer模型在處理長序列時的效率和準確性。

值得一提的是,這篇文章受到了廣泛的關注,登頂H ug ging F ace每日論文榜首。

論文地址:https://arxiv.org/abs/2411.17116

Star Attention如何降低推理成本

在瞭解Star Attention如何改進大模型推理前,讓我們先看看當前大模型的推理過程涉及的兩個步驟:

1)prompt編碼,即模型處理輸入並在快取中儲存KV(鍵值)向量;

2)token生成,即模型關注KV快取並自迴歸生成新令牌,同時用新 的KV向量更新快取。

在許多長上下文任務中,輸入由一個長上下文後跟一個短查詢和一個短答案組成。當大模型的上下文變得越來越長之後,回答查詢所需的資訊通常侷限在上下文的小部分內,意味著上下文只需關注附近的token,而查詢token需要關注所有之前上下文涉及的內容。

系統中所有裝置被分組為多個主機(host),其中一個主機被標記 為「查詢」主機。輸入序列分為兩個階段處理。

階段一:上下文編碼

輸入的上下文部分被分割成較小的塊,並分配到各個主機。除了第一個塊之外,所有塊的前面都加上一個初始塊,稱為「錨點」塊(anchor block)。每個主機處理其分配的塊,並存儲非錨點部分的KV快取。

階段二:查詢編碼和token生成

輸入查詢被廣播到所有主機,在每個主機中,它首先訪問在第一階段計算出的本地KV快取。然後「查詢」主機透過聚合所有主機的softmax歸一化統計資料來計算全域性注意力。這個過程對於每個生成的token都會重複。

用一個不那麼嚴謹的例子來概述上面的過程:想象一場烹飪比賽(上下文token),每個廚師(主機)負責準備一道菜的一部分(塊)。

為了確保味道一致,每個廚師除了準備自己的部分,還在前面加了一點「錨點」調料(錨點塊)。每個廚師準備好自己的部分後,記住自己部分的口味(KV快取)。

階段二的查詢編碼和token生成可視為:評委(查詢token)來品嚐菜餚,並決定下一道菜的口味(生成新token)。評委先品嚐每個廚師的部分,看看哪個部分最符合他們的口味。

最後,評委彙總所有廚師的意見,確定下一道菜的口味,並告訴廚師們。

Star Attention的效能提升

Star Attention帶來的效能提升,主要體現在以下兩個方面:

1)高達11倍的加速

在多個長上下文基準測試上,Star Attention所加持的8B Llama3的推理速度顯著提升,隨著序列長度增加,加速比從1.1x提升到2.7x。

而在引數量更大的Llama3.1-70B上,推理的加速比提升更為顯著。

與此同時,對比採用全域性注意力的基準,Star Attention相對準確率的降低只在0~3%範圍內。

隨著上下文長度的增加,star attention推理的準確性相比全域性注意力幾乎相同,但推理計算成本顯著下降

在更長的上下文尺度(128K)中,上下文編碼過程中不同塊的大小,也會影響推理的準確性和速度。塊尺寸越大,Star Attention 的準確性越高。

在 RULER 基準測試上,不同塊大小對Star Attention準確性的影響,塊大小範圍從4K到32K,適用於序列長度為128K的Llama-3.1-8B instruct 模型

用於評估的RULER,包含了13個任務,分為4個領域:大海撈針 (檢索)、多跳追蹤、聚合和問答,

不同任務中,全域性注意力和Star Attention的準確性差異對比

而在上下文長度更大,達到1048K時,Star Attention的推理準確性依舊保持在原基準90%,推理加速比達到了10.8×~16.9×。

而在更大的Llama3.1-70B中,Star Attention能實現更大的加速比,同時保持相似水平的準確率下降。

由於其執行機制 不涉及具體模型,Star Attention可以無縫整合到大多數透過全域性注意力訓練的基於Transformer的LLMs中,無需額外的模型微調。

由於減少了推理的計算成本,Star Attention顯著減少了記憶體需求,使得在本地裝置(如手機,筆記本中)用LLM處理更長的序列成為可能。

實驗發現,將塊大小設定為總序列長度的約四分之一,可以在精度和速度之間取得最佳平衡。而使用者也可以根據需求調整塊大小,以在計算效率和精度之間進行權衡。

結論

未來的研究,會嘗試將Star Attention擴充套件到更長的序列(最長可達1M)和更大的模型,並希望能觀察到甚至更的加速,同時保持相似水平的準確率。同時專注於最佳化「錨塊」機制,並在更復雜的長上下文任務上提高效能,以增強Star Attention的可擴充套件性和穩健性。

總的來看,對於想要開發部署本地大模型的廠商,Star Attention是一項不容錯過的技術。使用Star Attention後,本地LLM能夠更快地回覆使用者,還可在有限的記憶體中相容更長的上下文序列,從而在RAG任務中閱讀更長的文字。

而對於雲端大模型的提供商,Star Attention能夠在幾乎不影響使用者體現的前提下,顯著提升推理成本,實現「降本增效」,同時減少能源消費(碳足跡)。

透過在多個主機間分配上下文處理,Star Attention使上下文長度能夠隨主機數量線性擴充套件。

參考資料:

https://arxiv.org/abs/2411.17116

熱門資訊
  • 梅賽德斯-賓士現已推出 Apple Watch 版移動應用 | 2024-11-27 04:05:49
  • 李政道骨灰歸葬蘇州,與去世28年的夫人永遠相伴,其子曾稱:父親的遺願是與母親合葬 | 2024-11-27 04:31:10
  • 改造基因、克隆無腦人,富豪在宏都拉斯打造長生島 | 2024-11-27 04:36:13
  • 全球前20科研城市一半在中國,“北上廣之外,省會城市迅速崛起” | 2024-11-27 05:13:08
  • 成渝合作+1!金鳳實驗室與天府錦城實驗室(未來醫學城)簽署合作協議 | 2024-11-27 05:19:17
  • 五家晶片巨頭,研發投入大PK | 2024-11-27 05:36:51
  • 特斯拉曬出極端場景測試影片,大秀FSD安全性 | 2024-11-27 06:52:07
  • 餘承東:Mate70對得起那四字 靠抄襲沒未來 | 2024-11-27 07:00:36
  • 晶片堆疊技術又來了,這次是美國晶片,可大幅提升效能 | 2024-11-27 07:00:40
  • SpaceX終於將星際飛船第六次測試飛行所用的助推器部件沉入水中 | 2024-11-27 07:17:12
  • 三星 3D NAND 量產提效:光刻膠用量減半,每年節省數十億韓元 | 2024-11-27 07:19:07
  • 50多位院士參會!中國工程院深地深海深空物質資源開發利用學術研討會通知(第三輪) | 2024-11-27 07:21:33
  • 2024量子科技和產業大會即將舉辦 量子計算市場加速商業化 | 2024-11-27 07:21:38
  • 華科吳豪等《AFM》:定向排汗水凝膠混合電子系統 | 2024-11-27 07:25:12
  • 近50位院士出席!這場大會,為成都產業發展注入強勁動力 | 2024-11-27 07:25:24
  • 國產首顆全電推通訊衛星“亞太6E”正式在軌交付 | 2024-11-27 07:25:27
  • 最高預售價150萬元!江淮聯手華為進軍高階車 | 2024-11-27 07:43:00
  • 工作效率比人工巡檢提高近10倍!全國首臺光伏儲能“駐塔式”無人機在新疆正式投入執行【附低空經濟產業鏈龍頭企業彙總】 | 2024-11-27 07:43:06
  • 戴爾釋出2025 財年Q3財報:營收244 億美元 同比增10% | 2024-11-27 07:43:17
  • 亞馬遜被曝啟動“登月”計劃:部署 10 萬顆二代自研晶片 | 2024-11-27 07:44:27
  • 股價暴跌,市值縮水,Cassava阿爾茨海默症藥物3期試驗失敗 | 2024-11-27 07:48:30
  • 《麻省理工科技評論》35歲以下科技創新35人亞太區報名正在進行 | 2024-11-27 08:09:26
  • 特朗普勝選後,墨西哥對比亞迪建廠計劃猶豫了 | 2024-11-27 08:19:57
  • 英特爾獲美國政府78.7億美元撥款 用於建設新工廠 | 2024-11-27 08:20:06
  • 順豐方舟量產無人機亮相:載重50公斤 能飛20公里 | 2024-11-27 08:24:33
  • 唐啟升、焦念志、戴民漢、張偲等41位兩院院士當選!中國生態學學會創始會士名單公佈! | 2024-11-27 08:27:03
  • 腦洞大開!荷蘭科學家利用基因改造過蚊子為人類接種疫苗,有效性接近90%【附基因編輯技術分析】 | 2024-11-27 08:52:29
  • 巨無霸:英偉達 RTX 4090 Ti 顯示卡再次曝光,四槽位設計 | 2024-11-27 08:55:47
  • 綠色辦公:飛利浦推出 3 款環保顯示器,最高節能 80% | 2024-11-27 09:16:30
  • 商業航天基礎服務的時代來臨了嗎? | 2024-11-27 09:23:33
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們