時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

揭示Transformer「週期建模」缺陷!北大提出新型神經網路FAN,填補週期性特徵建模能力缺陷

2024-11-26 23:54:57

新智元報道

編輯:LRST

【新智元導讀】北京大學研究團隊開發的FAN模型能有效捕捉資料中的週期性模式,相比傳統模型在多項任務中表現出色,同時降低了引數量和計算量,增強了對週期性特徵的建模能力,應用潛力廣泛。

週期性現象廣泛存在,深刻影響著人類社會和自然科學。作為最重要的基本特性之一,許多規律都顯式或隱式地包含週期性,例如,天文學中的行星運動、氣象學中的季節變化、生物學中的晝夜節律、經濟學中的商業週期、物理學中的電磁波,以及數學運算和邏輯推理等。

因此,在許多工和場景中,人們希望對週期進行建模,以便根據以往的經驗進行推理。

儘管以 MLP 和 Transformer 為代表的基礎模型已經取得了顯著的成功,但是它們卻在週期性建模方面存在潛在的缺陷。

即使面對簡單的正弦函式,現有基礎模型也難以理解其中的週期性規律,在外推時表現出完全失控的狀態,未能有效捕捉到週期性現象的本質。

為此,北京大學李戈教授的團隊提出了一種新型網路架構FAN(Fourier Analysis Networks)。透過引入傅立葉級數的思想,FAN能夠將週期性資訊直接嵌入網路的結構中,使模型更自然地捕捉和理解資料中的週期性模式。

實驗表明,FAN不僅在週期性建模上的表現顯著優於現有模型,而且在符號公式表示、時間序列預測和語言建模等實際任務中也同樣表現出色,超過了Transformer等主流模型。

論文連結:https://arxiv.org/pdf/2410.02675.pdf

程式碼連結:https://github.com/YihongDong/FAN

圖1 不同基礎模型在其訓練資料域內外對正弦函式的表現,其中x為標量

研究者認為,許多實際任務都顯式或者隱式地包含潛在的週期性特徵,良好的週期性建模對於提升模型在這些任務上的表現是必要的,而現有基礎模型嚴重依賴資料驅動的最佳化方式,缺少明確的機制來理解資料中的根本原理。

FAN的意義在於,它提供了一種全新的正規化來有效地建模週期性,能夠無縫替換傳統MLP,同時減少引數量和計算量,填補了當前基礎模型在週期性建模上的缺陷,並展示出廣泛的應用潛力。

圖2 MLP Layer和FAN Layer的示例

本文的通訊作者是北京大學計算機學院長聘教授、教育部長江學者李戈。第一作者:董益宏,北京大學計算機學院22級博士生,曾在ISSTA、FSE、ACL、NeurIPS、TOSEM等 CCF-A類/SCI一區國際頂級會議和期刊上發表11篇學術論文。

FAN的實現細節

北大研究團隊首先構建一個簡單神經網路來建模傅立葉級數,然後在此基礎上設計了FAN網路架構。

為構建一個簡單的神經網路表示函式的傅立葉級數展開,我們可以將表示為:

其中是可學習引數,(I) 根據和透過定積分計算,(II) 和 (III) 是矩陣運算的等價形式,[·||·] 和 [·, ·] 分別表示沿第一維度和第二維度的連線。

因此,可以表示為:

其中表示左側函式作用於右側輸入x,即。

然而,我們發現直接堆疊會導致模型的主要引數集中於學習角頻率,從而忽略了傅立葉係數和的學習,如下所示:

其中定義為用於近似角頻率,用於近似傅立葉係數。

因此,擬合傅立葉係數的能力與的深度無關,這是一個不理想的結果。

為了應對這一問題,研究團隊根據以下原則設計了FAN:

1. FAN 表示傅立葉係數的能力應與其深度正相關;

2. 任何隱藏層的輸出都可以通過後續層使用傅立葉級數來建模週期性。

第一個原則透過利用FAN的深度增強了其週期性建模的表現力,而第二個原則確保FAN中間層的特徵可用於執行週期性建模。

假設我們將解耦為:

其中,

為了滿足這兩個原則,FAN的中間層輸入需要同時使用和而不是依次應用它們。

最終,FAN 基於此設計,其FAN層定義如下:

其中是可學習引數,表示啟用函式。

整個FAN定義為FAN Layer的堆疊:

其中,

FAN的效能表現

週期建模

圖3 FAN在週期性建模中的表現與 MLP、KAN 和 Transformer 相比,其中綠線表示訓練資料域內的測試資料,而藍線表示訓練資料域外的測試資料

圖3展示了FAN和其他模型在週期性建模中的表現。結果表明,現有的神經網路(包括 MLP、KAN 和 Transformers)在建模週期性方面表現出明顯的不足。儘管它們試圖擬合這些週期函式,但其內在能力限制了它們在大範圍週期性上的效能表現。

相比之下,FAN在所有這些週期性建模任務中都明顯優於基線。更值得一提的是,FAN在訓練資料域內和域外的測試資料上都表現得非常出色,表明它能夠真正理解週期性的深刻原理並對其進行精準建模,而不僅僅是記住訓練資料。

圖4 不同模型在學習複雜週期函式任務上的訓練和測試損失比較

研究團隊還分析了不同模型在學習複雜週期函式任務上的訓練過程,如圖4所示,結果如下:

1. FAN在收斂速度和最終效果方面都遠遠超過其他模型;

2. 與FAN相比,FAN (Gated) 通常可以實現更快的收斂,但最終效能仍然相當;

3. 隨著訓練輪數的增加,雖然其他模型的訓練損失變得穩定或逐漸減少,但它們的建模可能與測試資料的分佈有很大差異,導致測試損失急劇增加。這一現象進一步證明了這些模型在捕捉週期性方面的缺陷。

符號公式表示

圖5 不同模型在符號公式表示任務中不同引數量的表現

從不同模型應用於數學和物理學中四個常見函式的表現中可以觀察到,雖然 KAN 在引數數量較少時能與FAN相媲美,但隨著引數數量的增加,其效能會顯著下降。

相反,隨著引數數量的增加,FAN擬合這些函式始終優於其他基線,包括 MLP、KAN 和 Transformer,儘管這些函式中的許多隻是部分週期性的或完全非週期性的。

這些結果表明,FAN不僅增強了對週期性的建模能力,同時也沒有損害擬合非週期性函式的能力。

時間序列預測

如表2 所示,研究團隊在四個公共資料集上比較了結合FAN的Transformer 和其他序列模型在時間序列預測任務上的表現。在大多數情況下,與 LSTM、Mamba 和標準 Transformer 相比,結合FAN和FAN(Gated)的Transformer 在這些任務上取得了最佳效能。

它們相對於標準 Transformer 的改進是顯著的,平均相對改進範圍為14.3%-15.0%的 MSE和7.6%-7.9%的MAE。

這些結果表明,在神經網路中加入顯式週期模式編碼可以提高實際應用中的時間序列預測效能。

語言建模

探究者報告了不同序列模型在四種情緒分析資料集上的效能比較,如表3所示。

可以發現,結合FAN和FAN(Gated)的Transformer與標準 Transformer 和其他序列模型(例如 LSTM 和 Mamba)相比表現出明顯優越的效能,尤其是在 IMDB、Sentiment140 和 Amazon Reviewers 資料集上的零樣本跨領域表現。

結合FAN的 Transformer 在損失和準確度方面分別實現了最14.65%和8.50%的相對改進,同時將引數數量減少了約 14.16M。結果表明週期性建模在跨領域語言建模和情緒分析任務上具有提高有效性和泛化的潛力。

FAN的表達能力和應用範圍

FAN在理論上具有與MLP相同的表達能力,因為它也遵循通用近似定理,這確保了其函式近似能力。不同的是,FAN透過明確納入週期性,引入了重要的功能增強,這是傳統MLP所不具備的。

FAN的這一設計,不僅全面繼承了MLP的既有優勢,還增強了其捕獲資料週期性特徵的能力。因此,FAN可以作為MLP的有力替代品。

當然,FAN的實用性不僅限於明確需要週期性建模的任務,在更廣泛的應用中也展現出強大的適用性。研究團隊透過一系列現實世界任務的實驗證明,如符號公式表示、時間序列預測和語言建模等,FAN的表現明顯優於MLP和其他基線模型。

事實上,許多看似與週期性無直接關聯的機器學習任務,如數學運算和邏輯推理,實際上也可能隱藏著週期性。

如果神經網路缺乏針對週期性特徵進行建模的能力,則可能會損害其學習效率。

從更深層次的角度來看,週期性不僅僅是一種資料特徵,還反映了一種規律或知識,即允許抽象的規則和原理在不同上下文之間轉移和重用。

總結來看,FAN與MLP相比,不僅增強了週期性建模能力,且引數量和計算量更少,有望成為基礎模型的關鍵組成部分。

未來,北大研究團隊將進一步擴大FAN的應用範圍,增強其作為基礎模型元件的表現,持續推動基礎模型的技術進步與創新發展。

參考資料:

https://arxiv.org/pdf/2410.02675.pdf

熱門資訊
  • 5G使用者體驗未達到預期!中國工程院院士鄔賀銓:6G可能不會像4G那樣實現無縫覆蓋網路,標準制定應重視大眾基本需求【附6G行業市場現狀分析】 | 2024-11-14 16:48:05
  • “器官晶片大廈”落戶南京 | 2024-11-14 17:04:47
  • 豪威推出OV0TA1B影象感測器:單色/紅外可選,支援HPD/面部認證/AON功能 | 2024-11-14 17:04:52
  • 魔爪 MOZA R3 伺服直驅套裝 PC 版發售,首發 1799 元 | 2024-11-14 17:13:10
  • 小米平板7系列到手1999起:首發澎湃OS 2、支援PC級WPS | 2024-11-14 17:13:13
  • 官宣!極氪領克合併,吉利走向大整合 | 2024-11-14 17:28:37
  • 京東2024年三季度:營收2604億元 淨利潤132億元 | 2024-11-14 17:28:39
  • 小米要造飛機?雷軍現身珠海航展,參觀運油-20引發熱議,網友:把飛機價格打下來!名字幫你想好了 | 2024-11-14 17:28:43
  • 雷軍:小米智慧底盤預研技術並非PPT,試驗車已經開跑 | 2024-11-14 17:28:50
  • 訊息稱華為 FreeBuds Pro 4 無線耳機擁有 3 種配色 | 2024-11-14 17:31:18
  • 破解蘋果限制!大神用法拉第籠+微波爐解鎖AirPods Pro助聽器功能 | 2024-11-14 17:35:29
  • 華為兩款新耳機曝光:降噪能力加強 配色類似Pura 70 | 2024-11-14 17:41:31
  • CHIP 4,重塑晶片行業 | 2024-11-14 17:44:09
  • 才飛行2個月,3顆衛星全部墜入地球大氣層,究竟是什麼原因? | 2024-11-14 17:54:06
  • 華碩註冊 2 款 AMD“B850E”主機板,實際推出可能較低 | 2024-11-14 18:02:19
  • 第二代2K東方屏,一加13再創螢幕新巔峰 | 2024-11-14 18:17:34
  • 極度未知 HyperX 聲浪 2S 麥克風首售,1499 元 | 2024-11-14 18:32:42
  • 聯想小新 Pad Pro 12.7 平板 2025 款開啟 ZUI 16 新版本內測招募 | 2024-11-14 18:33:21
  • 第一款國產CPU超輕碳纖維旗艦本!聯想開天X1搭載x86兆芯KX-6000G | 2024-11-14 18:40:20
  • 巔峰之作!南天門計劃再添新成員,“寒光”飛行器,能飛去火星! | 2024-11-14 18:45:32
  • 雷軍回應現身中國航展:到珠海出差 飛行表演非常精彩 | 2024-11-14 18:45:37
  • 群聯推出128TB企業級PASCARI系列SSD:主要面向資料中心 | 2024-11-14 18:58:04
  • 米家洗衣機精護洗Pro評測:泛黃混色安心洗,羊毛真絲放心烘 | 2024-11-14 19:21:52
  • SpaceX 星艦運抵發射臺為第六次試飛做準備,印有趣味香蕉圖案 | 2024-11-14 19:25:16
  • 突破長巡航瓶頸!飛毛腿重灌殺入電動飛行器市場 | 2024-11-14 19:45:07
  • 微星推出RTX 3050 Ventus 2X XS White顯示卡:全白配色 | 2024-11-14 20:07:01
  • 維信諾推出F1發光材料體系 小米OV等六家廠商將推相應終端裝置 | 2024-11-14 20:17:15
  • 蘋果M4 Max晶片音訊轉錄功耗僅25W 較RTX A5000低87% | 2024-11-14 20:17:19
  • 英特爾酷睿Ultra5 225H跑分曝光 單核超越i5-14500HX | 2024-11-14 20:17:42
  • 全球首例!億航智慧攜手欣界、海目星吹響低空經濟爭先奮進曲 | 2024-11-14 20:23:55
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們