時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

陶哲軒看了都直呼內行!谷歌等用LLM自動證明定理拿頂會傑出論文,上下文越全證得越好

2024-02-03 15:04:15

新智元報道

編輯:alan

【新智元導讀】在軟體工程頂會ESEC/FSE上,來自馬薩諸塞大學、和伊利諾伊大學厄巴納-香檳分校(UIUC)的研究人員發表了新的成果,使用LLM解決自動化定理證明問題。

Transformer的技能樹是越來越厲害了。

來自馬薩諸塞大學、谷歌和伊利諾伊大學厄巴納-香檳分校(UIUC)的研究人員發表了一篇論文,利用大語言模型自動生成定理的完整證明。

論文地址:https://arxiv.org/pdf/2303.04910.pdf

這篇工作以Baldur(北歐神話中雷神Thor的兄弟)命名,首次證明了使用Transformer生成全證明是可能的,並且當為模型提供額外的上下文時,還可以改進模型先前的證明。

文章發表於2023年12月在舊金山舉行的ESEC/FSE(ACM歐洲軟體工程聯合會議和軟體工程基礎研討會)上,並獲得了傑出論文獎(Distinguished Paper award)。

眾所周知,軟體存在bug(廢話),這在一般應用程式或者網站上問題不大,但對於比如加密協議、醫療裝置和太空梭等關鍵系統背後的軟體而言,必須確保沒有錯誤。

——一般的程式碼審查和測試並不能給出這個保證,這需要形式驗證(formal verification)。

對於formal verification,ScienceDirect給出的解釋為:

the process of mathematically checking that the behavior of a system, described using a formal model, satisfies a given property, also described using a formal model

指的是從數學上檢查,使用形式模型描述的系統行為,是否滿足給定屬性的過程。

簡單來說就是,利用數學分析的方法,透過演算法引擎建立模型,對待測設計的狀態空間進行窮盡分析的驗證。

形式化軟體驗證,對於軟體工程師來說是最具挑戰性的任務之一。例如CompCert,使用Coq互動式定理證明器驗證的C編譯器,是無處不在的GCC和LLVM等使用的唯一編譯器。

然而,手動形式驗證(編寫證明)的成本卻相當巨大,——C編譯器的證明是編譯器程式碼本身的三倍以上。

所以,形式驗證本身是一項“勞動密集型”的任務,研究人員也在探索自動化的方法。

比如Coq和Isabelle等證明助手,透過訓練一個模型來一次預測一個證明步驟,並使用模型搜尋可能的證明空間。

而本文的Baldur首次在這個領域引入了大語言模型的能力,在自然語言文字和程式碼上訓練,並在證明上進行微調,

Baldur可以一次就生成定理的完整證明,而不是一次一個步驟。

如上圖所示,僅使用定理語句作為證明生成模型的輸入,然後從模型中抽取證明嘗試,並使用Isabelle執行證明檢查。

如果Isabelle接受了證明嘗試而沒有錯誤,就說明證明成功;否則從證明生成模型中抽取另一個證明嘗試。

Baldur在6336個Isabelle/HOL定理及其證明的基準上進行評估,從經驗上證明了完整證明生成、修復和新增上下文的有效性。

另外,這個工具之所以叫Baldur,可能是因為當前最好的自動證明生成工具叫做Thor。

Thor的證明率更高(57%),它使用較小的語言模型結合搜尋可能證明空間的方法預測證明的下一步,而Baldur的優勢在於它能夠生成完整的證明。

不過Thor和Baldur兩兄弟也可以一起工作,這樣可能把證明率提升到接近66%。

自動生成完整證明

Baldur由Google的大語言模型Minerva提供支援,Minerva在科學論文和包含數學表示式的網頁上進行訓練,並對有關證明和定理的資料進行了微調。

Baldur可以與定理證明助手Isabelle合作,Isabelle對證明結果進行檢查。當給定一個定理陳述時,Baldur幾乎在41%的時間內能夠生成一個完整的證明。

為了進一步提高Baldur的效能,研究人員向模型提供了額外的上下文資訊(比如其他定義、或理論檔案中的定理陳述),這使證明率提高到47.5%。

這意味著Baldur能夠獲取上下文,並使用它來預測新的正確證明,——類似於程式設計師,當了解了相關方法和程式碼之後,他們更有可能修復程式中的錯誤。

下面舉個例子(fun_sum_commute定理):

這個定理來自形式證明檔案中一個名為多項式的專案。

當人工編寫證明的時候,會區分兩種情況:集合是有限的或者不是有限的:

所以,對於模型來說,輸入是定理陳述,而目標輸出是這個人工編寫的證明。

Baldur認識到這裡需要歸納,並應用了一種特殊的歸納法則,稱為infinite_finite_induct,遵循與人類書面證明相同的總體方法,但更簡潔。

而因為需要歸納,Isabelle使用的Sledgehammer預設無法證明這個定理。

訓練

為了訓練證明生成模型,研究人員構建了一個新的證明生成資料集。

現有資料集包含單個證明步驟的示例,每個訓練示例包括證明狀態(輸入)和要應用的下一個證明步驟(目標)。

給定一個包含單個證明步驟的資料集,這裡需要建立一個新資料集,以便訓練模型一次預測整個證明。

研究人員從資料集中提取每個定理的證明步驟,並將它們連線起來以重建原始證明。

證明修復

還是以上面的fun_sum_commute為例,

Baldur首次生成的證明嘗試,在證明檢查器中失敗。

Baldur試圖應用歸納法,但未能首先將證明分解為兩種情況(有限集與無限集)。Isabelle返回以下錯誤訊息:

為了從這些字串中派生出一個證明修復訓練示例,這裡將定理陳述、失敗的證明嘗試和錯誤訊息連線起來作為輸入,並使用正確的人工編寫的證明作為目標。

上圖詳細介紹了訓練資料的建立過程。

使用證明生成模型,針對原始訓練集中的每個問題,對溫度為0的證明進行取樣。

使用校對助手,記錄所有失敗的校樣及其錯誤訊息,然後,繼續構建新的證明修復訓練集。

對於每個原始訓練示例,將定理語句、證明生成模型生成的(不正確的)候選證明以及相應的錯誤訊息連線起來,以獲得新訓練示例的輸入序列。

新增上下文

在定理陳述之前新增理論檔案的行,作為額外的上下文。比如下圖這樣:

Baldur中帶有上下文的證明生成模型,可以利用這些附加資訊。出現在fun_sum_commute定理語句中的字串,在這個上下文中再次出現,因此圍繞它們的附加資訊可以幫助模型做出更好的預測。

上下文可以是陳述(定理、定義、證明),還可以是自然語言註釋。

為了利用LLM的可用輸入長度,研究人員首先從同一個理論檔案中新增多達50個語句。

在訓練過程中,首先對所有這些語句進行標記化,然後截斷序列的左側以適應輸入長度。

上圖展示了有上下文和無上下文的生成模型的證明成功率與證明嘗試次數的關係圖。我們可以看出,具有上下文的證明生成模型始終優於普通生成模型。

上圖展示了不同尺寸和溫度模型的已驗證定理與推理成本之比。

我們可以看到生成模型的證明成功率,以及8B模型和62B模型的上下文與證明嘗試次數的關係。

具有上下文的62B證明生成模型優於具有上下文的8B模型。

不過,作者在這裡強調,由於這些實驗的成本較高,他們也無法調整超引數,62B模型如果經過最佳化可能會表現得更好。

參考資料:

https://arxiv.org/pdf/2303.04910.pdf

熱門資訊
  • 供不應求?博主稱多地小米之家手機家電賣斷貨 | 2025-01-31 14:37:28
  • 用過極空間私有云Q4,你會知道NAS可以這麼易用又智慧 | 2025-01-31 15:03:15
  • 三星新專利顯示未來 Galaxy Buds 耳機有望配備 UWB 技術播放音訊 | 2025-01-31 15:13:30
  • 國補期間入手平板超划算 小米平板7到手價1699元起 | 2025-01-31 15:16:56
  • 英偉達發Game Ready 572.16 WHQL驅動 帶來新卡新功能支援 | 2025-01-31 15:19:43
  • 我國光子毫米波雷達技術取得突破性進展,為 6G 技術應用奠定基礎 | 2025-01-31 15:29:19
  • 深海冰晶 靜謐溫控 iGame RTX 5080 Neptune圖賞 | 2025-01-31 15:34:55
  • 我國科研人員提出新方法 有望提高水稻等作物產量 | 2025-01-31 15:39:38
  • 高通驍龍X2產品線晶片曝光,Ultra Premium型號 | 2025-01-31 15:43:46
  • 1月全球液晶電視面板全面漲價 2月價格維持1月漲幅 | 2025-01-31 15:46:45
  • NASA批准公理太空公司第四次私人宇航員任務 | 2025-01-31 16:05:04
  • 中國空間站男、女航天員同框:為何都“胖”了一圈,怎麼保護隱私? | 2025-01-31 16:59:59
  • 飛船飛往月球時需要不斷變軌,為何不直接飛向月球? | 2025-01-31 17:19:35
  • Immunity丨基於特異性的工程平臺T-Switch用於開發安全有效的T細胞療法 | 2025-01-31 17:19:38
  • 美式絞索煉出中國真金,這把鐵拳砸爛西方科技霸權! | 2025-01-31 17:25:59
  • 從一臺量子計算機的“絕技”看中國算力未來 | 2025-01-31 17:26:00
  • Cancer Discovery丨BBO-8520,一款同類首創GTP/GDP結合KRAS^G12C的直接共價雙重抑制劑 | 2025-01-31 17:27:42
  • 唐本忠院士總主編,我國原創研究成果“聚集誘導發光叢書”全部出版 | 2025-01-31 17:27:50
  • 未來的三星 Galaxy Bud 可能會透過 UWB 而不是藍芽傳輸音訊 | 2025-01-31 17:42:28
  • 新春走基層·春節他們在崗|C919的“護航人” :國產大飛機帶你平安回家 | 2025-01-31 17:42:59
  • Blackwell的真正實力!GeForce RTX 5080 FE首發評測:功耗低於RTX 4080、效能接近RTX 4090D | 2025-01-31 17:45:06
  • 原價搶到算我輸!英偉達RTX 5090D/5080正式開賣:16499、8299元 | 2025-01-31 17:45:10
  • 蘇東莊逝世 | 2025-01-31 18:04:08
  • 訊息稱 Rapidus 計劃引入 10 臺 EUV 光刻機 | 2025-01-31 18:04:12
  • Apple Intelligence將從四月起支援更多語言 包括簡體中文 | 2025-01-31 18:15:23
  • Cancer Cell:董晨院士團隊發現影響癌症免疫治療效果的T細胞亞群 | 2025-01-31 18:48:08
  • 曝驍龍X2系列晶片正在研發中 將於今年晚些時候釋出 | 2025-01-31 19:04:27
  • 復刻太空梭的貨運飛船"追夢者號"透過空間站貨運任務測試 | 2025-01-31 19:04:28
  • 德商德靜界推出 be quiet!Power Zone 2 系列電源 | 2025-01-31 19:09:09
  • 2499元 HKC推出新款27寸顯示器:2K 300Hz屏 | 2025-01-31 19:19:16
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們