時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

Science封面:基因組基礎模型 Evo,從分子到基因組理解生命複雜性

2024-11-30 17:45:06

導語

隨著大語言模型時代的到來,各領域都湧現出了一批使用、強算力訓練出的基礎模型,它們在評測中表現優異,並能泛化到各種下游任務。在 AI for Life Science 領域,單細胞基礎模型 scGPT、scFoundation,蛋白大模型Alphafold3、ROSTTAFold 等相繼湧現。2024年11月15日,美國 Arc 研究所(Arc Institute)和斯坦福大學的研究團隊提出了一種基因組大模型 Evo,能夠以無與倫比的準確性解碼和設計從分子到基因組規模的 DNA、RNA 和蛋白質序列,打通“中心法則”,這一成果刊登在當期 Science 封面,為解碼複雜生命系統提供了利器。

關鍵詞:AI for Science,基因組基礎模型,基因組設計

董弘禹| 作者

論文題目:Sequence modeling and design from molecular to genome scale with Evo 論文連結:https://www.science.org/doi/10.1126/science.ado9336

在生活中,ChatGPT 可以寫小說、編寫計算機程式碼、提供出行建議,它能夠閱讀網際網路上的所有語言文字資訊,並生成問題的答案。在分子生物學中,DNA 序列是碳基生物的“語言文字”,讀懂這些資訊就能夠掌握遺傳密碼。科學家已經開發了一些模型,可以像分析大語言模型中的單詞一樣分析 DNA 序列,如 DNABERT2 等。然而,這些模型只能解釋和預測相對較短的 DNA 片段,並且訓練資料也十分有限,泛化效能不高。基於此,科學家們研發了 Evo 模型。它以數十億條基因序列為基礎,可以推斷出細菌和病毒基因組的運作方式,並利用這些資訊設計新的蛋白質甚至整個微生物基因組。

圖1. 基因組基礎模型 Evo 具有70億個引數,可以學習從單個核苷酸到整個基因組的生命複雜性。

1. 基因組基礎模型 Evo:架構與訓練細節

想要理解大批次的基因資料,首先就要改進模型架構。Evo 採用了基於 StripedHyena 的框架,在 270 萬個進化多樣的原核生物和噬菌體基因組上進行預訓練,從而獲得對遺傳語言的基本理解,預測 DNA 的功能或生成新的 DNA 序列。

StripedHyena 架構如圖1B所示,該模型混合了密集二次 Transformer 運算元和次二次型 Hyena 運算元用於提高計算效率。同時,該模型將上下文視窗擴增到長達13萬鹼基,顯著提高了模型識別基因與其他基因調控元件 (如啟動子、增強子等) 之間聯絡的能力。為了為了確定 Evo 的最佳架構和縮放比例,圖1F、G比較了在計算最優邊界上預訓練的不同模型的縮放率,在資料集大小和模型大小之間進行最佳計算分配。

從訓練角度來看,為了防止惡意使用者設計生物武器,研究人員從 AI 的訓練集中刪除了任何攻擊人類或其他真核生物的病毒序列,並在接近 3000 億核苷酸序列資訊上進行了4周的訓練。

圖2. 在原核生物中預訓練基因組基礎模型

2. Benchmark與效能比較

為了測試 Evo 模型的效能,研究人員首先衡量它是否能夠預測突變對生物序列的影響。具體而言,在零樣本功能預測的條件下使用 Evo 與其他模型,預測蛋白質突變對功能的影響、非編碼 RNA 突變對功能的影響、調控 DNA 序列對基因表達的影響。圖2展示其相關性的強度超過了之前從 DNA 序列資料推斷突變效應的人工智慧模型;其工作效果與其他依賴蛋白質序列的 AI 模型一樣好。

圖3. Evo 對蛋白質、非編碼 RNA 和調控 DNA 進行零樣本功能預測

3. 下游應用:

從分子到基因組尺度的序列設計

除了判別式任務之外,基礎模型也應有生成能力。ChatGPT 能夠生成文章,Evo 模型也能夠生成基因序列。為此,研究團隊讓 Evo 設計新版本的 CRISPR 基因編輯器。如圖3所示,Evo 首先研究了 70,000 多個編碼 Cas 蛋白及其伴侶 RNA 的細菌 DNA 序列。然後,該模型設計了數百萬個分子的潛在版本。研究人員挑選了 11 個最有可能的 Cas9 變體,並在實驗室中合成了這些蛋白質。在試管實驗中,設計的 Cas9 酶中最好的一種,在切割 DNA 方面與商業版本的蛋白質一樣好。

圖4. 在 CRISPR-Cas 序列上進行微調可實現蛋白質-RNA 複合物的生成性設計

此外,Evo 還擅長多元件系統生成任務,如圖4所示,團隊透過對 CRISPR-Cas 序列和IS200/IS605 序列進行微調,可以實現合成 CRISPR-Cas 分子複合物和轉座系統。研究人員實驗驗證了 Evo 生成的 CRISPR-Cas 分子複合物以及 IS200 和 IS605 轉座系統的功能活性,這是使用語言模型進行蛋白質-RNA 和蛋白質-DNA 協同設計的第一個例項。

圖5. 在 IS200/IS605 序列上進行微調可實現轉座生物系統的生成性設計

最後,研究人員使用 Evo 生成了長達 1MB 的 DNA 序列作為細菌的基因組,這些序列展現出真實基因組的多個特徵,包括編碼密度、基因組織、密碼子使用偏好性、四核苷酸使用模式等 (圖5) 。

圖6. Evo 生成具有密集編碼架構的基因組規模序列

總體而言,Evo 經過 270 萬個原核生物和噬菌體基因組的訓練,展示了跨 DNA、RNA 和蛋白質模態的零樣本函式預測,其效能可與特定領域的語言模型相媲美,甚至優於特定領域的語言模型。模型首次實現了單核苷酸解析度下的長序列 DNA 建模,實現了從分子到基因組尺度的序列設計能力。這些突破為生物工程和基因組設計開闢了新的可能性。

大模型與生物醫學:

AI + Science第二季讀書會

生物醫學是一個複雜且富有挑戰性的領域,涉及到大量的資料處理、模式識別、理論模型建構和實驗驗證等問題。AI基礎模型的引入,使得我們能夠從前所未有的角度去觀察和理解這個領域的問題,加速科學研究的步伐,提高醫療服務的效率和效果。這種交叉領域的合作,標誌著我們正在向科技與生物醫學深度融合的新時代邁進,對於推動科學研究、最佳化醫療服務、促進人類健康有著深遠的影響。

集智俱樂部聯合西湖大學助理教授吳泰霖、斯坦福大學計算機科學系博士後研究員王瀚宸、博士研究生黃柯鑫、黃倩,華盛頓大學博士研究生屠鑫明,共同發起以“大模型與生物醫學”為主題的讀書會,共學共研相關文獻, 探討基礎模型在生物醫學等科學領域的應用、影響和展望。 讀書會已完結,現在報名可加入社群並解鎖 回放 影片許可權。

詳情請見:

生命複雜性讀書會:

生命複雜系統的構成原理

在生物學中心法則的起點,基因作為生命複雜系統的遺傳資訊載體,在生命週期內穩定存在;而位於中心法則末端的蛋白質,其組織構成和時空變化的複雜性呈指數式增長。隨著分子生物學數十年來的突飛猛進,尤其是生命組學(基因組學、轉錄組學、蛋白質組學和代謝組學等的集合)等領域的日新月異,當代生命科學臨近爆發的邊緣。如此海量的資料如何幫助我們揭示宇宙中最複雜的物質系統——“人體”的構成原理和設計原理?闡釋人類發育、衰老和重大疾病的發生機制?

集智俱樂部聯合西湖大學理學院及交叉科學中心講席教授湯雷翰,國家蛋白質科學中心(北京)副研究員常乘、李楊,香港浸會大學助理教授唐乾元,北京大學前沿交叉學科研究院研究員林一瀚,中國科學院分子細胞科學卓越創新中心博士後唐詩婕,共同發起「」讀書會,從微觀細胞尺度、介觀組織器官尺度到宏觀人體尺度,梳理生命科學領域中的重要問題及重要資料,由生物學家提問,希望促進統計物理、機器學習方法研究者和生命科學研究者之間的深度交流,建立跨學科合作關係,激發新的研究思路和合作專案。讀書會從2024年8月6日開始,每週二晚19:00-21:00進行,持續時間預計10-12周。歡迎對這個生命科學、物理學、計算機科學、複雜系統科學深度交叉的前沿領域感興趣的朋友加入!

詳情請見:

1.

2.

3.

4.

5.

6.

熱門資訊
  • 科技部統一部署!深圳宣佈一里程碑事件:又一國之重器建成!全球新目標曝光 | 2024-11-17 04:45:19
  • 國際空間站漏氣已 5 年:美國“提心吊膽”、俄羅斯有意淡化 | 2024-11-17 05:45:18
  • 獲66億美元補助的臺積電:將在美國生產最先進的晶片 | 2024-11-17 06:25:06
  • TCL 華星宣佈印刷 OLED 正式量產,釋出全新技術品牌 APEX | 2024-11-17 07:01:10
  • 國產作業系統的沉浮往事(完整版) | 2024-11-17 07:49:20
  • 低空經濟大發展必須突出解決三個方面問題 | 2024-11-17 08:08:42
  • 航天器失控、空間站墜落,背後的“元兇”竟然是…… | 2024-11-17 08:18:55
  • OPPO Pad 3 平板“買板送筆”:4096 級壓力感知、定製軟筆尖 | 2024-11-17 08:21:34
  • 國家科技部監督司釋出《科研單位科研誠信管理制度示範文字》 | 2024-11-17 08:28:13
  • “臺獨”大難臨頭了!馬斯克果斷出手,一拳打向賴清德命脈! | 2024-11-17 08:46:48
  • 中國人的基因密碼被破解?復旦大學公佈基因圖譜,最怕拿來做武器 | 2024-11-17 09:05:49
  • 馬斯克新官上任再起訴OpenAI!指控其壟斷 | 2024-11-17 09:17:24
  • 趕在特朗普“回鍋”前,拜登敲定臺積電的66億美元補貼 | 2024-11-17 09:17:26
  • 三星或2025年三季度推出AR眼鏡 主打輕量化與AI功能 | 2024-11-17 09:25:52
  • openEuler系作業系統5年累計裝機量突破1000萬 | 2024-11-17 09:26:46
  • 談談“玻爾茲曼大腦”理論的缺陷 | 2024-11-17 09:44:37
  • NVIDIA新一代旗艦卡RTX 5090大曝光:介面、功耗鉅變 售價猛漲 | 2024-11-17 10:12:02
  • 全球第二大GPU生產商PC Partner總部遷離中國!新加坡上市、印尼生產 | 2024-11-17 10:12:04
  • 小米“駕校”真的來了!能學漂移還能考賽車證?雷軍透露12月開始“招生” | 2024-11-17 10:16:18
  • 小鵬汽車MONA M03汽車上市2個月連續交付超1萬臺 | 2024-11-17 10:16:24
  • 幹得漂亮!拒絕資源浪費,繼5G共建共享後,電信和聯通在區域性實現4G一張網 | 2024-11-17 10:25:11
  • 《自然》:精準鎖定腫瘤細胞!新晉諾獎得主合作開發新技術,免疫療法有望再升級 | 2024-11-17 10:45:56
  • 索尼公佈 PTZ 攝像機 2025 年韌體升級計劃,拓展 AI 智慧構圖 | 2024-11-17 10:51:35
  • i3默秒全再見!亞馬遜上最暢銷的10款CPU:全是AMD Intel被清除 | 2024-11-17 10:53:27
  • 我國嫦娥八號將搭載巴基斯坦月球車,計劃 2028 年前後發射 | 2024-11-17 12:19:20
  • 晶片行業,驚弓之鳥 | 2024-11-17 12:44:14
  • 晶片裝置,面臨風險 | 2024-11-17 12:44:19
  • 華為 Mate70 系列新機研發代號曝光,訊息稱耳機匹配手機顏色 | 2024-11-17 12:59:49
  • 困擾數學家一個多世紀的難題,AI從生物學中找到線索 | 2024-11-17 13:15:24
  • 轟轟烈烈的量子力學革命,竟從一個默默無聞的小島開始 | 2024-11-17 13:19:46
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們