時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

揭秘Sora:用大語言模型的方法理解影片

2024-02-17 09:13:49

當全球還沉迷在如何用文字生成文字,以及文字生成圖片的時候,OpenAI就這麼掏出來了一個影片生成模型Sora。有關Sora的具體介紹和效果展示可以看我們昨天的文章《》。簡單來講,這是一個能夠根據文字指令或靜態影象生成長達1分鐘影片的擴散模型,而且影片中還包含精細複雜的場景、生動的角色表情以及複雜的鏡頭運動——它做到了目前市面上影片模型做不到的東西。

那麼Sora是如何做到的?在中,我們曾第一時間基於僅有的資訊給出了一個判 斷:

簡單粗暴的理解,就是語言能力足夠強大之後,它帶來的泛化能力直接可以學習影象影片資料和它體現出的模式,然後還可以直接用學習來的影象生成模型最能理解的方式,給這些利用了引擎等已有的強大而成熟的影片生成技術的視覺模型模組下指令,最終生成我們看到的逼真而強大的對物理世界體現出“理解”的影片。

而之後OpenAI釋出了Sora的技術報告:《Video generation models as world simulators》(影片生成模型作為世界模擬器),其中介紹的技術思路基本印證了我們上面的判斷。

接下來我們一起來基於有限但足夠資訊豐富的技術報告來解讀一下Sora背後的技術。

用大語言模型的方法理解影片

Sora的設計靈感來自於大語言模型,最主要的原因是大語言模型有一個核心功能是透過程式碼將多種文字形式進行了統一。而OpenAI為了訓練出Sora,他們的做法也是將各類視覺資料轉化為統一表示的方法。

不過在正式瞭解Sora之前,我們需要先科普一個概念——塊(patches)。有點類似於大語言模型中的token,塊指的是將影象或影片幀分割成的一系列小塊區域。這些塊是模型處理和理解原始資料的基本單元。

對於影片生成模型而言,塊不僅包含了區域性的空間資訊,還包含了時間維度上的連續變化資訊。模型可以透過學習patches之間的關係來捕捉運動、顏色變化等複雜視覺特徵,並基於此重建出新的影片序列。這樣的處理方式有助於模型理解和生成影片中的連貫動作和場景變化,從而實現高質量的影片內容生成。

OpenAI又在塊的基礎上,將其壓縮到低維度潛在空間,再將其分解為“時空塊”(spacetime patches)。

暈了是不是,別急,一個一個解釋。潛在空間是一個3年前出現的概念,是指一個高維資料透過某種數學變換(如編碼器或降維技術)後所對映到的低維空間,這個低維空間中的每個點通常對應於原始高維資料的一個潛在表示或抽象特徵向量。但是呢,最佳化強大的擴散模型往往需要消耗數百個GPU日的計算資源,並且由於其序列評估性質,推理成本較高。因此,本質上來講潛在空間,就是一個能夠在複雜性降低和細節保留之間達到近乎最優的平衡點,極大地提升了視覺保真度。

時空塊則是指從影片幀序列中提取出的、具有固定大小和形狀的空間-時間區域。相較於塊而言,時空塊強調了連續性,模型可以透過時空塊來觀察影片內容隨時間和空間的變化規律。

為了製造這些時空塊,OpenAI訓練了一個網路,用於降低視覺資料的維度,叫做影片壓縮網路。這個網路接受原始影片作為輸入,並輸出一個在時間和空間上都進行了壓縮的潛在表示。Sora在這個壓縮後的潛在空間中進行訓練和生成影片。同時,OpenAI還也訓練了一個相應的解碼器模型,用於將生成的潛在向量映射回畫素空間。

剛才咱們也聊了,說這個“塊”是非常接近token的,那麼這些塊的作用也應該和token差不太多。對於給定的壓縮輸入影片,OpenAi就直接提取一系列塊作為Transformer token使用,然後這些時空塊會被進一步編碼並傳遞給Transformer網路進行全域性自注意力學習。最後利用Transformer的強大能力來處理並生成具有不同屬性的影片內容。

這一方案同樣適用於影象,因為影象可以看作是僅有一幀的影片。基於塊的表示方法使得Sora能夠對不同解析度、時長和寬高比的影片和影象進行訓練。在推理階段,可以透過在一個適當大小的網格中排列隨機初始化的塊來控制生成影片的尺寸。

此外,在Sora模型的介紹頁面雖然提到的都是透過文字來生成影片,但Sora還能夠接受其他型別的輸入,比如影象或影片,以達到圖片生成影片、影片生成影片的效果。這一特性使得Sora能夠執行廣泛的影象和影片編輯任務——例如製作完美迴圈播放的影片、為靜態影象新增動畫效果、向前或向後延展影片時間軸等。

實現對物理世界的“湧現”

在長期的訓練中OpenAI發現sora模型逐漸擁有了一項新能力,叫做三維一致性。指的是Sora能夠生成動態視角的影片。同時隨著視角的移動和旋轉,人物及場景元素在三維空間中仍然保持一致的運動狀態。

這個可能對咱們人類來說沒什麼,但是對於人工智慧來說,還是相當厲害的。人工智慧理解三維物理世界,跟人類理解三維物理世界的方式不一樣,它採用了一種拓撲結構上的理解。注意,這裡的拓撲結構不是計算機的拓撲結構,而是拓撲學中的拓撲結構。拓撲結構是一個幾何或空間的抽象描述,用於描述集合中元素之間的連線方式和空間屬性,而不考慮具體的度量或形狀。它關注的是空間中點與點之間的連通關係以及空間的整體形狀,而不是具體尺寸或角度等細節。

除此之外,既然影片的視角發生變化,那麼相應的紋理對映也要改變。Sora的真實感非常強,換句話說,紋理對映在拓撲結構上就得非常準確。三維一致性能力使Sora能夠模擬來自現實世界中人物、動物和環境的某些方面。

一個讓人興奮中帶著點害怕的訊息是,這些屬性並非透過為3D、物體等新增明確的歸納偏置而產生——它們純粹是規模效應的現象。也就是說,是Sora自己根據訓練的內容,判斷出了現實世界中的一些物理客觀規律,某種程度上,人類如果僅僅是透過肉眼觀察,也很難達到這樣的境界。

還有一點,影片生成系統面臨的一項重大挑戰是在生成長影片時保持時間上的連貫性。而Sora也能夠有效地模擬短程和長程依賴關係。例如,即使人物、動物或物體被遮擋或離開畫面,Sora仍能保持這些元素存在於視線外,等到視角轉換到能看到他們的時候,再將這些內容展現出來。同樣的,它能夠在單個樣本中生成同一角色的多個鏡頭,並在整個影片中保持其外觀的一致性。

事實上這點倒沒有什麼,因為Sora是從transformer模型中孕育的,而transformer模型本身就能透過全域性自注意力機制等技術來實現很高的連續性。Sora只不過是從影片方面闡述了這種連續性而已。

對此,OpenAI得出了一個結論:影片生成模型是構建通用物理世界模擬器的一條有前景的道路。

Sora目前所展現的能力表明,它是能透過觀察和學習來了解物理規律。就Sora的這個理解力,說句實在的比我都強,老師在上面講課,我只能做到眼睛會了,腦子不會。

不過Sora當前作為一個模擬器存在許多侷限性。在OpenAI的主頁上,他們列舉了該模型的一些常見失效模式,比如在長時間取樣中可能出現的不連貫現象,以及物體無端出現等異常情況。從現有的結果來看,它還無法準確模擬許多基本互動的物理過程,像是玻璃破碎,以及其他型別的互動,比如吃食物。物體狀態的變化並不總是能夠得到正確的模擬,這說明很多現實世界的物理規則是沒有辦法透過現有的訓練來推斷的。

這些是這篇技術報告裡最核心的資訊,一如既往的,OpenAI在模型和實現細節方面繼續保持Close,不過,在報告中,OpenAI在不停提到“大力出奇跡”的效果:

關於湧現,它寫道:我們發現,當大規模地進行訓練時,影片模型展現出許多有趣的湧現能力。這些能力使得Sora能夠模擬現實世界中人類、動物和環境的某些方面。這些屬性並沒有任何針對3D、物體等的明確歸納偏見——它們純粹是規模效應的現象。

OpenAI顯然在把Sora描述成它一直堅持的Scaling law的又一次勝利——沒有多麼純粹原創的技術,很多技術成分早已存在,但它卻比所有人都更篤定的走了下去,並用足夠多的資源在巨大的規模上驗證了它。

歡迎加入這個星球,見證矽基時代發展↓

熱門資訊
  • 未來,精彩不斷!中國航天奔向新的星辰征途 | 2024-01-29 07:21:47
  • 馬斯克想要特斯拉更大控制權,投資者不滿 | 2024-01-29 07:34:18
  • 倒撥6.5歲!歐美百萬“回春服務”流入國內,確有所值還是智商稅 | 2024-01-29 07:37:34
  • 三大運營商怎麼就變成了五大?央企高管交流小作文分析! | 2024-01-29 07:37:37
  • 馬斯克想對特斯拉有更大控制權 投資者不滿 | 2024-01-29 07:41:11
  • 被AI奪走工作的人,決定反抗AI | 2024-01-29 07:54:31
  • 世界首例克隆西藏瀕危牛誕生 | 2024-01-29 07:54:34
  • 貝索斯前妻拋售百億美元股票,女富豪低調做好事 | 2024-01-29 07:54:36
  • 加量不加價!一加Ace 3相比上代提升太多 價格還更低 | 2024-01-29 07:54:39
  • 水泥壽命只有50年,那麼水泥房過了51年會不會塌?答案沒那麼簡單 | 2024-01-29 07:54:44
  • 新能源車春運期間自駕海南過海購票難?港口回應 | 2024-01-29 07:54:48
  • “七巨頭”財報拉開AI比拼序幕,科技軟硬體公司見分水嶺 | 2024-01-29 07:57:41
  • 可製造5nm晶片!佳能:奈米壓印裝置最快今年交付 | 2024-01-29 08:08:13
  • 為什麼說牛頓的萬有引力定律很偉大? | 2024-01-29 08:12:58
  • 蘋果預計三月底推出新iPad Air/Pro和MacBook Air | 2024-01-29 08:54:50
  • 英特爾將在"Nova Lake" CPU中採用臺積電2nm工藝 | 2024-01-29 08:54:59
  • 4種“跌下神壇”的家電,逐漸在淡出中國家庭 | 2024-01-29 08:55:04
  • vivo新款平板電腦透過3C認證入網,預計為iQOO Pad Air | 2024-01-29 08:55:09
  • 曝4款iPad 3月登場:蘋果供應鏈已開始量產 | 2024-01-29 08:55:12
  • 盧偉冰會玩,只對512GB版本搞活動 | 2024-01-29 09:04:41
  • 蘋果改造應用商店並不情願,還給開發者"挖了個坑" | 2024-01-29 09:04:44
  • 黃奇帆:消費網際網路的天花板到了 轉向產業網際網路才有前途 | 2024-01-29 09:04:49
  • 盧偉冰換上小米14 Ultra:影像強者中的強者 | 2024-01-29 09:04:53
  • 木星衛星成為美國宇航局朱諾號宇宙飛船的科學研究中心 | 2024-01-29 09:04:56
  • vivo 新款平板電腦透過 3C 認證入網,預計為 iQOO Pad Air | 2024-01-29 09:05:15
  • 冬至之後明明白晝變長了,為什麼卻越來越冷? | 2024-01-29 09:05:18
  • 夫妻攜手!不到一個月,連發3篇Nature大子刊! | 2024-01-29 09:33:34
  • 瑞士清潔科技公司SoHHytec用光電化學專利技術研發太陽能制氫系統,突破千瓦級產能上限 | 瑞士創新100強 | 2024-01-29 09:34:52
  • 30分鐘賣出8萬臺,20GB+512GB+一億畫素,如今僅售1599元 | 2024-01-29 09:35:55
  • 國行版三星Galaxy S24系列5499元起,大杯重回巔峰顯示 | 2024-01-29 09:46:49
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們