Sora的出現不亞于一次“小型核爆炸”。
2月16日,Open AI公司發布了全新的視頻生成AI大模型Sora,該模型可以通過文本快速制作出一段長達60秒的視頻,視頻中可以呈現多個角色、特定動作、以及復雜場景。
這無疑是AI領域的一個爆炸新聞。
自ChatGPT誕生以來,圍繞著生成式AI的討論便層出不窮,各個軟件廠商也開始了在語言大模型賽道上的軍備競賽,百度率先推出了“文心一言”,阿里推出了“通義千問”等等,各家都不希望錯過這個風口。
而就在這個賽道正走向平靜的時候,谷歌推出了重磅級的產品“Gemini 1.5”,并將上下文窗口長度擴展到100萬個tokens,這讓Gemini 1.5有了一次性處理超過三萬行代碼的能力。然而谷歌的這一張牌也使得Open AI帶來了其“王炸”級別的產品——Sora。
Open AI推出Sora將生成式AI推進到視頻生成時代,對整個AI的市場格局有什么影響?生成視頻AI對各個行業未來會有什么樣的顛覆?真正的人工通用智能(AGI)即將到來?
Sora推進“AGI”大跨步
“AGI可能不需要十年二十年那么遠,可能一到兩年就能實現。”這是周鴻祎在Sora發布之后給予的評價。馬斯克更是直接發文表示:“人類要完(gg humans)。”
Sora是什么樣的一款產品,能讓業內人士給出如此高的評價?
目前,在Open AI的官網上已經更新了48個視頻,在這些視頻中盡管有些視頻還是會出現一些不符合嘗試的小bug,但在絕大多數場景下,Sora能夠精準地展現出文字描述的細節,更能理解物體在真實世界中的存在,生成相對應的角色和信息。也標志著Sora不僅僅能夠通過信息學習到信息,更能靈活地運用這些信息模擬出一個接近真實的“虛擬世界”。甚至一次性還能生成同一個場景下不同“機位”不同視角的場景。
僅從現在Sora展現出的實力,顯然已經讓目前的“Gemini 1.5”望塵莫及。但同樣也有人提出了質疑,圖靈獎得主LeCun表示,像Sora這種僅根據文字提示生成逼真的視頻,并不代表模型理解了物理世界。生成視頻的過程與基于世界模型的因果預測完全不同。而后Meta也推出了一個全新的無監督「視頻預測模型」——V-JEPA,號稱能夠“以人類的視角來理解世界”。
無可否認的是,Sora不僅是生成式AI由語言文字模型邁向視頻模型的一步,更也將“世界模型”這一概念徹帶火。未來的AI模型發展方向也成為了更真實地去理解模擬這個現實世界。
“世界模擬”也成為了AI新的方向,這一新方向也正在推進著“AGI”時代的到來。有了認識世界模擬世界的能力,甚至再給AI加上攝像頭和傳感器,AI成正朝著擁有自主感知認識現實世界,學習并模擬現實世界的能力,能處理語言文本,圖像視頻的人工通用方向智能躍進。
有了這樣的AI,也有許多人表示擔憂:“這次可能是真的要失業了。”
“Sora”占領未來“抖音”們?
視頻生成大模型,首先會改變的可能就是是視頻行業的格局。
目前,在短視頻平臺上,無數的AI讀有聲小說,AI小說配漫畫圖一類視頻都有著極高的熱。隨著視頻生成大模型的進一步發展,或許一部小說,AI就能自動生成一部電視劇或是電影。對于觀眾而言,生成式視頻大模型或許未來會成為最懂你的“導演”,為你獨家生成最合適的劇情和最符合你審美的演員。
對于許多的短視頻創作者而言,視頻生成大模型同樣能夠幫助節約下許多的拍攝成本,想要的場景,想要的演員甚至是劇情,只需要簡單文字描述,就可以生成一段理想的視頻素材,從而輔助短視頻的創作。由于AI視頻生成的便捷和快速,許多需要快速制作的時效性視頻便成為了AI大顯身手的領域。
對于視頻后期工作者來說,尤其是特效工作者,視頻生成大模型的加入同樣也是以此極大的生產力進步,許多場景的替換,特效制作,甚至是在現實世界中從未出現的特效畫面,都可以通過向AI描述的方式來獲得想要的特效畫面。
但也正是因為AI功能的過于強大,讓許多人再次產生了行業以及職業發展的擔憂。
周鴻祎表示:以大模型技術作為基礎,加上人類知識的引導,可以創造各個領域的超級工具,例如在生物醫學、蛋白質、基因研究,包括物理、化學、數學的學科研究上,大模型都會其相應發揮作用。甚至AI的算力能幫助我們推演這個世界上人來尚未掌握的自然規律。
從技術發布到技術落地上有一大段路要走,未來是否真的能如周鴻祎構想的那樣由大模型技術帶來一場“技術爆炸”尚未可知。
就像珍妮紡紗機在工業革命時大放異彩,的確讓許多人在當時失業,但不代表著人類會進入一種由AI主導的“人類無用”狀態,AI依舊是需要人來支配以及提供維護,輔助學習的。并不會如一些悲觀者所言出現AI取代人類的狀態。
但必須要接受的是,我們在這場科技革命當中,需要轉變心態擁抱一個新的時代的到來,甚至是擁抱一個虛擬的世界的到來。
Sora,虛擬與現實的潘多拉魔盒
Sora的強大,讓出門問問的創始人李志飛感慨道:“LLM ChatGPT是虛擬思維世界的模擬器,以LLM為基礎的視頻生成模型Sora是物理世界的模擬器,物理和虛擬世界都被建模和模擬了,到底什么是現實?”
當AI創造出了一個足夠真實的虛擬世界,或許曾經人們在科幻電影里所暢想的“黑客帝國”,想成為的“頭號玩家”,也會在不遠的將來正式到來。降溫許久的元宇宙,或許隨著“世界模型”的不斷發展,也將再度占領風口。
此前,2月初,蘋果公司推出的虛擬現實設備Vision Pro也迎來了正式發售,雖然第一代產品并不完美,但其可用度和操控性在一眾虛擬現實產品當中已經是佼佼者,并且讓許多消費者看到了虛擬現實設備成為下一個時代的移動設備的潛力。
Sora和Vision Pro或許會是真正叩開元宇宙大門的代表軟硬件的兩把鑰匙。
無論是曾經的Meta推出的頭戴設備還是如今蘋果的設備,都不能做到虛擬和現實真正的融合,也就是現實中的人,無法沉浸在那樣一個虛擬的世界當中。而如果未來Sora能構建一個與物理世界體驗無差的虛擬世界,真正構建出一個宏大的元宇宙,或許那個時候才是元宇宙迎來真正爆發的時候。
我們可能真的能體會到《頭號玩家》甚至是《黑客帝國》里面描述的那樣的世界,我們可能真的能沉浸式體驗一把“三體游戲”。只是不知道,如果真到了那時候,馬斯克會不會再度感慨:“gg humans”。
數據來源:網絡
圖片來源:網絡
參考文章:
新智元 《LeCun怒斥Sora不能理解物理世界!Meta首發AI視頻世界模型V-JEPA》
每日經濟新聞 《Sora橫空出世,馬斯克發聲!OpenAI估值飆升,有望超800億美元》
財聯社 《Sora潛力多大?OpenAI科學家分享:它可以同時生成多視角視頻》
數科星球 《Sora“拯救”元宇宙,世界模型的潛力才剛釋放》
和訊網 《OpenAI的Sora會砸掉誰的飯碗?》
周鴻祎 微博《Sora意味著AGI實現將從十年縮短到一年》