Sora火了,,通用人工智能要來了,?

  來源:科技日?qǐng)?bào)崔爽2024-02-27
打印本文
核心提示:2024年開年,Sora的橫空出世,,給AI界投下一枚重磅炸彈,。這個(gè)由美國人工智能公司OpenAI發(fā)布的文生視頻模型,只需要一段提示文本,,就能生成具有多個(gè)角色和特定動(dòng)作類型,,且主

 2024年開年,Sora的橫空出世,,給AI界投下一枚重磅炸彈,。

 這個(gè)由美國人工智能公司OpenAI發(fā)布的文生視頻模型,只需要一段提示文本,,就能生成具有多個(gè)角色和特定動(dòng)作類型,,且主題和背景基本準(zhǔn)確的高清視頻,。相較于Runway Gen 2、Pika等AI視頻生成應(yīng)用幾秒鐘連貫性的視頻產(chǎn)出,,Sora可生成長達(dá)60秒的連續(xù),、穩(wěn)定、高品質(zhì)視頻,,且提示文本越充分,、細(xì)節(jié)越精確,生成的視頻越真實(shí),。

 不過,,出于可能被濫用的擔(dān)憂,OpenAI表示目前并沒有公開發(fā)布Sora的計(jì)劃,。模型有限的訪問權(quán)限只被授予小部分研究人員和創(chuàng)意人士等群體,,以便OpenAI獲取他們的使用反饋。

 目前,,官網(wǎng)上已更新了48個(gè)Sora生成的演示視頻,。這些視頻清晰且真實(shí)的細(xì)節(jié)和超高的精度不禁引發(fā)人們思考:這是否意味著具備人類同等智能或超越人類智能的通用人工智能(AGI)的到來?

 對(duì)研究AGI意義重大

 Sora問世后,,360集團(tuán)創(chuàng)始人周鴻祎發(fā)表了看法:Sora的出現(xiàn)讓AGI到來的時(shí)間提前了,。原來估計(jì)需要十來年,現(xiàn)在可能只要兩三年,。他認(rèn)為,,Sora雖然看起來只是個(gè)文生視頻工具,但實(shí)際上是AI認(rèn)知世界并與之進(jìn)行交互的里程碑,,會(huì)給整個(gè)產(chǎn)業(yè)帶來巨大進(jìn)步,。

 “實(shí)現(xiàn)AGI的技術(shù)路線多樣,涉及不同的研究方法和應(yīng)用方向,?!敝袊茖W(xué)院自動(dòng)化研究所副總工程師、紫東太初大模型中心常務(wù)副主任王金橋向科技日?qǐng)?bào)記者介紹,,目前,,學(xué)術(shù)界和工業(yè)界廣泛討論的AGI技術(shù)路線主要有三條。一是信息智能,,即“大數(shù)據(jù)+自監(jiān)督學(xué)習(xí)+大算力”,。這種方法依賴大量數(shù)據(jù),通過自監(jiān)督學(xué)習(xí)算法來訓(xùn)練模型,,同時(shí)需要巨大的計(jì)算能力來處理復(fù)雜任務(wù),。二是博弈智能。這種技術(shù)路線強(qiáng)調(diào)在人機(jī)交互中通過強(qiáng)化學(xué)習(xí)的方式訓(xùn)練智能體,,使其能進(jìn)行自主學(xué)習(xí)和決策,。三是類腦智能,。這種方法試圖通過模仿人腦的運(yùn)行方式實(shí)現(xiàn)AGI。

 在王金橋看來,,根據(jù)官網(wǎng)的演示視頻,,Sora至少在畫質(zhì)、長視頻生成,、多鏡頭一致性,、學(xué)習(xí)世界規(guī)律、多模態(tài)融合等方面實(shí)現(xiàn)突破,。

 “Sora能引發(fā)如此轟動(dòng),,并不只是因?yàn)樗傻囊曨l時(shí)間更長、清晰度更高,,而是因?yàn)樗茉谝欢ǔ潭壬夏M物理世界中的物體運(yùn)動(dòng)和交互,。”王金橋說,,“這種能力對(duì)于AGI的研究具有重要意義,,因?yàn)樗婕皺C(jī)器對(duì)現(xiàn)實(shí)世界的深入理解和高度模擬,而這些是實(shí)現(xiàn)AGI的核心挑戰(zhàn),?!?

 記者了解到,為了準(zhǔn)確模擬物理世界,,Sora被投喂了極大規(guī)模的訓(xùn)練數(shù)據(jù),,并使用了擴(kuò)散模型等先進(jìn)的算法?!皩?duì)于AGI而言,Sora讓大家看到,,規(guī)模效應(yīng)不只在文字模態(tài)上成立,,在視頻模態(tài)上也成立?!北本┰轮得婵萍加邢薰荆∕oonshot AI)聯(lián)合創(chuàng)始人周昕宇認(rèn)為,,“通過擴(kuò)展視頻生成模型可以建立通用物理世界模擬器。這是實(shí)現(xiàn)AGI的必要過程,?!?

 距真正實(shí)現(xiàn)AGI仍有距離

 雖然進(jìn)步顯著、令人驚艷,,但Sora仍然存在一些技術(shù)缺陷,。

 從目前Sora生成的視頻來看,它在處理某些細(xì)節(jié)時(shí)可能會(huì)出錯(cuò),,例如混淆物體的左右方向,。同時(shí),,它也無法完全理解復(fù)雜的因果關(guān)系,或在長時(shí)間跨度內(nèi)保持故事線的高度一致連貫,。這些技術(shù)缺陷導(dǎo)致生成的視頻內(nèi)容可能出現(xiàn)與邏輯錯(cuò)誤,,或與常識(shí)、真實(shí)情形不符的情況,。

 “Sora模擬真實(shí)物理世界的方式,,是通過對(duì)給定的文字、圖像,、參考視頻進(jìn)行建模,,然后預(yù)測(cè)想要生成的視頻數(shù)據(jù)的條件概率分布。這與語言模型的原理沒有本質(zhì)區(qū)別,,同樣是在做無損壓縮,。”周昕宇說,,“只要壓縮得足夠好,,就可以模擬出足夠真實(shí)的物理世界?!?

 王金橋強(qiáng)調(diào),,盡管Sora能夠通過學(xué)習(xí)了解表層的運(yùn)動(dòng)和交互關(guān)系,但是還沒有學(xué)習(xí)到物理規(guī)律的本質(zhì),。比如,,它不知道多大的風(fēng)能吹滅蠟燭,不了解玻璃掉到地上會(huì)碎,、掉到地毯上不會(huì)碎的本質(zhì)原因,。這也是Sora目前最為人詬病之處。

 “從Sora為數(shù)不多的公開資料來看,,它仍是數(shù)據(jù)驅(qū)動(dòng)下的擬合,,也就是模擬人類所能看到的物理世界。但真實(shí)的物理世界遠(yuǎn)不僅包含人類視覺信息,?!北本┲嘘P(guān)村科金技術(shù)有限公司技術(shù)副總裁張杰認(rèn)為,Sora的創(chuàng)意來自大數(shù)據(jù)量下的概率擬合,,它并沒有產(chǎn)生新知識(shí),,距離“深度模擬真實(shí)物理世界”這一目標(biāo)還有很長的路要走。

 中國社會(huì)科學(xué)院哲學(xué)研究所科技哲學(xué)研究室主任,、研究員段偉文同樣表達(dá)了審慎的觀點(diǎn),。“Sora這種近乎人類的表達(dá)實(shí)際上是一種基于現(xiàn)有數(shù)據(jù)和語料的合成智能,?!彼f,,“它給實(shí)現(xiàn)AGI找到了一種可行的路徑,但距真正的AGI還有很長的距離,,且對(duì)實(shí)現(xiàn)AGI的價(jià)值相對(duì)有限,。”

 事實(shí)上,,實(shí)現(xiàn)AGI這一目標(biāo)可謂道阻且長,。王金橋談到了幾大挑戰(zhàn)。首先是數(shù)據(jù)瓶頸,。盡管像GPT-4這樣的預(yù)訓(xùn)練語言模型在數(shù)據(jù)標(biāo)注上取得了進(jìn)展,,但數(shù)據(jù)依然是深度學(xué)習(xí)中的一個(gè)關(guān)鍵限制因素;其次是泛化瓶頸,。目前的AI系統(tǒng)往往在特定任務(wù)上表現(xiàn)出色,,但在面對(duì)新任務(wù)時(shí)難以有效適應(yīng);最后是能耗瓶頸,。隨著AI模型變得越來越復(fù)雜,,所需的計(jì)算資源和能源消耗也越來越大。這對(duì)硬件設(shè)備提出了更高要求,。

 或?qū)⒙氏嚷涞貍髅筋I(lǐng)域

 Sora的發(fā)布不僅推動(dòng)了技術(shù)的發(fā)展,,也引發(fā)了對(duì)AI治理和倫理的探討。

 段偉文提到,,OpenAI采取了相關(guān)手段來阻止不當(dāng)視頻的發(fā)布,。王金橋進(jìn)一步解釋道, Sora內(nèi)置的文本提示過濾器可篩選發(fā)送給模型的所有提示,,阻止對(duì)暴力,、色情內(nèi)容、仇恨言論以及名人肖像等敏感或不適當(dāng)內(nèi)容的請(qǐng)求,。視頻內(nèi)容過濾器能檢查生成的視頻幀,,屏蔽違反OpenAI安全政策的內(nèi)容。

 另外,,OpenAI團(tuán)隊(duì)可能會(huì)定期對(duì)Sora進(jìn)行優(yōu)化和更新,,以改進(jìn)其過濾機(jī)制,,確保模型能夠更好地識(shí)別和處理敏感內(nèi)容,。同時(shí),團(tuán)隊(duì)可能會(huì)監(jiān)控系統(tǒng)的使用情況,,以便及時(shí)發(fā)現(xiàn)并解決新出現(xiàn)的問題,。

 “從技術(shù)上看,Sora避免極端暴力,、色情,、名人肖像等內(nèi)容出現(xiàn)的方式,,主要依靠的是模型的對(duì)齊能力?!敝荜坑钫f,,“這一點(diǎn)和語言模型的區(qū)別不大,也已經(jīng)有比較多的實(shí)踐經(jīng)驗(yàn),?!?

 據(jù)國際數(shù)據(jù)公司預(yù)測(cè),Sora將率先在短視頻,、廣告,、互動(dòng)娛樂、影視制作和媒體等傳媒領(lǐng)域得到應(yīng)用,。Sora的諸多能力,,可以輔助這些領(lǐng)域的工作者更高效地進(jìn)行視頻創(chuàng)作,加快生產(chǎn)速度,,提高產(chǎn)出數(shù)量,。這將助力相關(guān)行業(yè)降低成本、提升效率,,進(jìn)一步優(yōu)化用戶體驗(yàn),。

(編輯:映雪 )


Sora火了,通用人工智能要來了,?

 
[責(zé)任編輯: 315xwsy_susan]

免責(zé)聲明:

1、本網(wǎng)內(nèi)容凡注明"來源:315記者攝影家網(wǎng)"的所有文字,、圖片和音視頻資料,,版權(quán)均屬315記者攝影家網(wǎng)所有,轉(zhuǎn)載,、下載須通知本網(wǎng)授權(quán),,不得商用,在轉(zhuǎn)載時(shí)必須注明"稿件來源:315記者攝影家網(wǎng)",,違者本網(wǎng)將依法追究責(zé)任,。
2、本文系本網(wǎng)編輯轉(zhuǎn)載,,轉(zhuǎn)載出于研究學(xué)習(xí)之目的,,為北京正念正心國學(xué)文化研究院藝術(shù)學(xué)研究、宗教學(xué)研究、教育學(xué)研究,、文學(xué)研究,、新聞學(xué)與傳播學(xué)研究、考古學(xué)研究的研究員研究學(xué)習(xí),,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),。
3、如涉及作品,、圖片等內(nèi)容,、版權(quán)和其它問題,請(qǐng)作者看到后一周內(nèi)來電或來函聯(lián)系刪除,。