近日,美國人工智能公司“開放人工智能研究中心”(OpenAI)發(fā)布了旗下首款文生視頻模型Sora,持續(xù)引發(fā)關(guān)注。這是繼文本模型ChatGPT和圖片模型Dall-E之后,OpenAI又一款極具顛覆性的AI大模型產(chǎn)品。
在受訪專家看來,Sora的出現(xiàn)對現(xiàn)實(shí)生活和傳統(tǒng)行業(yè)帶來深遠(yuǎn)影響。目前,國產(chǎn)AI大模型在視頻生成技術(shù)上與Sora相比存在明顯差距。Sora的出現(xiàn)對人工智能技術(shù)的監(jiān)管能力提出了諸多新挑戰(zhàn),需提防AI大模型潛藏風(fēng)險(xiǎn)。
AI大模型Sora影響幾何
據(jù)OpenAI介紹,Sora可根據(jù)文本指令創(chuàng)建近似現(xiàn)實(shí)且富有想象力的場景,生成多種風(fēng)格、不同畫幅、最長為一分鐘的高清視頻。該模型還能夠根據(jù)靜態(tài)圖像生成視頻,或?qū)ΜF(xiàn)有視頻進(jìn)行擴(kuò)展或填充缺失的幀。
Sora將帶來什么?盤古智庫高級研究員江瀚在接受中國城市報(bào)記者采訪時(shí)表示:“隨著文字生成視頻大模型技術(shù)的不斷發(fā)展,我們可以預(yù)見它將深刻改變?nèi)藗兊纳罘绞健!?/p>
具體而言,江瀚認(rèn)為,在教育領(lǐng)域,Sora可迅速生成個(gè)性化、生動(dòng)有趣的教學(xué)視頻,減輕教師制作課件的負(fù)擔(dān)。在廣告和營銷領(lǐng)域,它助力企業(yè)打造創(chuàng)意廣告,吸引顧客,增強(qiáng)品牌影響力。影視制作、動(dòng)畫、虛擬現(xiàn)實(shí)和游戲開發(fā)行業(yè)也能因此提高效率、降低成本,創(chuàng)作出更多驚艷作品。對于新聞報(bào)道和社交媒體內(nèi)容創(chuàng)作者,Sora則有望成為他們制作高質(zhì)量視頻的得力助手。
“和其他的視頻AI軟件相比,Sora的優(yōu)勢在于生成的視頻足夠長、足夠真實(shí),并擬合了物理規(guī)律,起到了以假亂真的效果。”江蘇省道德發(fā)展智庫研究員、東南大學(xué)哲學(xué)與科學(xué)系副教授張學(xué)義分析,該技術(shù)目前還在內(nèi)測階段,尚未對公眾開放;如果開放,可能應(yīng)用的領(lǐng)域最直接的就是電影、自媒體、動(dòng)畫、廣告等行業(yè),它可以根據(jù)輸入文本直接生成對應(yīng)的視頻,也可以剪輯修改已有的視頻。
在萬興科技AI創(chuàng)新中心總經(jīng)理齊鏜泉看來,Sora通過文生視頻技術(shù)快速生成短視頻素材,減少了對傳統(tǒng)素材庫的依賴,對視頻素材行業(yè)帶來一定沖擊。同時(shí),Sora提高了短視頻制作效率,降低了成本,為創(chuàng)作者提供了更多創(chuàng)作自由,推動(dòng)了行業(yè)創(chuàng)新,對短視頻行業(yè)而言是重大機(jī)遇。
“Sora無疑具有顛覆性影響。”中國政法大學(xué)傳播法研究中心副主任朱巍告訴中國城市報(bào)記者,過去,藝術(shù)家與普通人之間的區(qū)分主要依據(jù)在于他們?nèi)绾伪磉_(dá)思想和這種表達(dá)所引發(fā)的共鳴程度。隨著技術(shù)的發(fā)展,尤其是AI大模型,藝術(shù)家和普通人的界限將被打破,人人皆可成為藝術(shù)家。
“技術(shù)使得創(chuàng)意轉(zhuǎn)化變得更加容易和迅速。以前,創(chuàng)意轉(zhuǎn)化為成果需要藝術(shù)家付出大量的時(shí)間和精力。現(xiàn)在,普通人通過技術(shù)也能很輕松地將自己的創(chuàng)意轉(zhuǎn)化為成果。”朱巍進(jìn)一步分析說。
國產(chǎn)AI大模型如何迎頭趕上
Sora并非首個(gè)文生視頻大模型。2023年11月,Pi-kaLabs發(fā)布首個(gè)產(chǎn)品Pi-ka1.0,能夠生成和編輯3D動(dòng)畫、動(dòng)漫、卡通和電影,被視為一款零門檻“視頻生成神器”。此外,Runway、谷歌Lumiere視頻AI生成模型、StabilityAI的SVD1.1也相繼問世。
齊鏜泉在接受中國城市報(bào)記者采訪時(shí)表示,Sora驗(yàn)證了大模型,尤其基于世界模型的文生視頻大模型這條路是可行的。但真正要實(shí)現(xiàn)世界模擬器,打破模擬和現(xiàn)實(shí),目前也還面臨一些難點(diǎn)。
“例如,物理交互的準(zhǔn)確性,盡管Sora能夠模擬一些基本的物理交互,但它在處理更復(fù)雜的物理現(xiàn)象時(shí)可能會(huì)遇到困難。又如,空間細(xì)節(jié)的精確性,處理空間細(xì)節(jié)方面可能不夠精確,可能影響到視頻內(nèi)容的準(zhǔn)確性和可信度。”齊鏜泉舉例說。
在江瀚看來,“文字生成視頻”大模型面臨四大技術(shù)挑戰(zhàn):一是模型訓(xùn)練成本。由于生成高質(zhì)量視頻的模型通常需要大量的數(shù)據(jù)和計(jì)算資源進(jìn)行訓(xùn)練,這導(dǎo)致了較高的成本。二是生成內(nèi)容的準(zhǔn)確性和逼真度。雖然現(xiàn)有的模型已經(jīng)可以生成相當(dāng)真實(shí)的效果,但要達(dá)到人類專家的水平還有很長的路要走。三是模型的解釋性和可控性。目前的模型往往缺乏足夠的解釋性,用戶很難了解模型是如何從輸入的文字生成視頻的,這限制了其在某些領(lǐng)域的應(yīng)用。四是版權(quán)和隱私問題。在使用公共數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),可能會(huì)涉及版權(quán)和用戶隱私的問題。
記者注意到,國內(nèi)科技公司在文生視頻領(lǐng)域早已有布局。公開信息顯示,包括字節(jié)跳動(dòng)、百度、阿里、海康威視、萬興科技、拓爾思、當(dāng)虹科技在內(nèi)的科技公司,都在積極布局文生視頻。
“相比Sora,目前國產(chǎn)AI大模型在視頻生成技術(shù)上存在不小差距。”齊鏜泉認(rèn)為,要縮短這一差距需要加強(qiáng)大模型算法開發(fā),深入研究Sora開源框架的細(xì)節(jié);同時(shí),積累中文數(shù)據(jù),建立統(tǒng)一標(biāo)準(zhǔn)以解決數(shù)據(jù)清洗和標(biāo)注問題;此外,提升算力支持,實(shí)現(xiàn)本土化以滿足大數(shù)據(jù)訓(xùn)練需求。
提防AI大模型潛藏風(fēng)險(xiǎn)
從人工智能技術(shù)驅(qū)動(dòng)的自然語言處理工具ChatGPT到如今的Sora,從自動(dòng)生成文字、圖片,再到自動(dòng)生成視頻,人們在為技術(shù)不斷取得新突破鼓掌的同時(shí),對其帶來的新型風(fēng)險(xiǎn)也必須警惕。
“AI大模型對傳統(tǒng)版權(quán)保護(hù)制度提出了挑戰(zhàn)。”朱巍認(rèn)為,隨著Sora等視頻大模型的涌現(xiàn),全球版權(quán)制度正面臨前所未有的調(diào)整。技術(shù)的進(jìn)步不僅推動(dòng)了視頻生成和內(nèi)容創(chuàng)造的革新,也深刻影響了版權(quán)的意義和定義。從網(wǎng)絡(luò)收費(fèi)到免費(fèi),再到當(dāng)前的收費(fèi)模式,版權(quán)的演變始終與技術(shù)進(jìn)步緊密相連。
此外,AI大模型的崛起對內(nèi)容合規(guī)監(jiān)管帶來了新挑戰(zhàn)。朱巍認(rèn)為,隨著AI技術(shù)的快速發(fā)展,創(chuàng)造力極大提升,成本大幅下降,這導(dǎo)致造謠的門檻大幅降低,內(nèi)容監(jiān)管變得愈加困難。尤其是邁入AI時(shí)代,有的法律體系卻還停留在工業(yè)時(shí)代,有的思維觀念甚至停留在農(nóng)業(yè)社會(huì),這種錯(cuò)位使得人們對一些問題的認(rèn)知出現(xiàn)了割裂。
同時(shí),朱巍提醒,因?yàn)閾?dān)心它可能帶來未知風(fēng)險(xiǎn)而限制其發(fā)展,將與時(shí)代脫節(jié)。像歷史上的英國發(fā)布《紅旗法案》一樣,試圖限制汽車速度使其低于馬車,這顯然是不現(xiàn)實(shí)的。在對人工智能監(jiān)管時(shí),相關(guān)部門應(yīng)堅(jiān)持包容審慎的監(jiān)管原則,嚴(yán)守底線,如網(wǎng)絡(luò)安全和信息安全,特別是個(gè)人權(quán)利的保護(hù)。對于其他潛在問題,可以暫時(shí)保持觀察,根據(jù)實(shí)際情況作出應(yīng)對。
“文生視頻大模型作為一項(xiàng)新興技術(shù),確實(shí)存在一定的潛在風(fēng)險(xiǎn)。”江瀚提到,首先,它可能被濫用,比如生成假新聞或者誤導(dǎo)性內(nèi)容,對社會(huì)秩序構(gòu)成威脅。其次,由于模型生成的視頻可能與現(xiàn)實(shí)世界難以區(qū)分,這可能導(dǎo)致公眾對真實(shí)性的認(rèn)知產(chǎn)生混淆。再者,模型的決策過程不透明,可能會(huì)導(dǎo)致責(zé)任歸屬問題,當(dāng)生成的視頻出現(xiàn)問題時(shí),難以確定責(zé)任方。
針對上述潛在風(fēng)險(xiǎn),江瀚建議,一是建立相應(yīng)的法律法規(guī),對模型的使用進(jìn)行規(guī)范和監(jiān)管,確保其不會(huì)對社會(huì)秩序造成負(fù)面影響;二是提高公眾對AI生成內(nèi)容的辨識(shí)能力,培養(yǎng)批判性思維,以應(yīng)對假新聞和誤導(dǎo)性內(nèi)容的問題;三是推動(dòng)模型的透明度和可解釋性研究,使人們能夠更好地理解和控制模型的行為;四是加強(qiáng)行業(yè)自律,鼓勵(lì)開發(fā)者和企業(yè)在追求技術(shù)創(chuàng)新的同時(shí),承擔(dān)起相應(yīng)的社會(huì)責(zé)任。
接受采訪時(shí),張學(xué)義同樣強(qiáng)調(diào)了健全法律法規(guī)的重要性。張學(xué)義提到,如果相關(guān)監(jiān)管的法律法規(guī)不健全,文生視頻模型還可能被用于詐騙等違法之事。由此帶來的倫理風(fēng)險(xiǎn)就是可能會(huì)對相關(guān)行業(yè)從業(yè)者乃至普通民眾的自主性、尊嚴(yán)、隱私、知情同意等權(quán)益造成侵犯。
面對上述風(fēng)險(xiǎn),張學(xué)義認(rèn)為需要采取標(biāo)本兼治的策略:一方面,采取“自上而下”的方式,建立健全針對生成式人工智能的倫理審查制度和法律監(jiān)管制度,同時(shí)對人工智能研發(fā)人員進(jìn)行科技倫理教育和培訓(xùn);另一方面,采取“自下而上”的路徑,將具有實(shí)操性的倫理原則嵌入到人工智能產(chǎn)品的設(shè)計(jì)之中,并做好流程監(jiān)管,真正做到“科技發(fā)展、倫理先行;敏捷治理、快速反應(yīng)”,最終實(shí)現(xiàn)“科技向善”的目的。
《 中國城市報(bào) 》( 2024年02月26日 第04 版)