BRENT Phone English

제목 |

[03/08]Sora火了，通用人工智能要来了？

작성일 |

2024-02-28

조회수 |

23571

[간체자]

Sora火了，通用人工智能要来了？

Sora火了，通用人工智能要来了？只需一段提示文本，就能生成60秒连贯性视频

　　◎本报记者崔爽

　　2024年开年，Sora的横空出世，给AI界投下一枚重磅炸弹。

　　这个由美国人工智能公司OpenAI发布的文生视频模型，只需要一段提示文本，就能生成具有多个角色和特定动作类型，且主题和背景基本准确的高清视频。相较于Runway Gen 2、Pika等AI视频生成应用几秒钟连贯性的视频产出，Sora可生成长达60秒的连续、稳定、高品质视频，且提示文本越充分、细节越精确，生成的视频越真实。

　　不过，出于可能被滥用的担忧，OpenAI表示目前并没有公开发布Sora的计划。模型有限的访问权限只被授予小部分研究人员和创意人士等群体，以便OpenAI获取他们的使用反馈。

　　目前，官网上已更新了48个Sora生成的演示视频。这些视频清晰且真实的细节和超高的精度不禁引发人们思考：这是否意味着具备人类同等智能或超越人类智能的通用人工智能(AGI)的到来？

　　对研究AGI意义重大

　　Sora问世后，360集团创始人周鸿祎发表了看法：Sora的出现让AGI到来的时间提前了。原来估计需要十来年，现在可能只要两三年。他认为，Sora虽然看起来只是个文生视频工具，但实际上是AI认知世界并与之进行交互的里程碑，会给整个产业带来巨大进步。

　　“实现AGI的技术路线多样，涉及不同的研究方法和应用方向。”中国科学院自动化研究所副总工程师、紫东太初大模型中心常务副主任王金桥向科技日报记者介绍，目前，学术界和工业界广泛讨论的AGI技术路线主要有三条。一是信息智能，即“大数据+自监督学习+大算力”。这种方法依赖大量数据，通过自监督学习算法来训练模型，同时需要巨大的计算能力来处理复杂任务。二是博弈智能。这种技术路线强调在人机交互中通过强化学习的方式训练智能体，使其能进行自主学习和决策。三是类脑智能。这种方法试图通过模仿人脑的运行方式实现AGI。

　　在王金桥看来，根据官网的演示视频，Sora至少在画质、长视频生成、多镜头一致性、学习世界规律、多模态融合等方面实现突破。

　　“Sora能引发如此轰动，并不只是因为它生成的视频时间更长、清晰度更高，而是因为它能在一定程度上模拟物理世界中的物体运动和交互。”王金桥说，“这种能力对于AGI的研究具有重要意义，因为它涉及机器对现实世界的深入理解和高度模拟，而这些是实现AGI的核心挑战。”

　　记者了解到，为了准确模拟物理世界，Sora被投喂了极大规模的训练数据，并使用了扩散模型等先进的算法。“对于AGI而言，Sora让大家看到，规模效应不只在文字模态上成立，在视频模态上也成立。”北京月之暗面科技有限公司(Moonshot AI)联合创始人周昕宇认为，“通过扩展视频生成模型可以建立通用物理世界模拟器。这是实现AGI的必要过程。”

　　距真正实现AGI仍有距离

　　虽然进步显著、令人惊艳，但Sora仍然存在一些技术缺陷。

　　从目前Sora生成的视频来看，它在处理某些细节时可能会出错，例如混淆物体的左右方向。同时，它也无法完全理解复杂的因果关系，或在长时间跨度内保持故事线的高度一致连贯。这些技术缺陷导致生成的视频内容可能出现与逻辑错误，或与常识、真实情形不符的情况。

　　“Sora模拟真实物理世界的方式，是通过对给定的文字、图像、参考视频进行建模，然后预测想要生成的视频数据的条件概率分布。这与语言模型的原理没有本质区别，同样是在做无损压缩。”周昕宇说，“只要压缩得足够好，就可以模拟出足够真实的物理世界。”

　　王金桥强调，尽管Sora能够通过学习了解表层的运动和交互关系，但是还没有学习到物理规律的本质。比如，它不知道多大的风能吹灭蜡烛，不了解玻璃掉到地上会碎、掉到地毯上不会碎的本质原因。这也是Sora目前最为人诟病之处。

　　“从Sora为数不多的公开资料来看，它仍是数据驱动下的拟合，也就是模拟人类所能看到的物理世界。但真实的物理世界远不仅包含人类视觉信息。”北京中关村科金技术有限公司技术副总裁张杰认为，Sora的创意来自大数据量下的概率拟合，它并没有产生新知识，距离“深度模拟真实物理世界”这一目标还有很长的路要走。

　　中国社会科学院哲学研究所科技哲学研究室主任、研究员段伟文同样表达了审慎的观点。“Sora这种近乎人类的表达实际上是一种基于现有数据和语料的合成智能。”他说，“它给实现AGI找到了一种可行的路径，但距真正的AGI还有很长的距离，且对实现AGI的价值相对有限。”

　　事实上，实现AGI这一目标可谓道阻且长。王金桥谈到了几大挑战。首先是数据瓶颈。尽管像GPT-4这样的预训练语言模型在数据标注上取得了进展，但数据依然是深度学习中的一个关键限制因素；其次是泛化瓶颈。目前的AI系统往往在特定任务上表现出色，但在面对新任务时难以有效适应；最后是能耗瓶颈。随着AI模型变得越来越复杂，所需的计算资源和能源消耗也越来越大。这对硬件设备提出了更高要求。

　　或将率先落地传媒领域

　　Sora的发布不仅推动了技术的发展，也引发了对AI治理和伦理的探讨。

　　段伟文提到，OpenAI采取了相关手段来阻止不当视频的发布。王金桥进一步解释道， Sora内置的文本提示过滤器可筛选发送给模型的所有提示，阻止对暴力、色情内容、仇恨言论以及名人肖像等敏感或不适当内容的请求。视频内容过滤器能检查生成的视频帧，屏蔽违反OpenAI安全政策的内容。

　　另外，OpenAI团队可能会定期对Sora进行优化和更新，以改进其过滤机制，确保模型能够更好地识别和处理敏感内容。同时，团队可能会监控系统的使用情况，以便及时发现并解决新出现的问题。

　　“从技术上看，Sora避免极端暴力、色情、名人肖像等内容出现的方式，主要依靠的是模型的对齐能力。”周昕宇说，“这一点和语言模型的区别不大，也已经有比较多的实践经验。”

　　据国际数据公司预测，Sora将率先在短视频、广告、互动娱乐、影视制作和媒体等传媒领域得到应用。Sora的诸多能力，可以辅助这些领域的工作者更高效地进行视频创作，加快生产速度，提高产出数量。这将助力相关行业降低成本、提升效率，进一步优化用户体验。

[번체자]

Sora火了，通用人工智能要來了？

Sora火了，通用人工智能要來了？只需一段提示文本，就能生成60秒連貫性視頻

　　◎本報記者崔爽

　　2024年開年，Sora的橫空出世，給AI界投下一枚重磅炸彈。

　　這個由美國人工智能公司OpenAI發佈的文生視頻模型，只需要一段提示文本，就能生成具有多個角色和特定動作類型，且主題和背景基本準確的高清視頻。相較於Runway Gen 2、Pika等AI視頻生成應用幾秒鐘連貫性的視頻產出，Sora可生成長達60秒的連續、穩定、高品質視頻，且提示文本越充分、細節越精確，生成的視頻越真實。

　　不過，出於可能被濫用的擔憂，OpenAI表示目前並沒有公開發布Sora的計劃。模型有限的訪問權限只被授予小部分研究人員和創意人士等羣體，以便OpenAI獲取他們的使用反饋。

　　目前，官網上已更新了48個Sora生成的演示視頻。這些視頻清晰且真實的細節和超高的精度不禁引發人們思考：這是否意味着具備人類同等智能或超越人類智能的通用人工智能(AGI)的到來？

　　對研究AGI意義重大

　　Sora問世後，360集團創始人周鴻禕發表了看法：Sora的出現讓AGI到來的時間提前了。原來估計需要十來年，現在可能只要兩三年。他認爲，Sora雖然看起來只是個文生視頻工具，但實際上是AI認知世界並與之進行交互的里程碑，會給整個產業帶來巨大進步。

　　“實現AGI的技術路線多樣，涉及不同的研究方法和應用方向。”中國科學院自動化研究所副總工程師、紫東太初大模型中心常務副主任王金橋向科技日報記者介紹，目前，學術界和工業界廣泛討論的AGI技術路線主要有三條。一是信息智能，即“大數據+自監督學習+大算力”。這種方法依賴大量數據，通過自監督學習算法來訓練模型，同時需要巨大的計算能力來處理複雜任務。二是博弈智能。這種技術路線強調在人機交互中通過強化學習的方式訓練智能體，使其能進行自主學習和決策。三是類腦智能。這種方法試圖通過模仿人腦的運行方式實現AGI。

　　在王金橋看來，根據官網的演示視頻，Sora至少在畫質、長視頻生成、多鏡頭一致性、學習世界規律、多模態融合等方面實現突破。

　　“Sora能引發如此轟動，並不只是因爲它生成的視頻時間更長、清晰度更高，而是因爲它能在一定程度上模擬物理世界中的物體運動和交互。”王金橋說，“這種能力對於AGI的研究具有重要意義，因爲它涉及機器對現實世界的深入理解和高度模擬，而這些是實現AGI的核心挑戰。”

　　記者瞭解到，爲了準確模擬物理世界，Sora被投餵了極大規模的訓練數據，並使用了擴散模型等先進的算法。“對於AGI而言，Sora讓大家看到，規模效應不只在文字模態上成立，在視頻模態上也成立。”北京月之暗面科技有限公司(Moonshot AI)聯合創始人周昕宇認爲，“通過擴展視頻生成模型可以建立通用物理世界模擬器。這是實現AGI的必要過程。”

　　距真正實現AGI仍有距離

　　雖然進步顯著、令人驚豔，但Sora仍然存在一些技術缺陷。

　　從目前Sora生成的視頻來看，它在處理某些細節時可能會出錯，例如混淆物體的左右方向。同時，它也無法完全理解複雜的因果關係，或在長時間跨度內保持故事線的高度一致連貫。這些技術缺陷導致生成的視頻內容可能出現與邏輯錯誤，或與常識、真實情形不符的情況。

　　“Sora模擬真實物理世界的方式，是通過對給定的文字、圖像、參考視頻進行建模，然後預測想要生成的視頻數據的條件概率分佈。這與語言模型的原理沒有本質區別，同樣是在做無損壓縮。”周昕宇說，“只要壓縮得足夠好，就可以模擬出足夠真實的物理世界。”

　　王金橋強調，儘管Sora能夠通過學習瞭解表層的運動和交互關係，但是還沒有學習到物理規律的本質。比如，它不知道多大的風能吹滅蠟燭，不瞭解玻璃掉到地上會碎、掉到地毯上不會碎的本質原因。這也是Sora目前最爲人詬病之處。

　　“從Sora爲數不多的公開資料來看，它仍是數據驅動下的擬合，也就是模擬人類所能看到的物理世界。但真實的物理世界遠不僅包含人類視覺信息。”北京中關村科金技術有限公司技術副總裁張傑認爲，Sora的創意來自大數據量下的概率擬合，它並沒有產生新知識，距離“深度模擬真實物理世界”這一目標還有很長的路要走。

　　中國社會科學院哲學研究所科技哲學研究室主任、研究員段偉文同樣表達了審慎的觀點。“Sora這種近乎人類的表達實際上是一種基於現有數據和語料的合成智能。”他說，“它給實現AGI找到了一種可行的路徑，但距真正的AGI還有很長的距離，且對實現AGI的價值相對有限。”

　　事實上，實現AGI這一目標可謂道阻且長。王金橋談到了幾大挑戰。首先是數據瓶頸。儘管像GPT-4這樣的預訓練語言模型在數據標註上取得了進展，但數據依然是深度學習中的一個關鍵限制因素；其次是泛化瓶頸。目前的AI系統往往在特定任務上表現出色，但在面對新任務時難以有效適應；最後是能耗瓶頸。隨着AI模型變得越來越複雜，所需的計算資源和能源消耗也越來越大。這對硬件設備提出了更高要求。

　　或將率先落地傳媒領域

　　Sora的發佈不僅推動了技術的發展，也引發了對AI治理和倫理的探討。

　　段偉文提到，OpenAI採取了相關手段來阻止不當視頻的發佈。王金橋進一步解釋道， Sora內置的文本提示過濾器可篩選發送給模型的所有提示，阻止對暴力、色情內容、仇恨言論以及名人肖像等敏感或不適當內容的請求。視頻內容過濾器能檢查生成的視頻幀，屏蔽違反OpenAI安全政策的內容。

　　另外，OpenAI團隊可能會定期對Sora進行優化和更新，以改進其過濾機制，確保模型能夠更好地識別和處理敏感內容。同時，團隊可能會監控系統的使用情況，以便及時發現並解決新出現的問題。

　　“從技術上看，Sora避免極端暴力、色情、名人肖像等內容出現的方式，主要依靠的是模型的對齊能力。”周昕宇說，“這一點和語言模型的區別不大，也已經有比較多的實踐經驗。”

　　據國際數據公司預測，Sora將率先在短視頻、廣告、互動娛樂、影視製作和媒體等傳媒領域得到應用。Sora的諸多能力，可以輔助這些領域的工作者更高效地進行視頻創作，加快生產速度，提高產出數量。這將助力相關行業降低成本、提升效率，進一步優化用戶體驗。

网址：https://m.chinanews.com/wap/detail/chs/zw/10170322.shtml

인쇄하기