圖片來源:跨境白武士 James
最近,OpenAI發布了一款名為Sora的AI視頻生成模型,其強大的功能和優秀的性能引起了業界的廣泛關注。Sora的發布,不僅預示著AI在視頻生成領域的重大突破,更有可能引領一場視覺革命。
圖片來源:Sora
一、Sora介紹
Sora是OpenAI繼DALL·E 3之后的又一力作,它繼承了DALL·E 3的畫質和遵循指令能力,同時更進一步,能生成長達1分鐘的視頻,其畫質是以假亂真。這一特性使得Sora在視頻生成領域具有獨特的優勢,它可以根據用戶的指令,快速生成高質量的視頻內容,為創作者提供更多可能。
二、Sora工作原理
1、視覺數據轉換
Sora將視頻數據轉換為空間時間補丁(patches),這些補丁類似于大型語言模型(LLM)中的文本標記。視頻首先被壓縮到一個低維潛在空間,然后分解成空間時間補丁。
2、視頻壓縮網絡
Sora訓練了一個網絡來降低視覺數據的維度,這個網絡將原始視頻輸入并輸出一個在時間和空間上都被壓縮的潛在表示。Sora在生成視頻時也使用這個壓縮的潛在空間。
3、擴散模型
Sora是一個擴散模型,它通過預測輸入的噪聲補丁(以及文本提示等條件信息)來生成清晰的補丁。擴散模型在多個領域(包括語言建模、計算機視覺和圖像生成)中已經顯示出了顯著的擴展性。
4、文本到視頻生成
Sora能夠理解文本提示,通過訓練一個高度描述性的標題生成器模型,然后使用它為訓練集中的所有視頻生成文本標題。這提高了視頻的文本忠實度和整體質量。
5、圖像和視頻編輯
Sora可以接受圖像或視頻作為輸入,執行各種圖像和視頻編輯任務,如創建循環視頻、動畫靜態圖像、向前或向后擴展視頻等。
6、圖像生成
Sora還能夠生成圖像,通過在空間網格中排列高斯噪聲的補丁,生成具有一幀時間范圍的圖像。
7、模擬能力
Sora在大規模訓練時展現出一些有趣的新興能力,例如3D一致性、長程一致性和物體持久性,以及與世界互動的能力,如模擬視頻游戲中的動態。
(來源:跨境白武士James)
以上內容屬作者個人觀點,不代表雨果跨境立場!本文經原作者授權轉載,轉載需經原作者授權同意。?