【產業動態】AI 影片生成的新時代,Sora 的驚人成本,數萬倍電腦資源需求利好AI產業

鄭瑞宇

鄭瑞宇

  • 2024-03-14 17:58
  • 更新:2024-03-14 17:58

Sora

本文你將會看到

AI 影片生成革命!Sora 能以假亂真,媲美專業電影

OpenAI所開發的Sora是一個能夠以文字描述生成影片的人工智慧模型,於2024年2月14日首次公開,但目前尚未開放一般大眾使用。Sora的運作方式是先將輸入的文字描述轉換為一系列的文字提示,再將這些提示輸入DALL-E(由 OpenAI 開發的一個文字轉圖片 AI 模型)生成一系列的圖像。最後,Sora會使用這些圖像生成一個符合描述的影片。Sora運用了擴散模型,結合了與Chat GPT 相同的Transformer架構,使其能夠有效地從文字描述中學習、進而生成影像,並將影像和圖像視為一系列小的區塊(patches),類似於大型語言模型將文字資料視為一系列標記(token)的方式。這使Sora能夠處理不同長度、解析度、和寬高比的視覺資料。該模型也沿用了DALL-E 3的技術,確保其能夠忠實地遵循輸入的指示,提升了內容生成一致性。值得注意的是,與ChatGPT相同,OpenAI此次發布的Sora仍然引用許多Googld DeepMind的文獻。

不過Sora驚人之處在於其進步的幅度。在2023年3月時曾有一個爆紅,瀏覽量超過 800 萬次的AI迷因「威爾史密斯吃義大利麵」,該影片是由Modelscope Text2Video所產生的,其爆紅的原因並非是因為其品質或特色,而是因為該模型產生的影片非常詭異,而時隔一年,Sora所產生之影片不但長度與畫質上有所提升,更幾乎比肩專業電影設備,在連續性、物理特性的模擬上有長足的進步,完全可以騙過不知情的受眾。

【產業動態】AI 影片生成的新時代,Sora 的驚人成本,數萬倍電腦資源需求利好AI產業

運用Transformer架構使Sora成為ChatGPT第二

真正使其超越其他影片生成模型的關鍵為OpenAI成功地應用訓練大型語言模型的Transformer技術來打造影片生成模型Diffusion Transformer,而使Sora擁有能夠被大規模訓練的能力,進入與其他大型語言模型(LLMs)類似的發展階段。也就是說,未來的模型產出品質將取決於兩個關鍵因素,訓練用的資料量與訓練所使用的參數量,將直接影響產生內容的品質(Scaling laws for Large Language Models)。這也意味者未來Sora模型的進步幅度將與大型語言模型如GPT4、Genimi等相同。

作為3D模擬器的影片生成模型

透過大規模的訓練模型,這個模型展現出「模擬世界」的能力,根據OpenAI的研究者所稱,Sora可以針對相同影片提供多角度的鏡頭,也可以產生具有動態攝影機運動效果的影片,簡直就像是Sora真實的生成一個虛擬世界,然後再根據使用者的指令從不同角度、鏡位拍攝,使影片隨著攝影機的移動和旋轉,並保持人和場景元素在三維空間中一致移動。最重要的是,OpenAI並沒有特別將Sora設計成可以處理3D資料的模型(inductive biases for 3D),「模擬世界」能力的產生完全是基於訓練規模量的擴大(Purely phenomena of scale),因此可以想像成Sora幾乎理解且可以分辨出3D與2D的差別。如下圖,清楚的展現Sora產生鏡位的變化的能力,透過拉近、拉遠或選轉的方式給人更真實且類似於3D空間的畫面感。

【產業動態】AI 影片生成的新時代,Sora 的驚人成本,數萬倍電腦資源需求利好AI產業

資料來源:OpenAI。(此為Gif動圖,因此品質較原影片低,建議至OpenAI Sora官方網站親自觀看)

用Sora拍電影?

很遺憾的是,目前Sora最多僅能產生60秒的影片,因此若要完整產生一部電影恐怕不太可能,但如果只是要產生電影片段確綽綽有餘。Sora有能力產生的非常真實的影片,比如說,根據OpenAI 官方網站所述,僅需輸入兩句話就可以產生的類似下面電影風格的預告片片段。這樣的影片在傳統上需要一個專業團隊,興師動眾跑到白雪靄靄的極地氣候拍攝的鏡頭。即使無法完整產生一部電影,但確實可以想像出許多應用,並再必要時節省大量心血資源。【產業動態】AI 影片生成的新時代,Sora 的驚人成本,數萬倍電腦資源需求利好AI產業

資料來源:OpenAI (https://www.youtube.com/watch?v=jrj2viAZ7Oc)

Sora不只可以輸入文字,圖片轉影片也可以

且OpenAI最近更公布了其影片合成與影片設定修改的功能,能夠產生提供影像和提示作為輸入的影片。例如在下面兩個範例中,第一個範例為輸入一張財犬的圖片(左),而Sora可以使其像是哈利波特裡的報紙一樣動起來(右)。第二個範例就更有趣了,輸入為平面設計風格的怪物插圖(左),輸出使該插圖如動畫卡通般動起來。你完全可以想像有多少人會想要使用這個功能,上傳自己與朋友過去的照片,做出有趣且據意義的動圖,或是用於設計教材、報章雜誌、影音行銷等,畫一張圖就可以透過該功能生成出用以展示知識概念、產品功能的影片。

【產業動態】AI 影片生成的新時代,Sora 的驚人成本,數萬倍電腦資源需求利好AI產業

【產業動態】AI 影片生成的新時代,Sora 的驚人成本,數萬倍電腦資源需求利好AI產業

資料來源:OpenAI

Sora也可以用來合成影片

同時,Sora也可以將兩部影片剪輯在一起,例如輸入兩部影片,將其中一部影片的頭接上另一部影片的尾部,即使是完全不相干且毫無邏輯的影片都可以合成,OpenAI最近就發佈了合成無人機飛過羅馬競技場(上)與蝴蝶在珊瑚礁群飛翔的影片(下)。Sora 在兩個輸入影片之間逐漸插值,創造出在完全不同的主題和場景構成之間的無縫過渡(中)。事實上,這個技術甚至可以被使用於提升現有電影的品質,透過插值的方式提升影片解析度,色彩以及更新率。

【產業動態】AI 影片生成的新時代,Sora 的驚人成本,數萬倍電腦資源需求利好AI產業

合成影片外,編輯影片也可以,剪輯師都快要失業了

除了影片合成外,另一個相當具有特色的功能為透過文字針對影片風格或環境進行調整,例如將影片轉換為遊戲風格、動畫風、像素風格或科幻風格,抑或是修改時空背景,例如改變影片中的季節,或是將跑車變成老爺車,將1920年代的路人與建築帶入影片,或是將場景設在叢林中。更值得注意的是,可以針對細節作微調,例如將路邊的樹改成特定品種,更改影片中物件的顏色等。這樣的能力不但大大降低影片編輯的門檻更提升產出效率,不難想像未來的內容創作將如何受到這樣的功能影響。另一方面,在VR頭盔逐漸普及的年代,Sora的影片編輯能力以及對於3D世界的理解也可以用來製作沉浸式的內容,例如輸入影片,產生左右兩眼的3D內容,或是用以生成3D遊戲內容。

【產業動態】AI 影片生成的新時代,Sora 的驚人成本,數萬倍電腦資源需求利好AI產業

 Sora真的那麼完美嗎?其實還是有不少缺點,AI關鍵瓶頸

儘管Sora展現出相當強大的功能, 且相較於其競爭者更成功的實現輸入的指令,但仍有許多存在許久的缺陷。正如大多數生成式AI,即使是最先進的系統仍然會出現事實性錯誤,也就是「幻覺」。Sora 生成的圖片和影片經常包含細節錯誤,而這些錯誤暴露了生成式 AI 的一個關鍵局限性。

下圖由Sora生成的影片中擷取,其中有一個猴子在下西洋棋。乍看之下圖片似乎沒什麼異狀,但是仔細觀察便會發現了一些重大錯誤,例如棋盤是 7x7 而不是標準的 8x8,棋盤上還出現了三個國王,甚至有棋子出現在棋盤外。由於如此違背常理的錯誤不可能存在於 Sora 的訓練數據中,因此Sora所呈現的特質讓人們不禁讓人質疑生成式 AI 的工作機制。

【產業動態】AI 影片生成的新時代,Sora 的驚人成本,數萬倍電腦資源需求利好AI產業

人工智能真的只是在瞎猜?

有學者指出Sora的錯誤不能簡單歸咎於缺乏算力、數據或圖像關聯性,畢竟Sora已經使用大量的算力及高品質的資料進行訓練。原因或許是Sora並沒有構建對物理或文化規則的內在模型,也就是說OpenAI並沒有特別將Sora設計成可以處理3D資料的模型。當前的神經網絡技術過度聚焦於圖像的細節,即局部像素的排列及其與相鄰像素的關聯性,正如之前對於大型語言模型的文章中所介紹的,大型語言模型是使用字詞間的關聯性來產出完整的句子、文章,Sora這類模型則使用像素的排列組合間個關聯性來產出完整的圖片、影片,但它並沒有建立完整的物理模型或認知模型,所以無法理解文化產物(如西洋棋的規則、幾何與物理概念)。也因此,Sora所產生的內容更接近人類的直覺、夢境等,會產出許多乍看之下相當合理,細看才會發現莫名其妙的場景。也就是說更接近人們使用【快思慢想】一書提及的system 1思考,而非system 2。這種局限性凸顯了生成式 AI 在高階推理和事實準確性方面的瓶頸仍然在於如何使AI同時擁有system 1的快思以及system 2的與慢想的能力。

總而言之,Sora進步速度值得關注,其成功應用ChatGPT上所成功的Transformer架構來達到類似ChatGPT能夠透過大量訓練資料使生成內容品質更高的效果,但如同ChatGPT,都會產生似是而非的內容,且這些問題恐怕沒辦法透過增加訓練資料量與參數量來解決。

Sora或將需要數萬倍計算資源,利好AI產業鏈上游

儘管Sora尚未公佈其價格與所需的算力細節,但我們可以根據產生一張圖片需要的電力來估算產生一部影片所需的資源。產生60秒30 fps的影片就相當於產生1800張圖片,根據卡內基梅隆大學的研究,產生一張圖片所需的電力為產生一段文字的20倍,因此再相同的需求量下Sora將需要比GPT4多出約三萬六千倍的電力(不過電力與算力未必為一比一的線性關係),不難想像未來若AI生成影片的服務普及後,雲端運算服務提供商如亞馬遜(AWS)、微軟(Azure)、谷歌(GOOG)、晶片製造商如輝達(NVDA)、AMD(AMD)、英特爾(INTC)、資料中心設備製商如代爾(DELL)、惠普(HP)等AI產業鏈上游將有更大的獲利想像空間。 

【產業動態】AI 影片生成的新時代,Sora 的驚人成本,數萬倍電腦資源需求利好AI產業

延伸閱讀

美股放大鏡

版權聲明

本文章之版權屬撰文者與 CMoney 全曜財經,未經許可嚴禁轉載,否則不排除訢諸法律途徑。

免責宣言

本網站所提供資訊僅供參考,並無任何推介買賣之意,投資人應自行承擔交易風險。

文章相關股票
鄭瑞宇

鄭瑞宇

資產配置不僅是賺錢的手段,更是人生規劃最重要課題。透過對公司基本面的細緻觀察和分析,我們能更精確地篩選出具有長期成長潛力的投資標的,帶來可觀的回報,在人生不同階段提供所需現金流。

資產配置不僅是賺錢的手段,更是人生規劃最重要課題。透過對公司基本面的細緻觀察和分析,我們能更精確地篩選出具有長期成長潛力的投資標的,帶來可觀的回報,在人生不同階段提供所需現金流。