Google推出AI模型Lumiere!文字、圖片一鍵轉影片,還能客製化素材風格
Google 近期推出了名為「Lumiere」的 AI 影片生成器,採用了時空擴散模型,能夠將文字或圖片轉換成
這篇文章 Google推出AI模型Lumiere!文字、圖片一鍵轉影片,還能客製化素材風格 最早出現於 鏈新聞 ABMedia。
Google 近期推出了名為「Lumiere」的 AI 影片生成器,採用了時空擴散模型,能夠將文字或圖片轉換成逼真的影片,用戶甚至能根據需求自訂影片素材及風格,主打透過其創新的「時空 U-Net 架構」,展現出影片中逼真、多樣且連貫的運動狀況。
Google「Lumiere」文字轉影片生成工具
根據 Google Research 所發佈的研究論文,該團隊開發了名為「Lumiere」的時空擴散模型 (Space-Time Diffusion Model),同時也能作為文字轉影片的 AI 生成工具,聲稱其在生成影片時能考慮到空間與時間運動概念,以創造一致且流暢的動態影像。
Google Research「Lumiere」論文內容
據悉,Lumiere 採用了其所謂的「Space-Time U-Net 架構」,在生成過程中,Lumiere 會持續檢查物體的所在位置 (空間概念)、以及物體移動的持續時間及方式 (時間概念),並在一次運行中確保 2 個面向的一致性:
我們的模型經過超過 3,000 萬個影像及文字素材的訓練及學習,在多個時空尺度上進行計算及處理,並直接以每秒 16 幀的速度生成高達 80 幀的影片。
Lumiere 能做什麼?
具體來說,Lumiere 具有以下 3 項最為強大的功能:
文字、圖片轉影片
首先,用戶能夠透過文字敘述或上傳靜態圖片並向 Lumiere 提供指示,以生成動態影片,這與 ChatGPT 的文字生成影片功能類似。
(OpenAI 推出 GPT Store 提供用戶更多元的模型選擇與熱門趨勢推薦)
文字、圖片轉影片功能
7 種生成風格供選擇
另外,AI 生成內容往往都無法微調許多包括內容或風格等細節,不過,Lumiere 辦得到。
Lumiere 水彩風格
用戶能夠從「貼紙」、「線條」、「平面卡通」、「水彩」、「螢光」、「3D 融金」以及「3D 渲染」等,高達 7 種不同素材風格,依自身需求做調整。
影片編輯與後製
值得一提的是,Lumiere 還能就影片中部分內容進行編輯。用戶能夠要求僅讓火把繼續燃燒,而不讓上頭的雲朵移動;又或者是替走路的人們換套衣著。
能夠就部分影像進行動態化編輯
例如下圖,用戶還能夠讓運動中的物體變換品質或素材,以達到不同的需求效果。
能夠編輯跑步中的女生的組成元素
用戶仍無法體驗
即便即時且高品質的影片生成功能讓人躍躍欲試,但出於 Lumiere 僅是一個研究專案,用戶恐怕還得在等上一段時間才能親自嘗試。
然而據稱,Lumiere 可能會跟以往微軟、Google 及 Meta 等科技公司所釋出的研究結果一樣,該產品的底層技術及功能或將在未來整合到 Google 的其他產品中,而非作為獨立產品釋出。
Rowan Cheung:創造電影的道路將變得更加簡單
AI 領域新聞 The Rundown AI 創辦人 Rowan Cheung 也對此表達興奮,稱該產品是難以置信的技術性突破。
Google just made an incredible AI video breakthrough with its latest diffusion model, Lumiere.
2024 is going to be a massive year for AI video, mark my words.
Here’s what separates Lumiere from other AI video models: pic.twitter.com/PulSjVZaCp
— Rowan Cheung (@rowancheung) January 25, 2024
人工智慧的發展速度太瘋狂了,我相信在幾年內,人們或許能夠快速地透過手機來製作電影。
AI 訓練的智財權問題
順帶一提,顯而易見地,Google 並沒有在論文中提及用來訓練模型的文字、影像或其他資料來源,這在 AI 產業內一直是個敏感的企業倫理及版權問題,並被廣泛討論。
隨著 AI 生成模型使用的普遍性日趨增長,各地也因此出現了許多涉及侵犯智財權的訴訟案例。
(媒體與出版業的危機?紐約時報起訴 OpenAI 及微軟大規模侵犯版權)
這篇文章 Google推出AI模型Lumiere!文字、圖片一鍵轉影片,還能客製化素材風格 最早出現於 鏈新聞 ABMedia。