Google推出AI模型Lumiere！文字、圖片一鍵轉影片，還能客製化素材風格

Google 近期推出了名為「Lumiere」的 AI 影片生成器，採用了時空擴散模型，能夠將文字或圖片轉換成
這篇文章 Google推出AI模型Lumiere！文字、圖片一鍵轉影片，還能客製化素材風格最早出現於鏈新聞 ABMedia。

Google 近期推出了名為「Lumiere」的 AI 影片生成器，採用了時空擴散模型，能夠將文字或圖片轉換成逼真的影片，用戶甚至能根據需求自訂影片素材及風格，主打透過其創新的「時空 U-Net 架構」，展現出影片中逼真、多樣且連貫的運動狀況。

Google「Lumiere」文字轉影片生成工具

根據 Google Research 所發佈的研究論文，該團隊開發了名為「Lumiere」的時空擴散模型 (Space-Time Diffusion Model)，同時也能作為文字轉影片的 AI 生成工具，聲稱其在生成影片時能考慮到空間與時間運動概念，以創造一致且流暢的動態影像。

Google Research「Lumiere」論文內容

據悉，Lumiere 採用了其所謂的「Space-Time U-Net 架構」，在生成過程中，Lumiere 會持續檢查物體的所在位置 (空間概念)、以及物體移動的持續時間及方式 (時間概念)，並在一次運行中確保 2 個面向的一致性：

我們的模型經過超過 3,000 萬個影像及文字素材的訓練及學習，在多個時空尺度上進行計算及處理，並直接以每秒 16 幀的速度生成高達 80 幀的影片。

Lumiere 能做什麼？

具體來說，Lumiere 具有以下 3 項最為強大的功能：

文字、圖片轉影片

首先，用戶能夠透過文字敘述或上傳靜態圖片並向 Lumiere 提供指示，以生成動態影片，這與 ChatGPT 的文字生成影片功能類似。

(OpenAI 推出 GPT Store 提供用戶更多元的模型選擇與熱門趨勢推薦)

文字、圖片轉影片功能

7 種生成風格供選擇

另外，AI 生成內容往往都無法微調許多包括內容或風格等細節，不過，Lumiere 辦得到。

Lumiere 水彩風格

用戶能夠從「貼紙」、「線條」、「平面卡通」、「水彩」、「螢光」、「3D 融金」以及「3D 渲染」等，高達 7 種不同素材風格，依自身需求做調整。

影片編輯與後製

值得一提的是，Lumiere 還能就影片中部分內容進行編輯。用戶能夠要求僅讓火把繼續燃燒，而不讓上頭的雲朵移動；又或者是替走路的人們換套衣著。

能夠就部分影像進行動態化編輯

例如下圖，用戶還能夠讓運動中的物體變換品質或素材，以達到不同的需求效果。

能夠編輯跑步中的女生的組成元素

用戶仍無法體驗

即便即時且高品質的影片生成功能讓人躍躍欲試，但出於 Lumiere 僅是一個研究專案，用戶恐怕還得在等上一段時間才能親自嘗試。

Rowan Cheung：創造電影的道路將變得更加簡單

AI 領域新聞 The Rundown AI 創辦人 Rowan Cheung 也對此表達興奮，稱該產品是難以置信的技術性突破。

Google just made an incredible AI video breakthrough with its latest diffusion model, Lumiere.

2024 is going to be a massive year for AI video, mark my words.

Here’s what separates Lumiere from other AI video models: pic.twitter.com/PulSjVZaCp

— Rowan Cheung (@rowancheung) January 25, 2024

人工智慧的發展速度太瘋狂了，我相信在幾年內，人們或許能夠快速地透過手機來製作電影。

AI 訓練的智財權問題

順帶一提，顯而易見地，Google 並沒有在論文中提及用來訓練模型的文字、影像或其他資料來源，這在 AI 產業內一直是個敏感的企業倫理及版權問題，並被廣泛討論。

隨著 AI 生成模型使用的普遍性日趨增長，各地也因此出現了許多涉及侵犯智財權的訴訟案例。

(媒體與出版業的危機？紐約時報起訴 OpenAI 及微軟大規模侵犯版權)

這篇文章 Google推出AI模型Lumiere！文字、圖片一鍵轉影片，還能客製化素材風格最早出現於鏈新聞 ABMedia。