top of page

Meta 發表 AI 影片編輯與生成模型:Emu Edit、Emu Video


Meta在影像生成基礎模型Emu的研究基礎上,進一步推出了一款僅需文字指令便能準確編輯圖像的Emu Edit模型。此外,團隊透過拆解文字轉影片(Text-to-Video,T2V)的生成過程,開發出名為Emu Video的方法,此方法能顯著提升影片的品質和多樣性。



Emu Edit是一種創新的影像編輯技術,旨在簡化各類影像操作任務,提供更便利的功能和更高的精準度。它能夠根據用戶指令進行多種編輯操作,包括局部和全域的編輯、移除和添加背景,甚至調整顏色和進行幾何變換,並且在偵測和分割任務上表現出色。


Emu Edit將電腦視覺任務整合至影像生成模型之中,從而在影像生成和編輯過程中提供更精準的控制。研究人員指出,現有的圖像編輯模型常常過度或不足地修改圖像,而Emu Edit則能夠依照指令精確執行編輯任務。


為了訓練Emu Edit,Meta使用了一個包含1,000萬個合成樣本的數據集,這是目前同類型中規模最大的資料集。每個樣本包括輸入圖像、任務描述和目標輸出圖像。這一龐大的資料集為圖像編輯提供了更高的能力,使模型能夠精準執行指令,產生優於目前所有研究的結果。


Emu Video則採用了一種簡單且高效的文字轉影片生成方法。該方法基於擴散模型,以Emu為實作基礎。開發團隊說明,這種影片生成架構能夠應對多種輸入,包括文字、圖像,或是它們的組合。


Emu Video將影片生成過程分為兩個階段:首先根據文字提示生成圖像,然後基於文字和生成圖像製作影片。這種分階段的影片生成方法,使研究人員能夠有效訓練生成模型。與需要一系列深層模型的過往研究(如Make-A-Video)不同,Emu Video更為簡潔,僅使用兩個擴散模型即可生成解析度為512x512、每秒16幀、長度為4秒的影片。


根據人類評估,Emu Video的成果更受偏好,無論是在影片品質或是文字提示的忠實度方面,均優於先前研究。在品質上,有高達96%的受訪者偏好Emu Video而非Make-A-Video方法;而在文字提示的忠實度方面,Emu Video則獲得了85%受訪者的青睞。



此外,Emu Video的功能還包括接受文字提示,將用戶提供的圖像轉化為動畫,這一特點使其在技術能力上超越了先前的模型。Emu Video的這一突破性功能,不僅提升了用戶互動體驗,也為動畫製作開啟了新的可能性。透過簡單的文字指令,用戶可以將靜態圖像轉變為生動的動畫,這種轉換不僅忠實於原始圖像,還能根據用戶的具體要求進行細膩調整,展現出前所未有的創意和靈活性。這一進步在圖像和影片生成領域中,標誌著一個重要的技術突破,預示著未來數位內容創作的無限可能。



資料來源



50 次查看0 則留言

댓글


bottom of page