直接生成16秒高清視頻 中國(guó)自研視頻大模型在京發(fā)布
編輯: 王瑞穎 | 時(shí)間: 2024-04-29 12:04:57 | 來(lái)源: 新華社 |
只需一段文字指令就能生成一段逼真視頻,今年初,文生視頻大模型Sora在全球人工智能業(yè)內(nèi)外引發(fā)廣泛關(guān)注。27日,2024中關(guān)村論壇年會(huì)上首次發(fā)布中國(guó)自研的具“長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性”特點(diǎn)的文生視頻大模型Vidu。
記者從會(huì)上獲悉,這一視頻大模型由清華大學(xué)聯(lián)合北京生數(shù)科技有限公司共同研發(fā),可根據(jù)文本描述直接生成長(zhǎng)達(dá)16秒、分辨率高達(dá)1080P的高清視頻內(nèi)容,不僅能模擬真實(shí)物理世界,還擁有豐富想象力。
清華大學(xué)人工智能研究院副院長(zhǎng)、生數(shù)科技首席科學(xué)家朱軍說(shuō),當(dāng)前國(guó)內(nèi)視頻大模型的生成視頻時(shí)長(zhǎng)大多為4秒左右,Vidu則可實(shí)現(xiàn)一次性生成16秒的視頻時(shí)長(zhǎng)。同時(shí),視頻畫(huà)面能保持連貫流暢,隨著鏡頭移動(dòng),人物和場(chǎng)景在時(shí)間、空間中能保持高一致性。
在動(dòng)態(tài)性方面,Vidu能生成復(fù)雜的動(dòng)態(tài)鏡頭,不再局限于簡(jiǎn)單的推、拉、移等固定鏡頭,而是能在一段畫(huà)面里實(shí)現(xiàn)遠(yuǎn)景、近景、中景、特寫(xiě)等不同鏡頭的切換,包括能直接生成長(zhǎng)鏡頭、追焦、轉(zhuǎn)場(chǎng)等效果。
“Vidu能模擬真實(shí)物理世界,生成細(xì)節(jié)復(fù)雜且符合物理規(guī)律的場(chǎng)景,例如合理的光影效果、細(xì)膩的人物表情等,還能創(chuàng)造出具有深度和復(fù)雜性的超現(xiàn)實(shí)主義內(nèi)容。”朱軍介紹,由于采用“一步到位”的生成方式,視頻片段從頭到尾連續(xù)生成,沒(méi)有明顯的插幀現(xiàn)象。
此外,Vidu還可生成如熊貓、龍等形象。
據(jù)悉,Vidu的技術(shù)突破源于團(tuán)隊(duì)在機(jī)器學(xué)習(xí)和多模態(tài)大模型方面的長(zhǎng)期積累,其核心技術(shù)架構(gòu)由團(tuán)隊(duì)早在2022年就提出并持續(xù)開(kāi)展自主研發(fā)。“作為一款通用視覺(jué)模型,我們相信,Vidu未來(lái)能支持生成更加多樣化、更長(zhǎng)時(shí)長(zhǎng)的視頻內(nèi)容,探索不同的生成任務(wù),其靈活架構(gòu)也將兼容更廣泛的模態(tài),進(jìn)一步拓展多模態(tài)通用能力的邊界。”朱軍說(shuō)。(記者魏夢(mèng)佳)
相關(guān)新聞
- 2024-04-16Sora向好萊塢發(fā)起沖擊
- 2024-04-08“燈塔工廠”、無(wú)人化工廠和智能工廠等新型工廠大量涌現(xiàn)——中國(guó)迅速擁抱智能化浪潮
- 2024-03-22聯(lián)大通過(guò)首個(gè)關(guān)于人工智能的全球決議
- 2024-03-22國(guó)內(nèi)首部!AI全流程微短劇《中國(guó)神話》啟播 總臺(tái)央視頻AI頻道上線
新聞推薦
- 二〇二五兩岸青年峰會(huì)在京開(kāi)幕2025-07-04
- “抗戰(zhàn)是兩岸共同的歷史記憶”——2025“文化抗戰(zhàn)川渝行”活動(dòng)舉辦2025-07-03
- 首屆海峽兩岸六月六曬譜日活動(dòng)在上杭舉行2025-07-03
- 交流交友交心,漢臺(tái)青創(chuàng)城市合伙人在武漢雙向奔赴2025-07-03
- “童年想娘,老年想家”——臺(tái)灣老兵高秉涵的守望與盼望2025-07-03
- 從臺(tái)灣帶來(lái)一場(chǎng)美好的茶事2025-07-03