拖拽下图像就能生成视频,中科大、微软等DragNUWA属实惊艳
机器之心报道
编辑:小舟
(资料图)
随着 ChatGPT、GPT-4、LLaMa 等模型的问世,人们越来越关注生成式模型的发展。相比于日渐成熟的文本生成和图像生成,视频、语音等模态的 AI 生成还面临着较大的挑战。
现有可控视频生成工作主要存在两个问题:首先,大多数现有工作基于文本、图像或轨迹来控制视频的生成,无法实现视频的细粒度控制;其次,轨迹控制研究仍处于早期阶段,大多数实验都是在 Human3.6M 等简单数据集上进行的,这种约束限制了模型有效处理开放域图像和复杂弯曲轨迹的能力。
基于此,来自中国科学技术大学、微软亚研和北京大学的研究者提出了一种基于开放域扩散的新型视频生成模型 ——DragNUWA。DragNUWA 从语义、空间和时间三个角度实现了对视频内容的细粒度控制。本文共一作殷晟明、吴晨飞,通讯作者段楠。
论文地址:https://arxiv.org/abs/2308.08089
以拖动(drag)的方式给出运动轨迹,DragNUWA 就能让图像中的物体对象按照该轨迹移动位置,并且可以直接生成连贯的视频。例如,让两个滑滑板的小男孩按要求路线滑行:
还可以「变换」静态景物图像的相机位置和角度:
方法简介
该研究认为文本、图像、轨迹这三种类型的控制是缺一不可的,因为它们各自有助于从语义、空间和时间角度控制视频内容。如下图 1 所示,仅文本和图像的组合不足以传达视频中存在的复杂运动细节,这可以用轨迹信息来补充;仅图像和轨迹组合无法充分表征视频中的未来物体,文本控制可以弥补这一点;在表达抽象概念时,仅依赖轨迹和文本可能会导致歧义,图像控制可以提供必要的区别。
DragNUWA 是一种端到端的视频生成模型,它无缝集成了三个基本控件 —— 文本、图像和轨迹,提供强大且用户友好的可控性,从语义、空间和时间角度对视频内容进行细粒度控制。
为了解决当前研究中有限的开放域轨迹控制问题,该研究重点关注三个方面的轨迹建模:
使用轨迹采样器(Trajectory Sampler,TS)在训练期间直接从开放域视频流中采样轨迹,用于实现任意轨迹的开放域控制; 使用多尺度融合(Multiscale Fusion,MF)将轨迹下采样到各种尺度,并将其与 UNet 架构每个块内的文本和图像深度集成,用于控制不同粒度的轨迹; 采用自适应训练(Adaptive Training,AT)策略,以密集流为初始条件来稳定视频生成,然后在稀疏轨迹上进行训练以适应模型,最终生成稳定且连贯的视频。实验及结果
该研究用大量实验来验证 DragNUWA 的有效性,实验结果展示了其在视频合成细粒度控制方面的卓越性能。
与现有专注于文本或图像控制的研究不同,DragNUWA 主要强调建模轨迹控制。为了验证轨迹控制的有效性,该研究从相机运动和复杂轨迹两个方面测试了 DragNUWA。
如下图 4 所示,DragNUWA 虽然没有明确地对相机运动进行建模,但它从开放域轨迹的建模中学习了各种相机运动。
为了评估 DragNUWA 对复杂运动的精确建模能力,该研究使用相同的图像和文本对各种复杂的拖动(drag)轨迹进行了测试。如下图 5 所示,实验结果表明 DragNUWA 能够可靠地控制复杂运动。
此外,DragNUWA 虽然主要强调轨迹控制建模,但也融合了文本和图像控制。研究团队认为,文本、图像和轨迹分别对应视频的三个基本控制方面:语义、空间和时间。下图 6 通过展示文本(p)、轨迹(g)和图像(s)的不同组合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)说明了这些控制条件的必要性。
感兴趣的读者可以阅读论文原文,了解更多研究内容
责任编辑:
关键词:
您可能也感兴趣:
今日热点
为您推荐
在央广听见内蒙古 | 内蒙古采取有力有效措施抗旱保供水、保农牧业生产
中国西部文化产业博览会在陕西举办
桂皮跟肉桂怎样区分的
排行
最近更新
- 拖拽下图像就能生成视频,中科大、微软等DragNUWA属实惊艳
- 将他人故意伤害致死!新余2名命案逃犯潜逃17年终落网
- “七夕”带动消费热 多地鲜花价格稳中有升
- 雨神是谁,为什么叫雨神?(精选7条)
- wps怎么打分数(操作步骤)
- 对对联小学生(趣味对联小学生用)
- 好看不贵:适合夏天的8条神裤,透气舒适,百搭不挑人
- 林俊杰诉MCN机构等侵犯名誉权 案件即将开庭
- A股:14天11个涨停板!股民:没完没了的涨!
- 谐音梗? 万达广场申请瓦达刮擦商标 万达广场申请哇哒呱嚓商标
- 周二1新股申购 中签率预测
- 山东费县通报综合行政执法局工作人员向景区员工泼热水:泼水...
- 华能甘肃正宁2×1000兆瓦调峰煤电项目相关的4项中标结果公示
- 军训防晒霜哪个牌子的防晒效果好?根本晒不黑!户外用它一点...
- 蓝思科技上半年净利润增近3倍,智能终端多领域布局并进
- 《开拓者:绞刑塔幸存者》将于9月14日推出
- 中国电信800M频谱重耕5G分析 ——5G发展迎来更多频率资源支...
- 对华水果出口增长体现南中双赢合作——访南非柑橘种植协会首...
- 上海贝岭(600171.SH):上半年净亏损6329.97万元
- 泽连斯基称要用领土换“入约门票”?扎哈罗娃评价
- 淘宝大赢家2023年8.21答案详情
- 凉山金阳灯厂村受短时强降雨影响突发自然灾害 已成功搜救79...
- 赤峰黄金上半年净利润3.12亿元 同比减少24.08%
- 《博德之门3》雕像转动方法介绍
- 宋志平:提高上市公司质量,实现「中国式治理现代化」
- 金价保持不变!2023年8月21日各大金店黄金价格多少钱一克?
- 震荡下行:三大股指均跌超 1%,沪指失守 3100 点
- 塑胶件板块上市公司股票有哪些?(2023/8/21)
- 中原内配:上半年净利润同比增长96.32%
- 国台办:海关总署决定自即日起暂停台湾地区芒果输入大陆
今日要闻
- 蓝思科技上半年净利润增近3倍,智能终端多领域布局并进
- 2023年七夕是几月几号?七夕是中国人的情人节吗? 具体是啥状况呢
- 2023年7月中国进口玉米168万吨
- 雨神是谁,为什么叫雨神?(精选7条)
- 鸿铭股份(301105.SZ):公司存在个别小机器销售至南非的情况,占公司业务总额的比例极低
- 联想推出Windows游戏掌机 Legion Go 9月1日-5日发布:采用AMD Ryzen Z1处理器
- 尖峰集团:控股子公司尖峰药业的盐酸奥洛他定滴眼液装量检验不符合规定
- 周二1新股申购 中签率预测
- 深成指、创业板指再创年内新低 算力概念走强 保险、券商板块跌幅居前
- 独家:杨鸣与辽篮续约陷入僵局 不排除杨鸣离开的可能