风格是什么意思| 南瓜不能和什么同吃| 更年期是什么意思| 结婚五十年是什么婚| 鸡蛋和什么食物相克| 打升白针有什么副作用| 螃蟹跟什么不能一起吃| 怀疑甲亢需要做什么检查| 团委书记是什么级别| 迷你巴拉巴拉和巴拉巴拉什么关系| 四个人念什么| 音召念什么| pashmina是什么面料| 胃炎吃什么食物好| 幻视是什么意思| 什么什么的大树| 病毒性心肌炎吃什么药| 为什么打嗝| 性生活什么意思| ns是什么意思| nak是什么牌子| 鳄鱼的天敌是什么| 流产是什么症状| 弥漫性肝病是什么意思| 发芽土豆含有什么毒素| 怀孕吃什么药可以流掉| 日央读什么| 石榴叶子泡水喝有什么功效| 总价包干是什么意思| 07年是什么年| aa是什么| 清洁度三度什么意思| 小孩嗓子哑了吃什么药| 京酱肉丝是什么菜系| 梦见床上有蛇什么预兆| 西瓜可以做成什么美食| 安慰什么意思| 小孩瘦小不长肉是什么原因| 女人手心发热是什么原因| 凤凰男是什么意思| 佰草集属于什么档次| 出清什么意思| 马子什么意思| 金今念什么| 养肺补肺吃什么药最好| 孩子胆子小用什么方法可以改变| 多吃黄瓜有什么好处和坏处| 福禄寿的禄是什么意思| 眼睛突然出血是什么原因导致| 37岁属什么| 什么秒必争| 低密度脂蛋白高的原因是什么| 海归是什么意思| 蝎子吃什么东西| 五月二十一是什么星座| 火龙果什么时候吃最好| 化疗后吃什么排毒最快| 为什么青霉素要做皮试| 流产药叫什么名字| 爱出汗吃什么药| 菜心是什么菜的心| 肝主什么| 铖字五行属什么| 嫂夫人什么意思| 胰岛素是干什么用的| 苏州有什么特产可以带回家| 为什么来月经会头疼| 韩国烧酒什么味道| 宫腔内异常回声是什么意思| 怀孕什么时候开始孕吐| 芭蕉和香蕉有什么区别| 喝酒睡不着是什么原因| 9.23什么星座| 静脉曲张是什么样子| 点痣后用什么修复最好| 毛囊炎用什么药膏好| 河童是什么| 排暖期出血是什么原因| 味素是什么| 什么是生物钟| 吃什么药可以延长射精| 脸痒痒用什么方法可以缓解| 戒指戴哪个手指代表什么| 吃什么降尿酸最有效| 手指盖空了是什么原因| 不靠谱是什么意思| 五塔标行军散有什么功效| 挂号是什么意思| 右上眼皮跳是什么预兆| 最好的避孕方法是什么| 怀孕前三个月要注意什么| 音序是什么意思| 天梭属于什么档次| 贾珍和贾政是什么关系| 轻医美是什么| 马牙是什么原因引起的| 为什么经常放屁| 脂溢性皮炎有什么症状| 检查肾挂什么科| 教科书是什么意思| 异性缘是什么意思| 微波炉什么牌子好| 什么叫总胆固醇| 姚明什么时候退役的| 摩羯座和什么星座最配| 流产是什么意思| 小老头是什么意思| 甲状腺过氧化物酶抗体高说明什么| 湿气重吃什么药最好| 血离子是检查什么的| 守望先锋是什么类型的游戏| 蓝莓吃了有什么好处| 朝圣者是什么意思| 阳虚是什么原因引起的| 蓝本是什么意思| 白细胞偏高有什么危害| 醒酒是什么意思| 补血补气吃什么最快最好| 主动脉增宽是什么意思| 导管子是什么意思| 精神病是什么意思| 金代表什么生肖| ac疫苗是预防什么的| cy是什么意思| 烧伤的疤痕怎么去除用什么法最好| 水灵灵是什么意思| 社保缴纳基数是什么意思| 吃什么变白| 3个火念什么| 口臭吃什么药好| 北京有什么特产| 健康证什么时候可以办| 怀孕14天有什么症状| 梦见一个人死了是什么意思| 全飞秒是什么| 榴莲吃起来口感像什么| 人为什么打哈欠| 金鱼吃什么| 缺碘有什么症状| 云南白药植物长什么样| 降压药的原理是什么| 蛇标志的车是什么牌子| 阴茎里面痒是什么原因| 吃什么对牙齿有好处| 苯酚是什么| 洛基是什么神| 宜子痣是什么意思| 医保卡有什么用| 境遇是什么意思| 看望病人送什么花合适| 八仙桌是什么生肖| pwr是什么意思| 口炎念什么| 菊花泡茶有什么功效| 料油是什么油| 孕妇适合吃什么水果| 胎动突然减少是什么原因| 吃蒸苹果有什么好处| 焦虑症吃什么药好| 静脉血栓吃什么药| 程咬金是什么意思| 务实什么意思| guava是什么水果| 总胆固醇高吃什么药| 什么牌子的充电宝好| 来月经不能吃什么水果| 鲫鱼吃什么食物| 周杰伦什么时候出道| 荡是什么意思| 中风吃什么药最有效| 苹果什么时候出新手机| 医学五行属什么| 1988年出生是什么命| 五黄煞是什么意思| theme什么意思| 藏是什么意思| 惰性是什么意思| 什么饮料好喝| 昆明有什么好吃的| 拉稀吃什么药| 颈椎退变是什么意思| 儿童咽峡炎吃什么药| 眼睛屈光不正什么意思| 冬阴功汤都放什么食材| 嗓子发炎是什么原因引起的| 逆熵是什么意思| 上眼皮肿了是什么原因| 高抬腿运动有什么好处| 为什么会胃疼| 来大姨妈吃什么| 入职体检70元一般检查什么| 尿道口为什么叫马眼| 日本为什么要偷袭珍珠港| 女生腋毛多是什么原因| 人体成分分析是检查什么| 惊悸的意思是什么| 空调水滴是什么模式| 忽什么忽什么| 喜欢紫色的女人是什么性格| 天秤座跟什么星座最配| 醋泡洋葱有什么功效| mb是什么意思| 心灵鸡汤什么意思| 捉虫是什么意思| 晨对什么| 01年属什么生肖| 经常感冒吃什么增强抵抗力| mm代表什么| 加尿素起什么作用| 红薯不能和什么一起吃| 广西古代叫什么| 乳酸脱氢酶高是什么原因| 十一月四日是什么星座| 5月16日是什么星座| 人流后吃什么恢复快| 梦见麒麟是什么兆头| 无感什么意思| 心灵鸡汤什么意思| 什么叫流年| 喝酒过敏吃什么药| 缺钾吃什么| 哎呀是什么意思| 524是什么意思| 白癜风的症状是什么| 高烧吃什么药| 什么药消肿最快最有效| 尿路感染为什么会尿血| 三七粉吃了有什么好处| 消化不良吃什么水果| 尿液黄绿色是什么原因| 甲亢的症状是什么| 血压低吃什么水果最好| rop胎位是什么意思| 吃什么可以生精最快| 月柱华盖是什么意思| 头好出汗是什么原因| 木姜子是什么| 什么是紫河车| 厚黑学的精髓是什么| 感染性疾病科看什么病| 执念什么意思| 精满自溢是什么意思| 长期熬夜会得什么病| 开业送什么好| 雄起是什么意思| 欧阳修字什么号什么| 血清铁是什么意思| 瑞舒伐他汀钙片什么时候吃| 血液病有什么症状| 捉代表什么生肖| 为什么会多囊| 早上起来眼皮肿是什么原因| hco3-是什么意思| 蒲公英和什么相克致死| 吃什么对皮肤好还能美白的| 兰花代表什么象征意义| 什么又绿江南岸| 什么人容易得骨髓瘤| 龟苓膏有什么功效| 什么叫伴手礼| 迷迭香是什么| 糖化血红蛋白是什么| 什么是直接胆红素| 芒果过敏吃什么药| 百度
设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

交通运输部海事局关于启用新版船舶登记系统的通知

新智元 2024/10/28 16:29:25 责编:汪淼
百度 凤凰汽车·砖家不知道超过百年历史的汽车,对普通中国人而言,早已是触手可及的日常交通工具。

长视频理解是多模态大模型的核心能力之一,也是迈向通用人工智能(AGI)的关键一步。然而,现有的多模态大模型在处理 10 分钟以上的超长视频时,仍然面临性能差和效率低的双重挑战。

对此,智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校,推出了小时级的超长视频理解大模型 Video-XL。

Video-XL 借助语言模型(LLM)的原生能力对长视觉序列进行压缩,不仅保留了短视频理解的能力,而且在长视频理解上展现了出色的泛化能力。

Video-XL 相较于同等参数规模的模型,在多个主流长视频理解基准评测的多项任务中排名第一。

此外,Video-XL 在效率与性能之间实现了良好的平衡,仅需一块 80G 显存的显卡即可处理 2048 帧输入(对小时级长度视频采样),并在视频「大海捞针」任务中取得了接近 95% 的准确率

仅需几秒钟,VideoXL便可以准确检索长视频中植入的广告内容,也可以像人类一样准确理解电影中发生的主要事件

▲ 仅需几秒钟,VideoXL 便可以准确检索长视频中植入的广告内容,也可以像人类一样准确理解电影中发生的主要事件

未来,Video-XL 有望在电影摘要、视频异常检测、广告植入检测等应用场景中展现出广泛的应用价值,成为得力的长视频理解助手。

不同长视频模型在单块 80G 显卡上支持的最大帧数及在 Video-MME 上的表现

图 1 不同长视频模型在单块 80G 显卡上支持的最大帧数及在 Video-MME 上的表现

背景介绍

使用 MLLM 进行长视频理解具有极大的研究和应用前景。然而,当前的视频理解模型往往只能处理较短的视频,无法处理十分钟以上的视频。

尽管最近研究社区出现了一些长视频理解模型,但这些工作主要存在以下问题:

  • 压缩视觉 token 带来的信息损失

为了使语言模型的固定窗口长度适应长视频带来的大量视觉 token,众多方法尝试设计机制对视觉 token 进行压缩,例如 LLaMA-VID 主要降低 token 的数量,而 MovieChat,MALMM 则设计 memory 模块对帧信息进行压缩。然而,压缩视觉信息不可避免带来信息的损失和性能降低。

  • 性能和效率的不平衡

相关工作 LongVA 尝试 finetune 语言模型扩大其上下文窗口,并成功将短视频理解能力泛化到了长视频上。LongVila 优化了长视频训练的开销,提出了高效训练长视频训练的范式。然而,这些工作并未考虑推理时视频帧数增加带来的计算开销。

方法介绍

1. 模型结构

Video-XL 模型结构图

图 2 Video-XL 模型结构图

如图 2 所示,Video-XL 的整体模型结构和主流的 MLLMs 结构相似,由视觉编码器(CLIP),视觉-语言映射器(2-layer MLP)以及语言模型(Qwen-7B)构成。

特别之处在于,为了处理各种格式的多模态数据(单图,多图和视频),Video-XL 建立了一个统一的视觉编码机制。

  • 针对多图和视频数据,将每帧分别输入 CLIP;

  • 针对单图,将其划分为多个图像块,并将图像块输入 CLIP 进行编码。

因此,一个 N 帧的视频或者一个 N 图像块的图片都将统一标记成 N×M 视觉 token。

2. 视觉上下文隐空间压缩

相比于以往长视频模型直接对视觉 token 压缩,Video-XL 尝试利用语言模型对上下文的建模能力对长视觉序列进行无损压缩。对于视觉语言连接器输出的视觉信号序列:

其中 n 为视觉 token 的数量。Video-XL 的目标在于将 X 压缩成更为紧凑的视觉表示 C (|C|<|X|)。在下文中将详细介绍视觉上下文隐空间压缩的原理。

受到 Activation Beacon 的启发,Video-XL 引入了一种新的特殊标记,称为视觉摘要标记(VST), 记为 <vs>。基于此可以将视觉信号的隐层特征压缩到 VST 在 LLM 中的激活表示中(每层的 Key 和 Value 值)。

具体而言,首先将视觉信号序列 X 分成大小为 w 的窗口(默认每个窗口长度为 1440):

接着,对每个窗口首先确定压缩比,并插入一组 VST 标记,以交替的方式在视觉标记序列中插入。

在该过程中,视觉 token 表示的变化可以由以下公式表达:

LLM 将逐个处理每个窗口进行编码,并使用额外的投影矩阵在每层自注意力模块中处理 VST 的隐藏值。

编码完成后,普通视觉标记的激活值被丢弃,而 VST 的激活值被保留并累积,作为处理后续窗口时的视觉信号代理。

3. 模型训练方式

Video-XL 通过优化在压缩视觉信号下的生成质量来进行训练。

下一个 token 的预测通过以下公式进行计算:

其中 Θ 代表模型所有优化的参数,包含语言模型,视觉编码器、视觉语言连接器、VST 的投影矩阵,以及 VST 的 token embedding。

模型通过最小化标准的自回归损失进行训练,训练过程中不计算 VST 标记的损失(其标签设为-100),因为它们仅用于压缩。

同时,为了灵活支持不同的压缩粒度,训练时每个窗口的压缩比会从 {2,4,8,12,16} 中随机抽取。在推理时,可以根据具体的效率需求选择一个压缩比并应用于所有窗口。

4. 模型训练数据

在预训练阶段,Video-XL 使用 Laion-2M 数据集优化视觉语言连接器。

在微调阶段,Video-XL 充分利用了 MLLM 在各种多模态数据集上的能力。

  • 对于单图像数据,使用了 Bunny 695k 和 Sharegpt-4o 的 57k 张图片。

  • 对于多图像数据,使用了从 MMDU 提取的 5k 个数据。

  • 对于视频数据,收集了不同时长的视频样本,包括来自 NExT-QA 的 32k 样本,Sharegpt-4o 的 2k 视频样本,CinePile 的 10k 样本以及 11k 个带有 GPT-4V 视频字幕注释的私有数据。

为了增强长视频理解能力并释放视觉压缩机制的潜力,本工作开发了一个自动化的长视频数据生产流程,并创建了一个高质量数据集 —— 视觉线索顺序数据(VICO)。

该流程首先从 CinePile 数据或 YouTube 等视频平台获取长视频,涵盖电影、纪录片、游戏、体育等开放领域的内容。每个长视频被分割成 14 秒的片段。

对于每个片段,本工作使用 VILA-1.5 40B 模型生成详细描述,包括动作序列和关键事件。基于这些描述,本工作利用 ChatGPT 将线索按时间顺序排列。

VICO 数据集通过要求模型检索关键帧并检测时间变化,提升其长视频理解能力。

实验

1 . 评测基准

Video-XL 选用多个主流视频理解评测基准,对于长视频理解任务,评测了 VNBench、LongVideoBench、MLVU 和 Video-MME;对于短视频理解任务,评测了 MVBench 和 Next-QA。

2. 评测结果

长视频理解:

Video-XL 在 MLVU 和 VideoMME 的性能

表 1 Video-XL 在 MLVU 和 VideoMME 的性能

Video-XL 在 VNBench 和 LongVideoBench 上的性能

表 2 Video-XL 在 VNBench 和 LongVideoBench 上的性能

如表 1 和表 2 所示 Video-XL 在多个主流的长视频评测基准上展现了卓越性能。

  • 在 VNBench 上准确率超过了目前最好的长视频模型大约 10%;

  • 在 MLVU 的验证集上,仅仅具有 7B 参数的 Video-XL 甚至在单项选择任务上超越了 GPT-4o 模型;

  • 在 Video-MME 和 LongVideoBench 等数据集上,Video-XL 也在同等量级规模的长视频理解模型中排名第一。

超长视频理解:

Video-XL 通过进行了视频「大海捞针」测试来评估其处理超长上下文的能力。

LLaVA-NexT-Video 和 LongLLaVA 都采用了简单的位置信息外推算法,但在输入更多上下文时,仍然难以理解关键信息。虽然 LongVA 通过微调 LLM 来处理更长的输入,但高昂的计算成本限制了其在单块 80G GPU 上处理约 400 帧的能力。

相比之下,Video-XL 在相同硬件条件下,以 16 倍压缩比和 2048 帧输入,达到了近 95% 的准确率。这表明,Video-XL 在准确性和计算效率之间实现了最佳平衡。

短视频理解:

尽管 Video-XL 的设计主要面向长视频,但它保留了短视频理解的能力。在 MVBench 和 Next-QA 任务评测中,Video-XL 取得了和目前 SOTA 模型相当的效果。

3. 消融实验

Video-XL 的消融实验

表 3 Video-XL 的消融实验

Video-XL 对所提出的视觉压缩机制和 VICO 数据集进行了消融实验,如表 3 所示。

  • 视觉压缩的有效性

Video-XL 使用 Bunny 695k 数据集训练了两个模型:一个不使用压缩,另一个使用随机压缩比(从 {2, 8, 16} 中选取)。

对于压缩模型,在视频基准 MLVU 和图像基准 MME、MMBench 上测试时应用了不同的压缩比。

值得注意的是,即使使用 16 的压缩比,压缩模型在仍表现出较好的效果,接近甚至超越了基线模型。

  • VICO 数据集的有效性

Video-XL 使用不同数据集训练了四个模型:(a)仅使用 Bunny 695k;(b)Bunny 695k 结合 NeXTQA 32k;(c)Bunny 695k 结合 CinePile 10k;(d)Bunny 695k 结合长视频字幕 5k;(e)Bunny 695k 结合 VICO 5k。

值得注意的是,即使仅使用 5k 的 VICO 数据,Video-XL 也超过了使用 NeXTQA 32k 训练的模型。

此外,主要事件 / 动作排序任务比字幕生成任务带来了更显著的提升,因为它促使模型从长序列中提取关键片段并进行理解。

可视化结果

Video-XL 在长视频理解任务上的可视化结果

图 3 Video-XL 在长视频理解任务上的可视化结果

如图 3 所示,Video-XL 在电影摘要、视频异常检测、广告植入检测等长视频任务上展现了良好的性能。

总结

该工作提出了 Video-XL 模型,利用语言模型的压缩能力,仅需一块 80G 显卡即可理解小时级别的视频;除此之外,Video-XL 在多个主流长视频理解基准评测上表现优异。

Video-XL 有望在多个长视频理解的应用场景中展现出广泛的应用价值,成为得力的长视频理解助手。

目前,Video-XL 的模型代码均已开源,以促进全球多模态视频理解研究社区的合作和技术共享。

参考资料:

本文来自微信公众号:微信公众号(ID:null),作者:编辑部 HYZ,原标题《一张显卡看遍天下电影!智源联合高校开源 Video-XL 打破长视频理解极限,95% 准确率刷爆纪录》

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知

小腿红肿是什么原因引起的 盍是什么意思 husky是什么牌子 88年属什么的 钧鉴是什么意思
为什么会拉血 男扮女装叫什么 怀孕乳房会有什么变化 维生素b族有什么用 莲子有什么作用
闪购是什么 天孤星是什么意思 肝fnh是什么病 桥本氏甲状腺炎吃什么药 2.3什么星座
长期失眠挂什么科 金牛男和什么星座女最配 世界上最大的生物是什么 喜金是什么意思 npc是什么
人中有痣代表什么hcv7jop9ns3r.cn 铁观音什么季节喝最好hcv7jop6ns0r.cn 视力模糊什么原因hcv7jop6ns4r.cn 西装裤配什么上衣hcv7jop5ns6r.cn 草是什么植物hcv9jop1ns7r.cn
鳞状上皮内低度病变是什么意思hcv8jop1ns8r.cn 十月30号是什么星座hcv9jop1ns0r.cn 眼睛上火吃什么药hcv8jop3ns5r.cn 小太阳是什么牌子hcv8jop6ns4r.cn 梦见兔子是什么预兆hcv8jop8ns4r.cn
肠胃感冒吃什么hcv9jop7ns0r.cn 一个田一个比读什么hcv8jop3ns5r.cn 弥可保是什么药onlinewuye.com 孕妇拉肚子是什么原因引起的hcv8jop2ns9r.cn 乐字五行属什么hcv9jop3ns7r.cn
谷丙转氨酶偏高吃什么好wzqsfys.com 东面墙适合挂什么画hcv7jop9ns7r.cn hpv是什么症状bysq.com 病毒性肠炎吃什么药hanqikai.com 教师节送老师什么礼物最好hcv7jop9ns1r.cn
百度