基于事件最大边界的密集视频描述方法 |
| |
引用本文: | 陈劭武,胡慧君,刘茂福.基于事件最大边界的密集视频描述方法[J].中国科技论文,2024(2):169-177. |
| |
作者姓名: | 陈劭武 胡慧君 刘茂福 |
| |
作者单位: | 1. 武汉科技大学计算机科学与技术学院;2. 智能信息处理与实时工业系统湖北省重点实验室(武汉科技大学) |
| |
摘 要: | 针对基于集合预测的密集视频描述方法由于缺乏显式的事件间特征交互且未针对事件间差异训练模型而导致的模型重复预测事件或生成语句雷同问题,提出一种基于事件最大边界的密集视频描述(dense video captioning based on event maximal margin,EMM-DVC)方法。事件边界是包含事件间特征相似度、事件在视频中时间位置的距离、生成描述多样性的评分。EMM-DVC通过最大化事件边界,使相似预测结果的距离远且预测结果和实际事件的距离近。另外,EMM-DVC引入事件边界距离损失函数,通过扩大事件边界距离,引导模型关注不同事件。在ActivityNet Captions数据集上的实验证明,EMM-DVC与同类密集视频描述模型相比能生成更具多样性的描述文本,并且与主流密集视频描述模型相比,EMM-DVC在多个指标上达到最优水平。
|
关 键 词: | 密集视频描述 多任务学习 端到端模型 集合预测 |
|
|