首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对基于集合预测的密集视频描述方法由于缺乏显式的事件间特征交互且未针对事件间差异训练模型而导致的模型重复预测事件或生成语句雷同问题,提出一种基于事件最大边界的密集视频描述(dense video captioning based on event maximal margin,EMM-DVC)方法。事件边界是包含事件间特征相似度、事件在视频中时间位置的距离、生成描述多样性的评分。EMM-DVC通过最大化事件边界,使相似预测结果的距离远且预测结果和实际事件的距离近。另外,EMM-DVC引入事件边界距离损失函数,通过扩大事件边界距离,引导模型关注不同事件。在ActivityNet Captions数据集上的实验证明,EMM-DVC与同类密集视频描述模型相比能生成更具多样性的描述文本,并且与主流密集视频描述模型相比,EMM-DVC在多个指标上达到最优水平。  相似文献   

2.
针对文本生成图像任务中文本信息与生成图像的语义一致性,以及图像细节模糊、图像要素空间搭配合理性问题,提出了融合BERT文本编码模型和AttnGAN生成对抗网络模型的文本生成图像方法。首先,在文本与图像语义一致性训练中,借助预训练BERT模型对文本进行句、字级别的特征编码,充分利用其在NLP任务中的优秀文本编码与强泛化能力深度匹配文本语义和图像区域的特征一致性;然后,在图像生成网络的第一阶段图像生成模块之前添加空间注意力模块,提高最终生成图像的语义一致性和空间位置的布局合理性。融合优化后的模型所生成的图像相比原AttnGAN模型,IS指标提升了0.17,FID指标降低了1.15,整体视觉效果更加细腻逼真,模型成功地在阿里天池服装数据集上应用,表明其具有良好的跨领域生成能力。  相似文献   

3.
本文系统地研究了视频监控系统中多目标多特征实时检测及其实现技术.提出了视频监控目标检测系统的理论模型,建立了视频中特定事件的检测的理论基础和数学描述.通过在视频带中完整记录可疑目标的行为,为此类事件定义一套标准.本系统能够自动的从视频序列中提取可疑人物或事件的若干初级特征,而这些特征的有机融合包含足够的信息,可以决定是否发生了非常事件.  相似文献   

4.
基于MPEG-7的视频信息检索探析   总被引:3,自引:0,他引:3  
基于内容的视频信息检索方法是针对传统视频信息检索方法的局限而提出的MPEG-7是描述多媒体信息内容的重要标准,利用MPEG-7描述视频结构可以促进视频信息内容的描述、获取和检索。而镜头分割和关键帧提取、特征抽取与标引、视频结构分析以及显示和交互技术是视频信息检索中关键技术。  相似文献   

5.
为了有效改善传统动作识别方法中输入数据信息单一导致的识别率偏低等问题,提出一种结合视频数据和骨骼数据的双流融合方法.基于两种不同的深度学习网络,分别对视频数据与骨骼数据进行识别并将两者输出的概率加以融合,实现信息融合效果.在公开数据集NTU RGB+D上进行测试,达到83.76%的识别精度.该方法在一定程度上实现了不同...  相似文献   

6.
一般采用视频浓缩技术来存储海量的监控视频数据,然而要实现快速检索视频中的重要事件较为困难.为此介绍基于内容的视频检索概念,提出基于视频镜头内容与确定的帧从视频中提取关键帧的方法,探讨与研究模板匹配法、直方图法、边缘测试法等从关键帧中检索基于内容的算法.  相似文献   

7.
闻子涵  陈谨  吴心筱 《中国科技论文》2022,(11):1188-1193+1200
为解决图像到视频跨域物体检测任务中存在的视频运动模糊、目标遮挡姿态变化及图像与视频帧域偏移的问题,提出了一个新颖的图像到视频跨域物体检测框架。首先采用循环一致性对抗生成网络,将源域图像映射到目标视频域,生成与视频帧类似的图像(即伪视频帧),用于训练物体检测器。为进一步提升检测器的鲁棒性,提出时序传递模块,将检测结果传递到相邻视频帧以减少假阴性检测。同时设计上下文抑制模块,降低低置信度类别的分数,从而减少假阳性检测。在Youtube-Objects数据集上的实验结果验证了所提方法的有效性。  相似文献   

8.
视频监控系统面临着一系列安全问题,频频出现视频监控假冒、窃取和非法控制事件。基于可信计算技术,设计了可信视频监控系统安全架构。该架构对系统中的计算设备实施可信安全增强,设计了基于数字证书的双向认证协议,对传输的视频和信令数据进行加密保护。系统验证和分析结果表明,该架构有效提高了视频监控系统的安全防护能力。  相似文献   

9.
针对水下图像浑浊以及色彩失真的问题,提出了一种基于多尺度融合GAN水下视频图像增强方案,该方案主要包括生成网络和判别网络。在生成网络中,将特征融合与跳级连接引入到生成器结构中,提升网络利用上下层之间信息的能力,确保了生成图像保留更多的细节。此外,还通过对每个块进行差别的判别,实现了局部图像特征的提取和表征。通过在公开数据集EUVP和RUIE进行的定性和定量实验,发现本文方法在PSNR、SSIM、UISM、UICM、UIConM和UIQM等评价指标方面明显优于现有的水下图像增强方法,表明所提方法在水下图像数据集上应用的良好性能。  相似文献   

10.
现代社会是一个人口密集、高度复杂的社会,面临的突发事件和异常事件越来越多,其监控的难度与重要性也越来越突出.为此,世界各国政府和学者已开始密切关注新一代的监控技术一智能视频监控技术,本文将对智能视频监控系统及其研究现状进行综述.  相似文献   

11.
现代社会是一个人口密集、高度复杂的社会,面临的突发事件和异常事件越来越多,其监控的难度与重要性也越来越突出.为此,世界各国政府和学者已开始密切关注新一代的监控技术一智能视频监控技术,本文将对智能视频监控系统及其研究现状进行综述.  相似文献   

12.
本文提出了一种基于时域信息代表图像和希尔伯特曲线顺序特征的哈希算法。先从视频段中获取时域信息的代表图像,再对代表图像进行分块,将各块按照希尔伯特曲线的顺序排列,计算出时域信息代表图像上相邻块的灰度关系排序特征,进而生成视频哈希。本文中对多种视频攻击(比如剪切,丢帧,模糊,滤波,添加logo等)下的多类视频(包括纪录片、新闻、体育、人文、动画等)进行了鲁棒性与区分性的试验。实验结果表明本文所提算法较现有哈希算法有更好的检测性能。  相似文献   

13.
深度学习技术与教师教育融合创新,可赋能教师教学体态语言行为精准测评。针对教师体态语言人工视频分析技术滞后问题,本研究采用人物目标检测、目标追踪和体态骨架图生成三种方法,创建真实教学情境下基于人体骨架图的专家型教师标准体态语言数据集,使用金字塔卷积模块优化ResNet50残差网络,构建金字塔残差神经网络模型,并基于数据集开展识别模型的训练、验证和测试实验。结果显示,体态语言识别模型的准确率、精确率和召回率均达到95%以上,识别准确率由高到低依次为工具性体态语言、巡视性体态语言、指示性体态语言、常规性体态语言、描述性体态语言。本研究基于上述训练良好的模型,开发教师体态语言智能感知测评系统,提出教师体态语言特征的人体骨架表征方法、教师体态语言数据集创建方法及智能识别神经网络模型构建方法,构建了大数据驱动的教师课堂体态语言智能测评方法体系。  相似文献   

14.
可伸缩视频编码通过码流提取获得子码流以适应不同的网络带宽和处理终端。本文提出一种基于内容描述的视频码流提取框架,根据预处理获得视频内容的描述指导可伸缩视频的码流提取,从而获得更符合视频内容的子码流。实验表明这种方法快速有效,能够在不损失编码效率的前提下保证视觉质量。  相似文献   

15.
新闻文本分类是长文本分类的典型问题,因此提取词与词之间的关系特征就尤为重要.提出了基于双向Transformer编码表示的预训练模型(Bidirectional Encoder Representations from Transformers, BERT)和双向长短时记忆网络(Bi-directional Long Short-Term Memory, BiLSTM)以及注意力机制的对抗训练分类模型(BBA-AT).将预处理新闻文本数据经过BERT进行训练得到词嵌入编码,在训练后的词向量级别上进行扰动达到数据增广的效果,以此来进行对抗训练,之后通过双向长短时记忆网络对数据集进行编码提取双向语义表征.本文提出的BBA-AT模型F1值在TNEWS数据集上比BERT模型提升了1.34%.  相似文献   

16.
研究了一种视频数据挖掘的系统结构.介绍了该系统中各主要模块的功能;描述了视频数据预处理和视频数据立方体;讨论了视频数据挖掘方法并探讨了典型的视频挖掘技术.  相似文献   

17.
目的:针对传统长短时记忆神经网络参数量较多、训练时间过长、在并行处理上存在劣势等不足,提出一种结合多头注意力机制与双向门控循环单元的微博文本情感预测模型。方法:对文本进行预处理,加入位置信息进行词向量化,采用双向门控循环单元提取文本特征,引入注意力机制关注文本序列中的重要信息构建微博文本情感预测模型。结果:本研究提出的模型与传统模型相比,训练时间较短,预测精度更高。结论:融合多头注意力机制和双向门控循环单元的情感预测模型能有效提取文本特征,提高模型预测精度。  相似文献   

18.
随着智慧课堂的日益普及,急需构建安全、稳定、高效的视频服务系统,提供丰富海量的视频信息资源、个性化的视频服务、教与学数据分析与决策支持等。通过实践调查和文献分析,基于智慧课堂教学设计与实施对视频服务的需求,设计实现了面向智慧课堂教与学服务的视频服务系统。该系统采用MVC模式,基于ThinkPHP高性能框架开发,基于角色实现了海量视频信息资源的智能检索,用户个性化视频推荐和图形化数据统计分析等功能,为智慧课堂提供全方位、个性化、智能化的教与学环境和信息资源服务,解决了传统课堂教学平台缺失和信息资源受限问题。实践应用与课堂调查表明,教师更关注视频信息资源的便捷获取与灵活发布、学情智能分析,学生更偏爱视频学习与立体化交互,基于平台的分组讨论与汇报,汇聚了师生智慧,实现了学生知识、技能、情感等多维学习目标的达成。  相似文献   

19.
概要:为准确定位内窥镜视频中的人造物,帮助医生提升诊断准确率,引入深度神经网络检测与分割模型,采用特征金字塔与级联R-CNN相互结合的框架,并使用PSPNet结合分类器链的思想,从而解决分割及数据匮乏问题,有效提升性能,并在EAD 2019数据集上取得领先的性能。  相似文献   

20.
针对现有跌倒检测方法中利用时空图卷积网络(ST-GCN)进行行为检测的准确率有待提高、时间信息利用不够充分等问题,提出了一种基于轻量级YOLO v3人体目标检测模型结合人体骨骼特征点的跌倒检测方法.本方法利用AlphaPose算法实时得到人体的骨骼特征点信息,在此基础上结合改进的ST-GCN模型提取了强化后的行为时空信息,从而对跌倒进行更加准确的检测.在通用数据集及自建数据集上的测试结果表明,该方法在跌倒检测中具有良好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号