欢迎访问法甲下注_法甲竞猜_法甲联赛下注-官网有限公司官网 !

法甲下注_法甲竞猜_法甲联赛下注-官网

联系我们

全国咨询热线:0755-33506161

公司名称:深圳市法甲下注有限公司
电话:0755-33506161
传真:0755-33605535
手机:13922830701
地址:深圳市宝安区松岗镇广田路天恒石材市场8号厂房

[法甲联赛下注]AAAI 2020 | 上交大:基于图像查询的

文章来源:http://www.cityml.com 发表时间:2020-04-21 作者:[db:作者]

法甲联赛下注是24小时提供时政新闻,国内新闻,国际新闻,生活新闻,时事热点,新闻图片,军事,历史,生活,的专业时事报道门户网站。

作者 | 徐瑞聪

编辑 | Camel

本篇文章介绍上海交通大学 BCMI 实验室在AAAI 2020 上的一项工作,A Proposal-based Approach for Activity Image-to-Video Retrieval。

论文链接:https://arxiv.org/pdf/1911.10531.pdf

代码链接:https://github.com/bcmi/Cross-modal-retrieval

互联网时代技术的迅速发展,推动了图片、文字、视频等多媒体的爆发。当今社会越来越不能满足于单一模态的检索需求,大量跨模态检索的应用在不断发展。其中,基于图片查询的视频检索是一类具有研究意义和价值的应用,例如,利用幻灯片搜索相关视频讲座、推荐与图片相关的视频电影、利用照片去检索新闻视频等。但是,由于图片和视频之间数据分布不同,并且语义信息不一致,这必然导致传统的单模态检索方式不适用于跨模态检索任务。如何挖掘数据内在的联系、如何建立多模态信息特征的统一映射、如何保证检索速度都是跨模态检索面临的巨大的挑战。

在跨模态检索任务中,对图片的特征提取工作已经趋于成熟,基于深度模型的方法已经在大量分类任务中验证具有较好的效果。不同于图片特征提取,由于视频复杂的内容和结构特征,视频特征提取的研究工作在不断探索中。传统的检索方式可以将视频中每一帧进行信息抽取并表达,则图片到视频的检索工作可以看作图片到视频帧的检索工作。但传统方式对视频的表达必然会导致视频表达中存在与主要信息内容无关的冗余背景片段,为后续检索工作造成一定的困难。

为了解决上述问题,基于时序信息的深度网络被大量研究。通过同时从时间和空间维度学习特征,循环神经网络(RNN)和3D卷积网络(3D CNN)被广泛利用在视频领域。作为3D CNN模型的扩展,R-C3D模型被应用于连续视频的行为检测任务。R-C3D模型首先通过一个C3D模型提取特征,再利用区域候选网络(RPN)提取候选的活动序列段,最后在分类子网络中进行分类和活动序列段边界的回归。

针对本任务的需求,我们创新性地采用R-C3D模型来生成候选的活动区域段特征,进一步滤除嘈杂的背景信息片段,从而获得优越的视频活动区域段表示方法来进行跨模态检索任务。