视频搜索太难了!阿里文娱多模态搜索算法实践
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 视频搜索是涉及信息检索、自然语言处理(NLP)、机器学习、计算机视觉(CV)等多领域的综合应用场景,随着深度学习在这些领域的长足进展以及用户对视频生产和消费的广泛需求,视频搜索技术的发展在学术和工业界都取得了飞速的发展。 阿里文娱高级算法专家若仁在 GMIC 2020 分享了视频搜索技术和多模态在视频搜索领域的应用,本文整理自演讲速记,希望能给关注或从事视频搜索方向的算法同学带来启发。 考虑到大家来自不同的业务领域和技术方向,我会先简单介绍优酷视频搜索的业务背景,同时快速介绍搜索的基本评估指标、搜索系统的算法框架以及相关性和排序模型,让大家对视频搜索有一个更全面的认识,后面重点介绍多模态视频搜索相关技术。 阿里文娱搜索现状 搜索团队为整个阿里文娱提供一站式的搜索服务,服务范围包括优酷 Phone 和 OTT 端,还包括大麦、淘票票。涉及的检索内容,从影剧综漫的长视频影视库,到覆盖社会各领域的 UPGC 视频。此外,影人和演出场馆也在搜索服务覆盖范围内。以优酷为例,我们有数亿视频资源,不仅包括平台购买了版权的 OGC 视频,更多是用户上传的 UPGC 视频。视频的存储、计算以及分发,比文字更具挑战。 搜索技术的用户价值主要体现在两个维度: 一是工具属性。