hi,大家好~我是shadow,一枚设计师/全栈工程师/算法研究员,目前主要研究方向是人工智能写作和人工智能设计,当然偶尔也会跨界到人工智能艺术及其他各种AI产品。
AI不仅可以帮我们创作文章,做设计,还可以完成短视频创作。本文主要从大数据分析、视频理解、视频创作三个方面介绍AI应用在视频的前沿进展。
这是来自于Moviescope数据集所介绍的方法,作者探索了多模态电影的特征表示,使用CNN(VGG16)从单个电影的图片帧中提取特征表示(Video Representation - fastVideo),使用词嵌入从文本中提取特征表示( Text Representation - fastText),使用基于谱的特征进行音频表示,然后使用池操作聚合这些特征。对于元数据,使用随机林分类器。
https://pyscenedetect.readthedocs.io/en/latest/examples/usage-example/pyscenedetect.readthedocs.io
谷歌开源的 AutoFlip 可以实现自动剪辑,包括视频尺寸裁切、精彩内容自动化提取等。
https://github.com/google/mediapipe
https://github.com/nianticlabs/monodepth2
2019年,英伟达开源了Super SloMo,从普通的视频“脑补”出高帧率的画面,从30fps插帧到240fps,即使放慢8倍也不会感到卡顿。最近,上海交大的一个新的插帧算法DAIN开源。它比英伟达的算法效果更清晰、帧率更高。
https://github.com/baowenbo/DAIN
谷歌的VideoBERT,不需要标注数据,采用无监督学习的方式直接从视频中学习。
作者借鉴了NLP中十分成功的 BERT 模型,在它的基础上进行改进,从视频数据的向量化和视频语音识别输出结果分别提取视觉和语言的特征,然后在特征序列上学习双向联合分布。
类似的研究还有ViLBERT:为视觉 - 语言任务训练非任务专用的视觉语言表征,百度也有类似的论文。
本文分享自微信公众号 - 无界社区mixlab(mix-lab)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
来源:oschina
链接:https://my.oschina.net/u/4582735/blog/4383931