MediaPipe

媒体智能-淘宝直播流媒体互动实践 | D2 分享视频+文章

北战南征 提交于 2021-01-26 10:29:15
背景:今天给大家带来的分享主题是《媒体智能-淘宝直播流媒体互动实践》,内容分为5个部分,首先看看在淘宝直播的直播间里主播可以怎样给用户拜年;然后具体讲如何制作一个手势拜年的特效;接着介绍我们媒体智能整体的方案设计以及其中核心的工作之一,MediaAI Studio这样一款编辑器的实现;最后讲讲我们后续的建设方向。 目录 今天给大家带来的分享主题是《媒体智能-淘宝直播流媒体互动实践》,内容分为5个部分,首先看看在淘宝直播的直播间里主播可以怎样给用户拜年;然后具体讲如何制作一个手势拜年的特效;接着介绍我们媒体智能整体的方案设计以及其中核心的工作之一,MediaAI Studio这样一款编辑器的实现;最后讲讲我们后续的建设方向。 直播间里怎么拜年? 马上又要过年了,每次过年我们都会给亲朋好友拜年。那在直播间里,主播怎么给用户拜年呢?今年年初春节,我们做了一个项目,就是让主播可以在直播间里给自己的粉丝拜年,然后在直播间里出一些春节的氛围特效。 具体的设计方案就是主播在直播的过程中,实时识别主播的拜年手势,来触发一些春节氛围特效的渲染,同时实时识别主播的脸部,来跟随渲染一些人脸道具。 可以看到上面的几个效果示意,比如主播可以通过做一个爱心或者拜年的手势,来触发直播间的花字、对联或者礼花,也可以给主播的面部加上财神帽等人脸道具,增强直播间里的节日氛围。 制作手势拜年特效

手势识别2020

故事扮演 提交于 2020-12-25 08:31:46
参考另一篇博客 https://blog.csdn.net/jacke121/article/details/100934635 keras的,效果不好 https://github.com/lucamoroz/StaticGestureRecognition 演示效果可以: https://github.com/zhouzaihang/flutter_hand_tracking_plugin android: https://github.com/hannesa2/mediapipe_multi_hands_tracking android:两只手可以,aar,图片不合适 https://github.com/jiuqiant/mediapipe_multi_hands_tracking_aar_example https://github.com/TesseraktZero/mediapipe_multi_hands_tracking_aar_unity c++ 传统算法 https://gitee.com/jacke121/Hand_gesture android,ios,效果一般 https://github.com/leftatrium2/AIDemo MediaPipe https://github.com/google/mediapipe 3d手势姿态同步,正面有效果

AI助力短视频创作

为君一笑 提交于 2020-12-18 07:37:58
hi,大家好~我是shadow,一枚设计师/全栈工程师/算法研究员,目前主要研究方向是人工智能写作和人工智能设计,当然偶尔也会跨界到人工智能艺术及其他各种AI产品。 文末了解《人工智能Mix》 AI不仅可以帮我们创作文章,做设计,还可以完成短视频创作。本文主要从大数据分析、视频理解、视频创作三个方面介绍AI应用在视频的前沿进展。 - 大数据分析电影 这是来自于Moviescope数据集所介绍的方法,作者探索了多模态电影的特征表示,使用CNN(VGG16)从单个电影的图片帧中提取特征表示(Video Representation - fastVideo),使用词嵌入从文本中提取特征表示( Text Representation - fastText),使用基于谱的特征进行音频表示,然后使用池操作聚合这些特征。对于元数据,使用随机林分类器。 实验结果: - 视频理解 主要是场景检测、自动切割、景深等任务。 - pyscenedetect 开源库 可以用来做视频摘要,自动剪辑之类的。 项目地址: https://pyscenedetect.readthedocs.io/en/latest/examples/usage-example/pyscenedetect.readthedocs.io - AutoFlip 开源库 谷歌开源的 AutoFlip 可以实现自动剪辑,包括视频尺寸裁切

兼容PyTorch、TF,史上最灵活Python机器学习框架|一周AI最火论文

瘦欲@ 提交于 2020-10-08 02:22:19
      大数据文摘出品    作者:Christopher Dossman    编译:Olivia、Joey、云舟   呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!   AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。   每周更新,做AI科研,每周从这一篇开始就够啦!    本周关键词 : 无监督学习、RL、张量网络    本周最佳学术研究    编写与PyTorch,TensorFlow,JAX和NumPy均兼容的代码   深度学习(DL)的进步正日益促进着越来越多DL框架的发展。这类框架提供了用于自动区分和GPU加速的高级且高效的API,并使得使用相对较少而直接的代码来实现异常复杂且功能强大的深度学习模型成为可能。   EagerPy是一个Python框架,可用于编写自动与PyTorch、TensorFlow、JAX和NumPy兼容的代码,而无需牺牲性能。   库开发人员不必选择仅支持这些框架之一而为每个框架重新实现库,或是选择处理代码重复问题。因此这类库的用户可以更轻松地切换框架,而不会被一个第三方库锁定。除了支持多框架之外,EagerPy还对链接到所有框架的方法都提供了详尽的类型注释和一致的支持。   Github传送门:   https

Web上的MediaPipe

拟墨画扇 提交于 2020-08-17 06:22:27
由MediaPipe团队的Michael Hays和Tyler Mullen发布 MediaPipe 是用于构建跨平台多模式应用ML管道的框架。我们之前已经演示了如何 在移动设备(Android,iOS) 和 边缘设备(例如Google Coral ) 上 以MediaPipe图形的形式构建和运行ML管道。在这篇文章中,我们很高兴现在 MediaPipe图表 运行住在Web浏览器中,通过WebAssembly启用并加速 XNNPack ML推理库 。通过将此预览功能集成到我们基于Web的Visualizer工具中,我们提供了一个游乐场,可以快速迭代图形设计。由于所有内容都直接在浏览器中运行,因此视频永远不会离开用户的计算机,并且每次迭代都可以在实时网络摄像头流(以及很快的任意视频)上立即进行测试。 图1显示了在Visualizer中 运行MediaPipe人 脸检测示例 MediaPipe可视化器 MediaPipe Visualizer(参见图2)位于 viz.mediapipe.dev 。可以通过将图形代码粘贴到“编辑器”选项卡中或将图形文件上传到可视化器中来检查MediaPipe图形。用户可以使用鼠标和滚轮来平移和放大图形的图形表示。该图形还将实时响应编辑器中所做的更改。 图2托管在 https://viz.mediapipe.dev的 MediaPipe

谷歌AI新技术:通过追踪虹膜,普通摄像头也能测距

房东的猫 提交于 2020-08-13 09:26:10
  目前的主流智能手机大多配有多个摄像头,每个都有不同分工,有的是黑白摄像头,负责提供更准确的对比度信息,有的则负责捕捉人物或场景深度,测量物体和手机之间的距离。    近日,谷歌 AI 研究团队发明了一种测量距离的新方法:通过机器学习模型捕捉和追踪用户的眼球(虹膜),就可以判断其与手机的距离。 整个过程只用到普通的 RGB 摄像头,无需深度传感器或专用摄像头。    如果这项技术未来获得实装,那么手机上的摄像头数量终于有望减少了。   这项研究名为 MediaPipe Iris,属于谷歌 MediaPipe 机器学习开源项目的一部分。该项目旨在为研究人员和开发者提供免费、成熟的跨平台机器学习解决方案,其中还包括脸部识别、面部五官追踪、手势捕捉和物体识别等常见的计算机视觉任务。      眼球或虹膜追踪并非新技术,三星最早在 8 年前的 Galaxy S3 上就实装了眼球追踪技术。然而受到硬件性能、光照条件和潜在遮挡物的限制,这项技术的易用性较差,近几年已经被指纹和面部识别所取代。   不过, 在某些应用场景下,虹膜追踪仍然有不可替代的地位,比如操控 VR 和 AR 设备很依赖虹膜追踪,手机相机的人像模式也需要追踪虹膜来确定眼睛和人脸的位置。 通常来说,这些设备需要专用的传感器来获取这些数据,限制了设备的使用场景和潜力。   谷歌 AI 团队发表的最新研究成果,只需要一个普通的

你们还在做2D的物体检测吗?谷歌已经开始玩转 3D 了

久未见 提交于 2020-03-23 21:25:57
3 月,跳不动了?>>> 物体检测作为计算机视觉领域最广泛的研究主题之一,虽然2D 物体检测已在工业界得到了比较成熟的应用,然而实现 3D 物体检测目前还困难重重。 一方面是由于现有的3D 数据非常匮乏,另一方面则是因为单个类别下的物体外观和形状本身就非常多样化。 在当前条件下,如何基于现有的 2D 图像数据来做3D 检测呢? 日前,谷歌发布了一个针对日常物体的移动实时 3D 物体检测管道——MediaPipe Objectron。 该管道可以检测2D图像中的物体,然后通过机器学习模型估计物体的姿势和大小,再在谷歌最新开发的3D数据集上对模型进行训练。 其中,MediaPipe 是一个开源跨平台框架,用于构建管道来处理不同模式的感知数据,而Objectron则是在MediaPipe中实现,能够在移动设备中实时计算面向检测物体的3D 边框。 (雷锋网) 单个图像的 3D 物体检测。MediaPipe Objectron在移动设备上实时确定日常对象的位置、方位和大小。 获取现实世界 3D 训练数据 随着依赖于激光雷达等 3D 捕获传感器的自动驾驶汽车研究工作的日益普及,目前已有大量的街道场景 3D 数据,然而针对更细粒度的日常物体的带有真实 3D 标注的数据集极度有限。 为了解决这一问题,谷歌使用移动增强现实会话数据开发了一个新的数据管道。随着ARCore 、ARKit等工具的出现

你们还在做2D的物体检测吗?谷歌已经开始玩转 3D 了

半城伤御伤魂 提交于 2020-03-20 23:04:59
3 月,跳不动了?>>> 物体检测作为计算机视觉领域最广泛的研究主题之一,虽然2D 物体检测已在工业界得到了比较成熟的应用,然而实现 3D 物体检测目前还困难重重。 一方面是由于现有的3D 数据非常匮乏,另一方面则是因为单个类别下的物体外观和形状本身就非常多样化。 在当前条件下,如何基于现有的 2D 图像数据来做3D 检测呢? 日前,谷歌发布了一个针对日常物体的移动实时 3D 物体检测管道——MediaPipe Objectron。 该管道可以检测2D图像中的物体,然后通过机器学习模型估计物体的姿势和大小,再在谷歌最新开发的3D数据集上对模型进行训练。 其中,MediaPipe 是一个开源跨平台框架,用于构建管道来处理不同模式的感知数据,而Objectron则是在MediaPipe中实现,能够在移动设备中实时计算面向检测物体的3D 边框。 (雷锋网) 单个图像的 3D 物体检测。MediaPipe Objectron在移动设备上实时确定日常对象的位置、方位和大小。 获取现实世界 3D 训练数据 随着依赖于激光雷达等 3D 捕获传感器的自动驾驶汽车研究工作的日益普及,目前已有大量的街道场景 3D 数据,然而针对更细粒度的日常物体的带有真实 3D 标注的数据集极度有限。 为了解决这一问题,谷歌使用移动增强现实会话数据开发了一个新的数据管道。随着ARCore 、ARKit等工具的出现

Google开源框架AutoFlip 实现视频智能剪裁

走远了吗. 提交于 2020-03-03 14:58:16
Photo by Kyle Loftus from Pexels Google宣布开源视频剪裁框架AutoFlip,实现智能化自动裁剪视频。 编译:郑云飞 & Coco Liang 技术审校:郑云飞 原文链接:https://ai.googleblog.com/2020/02/autoflip-open-source-framework-for.html 随着移动设备的进一步普及,越来越多的消费者选择在移动设备上观看视频。 据eMarketer2019年的数据,美国消费者每天平均在移动设备上花费3小时43分钟,比花在看电视上的时间还多了8分钟 ,这也是人们第一次被发现花费在移动设备上的时间多于看电视的时间。 然而,传统的内容生产设备制作的视频大多数是 横屏(landscape) 的,而移动显示设备默认是 竖屏的(portrait) ,这就导致横屏内容在竖屏设备上的播放体验并不是很好。 视频裁剪是解决这个问题的方法之一。然而,人工的视频裁剪是一件非常枯燥、耗时且精细的工作,普通人很难胜任。因此,诞生了许多智能视频裁剪的算法,期望通过算法可以自动、快速地完成优质的视频裁剪。Google AI 13日在官博宣布开源框架AutoFlip,就是实现影片智能化自动剪裁的一个解决方案。 AutoFlip是一个基于MediaPipe框架的智能视频剪裁工具。它可以根据指定的宽高比,对影片内容进行分析