百度技术沙龙第34期机器学习之多媒体方向的思考

本文作者：HelloDeveloper

在 1 月 12 日由@百度主办、@InfoQ负责策划组织和实施的第 34 期百度技术沙龙活动上，来自百度的多媒体部副总监余凯和简网联合创始人、CTO 谷文栋分享了在机器学习方面的的经验与实践，话题涉及“深度学习进展以及在语音图像中的应用”和“个性化阅读产品实践”等。本文将对他们各自的分享做下简单的回顾，同时提供相关资料的下载。

本次沙龙是 2013 年的第一次沙龙活动，同时作为 2012 年的年度回顾，InfoQ 中文站创始人兼 CEO 霍泰稳阐述了 InfoQ 的宗旨以及在 2012 和 2013 年的变化。随后分享了《架构师》月刊在 2012 年的专题内容并展望了 2013 年的技术热点。在谈到媒体的责任时，他认为“不在于预测的有多准，而在于记录的有多真实”。最后他强调了 InfoQ 对于移动开发、云计算、大数据、HTML5 和 Node.js 等方面的关注。

本次沙龙还选出了 2013 年的 6 位百度技术沙龙观察员：邵磊、老杨、张俊林、石川、邓侃、沈强。在新的一年里他们将会搜集开发者的反馈，分享精彩观点，将更多精彩的内容呈献给大家。

主题一：深度学习进展以及在语音图像中的应用

百度的多媒体部副总监余凯第一个为大家分享，他谈到自从 80 年代起，以神经网络、支持向量机等为代表的浅层分类模型有了很大的进展，随后以 Kernel Learning 、Transfer Learning 为代表的 Learning with Structures 引领潮流。成功之外，他指出在图像、视频以及语音识别以及关系数据挖掘方面还存在着很大的挑战。2006 之后，使用深架构学习高级特性已成为学习模式的主流。

他回顾了深度学习在工业界的运用：

微软在 2009 年首次将其运用到机器语音识别的模型中；

谷歌的“Google Brain”项目；

百度在语音、图像识别方面的运用；

然后，他谈到了构建 Restricted Boltzmann Machine、Autoencoder Neural Net、Sparse Coding 等内容。

主题二：个性化阅读产品实践

简网联合创始人、CTO 谷文栋第二个为大家分享，本次分享的内容以开发指阅过程中的实践为主，包括指阅的“信息基因”技术、图数据库（neo4j）以及产品感悟来向大家展示是如何运用等。

首先他阐述了 Tim Berners Lee 对于互联网的理解，即电脑互联、文档互联与物联三个阶段。目前，百度、谷歌等的兴起与发展代表了第二个阶段的成果，而第三个阶段正在到来。出于长远的考虑，他们打造了指阅这个产品，通过关联人与物（目前是文本）的关系为用户制作个性化的内容，他们称之为“基因工程”，目前已经有 Freebase、Google Knowledge Graph 和 Pandora 等同类产品。在实现产品构想的过程中，他发现原有的关系型数据库处理这些机器学习的数据时出现了局限性，而 NoSQL 在这个方面的解决方案得到了普遍的认可。

谷文栋分享了指阅在 NoSQL 解决方案的选择：图形数据库。出于稳定性和效率的考虑，指阅团队目前为采用 Neo4j 来作为数据库，并使用 Cypher 来进行数据查询，支持聚合、排序等操作。同时他还分析了图形数据库的一些缺点，即不容易进行分片。

指阅是将文本作为图，使用 TextRank 算法来建立信息基因，在构建产品的过程中他们也发现了一些问题：

信息生命周期短暂

同质化问题严重

用户兴趣变化捉摸不定

最后，他总结了自己的心得，即：

用关联的视角去思考问题

Open Space（开放式讨论环节）

为了促进参会者与我们每期的嘉宾以及讲师近距离交流，深入探讨在演讲过程中的疑问，本次活动依然设置了 Open Space（开放式讨论）环节。

在 Open Space 的总结环节，几位话题小组长分别对讨论的内容进行了总结。

余凯：关于机器学习的技术细节，并发散到技术的潜能，例如关于多人说话的即时翻译等，我们认为在今后的 5 年将会有更多成熟的产品推出；

古文栋：关于创业的方向选择，首先要从大势出发，另外就是结合自身的情况，最后就是要把算法作为工具来反哺于产品上；