技术沙龙

百度技术沙龙第33期 推荐引擎实战

偶尔善良 提交于 2020-04-14 00:59:26
【今日推荐】:为什么一到面试就懵逼!>>> 本文作者:HelloDeveloper 在 12 月 22 日由@百度主办、@InfoQ负责策划组织和实施的第 33 期百度技术沙龙活动上,来自百度推荐与个性化部高级架构师陈天健和豆瓣网首席科学家王守崑分别分享了各自在推荐系统中的经验与实践,话题涉及“推荐系统的工程挑战”,以及“个性化推荐系统的几点思考”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。 主题一:推荐系统的工程挑战 (下载讲稿) 来自百度推荐与个性化部高级架构师陈天健第一个为大家分享,他认为随着互联网产品的不断深度整合,推荐引擎的服务与计算规模也在以几何级数飞速增长。推荐系统的开发者面临着服务扩展、计算性能和开发效率等多方面挑战。他主要从百度推荐引擎的实践出发,探讨如何通过架构上的努力,整合数据与算法的优势,最终面向用户提供流程和智能的推荐产品推荐。 搜索是为了满足用户的主动表达的需求,而推荐是为了挖掘并满足用户的潜在需求,目前国内的互联网产品设计者已经开始蜂拥在产品中加入个性化的推荐功能。但是在实践当中,如何来平衡系统规模和产品需求的工程挑战?陈天健认为这是大数据遭遇时效性的问题,他分享了百度推荐系统中的关键系统技术: Vortex 流式计算系统 1.数据处理延迟从数小时级下降到秒级 2.流量波动影响钝化 LISA 实时索引架构 1.实时索引实现展示

百度技术沙龙第 54 期 人工智能技术应用

杀马特。学长 韩版系。学妹 提交于 2020-04-13 21:44:58
【今日推荐】:为什么一到面试就懵逼!>>> 本文作者:HelloDeveloper 2014 年 9 月 20 日,在由@百度主办、@InfoQ负责策划组织和实施的第 54 期百度技术沙龙活动上,来自百度自然语言处理部的杨程和来自清华大学自动化系控制理论与技术研究所的赵明国,两位讲师分享了各自在人工智能及机器学习领域的相关经验。 本次分享的话题分别是“ 计算机围棋 - 蒙特卡洛搜索与统计学习”和“ RoboCup 人形组的技术与挑战”。本文将对这两个主题分享做下简单的回顾,同时提供相关资料的下载。 主题一:计算机围棋 - 蒙特卡洛搜索与统计学习(下载讲稿) 计算机博弈在人工智能这个领域是一个重要的研究方向,这与围棋的特性息息相关。杨程举例道:比如说 19 路的围棋它有 361 个交叉点,如果我们简单地估计它的组合数的话,应该是大概 361 个节程,这可谓一个天文数字了。所以我们也常说它的空间复杂度是近似无穷大的概念。除了空间无穷大以外,它的状态也没有办法评估。任意地给一个棋盘的状态,有 ABCD 可选的点,我们怎么样知道哪个点是最好的,或者说哪个点的价值高,好有多好,坏有多坏。围棋这块,到现在也没有办法做。这和人工智能的某些领域还比较类似,所以我们把这个领域作为试金石,如果这个领域研究好,相关的领域也会有所提升,蒙特卡洛搜索就是在这样的背景下应运而生。 在介绍完蒙特卡洛搜索的背景后

百度技术沙龙第 48 期 大规模机器学习

佐手、 提交于 2020-04-13 20:20:46
【今日推荐】:为什么一到面试就懵逼!>>> 本文作者:HelloDeveloper 2014 年 3 月 15 日,在由@百度主办、@InfoQ负责策划组织和实施的第 48 期百度技术沙龙活动上,来自百度联盟大数据机器学习技术负责人夏粉,和搜狗精准广告研发部技术经理王晓博,各自分享了其在机器学习方面的实战经验。他们的话题涉及“广告数据上的大规模机器学习”和“大数据场景下主题检索应用”这两个方面,本文将对讲师各自的分享做简单的回顾,同时提供相关资料的下载。 主题一:广告数据上的大规模机器学习(下载讲稿) 一个好的广告匹配系统,需要在解决上述挑战的同时,使用尽可能少的资源挖掘尽可能多的数据价值,提升广告匹配效率。围绕这个目的,夏粉老师以广告点击率预估问题为例,讲解如何利用大规模机器学习技术搭建一个容纳万亿特征数据的、分钟级别模型更新的、自动高效深度学习的、高效训练的点击率预估系统。 计算广告学与 CTR 预估 计算广告学所面临的最主要挑战是在特定语境下特定用户和相应的广告之间找到“最佳匹配”。语境可以是用户在搜索引擎中输入的查询词,也可以是用户正在读的网页,还可以是用户正在看的电影,等等。而用户相关的信息可能非常多也可能非常少。潜在广告的数量可能达到几十亿。因此,取决于对“最佳匹配”的定义,面临的挑战可能导致在复杂约束条件下的大规模优化和搜索问题。 “我们用机器学习来做广告数据,如何把

百度技术沙龙第 13 期 JavaScript 库的设计与应用

回眸只為那壹抹淺笑 提交于 2020-04-13 20:16:55
【今日推荐】:为什么一到面试就懵逼!>>> 本文作者:HelloDeveloper 在 4 月 16 日的百度技术沙龙里,我们邀请百度前端通用组技术组负责人雷志兴和去哪儿网的前端组负责人胡金埔,在沙龙分别跟大家分享百度和去哪儿网在 JavaScript 库的设计和运用实践经验。本文对他们的分享做简单回顾。并提供相关音视频、文字资料下载。 百度前端的七巧板——Tangram Javascript 库(点击下载音视频、文字资料) 雷志兴在他的分享中向我们介绍了百度设计 Tangram 库的原因,设计目标,以及 Tangram 库的架构和特点。 在分享中雷志兴提到百度的产品主要分为三类: ● 搜索类产品:用户的需求是想尽可能快的得到响应,尽快获取自己想要的内容。 ● 社区类产品:这类产品每天都在变化,以适应不同用户各种情况下的需求。 ● 商业类产品:大家了解的比较少,比如百度的广告管家,是面向客户的应用,对页面交互要求很高。注重的是用户体验。 百度自 99 年成立到现在,前端产品有很多遗留的代码。一方面是为了解决这些遗留代码,另一方面是为了更好的设计产品,让工程师快速开发出好的可持续维护的前端产品。百度前端通用技术组设计了他们的 JS 库——Tangram 百度的 JS 代码可以分为四层: ● 第一层:Base 基础库,职能单一的基础方法。为其他层提供基本的操作支持。 ● 第二层

百度技术沙龙第 23 期 一站式的前端开发框架

折月煮酒 提交于 2020-04-13 20:12:15
【今日推荐】:为什么一到面试就懵逼!>>> 本文作者:HelloDeveloper 在 2 月 18 日由百度主办、InfoQ 策划组织实施的第 23 期百度技术沙龙活动上,来自百度前端通用组技术负责人雷志兴(@berg)、豌豆实验室前端架构师陈广琛(@CatChen)和赵望野(@赵望野)分别分享了各自在前端开发技术上取得的成果及经验,话题涉及“前端集成解决方案”,以及“豌豆荚的 Web 界面”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。 主题一:前端集成解决方案(微盘下载讲稿) 来自百度的高级工程师,前端通用组技术负责人雷志兴第一个为大家分享,演讲主要包括病疾已久的前端架构、体系结构和集成开发环境等内容。目前前端病疾主要包括: 开发慢 运行慢 协作慢 产品上线慢 雷志兴重点讲述了贯穿开发流程的体系结构和集成开发环境,他提到,工具只能解决表面问题,而且多种工具往往不能很好地与系统集成,增加了工程师学习和使用的成本。针对这些问题,百度实现了一个完整的自动化构建系统,通过本地化的应用程序,基于一套规范的开发模式解决了上述矛盾——保证开发时系统的模块化,在上线前自动优化静态资源,实现维护和运行的双赢。接着,他通过 JavaScript 和 CSS 代码片段说明了体系结构的基本特性: 简化开发,提高协作和沟通效率 业务型的框架 更多、更好的库 此外,本地模拟也很重要

百度技术沙龙第67期 百度开源专场

偶尔善良 提交于 2020-04-13 19:45:09
【今日推荐】:为什么一到面试就懵逼!>>> 本文作者:HelloDeveloper 具体的产品案例,分享百度开源技术最新实践经验。目前这些项目都已经在 github/baidu 上开源。 什么是 PaddlePaddle 深度学习平台? 首先做个简单的介绍,PaddlePaddle 是百度自主研发的性能优先、灵活易用的深度学习平台,是一个已经解决和将要解决一些实际问题的平台。目前百度有超过30个主要产品都在使用 PaddlePaddle。关于机器学习、深度学习和浅层学习的内容就不详细介绍了,接下来重点讲述一下 PaddlePaddle 的整体架构。 关于 PaddlePaddle 整体架构 说到 PaddlePaddle 的整体架构,主要从这几个方面入手:多机并行架构、多 GPU 并行架构、Sequence 序列模型和大规模稀疏训练。多机的并行架构和序列模型的实现都是实现神经网络最复杂的东西,那么具体怎么实现全连接? PaddlePaddle 是2013年启动时比较流行的架构是 Pserver 和 Trainer 的架构。在多机并行架构中数据分配到不同节点,下图里灰色部分表示机器,方框里表示一个进程,Pserver 和 Trainer 是分布在两个进程里,中间的部分是网络通讯连接。 下面来介绍一下什么是大规模稀疏模型训练。稀疏模型训练是说输入数据是稀疏的,由于稀疏输入

百度技术沙龙第67期 百度开源专场

女生的网名这么多〃 提交于 2020-04-13 01:55:07
本文作者:HelloDeveloper 具体的产品案例,分享百度开源技术最新实践经验。目前这些项目都已经在 github/baidu 上开源。 什么是 PaddlePaddle 深度学习平台? 首先做个简单的介绍,PaddlePaddle 是百度自主研发的性能优先、灵活易用的深度学习平台,是一个已经解决和将要解决一些实际问题的平台。目前百度有超过30个主要产品都在使用 PaddlePaddle。关于机器学习、深度学习和浅层学习的内容就不详细介绍了,接下来重点讲述一下 PaddlePaddle 的整体架构。 关于 PaddlePaddle 整体架构 说到 PaddlePaddle 的整体架构,主要从这几个方面入手:多机并行架构、多 GPU 并行架构、Sequence 序列模型和大规模稀疏训练。多机的并行架构和序列模型的实现都是实现神经网络最复杂的东西,那么具体怎么实现全连接? PaddlePaddle 是2013年启动时比较流行的架构是 Pserver 和 Trainer 的架构。在多机并行架构中数据分配到不同节点,下图里灰色部分表示机器,方框里表示一个进程,Pserver 和 Trainer 是分布在两个进程里,中间的部分是网络通讯连接。 下面来介绍一下什么是大规模稀疏模型训练。稀疏模型训练是说输入数据是稀疏的,由于稀疏输入,那么灰色的神经元和连接在训练中都没有作用

百度技术沙龙第 48 期 大规模机器学习

[亡魂溺海] 提交于 2020-04-13 01:54:40
本文作者:HelloDeveloper 2014 年 3 月 15 日,在由@百度主办、@InfoQ负责策划组织和实施的第 48 期百度技术沙龙活动上,来自百度联盟大数据机器学习技术负责人夏粉,和搜狗精准广告研发部技术经理王晓博,各自分享了其在机器学习方面的实战经验。他们的话题涉及“广告数据上的大规模机器学习”和“大数据场景下主题检索应用”这两个方面,本文将对讲师各自的分享做简单的回顾,同时提供相关资料的下载。 主题一:广告数据上的大规模机器学习(下载讲稿) 一个好的广告匹配系统,需要在解决上述挑战的同时,使用尽可能少的资源挖掘尽可能多的数据价值,提升广告匹配效率。围绕这个目的,夏粉老师以广告点击率预估问题为例,讲解如何利用大规模机器学习技术搭建一个容纳万亿特征数据的、分钟级别模型更新的、自动高效深度学习的、高效训练的点击率预估系统。 计算广告学与 CTR 预估 计算广告学所面临的最主要挑战是在特定语境下特定用户和相应的广告之间找到“最佳匹配”。语境可以是用户在搜索引擎中输入的查询词,也可以是用户正在读的网页,还可以是用户正在看的电影,等等。而用户相关的信息可能非常多也可能非常少。潜在广告的数量可能达到几十亿。因此,取决于对“最佳匹配”的定义,面临的挑战可能导致在复杂约束条件下的大规模优化和搜索问题。 “我们用机器学习来做广告数据,如何把 CTR 如何做好,这需要梳理整个处理流程

百度技术沙龙第82期 百度Web前端开发实战案例解析

人走茶凉 提交于 2020-04-12 02:23:33
本文作者:HelloDeveloper 10 月 27 日,82 期百度技术沙龙,邀请了数位百度前端技术部 Web 前端资深研发工程师,从 Web 前端技术出发,通过五个主题,立足现在面向未来,由内到外地分享百度在搜索组件化的探索、搜索体验增强、开放 Web 速度优化及开放 Web 未来发展发面的技术沉淀和积累。 1 搜索组件化探索与实践 首先进行分享的是百度前端技术部资深研发工程师陈骁带来的《搜索组件化的探索与实践》。 为什么搜索要做组件化? 据陈骁介绍,最开始的百度搜索移动端的前端架构是从 PC 时代迁移过来,服务器端使用 Smarty 来渲染模版,实现前后端分离。前端使用 Zepto 来完成交互逻辑,但是它的扩展性比较有限,难以实现对 HTML、CSS 代码的组件化管理,随着移动端的交互形式越来越复杂,原本的方案出现了局限性。 于是,组件化应运而生。组件化是把一些可复用的单元提取出来,通过对几个组件的管理,实现对整个搜索结果页样式的控制,提高开发的效率和横向团队整体升级的效率。 目前百度已经有了非常多的组件化解决方案,包括 Lavas 和 Reac t。可以具体到组件语法、基础框架以及同构区块。 如下图所示,组件语法包括四部分: Template:组件代理结构 浏览器端:组件前端逻辑 Style:前端样式 Config:同构逻辑 前三部分基本能够覆盖组件的常用语法

百度技术沙龙第67期 百度开源专场

ぃ、小莉子 提交于 2020-04-12 02:10:21
本文作者:HelloDeveloper 具体的产品案例,分享百度开源技术最新实践经验。目前这些项目都已经在 github/baidu 上开源。 什么是 PaddlePaddle 深度学习平台? 首先做个简单的介绍,PaddlePaddle 是百度自主研发的性能优先、灵活易用的深度学习平台,是一个已经解决和将要解决一些实际问题的平台。目前百度有超过30个主要产品都在使用 PaddlePaddle。关于机器学习、深度学习和浅层学习的内容就不详细介绍了,接下来重点讲述一下 PaddlePaddle 的整体架构。 关于 PaddlePaddle 整体架构 说到 PaddlePaddle 的整体架构,主要从这几个方面入手:多机并行架构、多 GPU 并行架构、Sequence 序列模型和大规模稀疏训练。多机的并行架构和序列模型的实现都是实现神经网络最复杂的东西,那么具体怎么实现全连接? PaddlePaddle 是2013年启动时比较流行的架构是 Pserver 和 Trainer 的架构。在多机并行架构中数据分配到不同节点,下图里灰色部分表示机器,方框里表示一个进程,Pserver 和 Trainer 是分布在两个进程里,中间的部分是网络通讯连接。 下面来介绍一下什么是大规模稀疏模型训练。稀疏模型训练是说输入数据是稀疏的,由于稀疏输入,那么灰色的神经元和连接在训练中都没有作用