组合优化

Kylin膨胀率优化

倾然丶 夕夏残阳落幕 提交于 2020-03-03 07:00:15
维度设置 Hierarchy Dimensions:维度列中彼此间存在层级关系的列 职类(一二级职类)、行业(一二级行业)、地域(省、市、区)这些必选维度都可以设置为层级关系列,可大大降低维度组合的可能性 Aggregation Group:在不同的查询中,两组维度组合之间不会产生交叉 Rowkey顺序 将partition column 放在第一排; 将基数大的column放置在前面。 来源: CSDN 作者: liuwei063608 链接: https://blog.csdn.net/liuwei063608/article/details/104613579

索引与优化

≡放荡痞女 提交于 2020-02-02 02:02:19
参考: http://blog.csdn.net/xluren/article/details/32746183 http://www.cnblogs.com/hustcat/archive/2009/10/28/1591648.html 关于MySQL索引的好处,如果正确合理设计并且使用索引的MySQL是一辆兰博基尼的话,那么没有设计和使用索引的MySQL就是一个人力三轮车。对于没有索引的表,单表查询可能几十万数据就是瓶颈,而通常大型网站单日就可能会产生几十万甚至几百万的数据,没有索引查询会变的非常缓慢。还是以WordPress来说,其多个数据表都会对经常被查询的字段添加索引,比如wp_comments表中针对5个字段设计了BTREE索引。 一个简单的对比测试 以我去年测试的数据作为一个简单示例,20多条数据源随机生成200万条数据,平均每条数据源都重复大概10万次,表结构比较简单,仅包含一个自增ID,一个char类型,一个text类型和一个int类型,单表2G大小,使用MyIASM引擎。开始测试未添加任何索引。 执行下面的SQL语句: 1 mysql> SELECT id,FROM_UNIXTIME( time ) FROM article WHERE a.title= '测试标题' 查询需要的时间非常恐怖的,如果加上联合查询和其他一些约束条件,数据库会疯狂的消耗内存

第四范式涂威威:AutoML技术现状与未来展望

元气小坏坏 提交于 2020-01-12 18:47:59
以下内容是对 AutoML技术现状与未来展望讲座 的总结。 1.机器学习定义 《西瓜书》中的直观定义是:利用经验来改善系统的性能。(这里的经验一般是指数据) Mitchell在《Machine Learning》一书中的较为形式化的定义是一个程序通过给它一些数据,它能够提升在某个任务上的某种度量。(如下图示) 下图很清楚明了的展示了机器学习所做的事情,不再赘述。 2.AutoML技术回顾 很多时候在某一领域使用机器学习得到了效果很好的模型,但是若要在另一个领域使用该模型则不一定适用,而且通常需要大量的专业知识。正是由于受到这样的限制,所以才有了AutoML技术的发展。 2.1 AutoML研究的主要场景 2.1.1 静态闭环AutoML a. 介绍 第一个场景是静态闭环AutoML,该场景是目前用的最多的场景。该场景是给定数据和度量标准之后,通过AutoML选择出效果最好的模型。该过程没有任何的人工干预,都是算法自动选择的。 下图展示了机器学习的基本流程图,可以看到主要有数据预处理、特征处理、模型训练等过程,并且每个过程都包含多种方法。 b. 存在的问题 而AutoML的本质工作是将各个过程的方法进行 选择、组合、优化 。 但是AutoML存在如下问题: 由于我们通常并不知道所优化的参数和预期效果之间是什么样的显示表达,所以 目标函数形式未知 。 由于可能的组合方式太多,所以

大众点评搜索基于知识图谱的深度学习排序实践

余生颓废 提交于 2019-12-07 17:52:22
1. 引言 挑战与思路 搜索是大众点评App上用户进行信息查找的最大入口,是连接用户和信息的重要纽带。而用户搜索的方式和场景非常多样,并且由于对接业务种类多,流量差异大,为大众点评搜索(下文简称点评搜索)带来了巨大的挑战,具体体现在如下几个方面: 意图多样 :用户查找的信息类型和方式多样。信息类型包括POI、榜单、UGC、攻略、达人等。以找店为例,查找方式包括按距离、按热度、按菜品和按地理位置等多种方式。例如用户按照品牌进行搜索时,大概率是需要寻找距离最近或者常去的某家分店;但用户搜索菜品时,会对菜品推荐人数更加敏感,而距离因素会弱化。 业务多样 :不同业务之间,用户的使用频率、选择难度以及业务诉求均不一样。例如家装场景用户使用频次很低,行为非常稀疏,距离因素弱,并且选择周期可能会很长;而美食多为即时消费场景,用户行为数据多,距离敏感。 用户类型多样 :不同的用户对价格、距离、口味以及偏好的类目之间差异很大;搜索需要能深度挖掘到用户的各种偏好,实现定制化的“千人千面”的搜索。 LBS的搜索 :相比电商和通用搜索,LBS的升维效应极大地增加了搜索场景的复杂性。例如对于旅游用户和常驻地用户来说,前者在搜索美食的时候可能会更加关心当地的知名特色商户,而对于距离相对不敏感。 上述的各项特性,叠加上时间、空间、场景等维度,使得点评搜索面临比通用搜索引擎更加独特的挑战。而解决这些挑战的方法

订单表优化方案

别等时光非礼了梦想. 提交于 2019-12-03 07:59:45
目录 1 背景 2 常用思路 2.1 单表分区 2.2 大表分表 2.3 业务分库 2.4 读写分离和集群 2.5 热点缓存 2.6 用ES代替DB 3 订单表优化方案 3.1 业务分析 3.2 分区方案(order_sku/order_product_attr/order_sku_epay) 3.2 历史表+分区方案(order_info) 附录 1 背景 随着用户不断下单,DB订单表和订单附属表的单表记录数过大,影响到前端和管理系统拉取订单列表的性能。单表最大多少行合适与具体业务有关,难以下定论,但一般推荐不要超过1千万行,之后单表的性能下降会比较明显。 本文档整理了数据库大表优化的一些常用思路的原理,最后针对订单表提出优化方案。 2 常用思路 单表分区 大表分表 业务分库 读写分离和集群 热点缓存 用ES代替DB 2.1 单表分区 什么是分区? 就是将一张表的单个大文件,按一定逻辑拆分成多个物理的区块文件。对于应用程序来说,还是一张整表;但底层实际上是由多个物理区块组成。目前主流的DB如Oracle、MySql等都有成熟的方案支持分区 MySql支持哪些分区类型? range分区:根据key的范围来分区,比如日志表,可以按天或按月分区 list分区:根据key的枚举值分区,比如以订单状态为key,待付款、待发货、待收货等分别建立一个分区 hash分区:给定分区数

最新project2019下载

送分小仙女□ 提交于 2019-12-01 10:23:47
https://pan.baidu.com/s/1yy_2C6IWMOU_8jsDLBuAGA 提取码:oeeh 使用 Microsoft Project 简化项目、资源和项目组合管理,帮助你成功跟踪项目。 项目管理 Microsoft Project 有助于轻松执行项目。内置模板和熟悉的日程安排工具可提高项目经理和团队的工作效率。 项目组合管理 评估和优化项目组合以设置业务目标计划的优先级并获得所期望的结果。与 Power BI 的紧密集成可实现高级分析,因此可更好地制定决策。 资源管理 深入探索资源的使用方式以及如何使用集成工具进行协作。通过简化的任务和时间管理,团队可从任意位置输入更新,从而提供更好的执行监督。 来源: https://www.cnblogs.com/runw/p/11681447.html

MySQL索引原理及SQL优化

こ雲淡風輕ζ 提交于 2019-11-29 20:51:32
目录 索引(Index) 索引的原理 b+树 MySQL如何使用索引 如何优化 索引虽好,不可滥用 如何验证索引使用情况? SQL优化 explain查询执行计划 id select_type table type possible_keys key key_len ref rows Extra 优化数据库结构 优化数据大小 优化数据类型 索引(Index) MySQL官方对索引的定义为:索引(Index)是帮助MySQL高效获取数据的数据结构。索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度。 拿汉语字典的目录页(索引)打比方,我们可以按拼音、笔画、偏旁部首等排序的目录(索引)快速查找到需要的字。 索引分单列索引和组合索引。单列索引,即一个索引只包含单个列,一个表可以有多个单列索引,但这不是组合索引。组合索引,即一个索引包含多个列。 创建索引时,你需要确保该索引是应用在 SQL 查询语句的条件(一般作为 WHERE 子句的条件)。 实际上,索引也是一张表,该表保存了主键与索引字段,并指向实体表的记录。 索引的原理 索引用于快速查找具有特定列值的行。如果没有索引,MySQL必须从第一行开始,然后读取整个表以查找相关行。表越大,成本越高。如果表中有相关列的索引,MySQL可以快速确定要在数据文件中间寻找的位置,而无需查看所有数据

求解-----组合优化问题

霸气de小男生 提交于 2019-11-29 16:38:14
1 组合优化 组合优化是研究工程中存在大量有限个可行解的问题,这些问理论上可以用枚举法实现,但是一般的实际工程规模都很大,可行解的数量非常巨大,所以枚举法并不适用。 组合优化中最重要的问题 就是如何利用已有知识来减小问题空间,进而有效的处理组合爆炸。 目前常用的优化算法有智能优化算法、启发式算法、以及精确算法 。 精确算法适用于求解小规模问题,所以在实际工程中并不适用。 智能优化算法包括遗算法、模拟退火算法等,由于其自身的优越性使其广泛用于优化领域中。 启发式算法和精确算法相对应,是一种根据经验去发现的算法,由于其能迅速解决而广泛用。 2 遗传算法 遗算法(GeneticAlgorithm,GA)是20世纪60年代,人们热衷于借鉴生物界的“适者生存,优胜劣汰”的化规律,探索有效的算法来理复的优化问题。 它首先 由美国的Holland教授于1975年在其专著《AdaptationinNaturalandArtificialSys-tems》中提出。遗算法的研究引起了全世界学者的广泛关注,自1985年以来,关于遗算法的学术会议和研讨会在国际上多次召开,这给遗算法的研究提供了国际交流和学习的机会。 遗算法模仿生物程中基因的选择、交叉和变异机理,在每次的运算中将所有的初始个体利用上述机理这些个体行组合,产生新一代的个体群,反复行上述步骤直到足设置的指标。