Forest

AirVis: Visual Analytics of Air Pollution Propagation

人盡茶涼 提交于 2020-10-06 07:36:47
论文传送门 视频 作者 浙江大学: Zikun Deng Di Weng Jiahui Chen Ren Liu Zhibin Wang Yingcai Wu 京东智慧城市研究院 Jie Bao Yu Zheng 摘要 空气污染已经成为世界上许多城市的一个严重的公共健康问题。为了找出空气污染的原因,必须在大的空间尺度上研究空气污染物的传播过程。然而,复杂和动态的风场导致污染物输送的高度不确定性。如果没有领域知识的整合,最先进的数据挖掘方法不能完全支持跨多个地区的这种不确定时空传播过程的广泛分析。这些自动化方法的局限性促使我们设计和开发 AirVis,这是一种新颖的可视分析系统,它可以帮助领域专家基于图形可视化有效地捕捉和解释空气污染的不确定传播模式。设计这样的系统提出了三个挑战:a)传播模式的提取;b)模式表示的可伸缩性;和 c)传播过程的分析。为了应对这些挑战,我们开发了一个新的模式挖掘框架来模拟污染物迁移,并从大规模大气数据中有效地提取频繁传播模式。此外,我们基于最小描述长度原则对提取的模式进行分层组织,并允许专家用户基于模式拓扑有效地探索和分析这些模式。我们通过使用真实数据集和领域专家的积极反馈进行的两个案例研究证明了我们方法的有效性。 Introduction 空气污染成为一个严重的公共问题 来源: Vehicle emission Incineration Factory

机器学习系列(三)决策树的集成算法--随机森林与极限森林--三个臭皮匠与完美主义者的较量

ぃ、小莉子 提交于 2020-09-30 04:27:51
写在前面: 我是 「nicedays」 ,一枚喜爱 做特效,听音乐,分享技术 的 大数据开发猿 。这名字是来自 world order 乐队的一首 HAVE A NICE DAY 。如今,走到现在很多坎坷和不顺,如今终于明白 nice day 是需要自己赋予的。 白驹过隙,时光荏苒,珍惜当下 ~~ 写博客一方面是对自己学习的一点点 总结及记录 ,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习 感兴趣,可以关注我的 动态 https://blog.csdn.net/qq_35050438 ,让我们一起挖掘数据与人工智能的价值~ 文章目录 随机森林--极限森林--梯度提升树(本章未写): 一:集成算法Ensemble learning 1)Bagging:训练多个学习器取平均 2)Boosting:从弱学习器开始加强,通过加权来进行训练 AdaBoost: 3)Stacking:聚合多个分类或回归模型(可以分阶段来做) 二:集成模式下的竞争:随机森林--极限森林--梯度提升树 1)大名鼎鼎的随机森林: 单个决策树随机了什么? 怎么构建? 随机森林得优势: 2)不极限的极限森林: 单个决策树随机了什么? 极限树与随机森林的主要区别: 三:附录Scikit-learn的randomForest和ExtraTrees的参数说明:

《黑神话:悟空》实机演示爆红!基于虚幻引擎4开发,他还能再当一次国产超级英雄吗?

佐手、 提交于 2020-09-26 01:46:27
   “那群最想做西游的人,回来了。”   在《黑神话:悟空》的官网上,这几个字是 “游戏科学” 对该款游戏的第一句介绍。   8 月 20 日上午,这部国产西游题材新作放出了首个实机演示视频,并在一天之内全网刷屏。   不管是微博热搜、B 站首页,还是知乎热榜,这个 13 分钟的游戏视频热度居高不下。截至 21 日上午,该视频在 B 站的播放量已经超过 1000 万,弹幕数量超过 15 万条。   游戏科学相关负责人对 DeepTech 透露,本次宣传的热度远超他们的预期。昨晚在公司内部会议上,“老板和大家对齐了一下目前的工作重心,我们近期还是会将精力重新集中在当前游戏版本的开发上。”   《黑神话:悟空》本次表现出的超强破圈影响力, 让众多非游戏玩家也关注到了这款不确定何时上市的游戏 。 中国太需要一款国产单机游戏大作了!    13 分钟游戏视频透露什么   《黑神话:悟空》是一款大型单机游戏,官方表示视频的内容全部基于实际操作录制而成。   国内游戏媒体游研社也在当日的文章中表示, 通过 4K 投影演示的 PC 试玩版,其实际表现与大家看到的演示视频没有出入,运行流畅,战斗顺滑,内容与画质基本一致,演示中的操作都可以一一复现。   该游戏基于虚幻 4(Unreal Engine)开发,这是一款 Epic Games 推出的优秀游戏引擎,得到了广大游戏开发者的认可,包括

IPFS&Filecoin是怎么发展起来的?

ぐ巨炮叔叔 提交于 2020-08-15 14:46:34
时代的必然性 互联网为我们创造了一个全新的世界,web 1.0时代,作为用户只能观看、读取、浏览网页内容,虽然扩展了我们的视野,但是这是非常僵硬的,用户和网站无法交互,只能被动地阅读。 web 2.0以微博、微信、抖音为典型代表,用户不再仅是浏览者,同时也扮演着创作者的身份,并且能够因其创作而获利。然而,web 2.0一方面因为创作者以排山倒海之势强势增长,为我们创造了数百倍于web 1.0时代的数据量,另一方面,在web 2.0时代,数据即流量,流量即财富,大量财富被巨头所掌控,财富的分配不均让人们开始对互联网的畸形分配规则愈发不满。 Web 3.0是历史的必然趋势,变革已然兴起,在2017年,世界八大顶级投资机构率先识别出这股燎原的星星之火。 资本的助推性 这是否是一个酒香也怕巷子深的世界,外汇常见问题https://www.kaifx.cn/lists/question/我们无从定论,但自从IPFS创建了其激励层Filecoin,IPFS&Filecoin便吸引了大量资本的投资和关注,成功融资2.57亿美元,打破全球ICO记录。 当初参与Filecoin融资的不仅有红杉资本、DCG集团、Y Combinator、联合广场风投、安德森·霍洛维茨基金、文克莱沃斯兄弟基金、斯坦福大学等世界八大顶级风投机构,更有Skype联合创始人Jaan Tallinn 、前高盛交易员Fred

玩转Microsoft Teams Room系列 5

吃可爱长大的小学妹 提交于 2020-08-12 04:44:14
运筹帷幄之中,决胜千里之外 - 西汉·司马迁《史记·高祖本纪》 使用场景 之前一篇文章介绍了通过XML文件来自定义MTR的背景图片,其实我们通过XML文件其实还可以做更多在MTR会议室的日常运维任务。 想像一下这样一个场景:当你需要为分布在不同地方的多间MTR会议室进行配置或管理的时候,例如: 变更MTR会议室的帐号? 在改密码之后需要更新MTR设备的密码? 为了安全原因需要隐藏会议主题? 会议室新购多一块会议交互大屏,变成了双屏会议室?我们需要打开MTR的双屏显示开关 自定义MTR的主题图片?参考这篇: 自定义主题让你的MTR会议与众不同 具体配置步骤 这些操作我们都可以通过XML配置文件的方式远程推送给MTR设备来实现(用共享目录的方式来推,用组策略来推,用SCCM来推,都行,只要你能够把SkypeSettings.XML这份XML文件放在MTR的指定目录即可) 什么是MTR? Microsoft Teams Room 首先需要先创建一份名字为SkypeSettings.XML的文件。 接着就可以去修改SkypeSettings.XML里面的内容,例如以下代码配置了三个设置(自动屏幕共享,隐藏会议主题,MTR帐号)。 PS. 当你要运维多个MTR会议室时,你不需要把所有参数都放在XML里面,只需要把要改的放进来即可,这样就可以有针对性地去维护这些会议室。

Random Forest可以用来做聚类吗?

牧云@^-^@ 提交于 2020-08-11 07:39:04
问题引入 随机森林是一个常用到的模型了,大家知道随机森林可以用来做回归,也可以用来做分类,那么随机森林能否用来做聚类呢?是个有趣的问题,让我们一起探讨下。 问题解答 其实随机森林是可以用来做聚类的,对于没有标签的特征,随机森林通过生成数据来实现聚类。其主要的步骤如下: 第一步 :生成假冒数据和临时标签。 我们先给原数据集增加一列,名叫“标签”,原生数据每一行的标签都是“1”。下面生成一些假数据,假数据的每一列都是从原生数据中根据其经验分布随机产生的,人工合成的数据的标签是“0”。举个例子, 标签 身高 体重 年龄 1 184 158 25 1 170 162 37 1 165 132 45 1 110 78 9 1 145 100 14 1 ... ... ... 上面是原生数据,下面我们开始制造虚假数据 标签 身高 体重 年龄 1 184 158 25 1 170 162 37 1 165 132 45 1 110 78 9 1 145 100 14 1 ... ... ... 0 170 100 9 0 110 162 37 0 165 158 14 每行假数据的每一个元素都是从它所在的那一列中随机抽取的,列和列之间的抽取是独立的。这样一来,人工合成的假数据就破坏了原有数据的结构性。现在我们的数据集和标签就生成完了。 第二步 :用该数据集训练Random

决策树和随机森林

安稳与你 提交于 2020-08-09 06:00:21
作者|PRATEEK JOSHI 编译|VK 来源|Analytics Vidhya 决策树与随机森林的简单类比 让我们从一个思维实验开始,它将说明决策树和随机森林模型之间的区别。 假设银行必须为客户批准一笔小额贷款,而银行需要迅速做出决定。银行检查此人的信用记录和财务状况,发现他们还没有偿还旧贷款。因此,银行拒绝了申请。 但问题是,对于银行庞大的金库来说,贷款数额非常小,他们本可以在非常低风险的情况下批准贷款。因此,银行失去了赚钱的机会。 现在,又一个贷款申请将在几天内完成,但这一次银行提出了一个不同的策略——多个决策过程。有时它先检查信用记录,有时它先检查客户的财务状况和贷款金额。然后,银行结合这些多个决策过程的结果,决定向客户发放贷款。 即使这一过程比前一个过程花费更多的时间,银行也可以利用这一方法获利。这是一个典型的例子,集体决策优于单一决策过程。现在,你知道这两个过程代表了什么吧? 这些分别代表决策树和随机森林!我们将在这里详细探讨这个想法,深入探讨这两种方法之间的主要区别,并回答关键问题,你应该使用哪种算法? 目录 决策树简介 随机森林简介 随机森林与决策树的冲突 为什么随机森林优于决策树? 决策树与随机森林—你什么时候应该选择哪种算法? 决策树简介 决策树是一种有监督的机器学习算法,可用于分类和回归问题。决策树仅仅是为了达到特定结果而做出的一系列顺序决策

决策树和随机森林

一个人想着一个人 提交于 2020-08-06 20:09:25
作者|PRATEEK JOSHI 编译|VK 来源|Analytics Vidhya 决策树与随机森林的简单类比 让我们从一个思维实验开始,它将说明决策树和随机森林模型之间的区别。 假设银行必须为客户批准一笔小额贷款,而银行需要迅速做出决定。银行检查此人的信用记录和财务状况,发现他们还没有偿还旧贷款。因此,银行拒绝了申请。 但问题是,对于银行庞大的金库来说,贷款数额非常小,他们本可以在非常低风险的情况下批准贷款。因此,银行失去了赚钱的机会。 现在,又一个贷款申请将在几天内完成,但这一次银行提出了一个不同的策略——多个决策过程。有时它先检查信用记录,有时它先检查客户的财务状况和贷款金额。然后,银行结合这些多个决策过程的结果,决定向客户发放贷款。 即使这一过程比前一个过程花费更多的时间,银行也可以利用这一方法获利。这是一个典型的例子,集体决策优于单一决策过程。现在,你知道这两个过程代表了什么吧? 这些分别代表决策树和随机森林!我们将在这里详细探讨这个想法,深入探讨这两种方法之间的主要区别,并回答关键问题,你应该使用哪种算法? 目录 决策树简介 随机森林简介 随机森林与决策树的冲突 为什么随机森林优于决策树? 决策树与随机森林—你什么时候应该选择哪种算法? 决策树简介 决策树是一种有监督的机器学习算法,可用于分类和回归问题。决策树仅仅是为了达到特定结果而做出的一系列顺序决策

马蜂窝事件背后暴露出的数据风险

橙三吉。 提交于 2020-08-05 18:46:44
18年有针对马蜂窝“数据造假”的文章刷屏网络。文章指出,马蜂窝2100万条真实点评中,有1800万条是通过机器人从点评、携程等其他平台抄袭而来。作者表示,在马蜂窝上发现了7454个抄袭账号,平均每个账号从携程、艺龙、美团、Agoda、Yelp上抄袭搬运了数千条点评,合计抄袭572万条餐饮点评,1221万条酒店点评。 其实,不仅旅游网站遭到网络爬虫的恶意抓取,航空、视频等也是被恶意爬取的重灾区。 18年2月,视频弹幕网站哔哩哔哩(bilibili)大量用户的视频、昵称、头像及用户评论,出现在某新成立的视频网站上,就是非法网络爬虫的盗取;而航空公司的官网上的机票、订座等信息,长期被代理公司将机票信息爬取、占座,然后在其他网站上加价销售。 网络爬虫:数据造假背后的“恶人” 网络爬虫,又被称为网页蜘蛛、网络机器人,是按照一定的规则,自动地抓取网络信息的程序或者脚本。 网络爬虫分为两类:一类是搜索引擎爬虫,一类是其他爬虫。前者是为搜索引擎从广域网下载网页,便于搜索检索,后者则是在指定目标下载信息,用于存储或其他用途。 网络爬虫不仅能够抓取网页商品、服务、文字、图片等关键的静态网页信息,还能够爬取用户评价、价格和账户等动态信息等。在知识产权日益受到重视的今天,数据是互联网平台的重要资产。网络爬虫的非法操作不仅窃取了平台的数据资产,更消耗了平台的服务和带宽资源。

文本情感分析(一):基于词袋模型(VSM、LSA、n-gram)的文本表示

醉酒当歌 提交于 2020-08-05 17:10:20
现在自然语言处理用深度学习做的比较多,我还没试过用传统的监督学习方法做分类器,比如SVM、Xgboost、随机森林,来训练模型。因此,用Kaggle上经典的电影评论情感分析题,来学习如何用传统机器学习方法解决分类问题。 通过这个情感分析的题目,我会整理做特征工程、参数调优和模型融合的方法,这一系列会有四篇文章。这篇文章整理文本特征工程的内容。 文本的特征工程主要包括数据清洗、特征构造、降维和特征选择等。 首先是数据清洗,比如去停用词、去非字母汉字的特殊字符、大写转小写、去掉html标签等。 然后是特征构建,可以基于词袋模型构造文本特征,比如向量空间模型的词频矩阵、Tf-Idf矩阵,又比如LSA和LDA,也可以用word2vec、glove等文本分布式表示方法,来构造文本特征。此外还可以用n-gram构造文本特征。 接下来可以选择是否降维,可以用PCA或SVD等方法对文本特征矩阵进行降维。 最后选择效果比较突出的1个或几个特征来训练模型。 一、基于向量空间模型的文本特征表示 向量空间模型(Vector Space Model,VSM)也就是单词向量空间模型,区别于LSA、PLSA、LDA这些话题向量空间模型,但是单词向量空间模型和话题向量空间模型都属于词袋模型,又和word2vec等文本分布式表示方法相区别。 向量空间模型的基本想法是:给定一个文本,用一个向量表示该文本的语义