计算科学

(数据科学学习手札79)基于geopandas的空间数据分析——深入浅出分层设色

大城市里の小女人 提交于 2020-03-09 08:22:33
本文对应代码和数据已上传至我的 Github 仓库 https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   通过前面的文章,我们已经对 geopandas 中的 数据结构 、 坐标参考系 、 文件IO 以及 基础可视化 有了较为深入的学习,其中在 基础可视化 那篇文章中我们提到了分层设色地图,可以对与多边形关联的数值属性进行分层,并分别映射不同的填充颜色,但只是开了个头举了个简单的例子,实际数据可视化过程中的分层设色有一套策略方法。   作为 基于geopandas的空间数据分析 系列文章的第五篇,通过本文你将会学习到基于 geopandas 和机器学习的 分层设色 。 2 基于geopandas的分层设色    地区分布图 ( Choropleth maps ,又叫面量图)作为可能是最常见的一种地理可视化方法,其核心是对某个与矢量面关联的数值序列进行有意义的分层,并为这些分层选择合适美观的色彩,最后完成对地图的着色,优点是美观且直观,即使对地理信息一窍不通的人,也能通过颜色区分出不同面之间的同质性与异质性: 图1   但同样地,如果对数据分层采取的方法有失严谨没有很好的遵循数据特点,会很容易让看到图的人产生出不正确的判断,下面我们按照先分层,后设色的顺序进行介绍。 2.1 基于mapclassify的数据分层  

从人工智能、数据科学到密码学:微软16位顶尖科学家的2016年展望

假如想象 提交于 2020-02-29 04:02:17
前不久,微软邀请了 9 位世界顶级科幻小说家参观了微软在全球各地的研究院。这些作家们从微软研究院超过 55 个研究方向中选择了各自想要探索的领域,如量子计算、预测分析、机器学习、人工智能、虚拟传送以及与情感计算等,与研究员面对面深入交流。最终他们从微软研究院的科研项目中汲取灵感和启发,创作了一本长达 239 页的科幻小说集 《 FutureVisions 》 。 毫无疑问,科幻作品与科学技术的关系是相辅相成的。拥有强有力的技术后盾和背景能让科幻作品“硬派”而精彩,而科幻作品能为技术研发提供无尽的灵感。 2016 年将至,我们为你送上一份关于“灵感”的新年礼物——让微软研究院的 16 位顶尖科学家和前瞻者们带你打开脑洞,预测技术未来。 “技术进步的黄金时代”——微软全球资深副总裁 Peter Lee 这样形容我们现在所处的时代。现在,这个“技术进步的黄金时代”又将迎来新的一年。我们认为,提前感受即将面临的未来意义重大——不仅要前瞻来年,更要预知下一个 10 年。 微软研究院的实验室遍布世界各地,共有 1000 多名科学家和工程师们在多个学科领域辛勤工作着,所以尽管这 16 个人的名单未必能说明全部,但希望各位读者们仍能从中发现真知灼见,得到新的启示。 对微软研究院而言, 2016 年具有里程碑式的意义。自 1991 年由 Nathan Myhrvold 创立以来,它已经走过了整整

数据科学——概述(专栏)

北慕城南 提交于 2020-02-03 09:04:45
图灵奖得主Richard Hamming先生有这样一句名言: The purpose of computing is insight, not numbers.(计算的目的不在于数字,而在于洞察事物) 数据科学,是大数据和云计算浪潮冲击出来的一块宝玉! “一千个人眼里有一千个哈姆雷特”,对于数据科学有很多不同的解读,相关概念很多:数据驱动(data driven)、分布式计算(distributed computing)等,但是他们都围绕着一个主题: 如何从实际生活中提取数据,然后利用计算机的计算能力和模型算法从这些数据中找出一些有价值的内容,为决策提供支持 。这正是数据科学的核心内涵。 传统的数据分析手段是所谓的商业智能(BI,business intelligence)。这些方法通常将数据按不同的维度交叉分组,并在基础上,利用统计方法分析每个组别里的信息。比如商业智能中最常见的问题是:“过去3个月,通过搜索引擎进入网站并成功完成注册的新用户里,年龄分布情况如何?若将上面的用户群按年龄分组,各组中多大比例的用户在完成了至少一次消费?” 我们来举个实际的例子: 图片都是我自己做的(不太会用这个编辑器)!方便大家理解 数据科学的理论体系 如下: 在数据科学实践中,我们将使用较为复杂的机器学习或统计学模型对数据做精细化的分析和预测。主要难点在 工程实现 和 模型搭建 两方面。

在“云”上做科研,是种什么体验?

99封情书 提交于 2020-01-03 21:09:41
  如今,做研究的人需要什么?   试管?文献?电脑?如果再来一朵 “云”会怎样?   别误会,并不是让科研人员上天做科研,而是——给他们一朵“中国科技云”。   <strong>大数据时代呼唤科技云</strong>   以“数据密集型”和“大数据”驱动的科学研究范式带来了科研方法论的变革,正成为科学发现的新引擎。   数据与计算平台已经成为当代科学研究重要的信息基础设施,并且将融汇贯穿于整个科学研究活动的全过程。<strong>近年来,几乎在任何一项的重大科学发现和重大科技计划中,数据与计算平台都在扮演着无可替代的角色</strong>   <strong>2013 年诺贝尔化学奖</strong>   2013 年诺贝尔化学奖授予了三位美国科学家,获奖理由是"为复杂化学系统创立了多尺度模型",对于化学家而言,多尺度计算化学模型的建立使计算机变得像试管一样重要。从应用的角度而言,大规模的计算资源和大量的"黑箱"计算程序的出现使得越来越多的研究可以应用理论和计算的方法研究自然科学问题。   <strong>2017 年诺贝尔物理学奖</strong>   2017 年诺贝尔物理学奖授予了“首次探测到引力波”的三位美国科学家,在引力波的这一发现过程中,激光干涉仪前四个月的观测数据量达 500TB,总共消耗了 17 亿 CPU 核小时的计算资源对数据进行处理。   <strong

在“云”上做科研,是种什么体验?

人盡茶涼 提交于 2020-01-03 20:28:11
  如今,做研究的人需要什么?   试管?文献?电脑?如果再来一朵 “云”会怎样?   别误会,并不是让科研人员上天做科研,而是——给他们一朵“中国科技云”。   <strong>大数据时代呼唤科技云</strong>   以“数据密集型”和“大数据”驱动的科学研究范式带来了科研方法论的变革,正成为科学发现的新引擎。   数据与计算平台已经成为当代科学研究重要的信息基础设施,并且将融汇贯穿于整个科学研究活动的全过程。<strong>近年来,几乎在任何一项的重大科学发现和重大科技计划中,数据与计算平台都在扮演着无可替代的角色</strong>   <strong>2013 年诺贝尔化学奖</strong>   2013 年诺贝尔化学奖授予了三位美国科学家,获奖理由是"为复杂化学系统创立了多尺度模型",对于化学家而言,多尺度计算化学模型的建立使计算机变得像试管一样重要。从应用的角度而言,大规模的计算资源和大量的"黑箱"计算程序的出现使得越来越多的研究可以应用理论和计算的方法研究自然科学问题。   <strong>2017 年诺贝尔物理学奖</strong>   2017 年诺贝尔物理学奖授予了“首次探测到引力波”的三位美国科学家,在引力波的这一发现过程中,激光干涉仪前四个月的观测数据量达 500TB,总共消耗了 17 亿 CPU 核小时的计算资源对数据进行处理。   <strong

在“云”上做科研,是种什么体验?

若如初见. 提交于 2020-01-03 00:04:16
  如今,做研究的人需要什么?   试管?文献?电脑?如果再来一朵 “云”会怎样?   别误会,并不是让科研人员上天做科研,而是——给他们一朵“中国科技云”。   <strong>大数据时代呼唤科技云</strong>   以“数据密集型”和“大数据”驱动的科学研究范式带来了科研方法论的变革,正成为科学发现的新引擎。   数据与计算平台已经成为当代科学研究重要的信息基础设施,并且将融汇贯穿于整个科学研究活动的全过程。<strong>近年来,几乎在任何一项的重大科学发现和重大科技计划中,数据与计算平台都在扮演着无可替代的角色</strong>   <strong>2013 年诺贝尔化学奖</strong>   2013 年诺贝尔化学奖授予了三位美国科学家,获奖理由是"为复杂化学系统创立了多尺度模型",对于化学家而言,多尺度计算化学模型的建立使计算机变得像试管一样重要。从应用的角度而言,大规模的计算资源和大量的"黑箱"计算程序的出现使得越来越多的研究可以应用理论和计算的方法研究自然科学问题。   <strong>2017 年诺贝尔物理学奖</strong>   2017 年诺贝尔物理学奖授予了“首次探测到引力波”的三位美国科学家,在引力波的这一发现过程中,激光干涉仪前四个月的观测数据量达 500TB,总共消耗了 17 亿 CPU 核小时的计算资源对数据进行处理。   <strong