Scientist

大数据基本概念浅析及技术简介

时光怂恿深爱的人放手 提交于 2021-02-13 19:03:58
大数据是当前很热的一个词。这几年来,云计算、继而大数据,成了整个社会的热点,不管什么,都要带上“大数据”三个字才显得时髦。大数据究竟是什么东西?有哪些相关技术?对普通人的生活会有怎样的影响?我们来一步步弄清这些问题。 一、基本概念 在讲什么是大数据之前,我们首先需要厘清几个基本概念。 1.数据 关于数据的定义,大概没有一个权威版本。为方便,此处使用一个简单的工作定义:数据是可以获取和存储的信息。 直观而言,表达某种客观事实的数值是最容易被人们识别的数据(因为那是“数”)。但实际上,人类的一切语言文字、图形图画、音像记录,所有感官可以察觉的事物,只要能被记下来,能够查询到,就都是数据(data)。 不过数值是所有数据中最容易被处理的一种,许多和数据相关的概念,例如下面的数据可视化和数据分析,最早是立足于数值数据的。 传统意义上的数据一词,尤其是相对于今天的“大数据”的“小数据”,主要指的就是数值数据,甚至在很多情况下专指统计数值数据。这些数值数据用来描述某种客观事物的属性。 2.数据可视化 对应英语的data visulization(或可译为数据展示),指通过图表将若干数字以直观的方式呈现给读者。比如非常常见的饼图、柱状图、走势图、热点图、K线等等,目前以二维展示为主,不过越来越多的三维图像和动态图也被用来展示数据。 3.数据分析 这一概念狭义上,指统计分析,即通过统计学手段

加州大学伯利克分校 蒲慕明 写给实验室博士的email

别等时光非礼了梦想. 提交于 2021-02-08 23:59:56
蒲慕明:写给实验室博士的 Email 著名的华人生物学家蒲慕明先生曾经有一封非常著名的email在网上广为流传,这封email是蒲先生写给自己实验室所有博士生和博士后的,其中的观点我(施一公)完全赞同。这封email写的语重心长,从中可以看出蒲先生的良苦用心。我把这封email转给了我实验室的所有学生。 蒲慕明简介 蒲慕明,1948年10月生,中国科学院院士,美国科学院外籍院士,台湾“中研院”院士。现任中国科学院神经科学研究所所长,中国科学院脑科学与智能技术卓越创新中心主任。1970年毕业于台湾清华大学物理系,1974年于美国Johns Hopkins大学获生物物理学博士学位,1974-1976年在美国普度大学生命科学系从事博士后研究,1976-1985年在美国加州大学艾文分校生物物理系任助理教授、副教授、教授,1985-1988年任耶鲁大学医学院分子神经生物学系教授,1988-1995年任美国哥伦比亚大学生命科学系教授,1995-2000年任美国加州大学圣地亚哥分校Stephen Kuffler讲座教授,2001-2006年任美国加州大学伯克利分校分子与细胞生物学系讲座教授和神经生物学部主任,2006-2013年任该校Paul Licht生物学杰出讲座教授。1999年起任中国科学院神经科学研究所首任及现任所长、神经可塑性研究组组长、高级研究员、博士生导师

耶鲁大学教授给研究生做科研的11条“军规”!

谁说胖子不能爱 提交于 2021-01-23 13:04:29
本文译自耶鲁大学Stephen C. Stearns教授的文章“Some Modest Advice for Graduate Students”。他是生态学与进化生物学讲座教授,他开设的公开课《进化、生态和行为原理》非常精彩(部分课程已翻译成中文)。华盛顿大学生物学讲座教授Raymond B. Huey说,唯有这篇文章可以与他自己的文章“如何做一个优秀的科学家”(On becoming a better scientist”媲美,相提并论。 >>>> 一 永远要做好最坏的打算 凡事预则立,不预则废。你只要做一点点的“预”,就可以让你在博士生涯中避免一些灭顶之灾。想吐槽就吐槽吧(Be cynical)。假如你的研究计划行不通,假如某个导师非但对你的研究计划不予支持,甚至嗤之以鼻。那么,你还是赶紧换一个研究题目为妙。 二 别指望教授来管你 现实中,有些教授会去管你,有些则不会去管你。大部分教授估计想管你,但他们整日都忙得晕头转向,不亦乐乎,自己都顾不过来,那有时间去管你呢,爱莫能助。那么,你就得完全靠自己,而且最好习以为常。我这么说有多层含义,其中两个要点是: 1.你最好尽早确定你到底想做什么题目。学位是你要去拿,而不是教授要去拿,你要你自己去争取。当然,导师也不会袖手旁观,导师会给你一些指导,也会在一定程度上帮你解决你在培养程序和经费上的后顾之忧,但是,且记

C语言入门推荐

|▌冷眼眸甩不掉的悲伤 提交于 2021-01-13 14:56:10
很多想要学习编程或者C语言的小伙伴,苦于一时急促,无法下手,现在柳猫就推荐几本入门级的C语言书籍,并对它们的特点做些简短的总结,各位小伙伴根据需要选读。 1. How to Think Like a Computer Scientist: C version 这是我读过最易懂的C语言教材。 虽然它只讲解最基本的语法,但是写得特别好懂,深入浅出,读起来不觉得累,而且它还允许免费下载。我认为,这是C语言的首选入门教材。 Computer Scientist 2. C Primer Plus 和 C Programming: A Modern Approach (《C语言程序设计:现代方法》 C Primer Plus C Progmamming 上面这两本,都是著名的C语言初级教材,都是厚厚的大部头。 我通读过它们,感觉都写得不错,都值得推荐。但是因为这两本书定位类似,内容重复,相比之下,我觉得C Primer Plus可能更适合中国读者的思维,更易读一些。 3. C Programming Language (2nd Edition) (《C程序设计语言》) C Programming Language 这是最著名的C语言书籍。 但是,它不是写给初学者看的,更偏重C语言的编程技巧和算法思维。我读过两遍,还是觉得很多地方没读懂。 4. 国产教材 通常来说,国产教材质量不高,不值得推荐

CAP和BASE理论

岁酱吖の 提交于 2020-12-24 07:42:51
CAP和BASE理论 CAP和BASE理论用于分布式系统的架构设计指导。 CAP理论 CAP理论由计算机科学家 Eric Brewer 在2000年提出,其理论观点是,在分布式计算机系统中不可能同时以下三个保证: 一致性(Consistency) => 所有节点统一事件看到的是相同数据; 可用性(Avaliability) => 每一个请求都能接收到响应; 分区容错性(Partition Tolerance) => 将系统分区后,在网络故障时,仍能操作; 其中一致性可以说是数据库系统中的ACID的另一种表述: 一个用户请求要么成功,要么失败,不能处于中间状态; 一旦一个事务完成,将来的所有事务必须基于这个完成后的状态; 未完成的事务不会互相影响; 一旦一个事务完成,就是持久的; 对于可用性,跟字面意思一样,也就是所有的请求都应该“成功”并且收到“返回”。 分区容错性指在分布式系统中,节点崩溃或者网络阻塞都不应该导致系统停止服务。 CAP常见模型 现实情景中,由于CAP理论中三点不可同时具备,一般会选择其中两点。由此形成常见的 CA 、 CP 和 AP 模型。相关模型示例如下: CA模型 牺牲分区容错性意味着把所有的机器搬到一台机器内部,该模型明显违背了分布式系统中对于可伸缩性的追求。CA模型的常见例子有: 单站点数据库 集群数据库 LDAP xFS文件系统 CP模型

Hacker News 简讯 2020-12-06

自古美人都是妖i 提交于 2020-12-10 07:55:54
最后更新时间: 2020-12-06 23:00 Antioxidants prevent health-promoting effects of physical exercise [pdf] - (pnas.org) 抗氧化剂阻止体育锻炼对健康的促进作用[pdf] 得分:20 | 评论:8 Diem – A rebrand of Facebook Libra - (diem.com) Diem–Facebook Libra的改版 得分:70 | 评论:58 Hardware-Accelerated TensorFlow and TensorFlow Addons for macOS 11.0 - (github.com/apple) macOS 11.0的硬件加速TensorFlow和TensorFlow插件 得分:95 | 评论:38 More than 1,200 Google workers condemn firing of AI scientist Timnit Gebru - (theguardian.com) 谴责谷歌解雇1200多名员工 得分:40 | 评论:19 How I Collected a Debt from an Unscrupulous Merchant - (mtlynch.io) 我是如何向一个无良商人讨债的 得分:314 | 评论:171

给急着找工作的人一些建议,别在被骗了!

Deadly 提交于 2020-12-06 00:37:16
上周日,一位读者加了我的微信,和我聊了有半个小时的语音。原因是他现在面临毕业,在参加培训机构和就业的选择上有了困难,希望听听我的建议。 打了那么多字,我也不能辜负他不是,一句话回复: 事后我想了下,关注我的读者里有一大部分都是学生,无论是专科、本科、硕士甚至博士(你别说,博士关注我干嘛,碾压我寻求快感?还喜欢上来介绍自己是xxx专业的博士,我特么……久仰久仰……)所以有必要把对话的内容给总结出来,供大家参考,因为还有3个月就要毕业了,准确的说只有2个多月了,找好实习的也会有困惑要不要继续待下去,没有的更着急了,没钱买皮肤了。 1.要学会识别培训机构。 现在培训机构遍地都是,每家培训机构的战略战术上的打法都不一样,你作为刚刚毕业的大学生来说,真的很难一一甄别。 那我在这里教大家一个简单的方法,实地考察。你可以去培训机构的线下基地勘测一番,和那里正在培训的同学聊聊技术,扯扯机构情况,这是最直接有效的办法,甚至你可以向机构提出申请试听,试听半天、一天,你就知道这里的老师教学水平到底在哪个档次,到底符不符合你的期望,机构的允诺了。 就拿我自己给大家举例子好了,关注我的老读者都知道,我也是从培训机构里出来的,当时培训的还是Oracle+Linux,被机构销售忽悠的一愣一愣的,就信了培训4个月后,出来月入8k不是梦的邪了。 当时没有一个像<h1>胖哥</h1>这样子的人提点我啊,恨啊 2

《C语言程序设计:现代方法(第2版)》第7章 基本类型

徘徊边缘 提交于 2020-11-22 05:16:26
[TOC] 第7章 基本类型 请别搞错:计算机处理的是数而不是符号。我们用对行为的算术化程度来衡量我们的理解力(和控制力)。 到目前为止,本书只使用了C语言的两种 基本 (内置的) 类型 :int和float。(我们还见到过 _Bool ,那是C99中的一种基本类型。)本章讲述其余的基本类型,并从总体上讨论了与类型有关的重要问题。7.1节展示整数类型的取值范围,包括长整型、短整型和无符号整型。7.2节介绍double类型和long double类型,这些类型提供了更大的取值范围和比float类型更高的精度。7.3节讨论char(字符)类型,这种类型将用于字符数据的处理。7.4节解决重要的类型转换问题,即把一种类型的值转换成另外一种类型的等价值。7.5节展示利用typedef定义新类型名的方法。最后,7.6节描述sizeof运算符,这种运算符用来计算一种类型需要的存储空间大小。 7.1 整数类型 C语言支持两种根本不同的数值类型:整数类型(也称整型)和浮点类型(也称浮点型)。 整数类型 的值是整数,而 浮点类型 的值则可能还有小数部分。整数类型又分为两大类:有符号型和无符号型。 有符号整数和无符号整数 有符号整数如果为正数或零,那么最左边的位( 符号位 )为0;如果是负数,则符号位为1。因此,最大的16位整数的二进制表示形式是0111111111111111,对应的值是32 767

绕过CAR-T“战场”,直接基因编辑B细胞治疗肿瘤、艾滋病?全球首家相关初创获众多资本青睐

与世无争的帅哥 提交于 2020-10-26 08:31:55
  CAR-T细胞疗法在血液瘤领域的“大展拳脚”,让工程T细胞成为免疫肿瘤学领域的重要研究对象。但现在,一家来自美国生物技术产业聚集地——剑桥市的初创公司Be Biopharma正在挖掘工程B细胞的治疗潜力。在Be Biopharma联合创始人、总裁兼董事埃里克斯·拉迪维奇·莫雷诺(Aleks Radovic-Moreno)博士看来, 工程B细胞将是细胞疗法的未来。    2020年10月22日,Be Biopharma宣布获得5200万美元A轮融资,该公司计划将利用这笔资金来挖掘工程B细胞治疗多种疾病的潜力。阿列克斯·拉迪维奇·莫雷诺(Aleks Radovic-Moreno)博士谈到B细胞的潜力时说:“我们的使命是开发一种具有广泛新药理学的新型细胞药物。我们认为, B细胞丰富的生物学特性决定了这将是一个巨大的新市场。”    图 | B细胞 (来源: The Scientist)    CRISPR基因编辑B细胞,待掘的“金矿”?   2017年被称为CAR-T细胞疗法的“元年”,诺华的Kymriah和Kite Pharma(吉利德科学旗下公司)的Tecartus相继上市,让CAR-T细胞疗法及工程T细胞成为科学界和医药界重点关注的方向。与此同时,另一种细胞疗法的研究也悄然“萌芽”,那就是针对B细胞的改造。   2017年12月

2020 数据分析岗位报告:数据分析师需要哪些能力?

ぃ、小莉子 提交于 2020-10-14 05:59:23
来源:艺术设计与人工智能 本文 约3100字 ,建议 阅读6分钟 本文为你介绍数据分析师需要哪些能力并找到了几个重要问题的答案。 译者 Arthur 的翻译作品。 英语原文《 Know What Employers are expecting for a Data Scientist Role in-2020 》。 最近,我积极地开始找一份数据科学的工作,我没有任何AI/机器学习的硕士或博士的正规教育背景。我开始学习它完全是出于自己的兴趣(不仅仅是因为炒作)。特别当你同时在做一些其他的技术工作时,这是一个很有挑战性的选择。我通过报名参加了许多mooc(大规模在线开放课程),开始了我的旅程,并开始阅读多个博客。最初,它没有什么意义,最终在阅读了别人的代码并接触了实时数据集之后。它慢慢开始变得有意义。 当我开始找工作时,又发生了一个有趣的故事。我在印度打开了一个顶级招聘门户寻找工作,我发现很少有工作与我寻找的相关,但当我打开其中一个,令我惊讶的是,他们提到的要求对我来说是新的。除了传统的数据分析、机器学习和深度学习之外,一些ETL工具和多种大数据技术作为需要的技能被提到。我认为这是可以的,因为现在每个公司都有自己对数据科学家的定义,并且开放了新的工作。这一次,它显示需要一些其他技术,如AWS、Azure和Power BI。 记住,所有这些空缺岗位都只标记在Data scientist下