来源:艺术设计与人工智能
本文约3100字,建议阅读6分钟
本文为你介绍数据分析师需要哪些能力并找到了几个重要问题的答案。
译者Arthur的翻译作品。
英语原文《 Know What Employers are expecting for a Data Scientist Role in-2020 》。
最近,我积极地开始找一份数据科学的工作,我没有任何AI/机器学习的硕士或博士的正规教育背景。我开始学习它完全是出于自己的兴趣(不仅仅是因为炒作)。特别当你同时在做一些其他的技术工作时,这是一个很有挑战性的选择。我通过报名参加了许多mooc(大规模在线开放课程),开始了我的旅程,并开始阅读多个博客。最初,它没有什么意义,最终在阅读了别人的代码并接触了实时数据集之后。它慢慢开始变得有意义。
当我开始找工作时,又发生了一个有趣的故事。我在印度打开了一个顶级招聘门户寻找工作,我发现很少有工作与我寻找的相关,但当我打开其中一个,令我惊讶的是,他们提到的要求对我来说是新的。除了传统的数据分析、机器学习和深度学习之外,一些ETL工具和多种大数据技术作为需要的技能被提到。我认为这是可以的,因为现在每个公司都有自己对数据科学家的定义,并且开放了新的工作。这一次,它显示需要一些其他技术,如AWS、Azure和Power BI。
记住,所有这些空缺岗位都只标记在Data scientist下。这些职位都有共同的需求,比如机器学习算法、统计、数据分析、数据清理和深度学习技术。除了这些技能之外,一些公司还希望应聘者具备云计算(AWS、Azure或GCP)和数据可视化工具(如Tableau、Power BI和SSIS等ETL工具)方面的知识。通常,这些技术更多地与数据分析师/数据工程师的角色有关,但数据科学家的角色仍在不断发展,并没有始终保持特定的技能集。
我很理解公司需要应聘者既要适合他们的职位,又要有他们所需要的技术技能。这肯定会为公司节省时间和金钱,而无需再次提供培训。
所以,在这里我有一个有趣的想法来理解IT行业对实时数据科学家角色的期望,而不是mooc通常教的内容。
目标:我们将努力找出目前这个行业最需要的技能和趋势。为此,我们将从招聘门户获取数据。
注:这整个分析是为印度市场的数据科学家角色做的。
在本文中,我们将试图找到几个重要问题的答案,这些问题是每个数据科学求职者都会想到的。
公司最需要的技能是什么?
在这个行业中最需要的经验水平是什么?
哪些公司在积极提供这个领域的工作?
哪些地方有更多的空缺职位?
注意:你可以在结论部分找到完整代码的链接。
1. 网页抓取
我从印度的顶级招聘门户网站Naukri.com收集了所有相关的工作信息,如今几乎每个求职者和招聘人员都使用这个网站。我使用selenium-python进行网页抓取,因为传统的BeautifulSoap方法在这个站点上不太好用。
来自Naukri.com的示例工作列表
免责声明:网页抓取纯粹用于教育目的。
我们将为每个工作抓取出五个要素:角色、公司名称、工作经验、工作地点和关键技能。
抓取代码:
2. 预处理
在我们深入之前先简单做一些预处理。
2.1. 处理缺失值
进行基本清理,查找丢失值并删除它们。
2.2. 处理重复数据
在处理重复数据时,我们需要非常小心,因为一个公司可能会多次发布相同的要求,因为该职位仍在招聘中,或者另一方面,该公司可能正在寻找具有相同要求的全新职位。为了简单起见,我没有丢弃任何数据。
2.3. 标记化工作地点和关键技能栏
将所有字符串转换为小写,以避免冗余,并对location和skills列进行标记,因为这些列中有多个值。
这是预处理后的样子。
3. 分析
现在我们已经准备就绪。
3.1. 哪个工作地点提供更多的空缺岗位?
注:如果你不是来自印度,请随意跳过这部分。
如果我们观察上面的图,几乎38%的工作都在 Bengaluru。
排名前4位的城市 Bengaluru, Mumbai, Hyderabad and Pune 占据了印度数据科学工作岗位的72%。
因此,如果你来自这些城市中的任何一个,你得到一份数据科学家的工作的机会可能比其他城市要多。
3.2. 哪些公司在积极招聘?
分析公司Vidhya educon以近21%的职位排名榜首。
名单上还有许多咨询公司。这些咨询公司通常为他们的客户进行招聘。
一般来说,求职门户的竞争会非常激烈。大多数时候,你的个人资料甚至可能不会被招聘人员看到,因为他们收到了大量的申请。有些情况下,即使只有一个职位空缺,你也得和几百个申请人竞争。最好了解那些积极招聘的公司,这样我们就可以直接通过他们的官方网站进行申请,增加获得面试机会的几率。
3.3. 什么是最被需要的工作经验?
不同经验水平的工作机会。
我们可以看到,公司显然在寻找有经验的候选人。有5-10年工作经验的候选人似乎有更多的空缺。这是有道理的,因为数据科学家的工作涉及关键的决策技能,而这些技能是随着经验而来的。
2年以上工作经验的候选人将有相当好的机会。
这并不意味着新生不能进入,只是有经验的候选人比新生有更多的空缺。公司通常不会从这些招聘网站上招聘新人,而是直接从校园招聘中招聘。新生总是可以选择为初创公司工作,以获得必要的经验。
3.4. 有哪些角色被需要
这是需要研究的一个重要步骤,因为在前几个结果之后,招聘门户通常会开始显示一些与我们正在搜索的工作无关的其他工作。为了确保我们看到的是正确的角色,让我们看看前10个经常提到的角色。
如果我们在上一节中观察到,有更多的职位空缺需要有更多经验的人,这就给我们留下了一个基于角色的空缺职位问题。
大多数空缺职位仍被称为数据科学家。其次是资深数据科学家和首席数据科学家,以上都需要良好的经验。
3.5. 公司需要的技能
最后,终于到了你读这篇文章的重点。
看起来很复杂对吧,不用担心,我将在后面的部分分解它。我之所以在以上部分中包含许多技能,是因为数据科学涉及的领域非常广泛。
尽管我们能够在上面的部分中描述一些顶级技能,但它仍然不能满足本文分析的目的。
让我们深入了解一下这个趋势。
3.5.1. 必备技能?
机器学习是数据科学家最重要的技能,这一点也不奇怪。
数据挖掘和数据分析是每个数据科学家都必须经历的关键活动。
要成为一名更好的数据科学家,需要强大的统计建模。
各公司都希望对深度学习有很好的了解,因为它提供了最先进的技术来解决一些有趣的实时问题,如NLP和计算机视觉领域。
由于每天记录的数据量大幅增加,雇主希望应聘者具备大数据技术方面的知识。在实时情况下,我们可能会在巨大的数据集上工作,这些技能肯定会派上用场。
3.5.2. 需要编程语言吗?
如果您刚开始学习数据科学,在一开始,您肯定会发现很难选择正确的编程语言。尽管有许多语言,竞争总是在Python和R本身之间。让我们看看数据告诉了我们什么。
业界仍然支持Python,因为它有丰富的库和R语言。
SQL是每个数据科学家的必修课。尽管它不适合作为编程语言来对待,但我还是冒险把它包括在这里:)。
在python和R之后,似乎对SAS和c++语言有较好对需求。
3.5.3. 选择深度学习框架?
由于深度学习的突然兴起,许多深度学习框架从谷歌、Facebook等巨头进入市场。
业界更喜欢Tensorflow而不是PyTorch。
Keras在市场上占有很好的份额,人们喜欢它是因为它的简单易用。
虽然有许多其他框架像Caffe,Maxnet,但似乎没有很多相关但空缺岗位。即使全球市场不是,至少在印度是这样的。
3.5.4. 哪一种大数据技术更有优势?
Spark 排位最高,可以使用python版本的spark - Pyspark。
Hadoop与spark几乎有相同的求职机会,只是略有不同。
Hive也有相当多的空缺岗位。
3.5.5. 哪个云提供商需要ML?
训练这些模型需要大量的计算,这些计算很容易变得非常昂贵。公司正在寻找更便宜的方式来完成工作,这就是云平台的作用。
AWS位居榜首,其次是Azure。
各公司正迅速转向云计算。在未来的日子里,这些技术将更有可能在数据科学中发挥重要作用。
3.5.6. 需要数据可视化工具吗?
雇主对数据可视化的Tableau表现出了更多的兴趣。.
而微软的Power BI仍然落后。
结论:
你真的必须要具备这篇文章中提到的所有技能才能得到这份工作吗?
其实也不是,如果你的基础很扎实的话,这个列表中有一些工具是在工作中很容易学会的。话虽如此,如果你只是在找工作,那么在简历上写上这些技能可能会帮助你获得面试机会。
如果你擅长所有提到的数据科学家的必备技能,那么最好的方法应该是从参加面试开始,与此同时试图填补你理解上和学习工具/技术的空缺,这些将会让你胜过其他候选人。
你可以在我的GitHub上找到完整的代码。你可以在Linkedin上和我联系。
如果你觉得这有帮助或有任何问题,请在评论中告诉我。
再见。Coding......快乐!
编辑:于腾凯
校对:林亦霖
来源:oschina
链接:https://my.oschina.net/u/4286372/blog/4613742