机器学习、数据科学与金融行业 系列十四:人工智能,大数据和投资管理(10)

99封情书 提交于 2020-01-20 09:56:34

机器学习、数据科学与金融行业

系列十四:人工智能,大数据和投资管理

9. 建立数据科学团队 (SCHRODERS)

在这里插入图片描述
背景
    Schroders的数据洞察部门组建于2014年,主要研究数据相关方法如何提高组织的收益,如何提升其对各个企业的洞察力。

• 使用案例:生成投资想法
    在UN发布了主题为智慧城市的报告后,一个基金经理决定查找哪些企业可能会从这个主题中收益且提高全球城镇化。
    第一步是搜索含有“智慧城市“和”未来“的文章,结果有成千上万个。下一步应用机器学习技术:
    1) 采用一系列的NLP算法,从文档中提取观点、概念、主题和关键词。
    2) 下一步使用降维算法。实际操作中采用的是力导引图,图中每个节点代表在二维平面上的新闻文章,迭代将相似的文章拉拢到一起,而不相似的文章会逐渐分离。随着时间推移,谈论同样想法的文章会聚集到一起。
    3) 到这一步文档通过非监督学习算法被分配到不同的聚类,最后可以得到一个可是图,相似文档聚集在一起,不同的聚类使用不同的颜色编码呈现在桌面上。
    这些聚类会通过文章中所提及的公司名称而轮廓化。这个可视化的新闻文章图揭示了一些有趣的特性。具体来说,在聚类图的边缘出现的公司名字可能基金经理以前并没有听说过。通过这种方法挖掘出的小公司可能会是个投资机会,基金经理会对其业务进行财务分析得出其基本面和盈利能力都不错。然后,该公司的股票会被加入到投资组合中,带来了25%以上的收益。

团队结构
    Ben是全球和国际证券团队的投资组合经理,他相信现代数据科学技术和新的数据源可以作为传统权益市场分析的一个强有力的补充。在他的这种想法的驱使下,Mark,一个具备20年的数据科学和分析背景的数据科学家加入了团队作为数据科学的技术负责人,而后又招募了很多来自不同行业,具有数据科学背景的人,也包括从大学中招募一些人才。

开发过程
    在开始阶段,一个关键过程是投资专家和数据科学家们的头脑风暴,这提供了一个非常宝贵的机会以产生一些可测试的点子并在多个团队中共享。
    最初的几年中,从如何白这样一个团队融入到基本面的资产管理中学到了一些教训。每个人都是不同的,有些人喜欢团队的想法和关心这些想法到底能做到什么,但是并不是总是充满激情的。共同点是每个人都想看到结果。当一个有价值的结果发布时,关于这个团队能够做到的事情就会有很多内部的正向反馈。这一点导致了很多投资者希望参与进来,给出数据集和他们认为什么是有用的诸如此类的反馈。
    所有的投资部门都已经开始使用数据洞察部门的工作结果,或者是一个具体的数据分析任务,亦或者是从自动化工具所产生的报告。这些工作成果有很多用户,例如对某个股票的分析、使用广义范围内的宏观数据。

AI/Big Data技术
    这个团队的工作要素一直是所使用的技术,其产生洞察力的数据集不能是Excel,所以该团队的工作一直集中在特定的工具和技术。
    第一个工具就是大数据,团队使用两种方式:AWS Redshift(亚马逊公有云上的数据仓储服务)和本地部署的Hadoop/Hive。
    第二个工具是地理空间数据,团队使用两个工具:QGIS(开源的地理信息系统)和PostGIS(地理信息数据库)。
    该团队拥有较强的从数据中预测和解读模式的能力,包括机器学习和贝叶斯推断,也使用了在Hadoop上的Spark,带GPU。
    团队使用的主要开发语言是R和Python,使用Kubernetes和Docker把工具部署在生产环境中。另外,简单的可视化使用Tableau;使用R Shiny和Dash建立分析仪表盘。一个重要的任务是在展示层是如何传递相关信息并使用户可以立刻了解到所洞察到的信息。
    最具效率的贝叶斯方法是识别在一个跟踪明星观点的时间序列中,什么时候有了重大转变。

关键点
    需要一个资深的发起者,他要真的相信和支持这种变革。
    团队需要具备合适的、混合的多种技能。
    其他行业的专家和领域专家都是必不可少的。
    团队需要非常明确在做什么和能做什么,这样才能知道工作的中心所在。
    相比于执行一个交易而没有考虑其他因素,从大数据里来的信号更加适合于帮助对一个企业建立一个视图和其经营的环境。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!