电子说
作为一门逐渐成熟的新兴领域,与数据科学相关的很多领域开始变得备受青睐,比如数据工程,数据分析以及机器学习和深度学习。数据科学家们必须带着具有科学性、创造性和研究性的思维,从各路数据集中提取有用信息,以解决客户面临的潜在挑战。
生活会不断衍生出数据,涉及零售、交通、金融和医疗健康领域。触手可及的各类计算产品和人工智能的飞速发展将一群通过获取、分析和利用原始数据的数据科学家们推到了聚光灯下。
2016年,数据科学家们选出了在北美洲最受欢迎的50种工作,这份榜单是参考收入潜力、工作满意度以及在Glassdoor招聘网站上的需求量等各项指标得出的结果。
所以成为一名数据科学家应具备哪些品质呢?
为了搞清楚这个问题,我采访了Ben Chu,他是路孚特实验室的一名资深数据科学家。Chu有人工智能领域的背景,擅长处理语言、语义和图表,并且在新加坡的路孚特实验室有着两年的工作经验。
1.保持好奇
Chu在访谈的一开始就提到,数据科学家应该像调查员一样思考。你要时刻保持好奇,永远都想知道“为什么?”“就好像自己是一个侦探,通过这些数据拼凑细节以寻找新的线索。”
在金融界,数据科学家们从一系列数据集中提取信息,以供客户参考并帮助制定决策。数据科学家们会把目光锁定在客户想要解决的问题上面,然后从他们获得的数据中抽丝剥茧,得出线索。
通过和Chu的交谈,我领悟到了抓重点的重要性,调查背景也是很重要的。如果不能解决潜在问题,即使是再完美的分析也无助于此。有时候你需要转回来,尝试新的方法,重新思考问题。核心在于要保持好奇,爱上提问。
2.有创造力
数据科学并不仅仅指一种科学的方法,这个称号其实会误导大家。你不一定要有科研背景,但必须有创新性思维——另一种思维是解决问题的关键。
“我经常在两种思维之间来回切换,是通过科学性思维还是创造性思维来探索更多的新的不同的解决方式。有逻辑的、科学的思考对于结论产出的帮助是必不可少的,但具备创造性思维也同样重要:我也将成功和失败的案例视为观察新模式的线索。”
3.学习如何编码
你需要扎实的编码技能,才能预处理不同的数据源,并且能够使用各种数据处理技术,来解决棘手或不完整的数据。你得能够创建一个机器学习管道,这要求你知道如何构建模型,如何使用工具和框架来评估和分析其性能。
与大多数数据科学家一样,Chu使用Python,因为里面有许多很赞的包可用于操作和建模数据。事实上,GalasWalk在2017的上半年为数据科学家提供了10000份招聘信息,发现Python、R和SQL这三种特殊技能是数据科学中大多数职位空缺的根本原因。
Ben Chu的团队依赖于开源的机器学习软件包,如Tensorflow、Pytorch和BERT。
“我们主要将Confluence用作文档工具;MLFlow、Amazon Sagemaker、Scikit Learn、Tensorflow、PyTorch和BERT用于机器学习;Apache Spark用于在大型数据集上构建快速数据管道;Athena用作处理后数据的存储数据库。我们还使用Superset连接数据,轻松构建仪表板以输出图表,使其更直观。”
4.科学思考
数据科学家们会运用不同的工具来管理流程、数据、进行注释和编码。“我必须十分努力,时刻衡量并追踪自己的进度,这样才有机会开展复盘工作,尝试新的方向,不断比对结果。”
“重要的是要时刻秉持科学的原则,在分析时参考相应的数据,实验和文献,以便随时调整结论。我需要把这些资料整理好,所以我会用Notion作为初步保存所有笔记、论文和可视化的基本工具。
Chu强调,不仅要保留目前的调查记录,还要保留以前所有调查结果的记录。“这就像是一本数据科学日志。每当遇到类似的情况时,我都会把值得参考的要点保存好,下次再遇到问题时可以有指导。”
5.担心“冒名顶替综合征”,大可不必
Chu现在是路孚特实验室的资深数据科学家,但他年少时曾想成为一名音乐家,并且对语言特别着迷。“对于我在自然语言处理领域的工作,这需要我对语言学有较深的了解,特别是语义学和语言的细微差别。”
他解释说,一个数据科学团队需要一系列技能——他和他的同事拥有从不同背景发展而来的重叠技能。
“你需要的技能将取决于工作领域。比如我需要对金融领域有很好的了解,数据分析目前应用于防诈骗领域,通过建立异常检测方法来检测交易数据中不符合规范的欺诈‘行为’”。
“像我这样的数据科学家需要懂得如何处理各种孤立的金融数据。关键是要建立各种数据之间的联系,如果不知道它们之间的联系的话,就无法建立一个成功的模式。”
做一名计算机科学家或数学家并不是进入数据科学领域的必要条件。没有人精通所有领域。你可能有法律、经济或科学背景。这些背景决定了你的思考方式。如果能灵活运用各种知识并将其系统化,那么在使用工具、框架和数据集时,就能够熟悉这些工具、框架和数据集的细节。
如何开始
对于那些热衷于数据科学技能的人,Chu提供了一些实用的技巧,这些技巧很容易学会。你可以寻找研究社区,参加网络研讨会,并在网上寻找找到培训课程。一旦可以进行当面交流,Chu建议你在数据科学领域活跃起来。
“参加会议和编程马拉松,这将帮助你研究建立一个强大的网络,让你有机会说出自己的想法,启发研究和回答疑问”。
数据科学是一个全新的领域,而且还在处于不断成熟阶段。随着机器学习和深度学习工程师的出现,数据科学家、数据工程师和数据分析员等各种不同的职位也出现了,也许你会发现自己更适合或者更喜欢另一个职位呢。
一切都在不断变化之中,永葆好奇心和创造力,继续探索吧!
全部0条评论
快来发表一下你的评论吧 !