John Sullivan给你的5项技能建议,实践是进入数据科学世界的最佳方式

电子说

1.3w人已加入

描述

编者按:上MOOC、读教科书、一遍又一遍地刷题……在毕业前,如果你对未来还是这样一幅态度,那你几乎就是在虚度光阴。虽然数据科学家是未来最“性感”的工作,但要成为“性感”的人,枯坐灯前当个书呆子可不成……

在毕业前,也许你是个勤奋的人,一直很努力地自学教材,也会上在线课程充实自我,但临近毕业,现在的你在做些什么呢?数据科学家是一份令人望而生畏的工作,一方面,毕业生不知道自己水平是否足以胜任;另一方面,面试人员往往也很难从毕业生身上看出他们的全部实力。

但每个人都有走出象牙塔的一天,为了让自己在社会上更有实力,你准备好迎接挑战了吗?如果你的梦想是当一名数据科学家,下面是DataOptimal创始人John Sullivan给你的5项技能建议。实践是进入数据科学世界的最佳方式,而掌握热门的必备技能将使你在职场上面面俱到。

1.数据清理

不要以为其他分析师会帮你处理好一切,作为一名数据科学家,如果你刚接手一个新项目,你可以把项目总用时里的80%用来做数据清理,这是科学的。无论是多高级的数据团队,数据清理始终是从业人员心中的巨大痛点,换个角度看,这也是你的机遇。如果你能证明自己在数据清理上面经验丰富,那你的价值实现指日可待。

为了锻炼这方面的能力,记得找一些混乱的数据集,多多练习,多多积累。

如果你用的编程语言是Python,Pandas是个好库;如果是R语言,dplyr包也是个不错的选择。换句话说,语言和库只是工具,但你用它们做的事是一样的:

导入数据

添加多个数据集

检测缺失值

检测异常值

填补缺失值

保证数据质量

2.探索性数据分析

数据科学的另一个重要技能是探索性数据分析(EDA)。当有人扔给你一份数据时,你对这份数据完全陌生,又没有足够的业务背景,会不会感觉无从下手?如果你什么都不管,直接把数据喂给各种模型,却发现效果不好,因为你没有好的特征,那么你可能需要的是数据探索。

EDA是对已有数据在尽可能少的假定下进行探索,通过各种可视化方法探明数据结构、规律的一种数据分析方法,它能让你建立起对数据的直觉。从效果上来看,EDA允许分析师从数据中得出结论以推动业务影响,这个影响可以是客户群分析,也可以是季节性销售趋势。让自己和公司获得意料之外的惊喜,这是EDA的魅力。

对于EDA,Python用户可以用Pandas和Matplotlib,R语言用户可以用ggplot2包。一个精通EDA的人需要熟练这些技巧:

为数据分析制定问题

表明趋势

表明变量间的协变

用可视化结果(散点图、直方图等)有效地传达结果

3.交互式数据可视化

交互式数据可视化包括仪表板等工具。这些工具对数据科学团队以及更多面向业务的终端用户都很有用。仪表板允许数据科学团队进行协作,并一起商议见解。更重要的是,它们为面向业务的客户提供了一种交互式工具,后者往往专注于战略目标,而非技术细节。一般情况下,数据科学项目的最终呈现应该是以仪表板的形式出现的。

数据分析

对于Python用户,Bokeh和Plotly库非常适合创建仪表板。对于R用户,请务必查看RStudio的Shiny软件包。无论是那种,你的仪表板上都要遵循:

包含和客户需求相关的各项指标

创建有用的feature

布局合理(如F-pattern可以在客户扫视时,让他们记住大部分内容)

切换演示文稿频率合理

生成报告或其他自动操作

4.机器学习

机器学习是数据科学的重要组成部分。当然,这不是说你现在就得开始学习构建复杂的深度学习模型,事实上,大多数工作都不需要你有太高的机器学习知识水平。线性回归、逻辑回归,会用这些简单算法就够了,而且这些东西也更容易让你的领导理解,理解是沟通的基础。

如果要在这方面积累经验,记得做客户留存预测、贷款预测、欺诈检测这类项目。这不是说预测植物品种这类问题不好,只是前者能帮你积累更多业务常识。

数据分析

如果你是Python用户,用Scikit-learn库。对于R用户,用Caret包。同样的,下面是必须要呈现的内容:

为什么要选这个特定模型

把数据拆成训练集和测试集(k倍交叉验证),避免过拟合

选择正确的评估指标(AUC、adj-R2、混淆矩阵等)

调整超参数

5.沟通

沟通是所有工作的必备技能。优秀数据科学家和普通数据科学家的区别在于前者能有效传达结果,而后者不能。无论展示的模型有多花哨,如果你看到客户后连嘴巴都张不开,他们又怎么会支持你的成果?PPT和笔记本电脑是沟通必备工具,你也可以用Jupyter Notebook或RMarkdown文件和客户交流项目。

数据分析

确保了解你的目标听众是谁,向高管们展示和向机器学习专家展示完全不是一码事。一定要掌握这些技能:

了解目标受众

提供相关可视化

PPT不要过长

PPT演示流畅

结果和业务影响紧密结合(降低成本?增加收入?)

辛辛苦苦做完项目后,不要把文件随便乱丢,要养成收集、记录的好习惯。你可以用Github Pages把文件免费转成静态网页,为你的潜在雇主提供了解你的资料。

最后,只要是入了数据的门,无论短时间内岗位是不是称心如意,接受了这份工作就保持积极态度,继续不断尝试项目,快乐工作,快乐找更好的工作!

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分