帮助我们创建数据科学领域的下一代数据可视化工具

描述

数据科学在过去十年里蓬勃发展,改变了我们的商业模式,同时对于新一代的年轻人来说,提供了一个未来的职业方向。但在数据科学快速发展的同时,人们对它的理解也在逐步演变,这导致了不同的人对于如何更好地从数据中获取洞察有了不同的观点。对于我来说,数据科学的发展重塑了我的职业生涯,接下来我想深入研究数据科学是什么、数据科学的研究工作是什么以及数据科学家是谁等问题。我查阅了大量的文献,将数据科学和数据科学家的各种研究和分析关联汇总到一起,从而试图来回答了这些问题。我在一篇题为 “Passing the Data Baton: A Retrospective Analysis on Data Science Work and Workers” 的研究出版物中说明了以上结果。

这项研究的部分动机是作为未来研究和开发的基础,这样我可能可以找到一个可视化分析工具还未满足其需求的领域。而另一个动机是,我希望对十多年前我刚开始学习计算机科学时还不存在的这个领域进行自我反思和回顾。在这篇文章中,我总结了这篇研究论文的几个关键收获,并分享了这些发现将如何帮助我们创建数据科学领域的下一代数据可视化工具。

什么是数据科学?

数据科学对不同的人来说是不一样的。对某些人来说,数据科学并不是什么新鲜事,只是统计技术的实际应用,并且已经存在了很长一段时间。对其他人来说,数据科学不仅需要统计方法的知识,而且还需要计算技术使这些方法得到应用。例如,一个数据科学家仅仅理解线性回归是不够的,他们还需要知道如何在大规模的数据中应用线性回归——这不是传统统计学教育的一部分。尽管如此,即使是那些认为数据科学不仅仅是应用统计学的人,也可能并不认为它是一件新事物。收集和分析数据的做法,长期以来一直是科学研究的一部分,例如生物学或物理学;许多人认为,数据科学只是经验科学中对已经存在的研究的延伸。  

数据

但其实还有第三种观点,即数据科学确实是一件新的事物,既不同于统计学,也不同于科学家在研究原子和基因时使用的方法。数据科学将统计学、计算机科学以及其他必要的学科专业知识结合起来,带来了数据科学所独有的、由数据科学家所应对的全新挑战。此外,数据科学家开展的工作与其他类型的数据分析不同,它需要更广泛的跨学科技能。我们和其他人的研究都认为数据科学确实是一件全新的、不同的事物,基于这点,我们创建了一个关于数据科学的定义,作为我们工作的基础:

数据科学是一个跨学科领域,旨在通过统计和计算技术的结构化应用,从现实世界的数据中得到新的见解。   这一定义很重要,因为它帮助我们了解数据科学工作者面临的挑战和未满足的需求,它们主要来自于处理真实数据的挑战(而不是模拟数据),以及大规模应用统计和计算方法的挑战。      

什么是数据科学工作?

数据

重要的是,数据科学的有效定义缩小了研究范围。我们并没有包含人们可能希望进行研究的所有类型的数据分析,而是仔细研究那些数据科学家进行研究的分析类型。这种区别很重要,因为实验物理学家分析数据所采取的具体步骤与数据科学家可能采取的分析步骤不同,尽管它们有共同点。这就引出了一个重要的后续问题:究竟什么是数据科学的研究工作?   有好几个行业标准来分解数据科学的研究工作。第一种是 KDD(数据发现中的知识)方法,随着时间的推移,其他人会对该方法进行修改和扩展。基于这些推论,以及采访数据科学家,我们创建了一个框架,其中包括四个高阶过程(准备、分析、部署和通信)和 14 个低阶过程。使用红色笔划轮廓,我们还强调了数据可视化在数据科学工作中已经发挥突出作用的具体领域。在我们的研究文章中,我们提供了这些过程的详细定义和示例。

谁是数据科学工作者?

 

我们在与数据科学家进行的 12 项深入研究中发现了 9 个数据科学角色。这些年来,我听到了许多关于数据科学家的不同看法。我喜欢的一个例子是,数据科学家是 “比统计学家更擅长软件工程,比软件工程师更擅长统计学” 的人。我最近听到的一个直白的说法是,数据科学家是 “西海岸的统计学家”。    

然而,当我们深入研究现有的数据科学家的研究时,我们没想到发现了一个重要且一致的特征,即 “数据科学家” 的多样性以及它们在特定数据科学过程中的作用如何变化。您可能已经注意到数据工程师的崛起,例如,作为一个独特但仍然相邻的数据科学角色。随着数据科学工作的复杂性的增加,数据科学家变得更专业,往往从事数据科学研究工作的具体方面。Harris 等人的访谈早在 2012 年就已经确定了这一趋势,这种趋势只是随着时间的推移而加速。他们敏锐地发现,数据科学角色之间的这种多样性导致了 “数据科学家和寻求帮助的人之间的交流不畅”。

我们根据 Harris 的研究结果,对 12 项研究进行了调查,共有数千名被认定为数据科学家的个体。通过对这些研究的分析,我们能够识别出 9 个不同的数据角色。这些人有不同的技能和背景,我们以统计、计算机科学和领域专业知识为轴心来说明。我们还将以人为中心的设计纳入了我们对数据科学技能的描述,因为考虑到数据产品的影响,就像面部识别应用程序一样,越来越重要。我们要强调的是,这些角色不是绝对的范畴,它们的边界是不固定的,同时这些角色的技术技能也符合类似的规律。相反,提出这些角色类别的目的是提供一个指导,从而帮助研究人员对于正在交谈的人以及他们的背景有一个直观的认识。

这将如何改变我们创建可视化

和数据分析工具的方式?

当然,最重要的是我们对数据科学的定义以及我们的数据科学工作框架和工作人员如何帮助我们构建更好的数据可视化工具。首先也是最重要的一点是,它有助于提供一个清晰的标准,从而明确了数据科学研究工作的多样性和对应的工作人员。我们已经使用这个框架创建了更清晰的标准来分解数据科学中的 Tableau 客户体验。我们可以更精确地确定他们正试图做什么,并可以就这些过程提出更深入的问题。

已知 “数据科学家” 这个角色本身包含了大量的多样性,我们可以通过将与我们交谈的个人归类到九个数据科学的角色,从而更好地确定谁在执行这项工作。这样的分类使得我们更容易理解可视化系统需要支持的任务以及在什么级别上支持这些任务。例如,技术分析员和 ML/AI 工程师是我们描述的两个数据科学角色,他们都可以参与模型构建的共同任务,但需求截然不同;如果我们忽略这些差异,我们就有可能为这两个角色创建错误的工具。

但也许对我来说最重要的是,这个框架还帮助我思考当前可视化分析工具生态系统中缺少的东西。我得出的一个令人担忧的结论是,现有工具对可视化机器学习模型的关注范围很窄,缺乏支持数据科学研究工作的其他关键方面的工具,如数据准备、部署或通信。这种工具的缺乏不仅增加了数据科学研究工作的开销,还使得数据科学家无论担任什么角色,都更难让他们的工作影响到组织的决策和实践。这项关于数据科学工作和工作者的研究帮助我面对以上挑战,同时为构建更好的工具来帮助人们查看和理解他们的数据提供了机会。

原文标题:数据科学的十年回顾与可视化工具的未来

文章出处:【微信公众号:Tableau社区】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分