2019年数据科学与分析领域的主要发展趋势

t1PS_TechSugar 2018-12-28 5747

电子说

1.4w人已加入

描述

以下的回答来自 Meta Brown、Tom Davenport、Carla Gentry、Bob E Hayes、Cassie Kozyrkov、Doug Laney、Kate Strachnyi、Ronald van Loon、Favio Vazquez 和 Jen Underwood。这些专家所涉及的关键主题包括人工智能的进步（不管是真实的还是炒作的）、数据科学和分析的民主化（包括自助服务）、自动化（包括数据科学）、GDPR、人工智能风险、实时分析，等等。

Meta Brown，A4A Brown 公司总裁及“Data Data for Dummies”的作者。

2018 年的热门主题是人工智能。

近来，人工智能方面的演讲可能比其他任何一个分析应用都要多。可惜的是，大部分演讲都没有多大意义。

计算机先驱 Alan Turing 设想的计算机具有可与人类智能相媲美的能力。人工智能技术将让我们无法区分由计算机生成的对话和人类生成的对话。

想想与现今的人工智能应用程序所发生的交互。个人助理，例如 Siri 或 Alexa，可能有点用，但仍然无法与人类之间的互动相媲美。在线辅助应用机器人非常令人失望。你只要问它一个现实一点问题，很快就会知道它有多“无脑”。

根据图灵的定义，人工智能尚不存在。纽约大学心理学和神经科学教授 Gary Marcus 说，对人工智能的最大误解是“人们认为我们已经很接近人工智能了”。

在现实世界中，我们确实有基于计算机驱动逻辑的实用应用程序。它们不会像人类一样思考，但可以快速而一致地做出决定，这些都是有价值的。这些应用程序促使机器能够完成实际的工作，例如标记潜在的欺诈性交易和驾驶汽车。

尽管这些技术有明显的局限性，但公众和科技界都充斥着对人工智能不切实际的主张和期望。这种主张带来了不安，也开始令人感到失望，非常失望。

Tom Davenport，巴布森信息技术与管理学院的教授，国际分析研究所的联合创始人，麻省理工学院数字经济倡议的研究员，以及德勤分析的高级顾问。

我们对国际分析研究所的年度趋势进行了预测，以下是一些要点：

1.企业越来越关注模型部署率——雷克斯数据科学调查报告显示，只有 10-15％的公司“几乎总是”部署分析模型，另外 50％的公司会“经常”部署，35％到 40％的公司只偶尔或很少成功部署分析模型。一些企业表示他们的成功部署率低于 10％。当然，未部署的分析模型是没有经济价值的。企业需要在 2019 年提高部署率。

2.公民数据科学家和商业分析师将继续存在。图形和基于搜索的分析的兴起和数据科学领域日益自动化的机器学习意味着我们将看到业余爱好者参与大量的分析工作。这种趋势是不可抗拒的，所以要为他们提供支持，并做好保护工作。这也意味着量化从业人员要么转向高度复杂的建模工作，要么去了解业务问题并解决企业变更问题。

Carla Gentry，咨询数据科学家和 Analytical-Solution 的所有者。

2018 年是分析和数据科学的辉煌年，但我们也看到了人工智能、神经网络和机器学习的爆炸式增长。我们看到人工智能在医疗领域和警务方面的应用有所增加，无论是否存在偏见的危险。我认为有些人已经忘了在这些情况下数据和生活其实是融合在了一起，我们也将进一步期待可穿戴设备和物联网（Google Home、 Alexa 等）的发展。

2019 年，之前的流行语会继续存在，而且会出现更多，公司也将开始意识到神经网络需要成千上万或数百万的学习样本，更糟糕的是，每当你想要神经网络识别新类型的项目时，必须从开头开始训练（至少非常耗费时间）——人才是另一个问题，除了 Geoffrey Hinton、Yejin Choi 或 Yann LeCun，真正的神经网络专家很少，所以不要指望招到大牛。

数据科学是关于如何收集数据的见解，在某些情况下，我们无法成为 AL、机器学习或神经网络专家，因此必须更加仔细地探索差异，新手将不得不重新学习，以便适应未来的科技竞争。我担心的是，缺乏对机器学习方式的真正理解以及如何在不受伤害的情况下使用人工智能将继续暴露出一些公司或算法的弱点。

让我们继续推进这些技术，但要明白，如果你搞砸了后果可能很严重！

Bob E. Hayes，Business over Broadway 的研究员、作家兼顾问、出版人，并拥有工业组织心理学博士学位。

数据科学和分析领域持续关注机器学习的所有方面，包括强化学习、聊天机器人及其对社会的影响。

2019 年，我预计人们会越来越关注人工智能的道德规范，包括隐私和安全问题。人们试图理解算法如何做出特定的决策，我们不仅需要知道机器学习有助于我们做出决策，而且要知道它是如何做出决策的。此外，美国公司将重点关注他们如何使用消费者的个人数据。加利福尼亚州通过了“加利福尼亚州消费者隐私法”（将于 2020 年 1 月生效），我希望其他州也会紧随其后。

我担心人工智能 / 机器学习在制造和传播假新闻方面的使用会有所增长。Deep Fakes 已经表明，人们可以轻松制作假视频，让视频中的人说他们没有说过的话或让他们做出不符合他们行为习惯的动作。

虽然可以通过训练营、MOOC 和大学等方式来学习数据科学，但我希望看到越来越多的人尝试通过分析的方式来教育非数据专业人员（例如管理人员和一线员工）。

Cassie Kozyrkov，Google Cloud 的首席决策工程师。喜欢统计学、人工智能、数据、双关语、艺术、科幻、戏剧、决策科学。

2018 年的主要进展之一是数据科学的民主化。云技术为资源密集型大数据和人工智能应用程序提供动力，人们不需要再使用 Kubeflow 等工具构建数据中心，从而为没有基础设施专业知识的人提供了可扩展的数据科学。这种让每个人都能获得数据科学工具的趋势将在 2019 年继续加速发展。

Doug Laney，Gartner 副总裁，杰出的分析师和首席数据官研究员，也是“Infonomics”的作者。

Gartner 的 2019 年数据和分析战略预测刚刚发布，从中可以看到企业战略明确提到了信息是关键的企业资产，而分析是不可或缺的能力。不只是 IT 战略中提到了这些，企业战略和计划中也提到了。

我们期望数据扫盲计划会变得越来越普遍，促进业务人员和数据分析专业人员之间的沟通，尤其是在分析需求变得越来越复杂时。随着流行病学原则和实践的采用，我们期望首席数据官更频繁地与他们的首席财务官合作，正确评估企业的信息资产。这样可以为我们的很多客户带来重要的信息管理和商业利益。但分析和数字伦理仍然是一个问题，我们相信企业将会为他们的数据科学团队引入专业行为准则。

我们预计在未来 3 到 5 年内，大多数新业务系统将采用基于实时上下文数据的连续智能，量子计算概念验证项目将大大超越现有的分析技术，增强和自动化的见解将取代绝大多数预建报告，位置分析的应用将增长 10 倍，机器学习将更容易招到数据科学家。

Gregory Piatetsky，KDnuggets 总裁，数据科学家，KDD 会议和 SIGKDD 联合创始人。

2018 年的主要进展：

1.GDPR 于 2018 年 5 月生效，不仅在欧洲，对于美国和其他地区来说也是一个重要的里程碑，很多公司都在更新其隐私政策。但是，在新的隐私政策的掩护下，消费者隐私是否会有实际改善还是一切照旧仍有待观察。

2.数据科学的民主化仍在继续，更多的工具提供了更广泛的数据科学见解。

3.人工智能风险：自动驾驶汽车的第一个死亡事故加剧了人们对人工智能不可避免的风险的关注。但自动驾驶汽车（和自动化人工智能）不应该被认为是一种零差错标准，我们需要将其与当前的风险相比。例如，人类驾驶也是非常危险的，2017 年仅在美国就有 37,000 人死于车祸。

2019 年的主要趋势：

1.数据科学自动化将继续加速发展，但数据科学家的工作至少在未来几年内不会完全自动化。

2.人工智能的进步和炒作：虽然人工智能的进步是真实的，但人工智能炒作的增长会比以往更甚。

3.中国已成为人工智能的主要参与者，很多中国公司正在进行自己的创新而不仅仅是跟随美国。

4.强化学习将在人工智能进步中发挥越来越重要的作用。例如，Montezuma Revenge Atari 游戏中的 RL 表现出了惊人的进展，打破了之前由计算机或人类创下的所有记录。

Bill Schmarzo，Hitachi Vantara 的首席技术官。

2018 年大数据、数据科学或分析的主要进展：

1.业务利益相关者越来越意识到机器学习和深度学习对业务变化的潜在影响。

2.数据湖仍然是一个被错配的资产。太多的企业将数据湖视为替代昂贵的数据仓库和 ETL 的一种方式，但并没有完全理解数据湖作为协作创造平台的价值，业务利益相关者和数据科学团队可以围绕这些平台创造商业价值。

2019 年的主要趋势：

1.对于领先的企业而言，大数据和数据科学计划将转向业务驱动，而不是 IT 驱动。商业领袖将可以识别、验证、审查、评估和优先考虑业务领域，大数据、物联网和数据科学（机器学习、深度学习、人工智能）可以在这些领域推动业务产出。

2.领先的企业不仅仅是使用数据科学来优化关键业务和运营流程，他们还将意识到隐藏在数据中的客户、产品和运营见解是新货币化机会的驱动因素。

Kate Strachnyi，数据可视化专家，“The Disruptors: Data Science Leaders and Journey to Data Scientist”的作者，人类数据科学视频播客的主播。

2018 年数据科学和分析的主要进展：

1.通用数据保护条例（GDPR）：这项欧盟法规于 2018 年 5 月生效，提供了一套旨在让欧盟公民更好地控制其个人数据的规则，并鼓励其他地方也设置类似的标准。例如，加利福尼亚州通过了自己的数字隐私法，这让消费者能够了解组织正在收集哪些信息、收集数据的原因以及他们与谁共享这些数据。

2.自助式商业智能（BI）工具：BI 工具在数据分析师和业务分析师中变得越来越普遍。但是，目前尚不清楚这些工具的用户是否能够理解这些工具背后真正的含义。用户在这些工具中拖放字段，并创建图表，但不知道是否真正了解背后正在发生的事情。

2019 年的主要趋势：

1.数据道德与隐私：将更加注重在数据科学过程的每一个步骤考虑数据的道德与隐私问题。那些使用数据的人需要了解他们拥有强大的权力，需要考虑他们的工作将产生的影响。随着世界变得越来越数字化，个人、公司和政府越来越关注这方面的问题。

2.过程自动化：公司将继续实现流程自动化，以降低成本和提高效率。这种自动化还可能导致负责执行自动化过程的个人失业。人们需要专注于学习需求不断增长的新技能，以便在瞬息万变的环境中保持最佳状态。

Ronald van Loon，Adversitement 总监，帮助数据驱动型公司取得成功。大数据、数据科学、物联网、人工智能领域十大最具影响力人物之一。

2018 年，随着公司利用各种数据源来获得值得信赖的见解，端到端数据管理也在不断发展，在分析成熟度上升的同时支持与数字经济保持一致的基础设施和业务模式。机器学习被广泛接受，因为所有的软件供应商都通过特定于领域的解决方案将机器学习嵌入到应用程序中。

在 2019 年，将有更多集成的硬件和软件框架，提供更复杂的方法来支持更高水平的深度学习应用程序，这些应用程序将进一步促进创新。深度学习应用程序需要借助全面优化的硬件和软件技术栈来推广新的现代人工智能架构。我们将看到这种全栈式方法在各个领域中的崛起，以满足不断增长的对最佳深度学习性能和能力的需求。

随着物联网设备的增长，实时边缘分析将呈指数级增长，这让实时分析变得更加容易，并可以基于实时见解进一步加强即时响应。

Favio Vazquez，Ciencia y Datos 的数据科学家、物理学家兼计算工程师。

对于数据科学来说，2018 年是令人惊叹的一年，这个领域在理论和实践方面取得了巨大进步，提出了几种数学科学方法，有助于将数据科学转化为真正的科学。机器学习（ML）、AutoML 进展非常巨大，其中也包括自动深度学习。

2019 年的主要趋势：

1.AutoX：我们将看到越来越多的公司开发并将其包含在他们的自动机器学习和深度学习的技术栈和库中。这里的 X 表示这些自动工具可以是数据摄取、数据集成、数据清理、探索和部署工具。

2.语义技术：今年对我来说最有趣的发现是数据科学和语义之间的关系。它并非数据世界的新生事物，但我看到更多人对语义、本体、知识图谱及其与数据科学和 ML 之间的联系感兴趣。

3.更少的编程：这是一件很难说清楚的事情，但在数据科学流程每个步骤几乎都包含了自动化，所以编程会越来越少。我们将拥有用于创建代码的工具，这些工具将会理解我们对 NLP 的需求，然后将其转换为查询、语句和完整的程序。我认为编程仍然是一项非常重要的学习内容，但很快就会变得更容易掌握。

4.数字教育：这方面的趋势每年都在增长，但明年我们将看到更多的人进入 MOOC、数字课程、在线课程。有人将其称为“教育民主化”，我在很大程度上也赞同这种说法，但我还是需要向这些人提出警告：小心你所看到的以及你的学习方式，在这些课程上面投入时间和金钱之前请先做一番调查，好的课程将让你的生活变得更好，但其他的可能会给你带来风险。

Jen Underwood，DataRobot 的高级总监，也是 Impact Analytix 的创始人。

人工智能炒作和转型影响在 2018 年无处不在。几年前，大数据风靡一时，然后是云计算，现在是机器学习占据了主导地位。人工智能在机器人和商业智能解决方案中得到了广泛应用。现今的啤酒甚至也是人工智能驱动的。

今年，我们也看到了自动化市场动力的激增。如今，很多机器学习解决方案都在推动由人工引导的自动数据分析，以便在整个项目生命周期中实现更深入的自动化机器学习（AutoML）。从简单的拖放、通过按钮单击向导创建基本模型到复杂的特征工程、模型搜索、超参数调整、部署、模型管理和监控，AutoML 的功能差异很大——结果的质量也存在巨大差异。

2019 年，关于监管公民数据科学、隐私、偏见、道德和 Deep Fake 方面的担忧将考验我们对人工智能的信心。区块链等创新技术将开始改变我们存储、共享和跟踪数据的方式。我还期望能够更多地强调非数据科学家能够理解、解释和信任的人工智能。目前在将数据科学家的术语翻译成其他人能够理解的公共语言方面还存在巨大差距。随着企业在不完美的世界中采用人工智能，同时公民数据科学家也在不断增加，更多的人需要尽快成为数据识别者，以避免人工智能出错。

打开APP阅读更多精彩内容