电子说
还记得《钢铁侠》中托尼·斯塔克常用的炫酷无比的全息黑科技吗?现在,MIT和布朗大学联合开发了一套触屏式交互数据分析和预测系统,可能让用户找到一点电影中的感觉。整个系统就像一块无限大的“交互式画布”,仅需几秒就能生成预测结果。
在电影《钢铁侠》中,托尼·斯塔克使用全息计算机将3D数据投射到空气中,用双手操纵,并从中找到解决超级英雄麻烦的办法。现在,麻省理工学院和布朗大学的研究人员也开发了出一套在触摸屏上运行的交互式数据分析系统,让每个人都能解决现实问题。
这套交互式数据科学系统名为Northstar,在云中运行,但系统界面支持任何触摸屏设备,包括智能手机和大型交互式平板。用户提供系统数据集,并使用手指或数字笔在用户友好的界面上操作,组合和提取功能。
在ACM SIGMOD 2019上发表的该项目的研究论文中,研究人员详细介绍了Northstar的一个新组件,有“虚拟数据科学家”之称的VDS,它可以立即生成机器学习模型,在数据集上运行预测任务。比如,医生可以使用该系统来预测哪些患者更容易患某些疾病,企业主可以用它来预测销售情况。每个团队成员都可以利用交互式设备实现实时的协作。
论文链接:
https://dl.acm.org/citation.cfm?id=3319863
研究人员称,Northstar的目的是通过快速准确地进行复杂分析,推进数据科学的普及。
“即使是不了解数据科学的咖啡店老板,也应该能够在未来几周内预测销售情况,确定要进多少货。”论文共同作者之一、长期担任Northstar的项目负责人的蒂姆·克拉斯卡说。他还担任麻省理工学院计算机科学与人工智能实验室(CSAIL)电气工程与计算机科学副教授,新数据系统与AI实验室(DSAIL)的创始联合主任。“在拥有数据科学家的公司中,数据科学家和非专业人士之间有很多交流,我们可以将他们都聚到一个地方来。”
VDS基于自动机器学习(AutoML)技术开发,该技术让数据科学基础不高的人也能够训练AI模型,根据自己的数据集进行预测。目前,该工具在DARPA举办的D3M AutoML竞赛中处于领先地位,这项赛事每六个月举办一次,决出性能最高的AutoML工具。
此论文作者还包括:第一作者、MIT研究生Zeyuan Shang,以及EmanS,CSAIL和DSAIL项目的博士后Emanuel Zgraggen。布朗大学的Benedetto Buratti,Yeounoh Chung,Philipp Eichmann和Eli Upfal,以及最近从布朗大学调任德国达姆施塔特技术大学的Carsten Binnig。
"一块无限大的交互式画布”
这项新研究是麻省理工学院和布朗大学在Northstar项目上多年合作的成果。过去四年多以来,研究人员发表了大量详细介绍Northstar各个组成部分的论文,包括交互式界面,多平台操作、加速结果以及用户行为研究。
Northstar的初始界面是一块空白屏幕。用户将数据集上传到系统中,该数据集显示在左侧的“数据集”框中。任何数据标签都会自动填入下面的独立“属性”框。还有一个“运算符”框,其中包含各种算法和新的AutoML工具。所有数据都在云中存储和分析。
“这就像一块无限大的画布,你可以在这里展示想要的一切。“ Northstar互动界面的主要开发人员Zgraggen说。“然后可以将所有内容链接在一起,创建更复杂的数据问题。”
史上最快AutoML工具:生成近似结果只需几秒
使用VDS,用户现在还可以通过使模型适合其任务(例如数据预测,图像分类或分析复杂图形结构)来对该数据运行预测分析。
比如,医学研究人员希望根据数据集中的所有特征预测哪些患者可能患有血液病。他们可以从算法列表中拖出“AutoML”。首先会生成一个空白框,会带出有一个“目标”标签,在这个标签下,再拖出“血液”特征。系统将自动找到性能最佳的机器学习流程,不断更新预测精度,并以百分数显示在屏幕上。用户可以随时停止这个过程,进行优化搜索,并检查每个模型的错误率、结构、计算和其他事项。
研究人员表示,VDS是迄今为止速度最快的交互式AutoML工具,部分原因是他们的定制化“估计引擎”的作用。该引擎作用于用户交互界面和云存储之间,能够自动创建数据集的几个有代表性的样本,以便逐步处理,在几秒钟内就能生成高质量的结果。
“我们花了两年时间设计VDS,模仿数据科学家是怎么想的,”论文第一作者Zeyuan Shang说,也就是说针对某项特定任务,VDS可以立即基于一系列编码规则,判断出应该/不该使用哪些模型,实施哪些预处理步骤。它首先从那些可能的机器学习流程的大量列表中进行选择,并在样本集上运行模拟。同时记住结果并改进选择方案。在迅速提供一个近似结果后,系统会在后端对结果进行细化,但最终结果通常与第一次近似结果非常接近。
“用户使用预测器,肯定不希望等四个小时才获得第一个结果。他们希望已经看到预测的过程,如果发现错误,可以立即纠正。这在任何其他系统中通常是不可能实现的。“Kraska说。
研究人员在300个真实数据集上对VDS工具进行了评估。与其他最先进的AutoML系统相比,VDS给出的预测近似结果精度相当,但用时仅几秒钟,比其他工具(几分钟到几小时)快得多。
未来,研究人员还准备为该工具添加一项新功能,提醒用户潜在的数据偏差或错误。比如,为了保护患者隐私,研究人员有时会在医疗数据集中将患者的年龄标记为0岁(表示年龄未知)或200岁(表示患者年龄超过95岁)。新手可能无法识别这样的“错误”标记,这种标记可能会对分析造成很大干扰。
“对于新用户来说,你可能会觉得获得的结果已经很棒了,”Kraska说。“但我们希望可以提醒用户,实际上数据集中可能存在一些异常值,表明存在某些问题。”
全部0条评论
快来发表一下你的评论吧 !