一些数据科学家在工作中最常遇到的“奇葩”需求

电子说

1.2w人已加入

描述

编者按:数据科学家是21世纪“最性感”的工作,几乎所有人都为之疯狂——无论什么产品,只要在醒目位置标上“人工智能”,它就不仅卖得掉,还卖得火。但是,这也产生了不少问题。以往我们谈及设计人员工作时,总会拿不懂PS是Photoshop的甲方作为笑谈,现在这样的事也同样发生在数据科学家身上,纵然有心解释,社会刻板印象还是会让他们百口莫辩。

如果说现代设计已经在人们生活中存在了几十年,许多甲方客户还对它了解甚少;那机器学习才刚刚崭露头角,人们对它还仅限于眼熟,或是只读过几篇吹得天花乱坠的软文。常言道,隔行如隔山。很多时候,虽然专业人士眼里的常识别人不一定懂,但其他行业起码还有销售帮衬,可以很好地充当对接桥梁。而数据科学家就不一定有这个待遇了。

现在,人们对机器学习、人工智能的偏见是社会性的,这里面包括公司销售。举个不靠谱的例子,当销售们和客户宣传时,他们会把实际效果吹成“占领月球”,客户一听非常满意,超出自己预期,于是要求立即启动“占月”项目。归根结底,数据科学家能做的顶多是把他们送到月球,然后把他们丢在那片荒无人烟的地方。至于开发占领?不可能的。

下面列出了一些数据科学家在工作中最常遇到的“奇葩”需求,虽然看起来有些滑稽,但它们都是真实经历。如果你想成为数据科学家,你可以先熟悉一下它们,提前锻炼一颗强健的心脏;如果你是客户,你也可以通过它们规避不少麻烦,至少谈判时,坐在对面的数据科学家不会一脸了无生趣。

1.“我们想要一个AI模型……它可以解决‘这个’问题”

现如今,我们通过简单的探索性数据分析,就能解决80%的产业分析问题。既然如此,为什么你们还想用机器学习呢?对于这样精确到目标的需求,构建任何机器学习模型都是矫枉过正,在这些问题上用AI是徒劳的,企业也没法从中看到新技术带来的改变。从某种程度上来说,杀鸡焉用牛刀?

诚然,高级分析看起来很拉风,通过投资这项技术,企业可以在技术上“引领”行业,试问有那家公司不喜欢塑造自己先进、光彩的创新形象?但是每一个数据科学家都有义务引导客户正确使用技术,而不是滥用,以保证机器学习这把牛刀不会误伤他人。所以,大家在做数据分析时,请用美观的分析工具说服自己的客户,让他们看到数据背后的完整价值。

到目前为止,人工智能最大的危险在于人们觉得自己理解它,而这个结论下得太早了。——MIRI创始人 Eliezer Yudkowsky

2.“这些数据给你……你给我出一些商业洞见”

通常客户会认为自己的责任只是移交数据,他们中的有些人甚至连需求都不提,丢下一堆数据就走,然后期待数据科学家能总结出一些零零散散的、非常有见地的建议。最好这些建议还能“掷地有声”,让公司一夜间就改头换面。

不幸的是,数据科学家的工作不是文学写作,一个人凭空想是想不出什么操作性强的业务建议的。他们需要和公司业务人员保持长期的、富有成效的交流对话,以了解这家公司能做什么,不能做什么。在整个项目期间,双方要安排一个“验收”期,共同评判建议的具体效果。

如果你连提出一个正确的问题都不会,那你将一无所获。——美国统计学家 W. Edward Deming

3.“造个模型,能跳过不必要的分析,节约时间那种”

数据预处理和探索性分析的重要性毋庸置疑,但很多数据分析师同仁可能在处理数据前就把它们忘了。鉴于此,一些客户就希望机器学习能删除其中“不必要的分析”,在保证结果准确的同时缩短分析时间,提高效率。

其实数据分析是机器学习和所有高级分析的必要步骤,它们同根同源。如果不了解数据,无法从数据中找出异常值和潜在模式,那机器学习模型就是两眼一抹黑,什么都干不了。所以客户应该给数据分析预留足够的时间,并指定讨论时间,方便数据分析师或数据科学家能发现有趣的的东西和及时分享。

一个炼金师在找寻黄金时,会发现许多更具价值的其他物品。——叔本华

4.“我们有上周的数据,你能预测未来6个月的情况吗?”

这个问题几乎是所有数据科学家都没法避免的。总有那么一些人,拼拼凑凑几行数据,就指望AI能像巫女的水晶球一样给个“预兆”。也总有那么一些人,一点数据都没有,还想让AI去填补这些空白。

对机器学习来说,数据的数量和质量至关重要,如果客户不在乎“废料进,废品出”,做数据分析就可以了。一些有用的统计技术确实可以四两拨千斤地处理这类问题,从少量数据中提炼尽可能多的信息,比如插入缺失值(impute)、人工合成数据(SMOTE算法)和使用面向小数据的简单模型。为了避免客户失望,记得定义一些界限来解释为什么结果会那么差。

数据量和分析技术性能之间的关系

5.“你去建个模,两礼拜够不够?”

突然推翻原定计划,却还要求成果保质保量——这是所有项目都可能出现的问题。其他行业是怎么补救的,我们暂且不提,反正机器学习建模不可以。它的时间一旦计划好了,就改不了了,尤其是在原定时间就捉襟见肘的情况下。也许客户会有疑问:现在GPU算力大幅提高了,各种API也都有了,你们这群数据科学家到底在磨蹭啥?

事实上,尽管行业内出现了像Auto-ML这样的进展,但建模过程还是得依赖大量手动操作。数据科学家必须要痛苦地在一轮又一轮的迭代中检查统计结果、比较模型和检查成因。这些是没法自动化的,至少现在还没有自动化。如果客户实在不理解,建议给个例子让他直接体验一下。

建模既是实验,也是艺术创作,里程碑驱动的项目计划并不总是现实的。

6.“能不能把这个变量换了,重新跑下模型?”

当数据科学家终于把建好的商业模型交给客户看时,后者也会习惯性地提一些“调试”要求,其中最常见的是:“你能不能替换这个变量,然后重新运行模型”?表面上看这只是个小改动,但事实上,这个小改动却意味着把在世界杯上踢足球改成在NBA打篮球。

虽然机器学习是高度迭代的,但它的核心目标是为给定变量筛选正确的影响因子,并映射它们的关系。这个要替换的变量是模型的重要组成部分,不能说改就改。所以如果客户想投资AI技术,他们应该努力学习一些基本工作原理。如果遇到这样完全不懂的客户,数据科学家也有必要给出预警,防止他们事后处处不满。

7.“我们模型的准确率可以达到100%吗?”

看到“错误率”就宛如看到“瘟神”,这是很多人的误区。人们都喜欢盲目追求等级,客户也总觉得越靠近100%,模型就越好。然而当准确率超越其他因素成为唯一焦点后,数据科学家就又该头疼了:你们要这么一个精度很高,但没法实际应用的复杂模型有什么用?

2009年,BellKor's Pragmatic Chaos拿下Netflix Prize百万美金竞赛冠军,虽然Netflix到现在还一直夸这个模型有多好,但它从没上线过。为什么?因为这个高精度复杂模型背后的工程成本太高了。如果一个模型只有精度却不能实际应用,它对普通企业的意义又在哪儿?一个好的工程模型应该兼具准确率、稳定性、简单性和业务可解释性,并在之中达到平衡。

工程模型:实现精细平衡和权衡

8.“这模型训练好了,以后能一直保持高性能吗?”

虚拟产品也是产品,当模型训练完,客户自然还要关心一下它的使用寿命。因此他们常问的问题还有:“这个模型是不是会一直这么聪明啊?”“未来我们业务发展了,它跟不跟得上变化啊?”

很不幸,机器学习模型不会自动贯彻终身学习。它还只是个孩子,你们千万要不断耐心教导它!通常情况下,模型需要每隔几周或几个月进行一次快速复习,就像学校里为了考试苦苦挣扎的学生。更重要的是,如果公司业务发生明显变化,这个复习频率要加快,模型可能还要回炉学习点新东西。

尽管发展很快,但这就是当今分析行业的情况,所以如果想投资AI技术,做好模型维护和更新的时间、金钱预算吧!

小结

到现在为止,我们已经介绍了数据科学家工作生活中可能会遇到的8个关键误解,它们隐藏在机器学习建模的6个步骤中:

导致这些误解产生的原因有两个,一是客户对行业基础知识缺乏了解,二是双方对具体效果的预期错位。了解这些内容有助于数据科学家在遇到麻烦时温和、友善地向客户说明情况,而不是一脸无奈或是一肚子火气,最后被迫向客户屈服。

如果你在生活中也遇到过类似的困扰,欢迎留言指出,帮助更多同行总结经验,也让客户和销售更了解自己的工作。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分