电子说
导读
如果你想要用机器学习来做一些事情,这里列出了 4 件最重要的事情。
如何确保你的项目保持在正轨上。
如果你是产品经理,想要用机器学习来做一些事情,这里列出了 4 件最重要的事情:
1. 优先考虑工程而不是数据科学
一个机器学习项目首先是一个软件项目。许多数据科学家在构建架构良好、可靠、易于部署的软件方面缺乏经验。当你构建一个生产系统时,这将成为一个问题。
根据经验,**工程师掌握数据科学技能的速度要比数据科学家掌握工程经验的速度快。**如果有疑问,请与拥有 5 年以上经验、对人工智能充满激情的 python 工程师合作,而不是首次尝试构建商业应用的数据科学博士。
2. 保持高效
尽早降低风险很重要。用具体的里程碑来组织你的项目:
完成原型:查看你的想法是否有希望在 1-2 周内完成
离线测试系统:对模型进行调优,并在 2-4 周内对现有数据进行严格测试
在线测试系统:最终确定模型并在 2-4 周内进行测试
上线:自动化数据更新、模型训练和代码部署 2-4 周
持续改进:(可选)12 个月
总时间:1-3 个月
一个有经验的团队应该能够为几乎所有的项目遵循这些时间表。让团队在 1-3 个月内建立一个实时系统。上线后,再决定是否值得进一步改进。
这些诱惑会不必要地延长你的项目:
等待完美的数据
使用错误的工具(太复杂或太慢)
可扩展性的过度工程化
无休止地玩弄算法(见下一点)
3. 算法不重要
机器学习系统有很多有趣的按钮可以使用。不要这么干。
这些改进值得花时间(按重要性排序):
获取更多(相关)输入数据
对数据进行更好的预处理
选择正确的算法并进行正确的调优。
算法是最不重要的因素。简单地选择一个可行的算法。无休止地升级算法是很诱人的,但它可能不会提供你期望的结果。
4. 交流,交流,交流
分享尽可能多的业务场景
一旦工程团队开始构建,他们必须做出许多选择。他们越了解你的轻重缓急,就越能做出正确的决定。至少,你应该告诉他们:
战略重点
这是一个关键的问题吗?它是否需要每天处理数百万个请求?这是不是一个未来产品的研究?
目前的问题
目前处理流程是否太长?是不是太不准确了?还是有很多数据没有机器学习就无法计算?
输入和输出
输入:你(作为一个人)将使用哪些数据来做出正确的决策?输出:谁将使用输出?使用的频率?它需要是实时的吗?
性能指标
最重要的指标是什么:点击率?销售?投资回报?假阳性?
预计精度
如果你想要优化转化率,那么它可能不值得再花 2 周的时间来获得 2%的准确率。如果你建立了医疗诊断系统,那么即使是 1%的假阴性也是不可接受的。
TL;DR
工程优先于数据科学。
通过精益来降低风险。
不要被算法分心。
与开发人员共享所有业务需求。
全部0条评论
快来发表一下你的评论吧 !