数据处理的难点在哪里?

电子说

1.3w人已加入

描述

「真格老友记」是真格基金全新推出的对话系列栏目,邀请真格从天使轮开始陪伴成长的“老朋友”分享他们的创业故事。

在「真格老友记」中,你将看到投资人与创业者的对话实录,听他们复盘从0到1的创业之路,探讨独到的行业见解,分享经历过的试炼与挑战。

作为一家早期投资机构,真格基金一直在寻找优秀的创业团队,在这个过程中,我们参与并见证了许多初创项目的成长和发展。故事千千万,虽然形式不断变化,底层逻辑和方法论却多有互通。我们需要探索的远远超出了我们的所见所闻。希望你能从对话中,找到自己的灵感缪斯。

毫无疑问,数据是这个时代的新能源。

数据提高预测的精准度,决定了推荐机制,成为每个企业升级或调整战略的基础依据。

日常数据可分为由程序生成的结构化数据,与视频图像文字等非结构化数据。其中,非结构化数据占九成企业全部数据量的 55% 以上,如何管理和使用好这些数据是所有企业面临的挑战。

结构化数据与非结构化数据

这里存在一个引人深思的“倒挂”现象,人工智能工程师将近 90% 的时间和精力并不是在做真正的产品化业务,而是在做基本的数据挖掘、清洗标注和管理工作。就像原油需要提炼和加工才能进入工业生产流程,数据同样需要一系列处理才能进入人工智能生产流程。

Google Paper: Hidden Technical Debt in Machine Learning Systems

这正是 Graviti 想解决的问题。作为一家 AI 数据 SaaS 提供商,Graviti 希望实现以数据管理为核心,服务于数据获取、加工和使用的全数据旅程,通过提供更加高效、便捷和安全的软件产品,帮助 AI 开发者和 AI 应用公司更加专注于 AI 本身。公司成立后便获得真格基金参与的种子轮投资。

创始人崔运凯曾任 Uber 无人驾驶部门的 Tech Lead Manager,是该部门最早期一批员工。对科技的热忱让他相信,人工智能基础软件是构建人工智能生态中,不可或缺的那一部分。

本期对话栏目中,真格基金投资总监尹乐和 Graviti 创始人崔运凯将讨论以下话题:

- Uber 的工作经历,对创业有什么影响?从工程师到创业者,思考方式有哪些区别?

- 数据处理的难点在哪里?

- SaaS 服务和数据标注的主要区别是什么?

- 如何让 AI 变得触手可及?

01

“Uber的工作经历

让我提前5年看到AI落地痛点”

Uber 的文化强调要做规则挑战者、颠覆者,从里面走出了不少优秀的创业者。

作为 Uber 无人驾驶部门的早期员工,崔运凯接触了大量复杂的非结构化数据处理问题。决定创业时,他很快地选择了投身数据 SaaS 软件行业。

为什么是数据 SaaS 软件行业?从工程师到组织者,Uber 的经历对崔运凯的创业有什么影响?

Graviti创始人 崔运凯

尹乐:你最早在Uber负责的是无人驾驶业务,为什么决定从数据基础软件切入创业?

崔运凯:我在 Uber 时主要做无人驾驶技术的研发,需要处理大量数据。在Uber,灌满 100PB(1PB=1024TB)的数据池可能只需要几个月的时间,这是硅谷其他以处理结构化数据为主的公司不可能遇到的。所以相当于提前 5-6 年看到了 AI 落地面临的问题,这个认知是远超其他企业的。

当时,Uber 除了在印度有很大的数据生产团队外,还将部分数据的需求外包给位于西雅图的一家创业公司。除了要承受昂贵的价格(当时的定价是 1 张图片 5 美金),冗长的等待时间(5000 张图片大概需要做 4 个月),还要解决数据的对接、跨境分发、检索、整理及真值数据的保存和使用等一系列难题。

但无人驾驶训练至少要亿级图片,相当于把之前要解决的问题难度又放大了数万倍。

2018 年我离开 Uber 回国,加入了一家做高精度地图的公司,为了高精度地图的研发需要收集海量的数据和训练大量的模型。为了管理和使用这些数据,我们聊了七八家国内知名的云服务商,没有一家可以提供满足我们需求的软件平台。

为了获取真值,我们找了 12 家数据标注公司,只有 2 家说可以满足我们的需求,最便宜的也要 12 元一张图片,结果做出来一张能用的图片都没有。

这时我们就意识到,无论是国内还是国外,人工智能的整个工具链都非常早期和不完善,仍然是大片的市场空白。如果我们再做一家人工智能公司,还会遇到同样的工具问题,还是得花很大代价把这些问题再解决一遍。与其这样,我们不如专门做一家解决开发者痛点的公司,让开发者能更好地把时间集中在解决业务问题上。

尹乐:刚刚你提到在 Uber 的工作经历, Uber 的文化强调要做规则挑战者、颠覆者,里面也走出了不少优秀的创业者。除了帮助你发现行业机会,Uber 对你这次创业还有其他影响吗?

崔运凯:还有两个比较大的影响:

第一是怎么做一个由文化驱动快速迭代的组织。

Uber 把文化深入到了组织架构和激励机制当中。Graviti 在这点上和 Uber 很接近,我们特别希望把文化做成一种烙印。招聘时,Graviti 对于文化和技术的考察各占 50%,就是希望找到最契合的一群人共同成长。

我认为对于早期创业者,尽早确立公司文化,并以此为基础花足够的时间在招聘上是非常重要的。我们宁愿缓慢地扩张,去招到最有潜力、最合适的人,这样的团队在跑起来后才没有人会掉队,不会出问题。

第二是让我从一个 Engineer 变成了 Engineering Manager。

Uber 对新晋升的管理人员提供了很多培训项目,让第一次做管理者的人可以快速成长为相应领域的领袖。当真正决定创办一家公司的时候,容易产生对未知的恐惧,而管理者的思维方式和训练帮助我很好地适应了角色的转变。

这也是创业早期很关键的一点,不只盯着自己擅长的部分,而是要从全盘考虑认清自己的不足,根据不足去找最合适的人补齐短板。像我在销售和产品上有知识性缺失,我就一定要找到最优秀的产品负责人、销售负责人,所有人长板的集合才决定着公司发展的上限。

02

人工智能的核心是数据

由于人工智能应用开发需要的数据体量庞大,这种对于系统设计的挑战是前所未有的,如何高效调度大量的算力和存储,利用大规模分布式并行化技术,将是支撑人工智能进一步落地的核心。

很多人对 Graviti 的产品和业务模式有误解。实际上,数据标注只是 Graviti 数据核心战略的一部分。数据的痛点是连贯的,从获取、管理、加工到使用的完整数据旅程需要突破性的创新方案来支撑,所以行业真正需要的是一站式的解决方案。

Graviti 对此是如何应对的?疫情之下,公司的行业布局和战略计划有何调整?

尹乐:数据对于 AI 来讲是一个非常核心的训练来源。大众可能不太了解,数据的处理难度到底有多大?到底是难在哪里?

崔运凯:最近我们内部在讲,设计产品的时候要有并行化思维的意识。

举个例子,我们经常处理的 Excel 表格大概为 100KB,你可以在你的个人电脑上打开处理。

但人工智能要处理的问题是什么样的?人工智能就是刚刚我说的问题乘以 100 万倍,甚至是 10 亿倍。100KB 的数据乘以 100 万大概是 95GB,现在任何个人电脑都无法打开 95GB 的文件,因为一般电脑的运行内存只有 8GB-16GB。

人工智能处理的实际上是亿万量级的生活问题,走到这个数量级别上,许多问题都变得极具挑战性。

比如像上面的问题,在一个机器上解决不了,怎样才能用分布式的方法解决?你用 1000 台机器去解决一个问题,机器一多,不同的机器就容易出现死机、断电等不同的问题,怎么能让软件强大到可以处理这些不确定性还可以流畅地把问题解决掉?这是我们需要突破的难点,也是我们提供服务的价值所在。

尹乐:没错,人工智能解决的是高数量级的问题,再小的差异也会被极度放大,这就更考验系统设计架构的合理性。现在很多人提到 Graviti,可能下意识会觉得是一家数据标注公司,对于这种说法你怎么看?SaaS 服务和数据标注的主要区别是什么?

崔运凯:我能理解为什么别人容易把我们定义成标注公司,因为我们做的是非结构化数据的基础软件,标注是其中很重要又最容易理解的一个环节。但数据的痛点是连贯的,不仅仅是标注问题,所以我们提供的是一站式的解决方案。

Graviti 的产品分为两大部分,第一个部分是面向开发者和人工智能工程师的 SaaS 工具。

大家猜一猜,支持一个 10 人算法团队高效运转需要多少资源?

至少要三个软件工程师提供工具开发和运维服务,百万元左右的深度学习训练机器,百人左右的标注团队,和上百 TB 到 PB 级的共享存储空间。这些加起来往往需要企业千万级的前置成本和百万级的维护费用。即便这些都具备了,算法工程师还是需要将大量的时间花在找数据,清洗数据,管理权限和可视化上。

而我们的 SaaS 工具就是通过软件和云来解决这些痛点:从帮助获取和管理数据,到最后输出模型,以及过程中团队的协作。可以让公司 0 前置成本启动人工智能应用开发,费用跟随团队的扩张而增加、收缩而减少,还可以节省大量的算法工程师的时间,让他们真正专注在重要的事情上。

我们发现整个人工智能开发的过程就是数据流转的过程,非结构化是其中的一个关键痛点,所以我们也提供标注服务去解决非结构化数据的问题。

和其他标注公司不一样的是,我们的数据标注服务是一键式的。国内的标注公司通常是先联系 BPO(商务流程外包Business Process Outsourcing),在线下的微信群里对接需求,发数据文档,他再去联系标注员,而很多标注员可能是第一次接触这样的任务,也没有特别适用的工具。

但是在我们的体系里,所有对接都是在软件中交互完成,分发程序有一套算法,会自动找到最合适的标注员,通过发现任务、自主登录、接受培训考试去完成这样的工作。整个过程都是自动化的,效率和准确率都有很大的提升。

尹乐:所以 Graviti 提供的数据软件是真正切中开发者痛点的。说到这里,现在 Graviti 内部开始实施项目、人员、数据全面自动化的管理,为什么?自动化管理是 AI 行业里的普遍现象吗?

崔运凯:肯定不是普遍现象,其实是困扰大家很久的问题。自动化过程涉及到各个任务节点的处理,并不是业界都有这样的经验或者业务需求。这对整个系统设计、架构设计有很高的要求和挑战,我们见过和了解这样的系统,所以知道如何设计与使用是最好的。

Graviti 的特别之处在于,我们从一开始就用了大量的全自动化工具,来实现辅助工作流程的进行。

我们会利用开源工具进行个性化改造,也会设计工作工具,通过不断求最优解优化工作效率。正是因为这套工具,疫情对我们的工作效率几乎没有影响,因为一切都是在系统中进行,沟通和协调成本是非常低的。

这个事情业界能做的人不多,所以我们也会逐步开源我们自己的工具,帮助更多的人。

尹乐:疫情有影响我们的行业布局和战略调整吗?我知道你们的业务领域最近从汽⻋拓展到了互联⽹视频、新零售、医疗健康、智能制造等,未来在布局上还会有什么尝试?

崔运凯:疫情验证了一些趋势,让我们看到物理世界的数字化和线上化,看到灵活用工、云服务的可接受度和现实效益,也看到了更多领域增长的机会。

确实,我们原来的一些工作计划被打乱了,比如我们接触比较多的汽车行业,客户受到影响,预算肯定也会受到影响。但这反向也让我们思考如何及时做出调整、适应整个大方向的发展,在行业布局上我们已经从汽车拓展到了很多其他的领域,包括视频、零售、医疗。

Graviti 本身的技术能力就可以服务不同种类的客户。我们会针对客户的业务情况做咨询,很多客户是做不到明确架构需求的,这时候就需要有人来从专业角度做梳理和设计,这也是我们服务的独特性所在。

03

如何让AI触手可及?

任何技术都需要普及化才能造福大众。人工智能新生态的形成同样需要各个成员的参与,才能服务到每一个人。

尹乐:随着人工智能行业的逐渐成熟,Graviti 的成长与发展会越来越快。Graviti 的 slogan 是叫做“让 AI 触手可及”,你怎么理解这句话?在实际操作过程中,怎么去落地这句话呢?

崔运凯:“让 AI 触手可及”是我们公司的愿景。希望通过我们提供的服务,让开发者更快地完成AI应用的开发。

只有更多的人进入到这个领域,去解决不同的问题,有更多的活跃度,我们才能建立一个更好的社区,社区中的人都可以去做新的尝试和应用,然后帮助其他人。那时候, AI 就可以服务到每一个人。

在未来, AI 的各个工具一定是会对外开放的,我们也会在一定的时间点考虑开源部分我们的产品或去做开放平台,通过 API 让更多的人参与到产品的开发。我们是一个非常开放的心态,希望和合作伙伴朋友们一起去营造新生态。

尹乐:没错,我也会觉得开源已经成为了一个新的趋势,在未来带来的益处肯定是无可估量的,也能更快地让技术大众化、普及化。最后请运凯再分享下你眼中人工智能行业的未来会是什么样的?

崔运凯:实际上我一直认为人工智能分为两个部分。

第一个部分是对人类知识的积累,这是一个结构化的过程,让更多人把自己的知识体现出来。Graviti 是坚信知识积累过程的一家企业,所以在做系统架构的时候,也会充分考虑到主动学习、迁移学习的价值,让我们的系统变得越来越聪明。

第二个部分是用这些知识去解决一些实际的问题,比如怎么更好地组织知识,甚至以一些我们不理解的方式去学习这些知识,再把这些抽象的概念给解释表达出来。

我相信人工智能永远是个工具,而工具是要解决实际问题的,所以不能本末倒置。
       责任编辑:pj

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分