数据能“喂养”出真正的人工智能吗?(含2019年1-7月数据服务企业融资分析)

电子说

1.3w人已加入

描述


人工智能产业在经历了60多年酝酿后终于达到了目前的爆发期。然而,与强劲的发展势头和旺盛的行业需求相对应的,是巨大的数据缺口。

作为人工智能三大要素的首要因素,数据是人工智能持续进化的动力原料。处于大数据背景下的人工智能,每一项技术在具体场景的落地应用,背后都离不开海量数据的支持。随着以深度学习为代表的算法在诸多领域被逐渐应用,对优质数据、尤其是优质一手数据的需求量快速增长。

但是,这些“有价值”的数据往往很难依靠市场上的“公开数据”获取。数据的采集、清洗、标注,一方面需要耗费大量人力、时间,另一方面,如果数据不规范,量不够大,难以满足专业化的应用需求,这就为专门做数据服务的公司提供了新的市场机遇。在人工智能产业链中,专业化的数据服务商越来越受到重视,也成为当前的投资热点。

2019年1-7月数据服务企业融资情况

据<电子发烧友>不完全统计,截止2019年7月31日,中国市场数据服务商完成融资的有38家。根据事件中披露具体融资信息的企业来看,成长期、成熟期企业更受机构青睐。融资规模Top8事件中,仅一起为A轮,其余均为B轮及以后。

其中:Top1明略数据,D轮20亿人民币;Top2睿智科技,A轮6.5亿人民币;Top3城云,C轮3亿人民币;Top4森亿智能,C轮2.5亿人民币;Top5瑞驰信息,B轮2.4亿人民币;Top6 Kyligence,C轮2500万美元;Top7并列为中科闻歌和热云数据,分别是B轮1亿人民币,B+轮1亿人民币;Top8巅峰云智,B轮8000万人民币。

以下是<电子发烧友>整理的2019年1-7月国内数据服务商融资名单:

什么样的数据服务企业受资本青睐?

抽取上述融资事件中规模排名前三的企业以及一家典型企业做如下分析,不难发现:商业模式清晰,成熟技术易形成场景规模化应用,在某一或某几个领域有独到优势的数据服务商更受资本青睐和追捧。

明略数据被称为是大数据与人工智能领域的独角兽企业,覆盖安防、工业、数字城市、金融四大垂直领域。创立了“符号主义和深度学习有效结合”的人工智能顶层设计方式,打通感知与认知智能。并在各个行业领域推进知识驱动和数据驱动模型相结合的应用。在安防领域,由公安部第一研究所牵头、明略联合编写的《公安知识图谱标准与白皮书》于去年9月发布,基于这一公安知识图谱的系统已部署到60多个部、省、地市和区县级公安部门;在金融领域,完成了银行业全行级知识图谱数据库,并为中国人民银行、交通银行、光大银行等多位行业标杆客户构建了基于不同业务场景下的应用系统,提升风控效率的同时完善了客户整体风险管理能力;在数字城市领域,实现了车辆全生命周期数据管理的智能化平台,通过帮助轨交运营单位提高工作效率,将安全风险和运营成本等指标综合下降10%。

不同于明略数据多领域的覆盖,睿智科技主要为广大金融机构提供风控、获客、服务、平台。产品体系包括信贷风险管理、智能催收、一站式智能决策云和智能导流等产品。该公司在解决金融信息非对称方面形成了独到优势,并构建了大规模产业化的应用场景。凭借在大数据洞察力及人工智能领域打造的清晰的发展图景,该公司曾在2018年7月完成了1亿元规模的Pre-A轮融资,并在不到一年内完成A轮6.5亿融资。

城云定位于城市互联网运营商,完成了绿地控股的C轮3亿元融资。该公司将大数据技术与传统数据存储系统相结合,充分利用行业积累的经验及客户源,集成公司内部、政府企业客户的可公开数据、互联网数据搜集等多种渠道的数据资源,提供大数据消费平台,为客户积累数据资产、提升运营效率,创造经济价值。主要服务对象是城市客户、小镇园区客户和产业级企业客户。应用场景包括交通、安防、城管、政府、公共事业等。截止今年5月,城云的业务已覆盖了20个省份的100多个城市,服务了1000多家行业客户和超过10万家中小企业客户。过去一年,公司先后进入了浙江省数字经济一号工程和5个杭州城市大脑专班,城市管理业务深入覆盖了7个省份,打造了数字经济领域主赛道的10个样板。

九次方大数据是唯一一家在两个月内获得两轮战略融资的企业,该公司专注于服务全国各级政府政务数据开发应用。该公司与政府合作开发数据的方式,是通过为相关数据方提供数据处理工具,从而在保证数据本身不被泄露的前提下,得到有价值的数据分析结果。正如该公司创始人所说,他们仅提供数据管道,将政府部门的数据价值发掘出来,输送和传递出去,而不是用一个水桶,将数据本身带走。我国80%以上的数据资源由政府掌握,该公司敏锐地捕捉到了政务数据的主流价值,以数据资产运营为模式,对政府数据进行合法开发利用,打造数字经济增长。

数据缺口面前是AI基础方法论瓶颈所在

互联网时代积累的大量数据和云计算带来的算力的大幅提升,极大地释放了深度学习算法(深层的神经网络)的潜力,因而也让人工智能时代全面爆发。

但是,有业内专家认为,AI的发展现状仅相当于“互联网在上世纪90年代初期的阶段”,主要方法论仍是基于大数据、大计算模式,需要海量数据去“喂养”。人工智能并不会像人类那样推断出结论,而是需要大量的数据来教授和培训,进行不断地试验和错误学习。

清华大学人工智能学院院长张钹院士曾在公开演讲中表示,数据量的大小并不是当前的根本问题所在,传统的人工智能三要素将不能带来真正的智能。这主要因为现在的人工智能基本方法有缺陷,只有走向具有理解能力的人工智能,才是真正的人工智能。

理论上看,深度学习是机器学习中一种基于对数据进行表征学习的方法。表征学习的目的,是通过从大规模数据中进行学习,不断追求更好的表示方法,即通常所说的模型。人工智能产品精准的识别度需要大量的数据样本支持其计算机进行深度学习、训练,也就是说,精准的数据是现阶段人工智能产品研发结果的核心要素

张钹院士认为,深度学习之所以能够极大地促进人工智能的发展,技术上的关键在于人们能够将获取的标量数据转变为向量,从而用到机器上。但至今为止,将行为(特征向量)和数据(符号向量)结合起来使用始终是科研的难点,而这就限制了机器变得更“智能”

不仅如此,从安全层面来看,纯数据驱动的系统也存在很大问题——鲁棒性很差,易受到很大的干扰。即使在大量样本的训练下,系统仍会犯重大的错误。哪怕训练出的系统模型准确率高达99%,但在实际应用中,系统仍然会犯很多“弱智”的错误。

不可否认,深度学习比一般的数据统计和机器学习方法都要更高级。但随着产业应用的成熟,以及大家对真正“智能”的渴求,让深度学习算法本身的局限性显露无疑。

Google 人工智能研究人员 Francois Chollet 提出,深度学习的成果是建立在极其苛刻的前提条件之上,需要大量的数据进行支撑。数据质量如果不稳定,带来的就是:不可靠、不准确。此外,还有最大的风险:不安全

「生成对抗式网络」(GAN)的发明人 Ian Goodfellow就曾提醒我们:现在的神经网络可以很容易被不轨之徒操纵。例如他们可以通过肉眼无法识别的方式,篡改图片,让机器错误地辨识这个图片。这种恶意篡改人工智能系统的做法,会带来极大的危害,尤其是被篡改的图片和最初的图片在我们看来完全是一回事。比如说无人驾驶就会受到威胁。

正如Francois Chollet所说:“你不可能就以今时今日的技术研发成果作为基础,就能实现某种一般意义上的智能。”

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分