电子说
如果说人工智能是未来的“电力”,那么数据就是发电的“燃料”。在面向未来技术升级的过程中,那些拥有大量数据的组织有机会最早利用这些“燃料”来发“电”。这其中,世界知识产权组织(WIPO)在使用人工智能技术方面的实践可以作为有价值的案例之一。
WIPO是联合国领导的发展国际知识产权制度的专门机构,是由191个成员国组成的关于知识产权服务、政策、合作与信息的全球论坛。WIPO的专利合作条约(PCT)是一个国际专利体系,方便申请人在国际上寻求对其发明的国际专利保护,帮助专利局出专利授权决定。通过PCT提交国际专利申请,申请人可以同时在全世界大多数国家寻求对其发明的保护。WIPO的特性决定了其在专利领域拥有海量的专业数据。随着全球知识产权申请数量不断增加,相关数据的数量增长使得不使用AI工具采集和分析数据变得几乎不可能。
截至2017年2月,PCT已经授权了300万件国际专利。由于在WIPO的专利申请数据库中,大约只有三分之一的文件为英文,因此在国际专利保护领域,涉及到大量专利申请文件的翻译工作。
对于像WIPO这样的非技术性组织来说,如何进一步运用自身积累的大量数据资源?如何使用新技术减少巨大、枯燥并且重复性人工劳动的工作量?有没有可能通过技术手段,帮助工作人员提高专利、商标等知识产权方面的审查工作?在这一波人工智能的热潮来临之前,WIPO早在2010年就已经开始进行人工智能技术在专利领域方面的应用探索。
WIPO在知识产权领域开发和应用人工智能方面一直处于领先地位。2010年,WIPO全球数据库部门的Christophe MAZENC招聘到了人工智能应用开发的第一位员工。两人开始了WIPO机器翻译工具的开发工作,两年以后,WIPO有了第一个版本的机器翻译工具。到今天,这个团队发展成为先进技术应用中心(ATAC),第一位AI开发者Bruno Pouliquen也已经成为部门负责人,管理着5人的团队。
ATAC作为WIPO内部的AI技术开发部门,负责自下而上的规划WIPO的AI应用开发路线,工作之一是扫描各部门所拥有的数据,分析在这些数据的基础上可以开发出怎样的应用;另一方面,ATAC与WIPO各成员国的知识产权局保持沟通,交换数据,跟踪成员国知识产权局的人工智能应用进展。
WIPO采用内部开发而非外包的方式,自己开发了基于神经网络的机器学习翻译工具WIPO Translate。 与早期的工具相比,WIPO Translate对专利文件的翻译更加自然,尤其是像英文和中文这样差别很大的语言。与市面上通用的翻译工具使用更广泛的文档进行训练不同,WIPO Translate完全依靠知识产权相关文档进行训练。
因此WIPO的翻译工具在全球专利翻译领域处于领先地位。在WIPO内部的专利数据中用中文、日文和韩文这三种语言撰写的专利占全世界专利申请量的一半以上。通过翻译软件帮助工作人员理解专利的内容,可以减少WIPO对外包翻译公司的依赖,同时提高内部职员的工作效率。为了评估WIPO机器翻译工具的翻译质量,研究人员使用了一个名为 Bleu 的程序,由 AI 专家来评估机器翻译系统。
结果表明,在专利文献翻译领域,WIPO的表现优于我们常用的 Google 翻译。
2010年开始做机器翻译项目的只是两个人的微型团队。发展到今天也仅是五个人的小团队。WIPO总干事弗朗西斯?高锐(Francis Gurry)认为,一方面专利可以帮助发明人保护和促进他们的发明,另一方面还披露了其他人可能用来开发新创新的重要细节。WIPO Translate工具有助于在全球传播这种知识。
微型技术团队的细分领域探索
任何的机器学习技术,都需要经过合适的训练数据集的“训练”才能产生作用。因此,ATAC需要找到足够的训练数据,才能在此基础上开发。这个小型开发团队决定在拥有高质量数据、最新数据的领域做开发。
ATAC是如何为算法找到大量训练数据集的?与谷歌翻译所不同的是,WIPO没有海量的互联网数据做“燃料”。但Bruno认为,一个高质量数据训练集比一个更大的数据训练集更好。而且,使用最新的数据比更多的数据更重要。
在专利领域,使用最新的术语能够训练出更好的模型。ATAC使用高质量数据的办法是这样的,他们找出曾经在美国和中国都申请过的中文专利,从中国专利局和美国专利局获得同一个专利文件,用这些经过官方认证的翻译文件来训练机器学习算法。在中英翻译方面,ATAC将中国国家知识产权局提供的共计 6000 万句中文,与由专业人员翻译并提交给美国专利局的英文版进行对比“学习”。
另一方面,ATAC使用开源技术进行开发。Bruno认为对于突破性技术,通常开源技术会更先进。在机器翻译领域,有非常好的开源图书馆,WIPO的技术开发人员基于开源的资源的基础上,结合对业务的理解,开发出对自己的业务有实际帮助的AI工具。
内部开发的优势是可以从内部的角度,对业务熟悉,项目开发人员能够更好的将业务需求和产品开发精准的结合起来,在技术开发团队里既有技术人员也有业务人员,由于工程师本身知道业务是怎么运作的,可以将自己当做工具的“用户”,因此不需要翻译和解释别人的需求。
利用开源软件的另一方面的好处是,项目完成后,WIPO完全拥有这项技术,并且可以将这项技术与其他组织机构分享。目前,WIPO已经授权韩国特许厅(KIPO)使用,为对方提供了工具并且帮助对方进行知识转移。除了联合国以外,国际电信联盟(ITU)、国际货币基金组织(IMF)、国际原子能机构(IAEA)等联合国专门机构都对WIPO的机器翻译工具表示出兴趣。
使用开源技术的另一个原因是,WIPO掌握的专利信息不便于与第三方分享,从知识产权保护的角度,开源技术可以避免相关的知识产权泄露。
虽然是内部开发,但Bruno的团队还会借助“外脑”使自己能够掌握最新技术。ATAC与学术界有很多合作,与学术界建立了良好的沟通网络,以此了解和掌握相关领域最前沿的技术。通过阅读科学期刊上的最新论文、参加国际学术界会议等方式来保持对自信技术的追踪。因为通常学术界的技术开发都是开源的。ATAC通过对学术界最新研究的跟踪与学习来保持技术的领先性。
高锐称,WIPO目前正在寻找知识产权领域中其他可以应用机器学习技术的业务场景。衡量的标准包括:是否能够解决当前或者未来WIPO和成员国基于知识产权的大数据(如专利信息)的业务需求;可用训练数据的数量和质量等。高锐认为,重要的不是人工智能本身,而是知识产权(IP)管理部门和公众如何通过充分利用人工智能来提高知识产权服务质量并创造新知识。在将AI技术应用到知识产权管理领域中,WIPO与各成员国及各国知识产权局的协调合作非常重要。
2018年5月,WIPO在与其成员国在关于AI应用的咨询会议上确定了以下领域作为AI应用的最有希望和优先的领域:(1)机器翻译和其他自然语言处理技术;(2)专利自动分类和商标申请商品/服务自动分类;(3)商标和专利审查及形式审查;(4)帮助台服务(自动回复客户端);(5)专利现有技术检索和商标图形要素检索。
目前,除了机器翻译应用,WIPO与学术界进一步的技术合作进行专利自动分类的应用开发。在WIPO工作人员接触的专利里,有一些是没有根据国际专利分类(IPC)来分类的,如果采用机器学习的方法自动通过文档本身的内容来判断出专利应该被分到哪个类别里将极大的提高分类效率。除了WIPO,在世界各地的知识产权局,也在商标图形检索、商标审查、专利现有技术检索与分析、服务聊天机器人等人工智能领域有许多AI技术的尝试性应用。
对其他组织转型的建议
什么样的组织有条件进行人工智能方面的尝试?Bruno认为,组织需要满足两方面条件,(1)有足够的应用数据,(2)有AI应用场景。WIPO对于应用AI的建议是自下而上的开发,审视组织内部拥有什么样的数据,在这个基础上分析可以开发哪些应用。正所谓巧妇难为无米之炊,在Bruno看来,AI是一个机器学习的过程,需要很多数据来训练神经网络。分析组织有什么样的数据,在数据的基础上分析可以开发什么样的应用是更符合逻辑的。
如果没有适当的“培训”数据,则不是每一项业务需求都能通过机器学习实现。因此WIPO的一个最佳实践就是:首先在启动开发之前确定数据的可用性、质量和数量,然后遵循高科技领域里的惯常做法:快速建立模型,迭代开发。
WIPO仅使用开放源代码库,因为在这样的尖端领域,通常最先进的是开源的。 此外,开源可以根据自己的需要客户化定制/调整软件,然后与其他公益组织共享软件。
WIPO在使用AI开发的逻辑,给了非AI技术类组织一些有益的启示。WIPO的经历证明,对于已经有了海量训练数据集的组织,内部建立起应用开源框架开发的小型技术团队,利用组织对业务模式和用户使用需求的深刻理解,经过海量的数据训练,是一条走得通的转型路线。
全部0条评论
快来发表一下你的评论吧 !