拓尔思:专注语义智能,为信创领域提供数据服务!

描述

 

电子发烧友网报道(文/李弯弯)AIGC即AI Generated Content,是指利用人工智能技术来生成内容,AIGC也被认为是继UGC、PGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的分支。对AIGC来说,2022年被认为是其发展速度惊人的一年。

然而AIGC却存在它的落地痛点,那就是高昂的通用大模型与下游垂直应用场景需求的不匹配。最近ChatGPT热度持续上升,一方面推动了科技巨头持续加大AI投入,另一方面也直接带动下游付费意愿提升,这将进一步加速AIGC应用落地和商业变现。

早早从事自然语言处理(NLP)研究

在ChatGPT热度这波浪潮中,拓尔思受到了不少关注。拓尔思成立于1993年, 主营业务包括人工智能产品及服务、大数据产品及服务和数据安全产品及服务等。 

在AIGC方面,拓尔思围绕传媒、政府等垂直领域的语料库有非常全面的积累,在智能问答、自动写作或智能写稿、内容播报、创作智能辅助等方面也有成熟的应用场景。

在自动创作方面,公司利用自研互联网大数据资讯平台,在大型体育赛事期间对赛事热点和话题进行大数据分析和研判,通过AIGC的内容自动创作和虚拟数字人进行联合,帮助观众了解最新赛事盛况。在智能问答方面,公司自主研发了一款面向中文的智能问答云服务系统,即TRS小思智能问答机器人。

人工智能包括计算智能(记忆、计算),感知智能(语音识别、图像识别),认知智能(语言理解、分析决策),创造智能(想象、创造) 四个层次。

拓尔思所专注的语义智能位于人工智能的认知智能领域,即让计算机来理解人类语言或其他符号表面数据内含的确切意义,提取出信息或知识,进而进行推理、分析、决策,达到、接近或者超过人类的智慧水平。

据介绍,拓尔思是国内最早从事自然语言处理(NLP)研发的企业之一,在NLP、知识图谱、OCR、图像视频结构化领域都具备自主可控的底层技术。

拓尔思自2000年开始自然语言处理和文本挖掘方面的研究,在国内推出语义智能的商业化软件TRS DL-CKM,并被国内外数以千计的用户采用。

TRS DL-CKM人工智能技术平台,基于机器学习和深度学习开发了50多个功能组件,200多个调用接口,主要应用于智能问答、智能写作、专题分析、智能文本校对、图像识别、知识图谱构建以及多语言实体识别等场景,广泛应用于融媒体、舆情分析、内容审核、智慧公检法、智能风控、对话机器人等多个领域。同时,TRS DL-CKM也为公司其它产品提供AI技术支撑。

数据产品为信创领域提供保障

对于人工智能来说,数据作为主要的生产要素,在产业链中占据重要的位置。以ChatGPT为代表的AIGC大模型技术对数据更是有更高的要求。在数字化发展的当下,国家对数据的重视程度也在加大。

日前,根据国务院关于提请审议国务院机构改革方案的议案,组建国家数据局。负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设。足见数据在数字经济社会发展中的重要性。

一般而言,数据供方包括数据产生者、数据控制者、数据运营者。未来数据运营者汇集数据生产者、数据控制者的数据,并对数据进行存储、处理,形成高价值的源数据和数据衍生品,通过交易系统与需方达成交易,通过平台接口传输数据给需方。 

根据数据来源的不同,可分为单源数据交易平台模式和多源数据交易平台模式。根据数据处理程度不同,该模式可分为源数据交易模式、数据衍生品交易模式以及综合数据交易模式。

拓尔思在数据供应环节和数据服务环节都有深度布局。在数据供应方面,拓尔思基于自主建设的大数据中心,以长期服务多行业用户的开源数据持续累积为基础,建成了具有高商业价值的可运营大数据资源,拥有了规模及质量均位列业界前茅的海量丰富、已经过清洗和脱敏的数据资产。

据介绍,目前拓尔思拥有来自境内外、各行各业的公开数据资产总量超 1200亿,并已具备数千亿数据量的数据索引、标记、查询、挖掘分析能力,日均亿级数据获取能力。其不仅支撑公司多个专业化的数据智能服务,也具有对外的开放接口服务,可支撑面向政府、媒体、金融、公安、商业等多行业用户的大数据云服务。

在数据服务环节,该公司具备完全自主研发的大数据基础平台和TRS人工智能平台,可提供数据采集、清洗、标注、管理等服务。具体产品包括海蜘分布式采集系统、海汇社交视频采集系统、海聚数据融合系统、海贝搜索数据库等。

具体来看,其产品海贝数据库是目前国内少有从底层数据收集,到分词和索引算法,以及储存技术的国产数据库引擎。其核心代码自主率达到100%,且通过多家国家机构认证,可彻底摆脱对 Elasticsearch和Lucene等国外数据库的技术依赖。

在大数据领域,拓尔思突破异构数据对大数据搜索引擎的限制,为索引数据加密提供全方位安全保障,实现了文本、图像特征、二进制的统一索引和跨数据类型跨语言的检索,并采取最新的集群技术提高了可支持的数据规模和多用户并发检索性能,为数据安全和信创领域应用提供全面保障。

小结

2022年AIGC经历了飞速发展的一年,新年初ChatGPT的爆火更是将AIGC推向了新高度,让AIGC的落地商用加速。这也让一些AI企业火出了圈,比如拓尔思。其一是其在自然语言处理(NLP)方面的研究,以及其AIGC在多个领域的成熟应用;其二是它在AI产业链主要环节数据方面的深厚积累,在数据方面可以为信创领域提供服务。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分