腾讯云存储针对AIGC大模型业务的应对之道

描述

AIGC,即人工智能生成内容,是指利用人工智能技术,根据用户的需求和意图,自动生成文本、图片、音视频等多种形式的内容。AIGC具有高效、多样、创新的特点,可以应用于娱乐、教育、营销、新闻等多个领域,为用户带来更丰富的体验和价值。

比如我这篇文章的配图,就是用AIGC生成的。我在bing图像创建器里面输入提示词“一个聊天机器人在给病人做心理咨询”,就可以得到上面的图片。

而大模型是指具备海量参数和复杂结构的人工智能模型。例如,GPT-3是一种具有1750亿个参数的大型语言模型,具备惊人的语言理解和生成能力。大模型的训练需要大量的计算资源和数据,但其带来的创作能力和自动化程度是前所未有的。大模型可以通过输入一小段文本,自动生成连贯、有逻辑的文章,为创作者提供了强大的辅助工具。

有大模型加持的AIGC随着chatGPT的火爆,已经是路人皆知了。很多企业也纷纷加入了这个领域的竞争。对大模型AIGC的支持也成了很多先进企业选择云基础设施重点考虑的因素。 而腾讯云作为国内领先的云计算服务商,为AIGC大模型场景提供了全面的解决方案。今天,我们就从存储的视角,看看腾讯云存储给AIGC场景提供哪些针对性的解决方案。

人工智能

崔剑作为腾讯云存储产品团队的一员,他从腾讯云存储团队的角度,向大家介绍他们对AIGC场景的思考以及目前的工作和未来计划,旨在帮助国内从事AIGC相关业务的公司更好地进行大模型训练。

大规模训练对于开发者朋友们来说并不陌生。崔剑解释说,大规模训练可以分为两个阶段:训练和推理。在训练阶段,AIGC团队从各个网站收集各种待训练素材,包括他们自己生成的素材。这些初始素材经过初步清洗和标注后,被送入GPU进行训练。训练完成后,训练结果被输入到神经网络中,使得大模型训练的神经网络变得越来越智能。

在训练场景中,数据存储起着至关重要的作用。为了满足不断增长的数据规模和多样化的数据类型,训练场景对存储系统有以下关键要求:

1. 数据湖统一存储:训练场景需要一个统一的数据湖存储系统,能够容纳不同来源和格式的数据。这种统一存储能够将数据集中管理,提供一致的接口和访问方式,简化数据管理和查询操作,从而提高效率。

2. 自由流动的数据:在训练场景中,数据的自由流动至关重要。存储系统应该提供高效的数据交换和传输机制,以便数据在不同业务之间自由流动。这样可以实现数据共享和协作,避免数据孤岛的问题,并且促进跨部门和跨团队的合作。

3. 高吞吐、低时延:由于训练场景通常涉及大规模数据处理和计算,存储系统需要具备高吞吐和低时延的能力。高吞吐能够支持快速读写操作,提供稳定的数据传输速度。低时延可以减少数据访问的延迟,确保训练任务能够及时响应和迭代。

综上所述,训练场景对存储系统有着数据湖统一存储、自由流动的数据、高吞吐和低时延的关键要求。满足这些要求的存储系统能够支持高效的数据管理、协作和处理,为训练场景的成功实施提供可靠的基础。

基于这些训练结果,业务团队将其进行推理和应用的封装。推理和应用包括文本生成、图像生成、视频生成等功能。终端用户可以提供输入,例如一段文本,希望生成相应的图像或古诗。输入进入推理系统后,系统基于神经网络的积累,通过服务端返回结果。在这个过程中,还有一些重要的旁路模块,如内容审核。

由于所有内容都由机器生成,可能涉及政治、色情或恐怖主义等问题,各大平台都投入了大量资源进行内容审核。 推理的结果可以应用于2B或2C的平台。对于2B平台,需要对推理结果进行管理,可能还需要下游内容管理的解决方案。崔剑表示,腾讯云在AIGC领域投入了大量精力,提供全面的解决方案,包括计算、存储、网络、容器和云原生等调度能力。时间有限,崔剑仅从存储团队的角度介绍了他们在腾讯云AIGC解决方案中的贡献。

人工智能

AIGC的核心要素包括内容生成、内容审核和内容智理三个维度。内容生成是指利用深度学习模型,根据用户输入的关键词、语句或图片等信息,生成相应的内容。内容审核是指对生成的内容进行合法性、合规性和质量的检测和筛选,防止出现违规、低俗或不符合用户期望的内容。

内容智理是指对生成的内容进行结构化、分类、标签化等处理,提高内容的可检索性和可利用性。 腾讯云作为国内领先的云计算服务商,为AIGC场景提供了全面的解决方案,其中和云存储相关的包括:

- COS对象存储数据湖:基于腾讯云对象存储服务,为AIGC提供海量、安全、低成本的数据存储空间,支持多地域部署和跨地域复制,满足AIGC数据管理的需求。

- GooseFS数据加速:基于腾讯云自研的分布式缓存系统,为AIGC提供高性能缓存服务,利用GPU节点的内存或NVME SSD作为缓存介质,实现数据与计算节点的就近访问,提升数据访问效率。

- 数据万象内容审核:基于腾讯云数据万象服务,为AIGC提供全方位的内容审核服务,包括文本审核、图片审核、音视频审核等,利用业界领先的语义模型和海量的违规词库,快速识别出生成内容中包含的违规、低俗或不合适的信息。

- 企业网盘数据智理:基于腾讯云企业网盘产品,为AIGC提供高效的数据智理服务,包括对用户的数据集、Fine-tuned models、生成的内容进行结构化、分类、标签化等处理,并支持多模态检索和跨平台分享。 通过以上解决方案,腾讯云为AIGC场景提供了端到端的支持,帮助开发者们快速搭建AIGC应用平台,实现内容生成革命。

西瓜哥做存储很多年,采用对象存储做数据湖,采用分布式文件系统做大模型训练加速,这都是业界的常见做法,我也很容易想到,相信其他公有云厂商也是如此。但是,腾讯云引入了成熟的数据万象内容审核平台,帮助用户解决AIGC的合规问题,尤其有价值。并且最后通过网盘对AIGC的产出内容进行高效的管理,让AIGC的价值充分释放,我觉得也是腾讯云的一个亮点。

针对腾讯云存储的AIGC解决方案,有四个重要的步骤。

Step.1

人工智能

第一步是数据集下载和预处理,在这一关键步骤中,国内的公司与国外的ChatGPT存在一些差距。崔剑认为,这种差距主要体现在两个方面。首先是算法方面,虽然ChatGPT在早期的几个版本中公开了一些算法,但新版本的算法并没有公开,因为他们认为这是他们的核心竞争力之一。

其次是标注能力,这可能是大家容易忽视的因素。质量好坏与标注的准确性有关。对于经典的AI标注来说,例如对一张图片进行标注,判断其中是否有人物或风景,如果是人物,还要判断性别和肤色等,这些问题可以通过简单的问答进行标注。

然而,在大规模模型训练中,对结果的精确度要求非常高,且复杂度较高,因此标注环节的技术要求较高。问题不在于是否能正确回答问题,而在于提问者如何提出问题,问题的质量将决定标注数据的水平,而标注数据集的质量则决定了最终产物的质量,这也是一个核心竞争力所在。

由于国内公司在这方面的积累时间相对较短,可能会根据自身的技术积累进行标注,也会从国外网站获取数据。国外有一些网站提供了这样的服务,用户可以免费下载已标注好的数据作为训练素材集的冷启动。 对于从国外网站获取数据这个场景,国内许多公司的第一步是拉取数据,但面临一个问题,即如何快速将这些数据拉回国内。

在这方面,腾讯云提供了多种解决方案,包括离线、在线、存量和增量数据等。针对这个场景,腾讯云的解决方案是MSP腾讯数据迁移平台。它是一个PaaS平台,通过可视化操作,可以将数据从国外网站快速拉取到国内存储桶中,这就完成了第一步的操作。

Step.2

人工智能

第二步就是训练了。在训练过程中,存储在配合GPU的使用上起到了重要的作用。由于GPU的稀缺性和珍贵性,我们必须在存储方面做好数据拉取加速,以更好地提供数据给GPU,避免浪费时间,并尽快将数据传输给GPU,从而减少GPU等待时间,提高GPU算力的利用率,从而节省成本。为了实现这个目标,我们需要分析整个训练流程是怎样的。

整个训练流程中,涉及到大量的IO操作。原始素材由用户汇集在云上对象存储的存储桶中,上面架设了GPU。训练模型这一方面会进行高带宽的数据拉取,将待训练的素材批量拉取到本地,方便对待训练素材进行向量化压缩和本地模型运算。

然而,在进行本地模型算力过程中,会不断进行Checkpoint的回写操作。不同厂家的回写策略不同,但都会周期性回写一次Checkpoint大文件,这对存储侧的写带宽和读带宽都有较高的要求。 为了满足用户对带宽和IO性能的高要求,腾讯云提供了一套方案。

COS对象存储汇集用户全量素材的产品,决定要拉取哪些数据可能会根据每日或每周的待训练任务而变化。推荐用户通过预热的方式将数据Load到GooseFS中。GooseFS是部署在用户计算端或近计算端的本地文件系统,它有效利用了GPU本地的SSD资源。

在常见的GPU卡中,都搭载了三到四块SSD盘,我们可以充分利用多台GPU本地SSD盘,将其构建成一个统一的GooseFS文件系统。一旦数据拉到本地GooseFS后,用户即可以在GPU本地进行更高效的读写训练操作。 在这个方案中,腾讯云希望持续打磨GooseFS这一层的能力,充分发挥方案价值。

如果用户直接从COS读取数据可能会在性能上存在一些瓶颈,从绝对的数据角度来看,各家COS服务商根据单个逻辑桶提供OPS,一个单桶可能只能提供3万OPS,也只能提供2GB的带宽,即15-16 GBps。这显然是不够的。然而,如果能事先一次性将数据Load到GPU本地,运行本地的GooseFS,释放本地SSD的带宽,那么GooseFS可以达到TB级的带宽,能够充分满足GPU本地训练框架的性能要求。

整体的训练加速比可以提升数十倍。此外,除了GooseFS层面的加速,如果需要的话,还可以进行AZ级服务端加速,进一步提升整个训练过程的效率。

Step.3

人工智能

第三步就是推理了。在推理阶段,腾讯云已经走得比较快,开始考虑商业化或产品化的封装,这一步非常重要。腾讯云提供了一套内容审核方案,整个流程相对简单易懂。用户首先在AIGC产品客户端输入一个要执行的任务,但是用户输入的文字需要经过审核,因为有些描述可能不合规范。

因此,腾讯云先进行审核,检查用户输入的内容是否有问题。如果没有问题,数据就会传递到模型大脑这一层。模型大脑根据输入进行分析和理解,并指导用户获取他们想要的结果。然后,在第③步中,产出的结果会再次发送到腾讯云内容审核的服务端进行审核。一旦审核通过,结果将在第④步和第⑤步之后再次返回给用户。 崔剑介绍,腾讯云存储数据万象产品提供了数据处理和数据审核服务,已经成功运营多年。在审核能力和精准度方面,腾讯云在行业内处于领先地位。

Step.4

人工智能

最后就是结果的管理了。在最后一步中,推理产物的使用者可能是个人,也可能是一家公司。对于后者,可能需要涉及到下游流程。根据业务需求,公司通过接口请求获取推理产物,并需要进行管理。这个产物可能会作为知识库的一部分存储在公司内部,也可能需要在公司内部进行分发或汇总。为了解决这个问题,腾讯云存储团队提供了企业网盘作为最终闭环的解决方案。企业网盘是一种常见的SaaS办公软件,可以提供文件多人协作、一对多、多对多、多对一的文件分发和共享功能,同时支持移动办公。

在上面的四个部分,比较触动俺西瓜哥的其实是第一步。因为我知道,数据的收集和整理是最难的,也是工作量最大的。腾讯云能够提供很多自动化的数据迁移和标注工具,这个对用户的帮助是真的很大。俗话说,数据管理汇-存-算-管-用,汇是第一步。腾讯云的AIGC解决方案也覆盖了所有的这些标准动作,形成了闭环。

除了在AIGC产品中提供闭环解决方案外,腾讯云存储还在底层不断升级引擎,降低成本、提高性能和可靠性。在产品能力方面,腾讯云存储拥有三个核心产品。首先是公有云存储COS,其次是私有云存储TStor,该产品将存储技术集成到一体机中,可供企业进行线下部署。最后是智能存储的核心产品数据万象CI,它可以帮助用户处理存储在云上的数据,例如为图片打水印、进行转码和审核等智能存储功能。

人工智能

腾讯云存储团队孵化了许多PaaS和SaaS级存储产品,包括数据湖存储GooseFS、企业网盘和视图计算等。这些产品旨在满足不同行业和使用场景的需求。 腾讯云存储团队与腾讯云的各个行业团队紧密合作,为各个行业提供定制的解决方案,以满足其特定需求。不论您所在的行业是哪个,腾讯云存储团队都致力于提供优质的服务。

根据崔剑老师的介绍,我们了解到腾讯云存储针对AIGC的解决方案主要包括以下几个方面:

-在数据集的下载和预处理阶段,提供 MSP 数据迁移平台,帮助用户快速将标注好的数据迁移到云上对象存储桶。

- 在大模型训练阶段,提供 GooseFS 分布式文件系统,利用 GPU 本地的 SSD 资源,加速数据的拉取和缓存,提高 GPU 算力利用率,实现训练加速。

- 在推理阶段,提供数据万象的内容审核服务,对用户输入和推理产物进行质量把控,防止涉政、涉黄、涉恐等问题。

- 在推理产物管理阶段,提供企业网盘服务,支持文件多人协作、共享、分发和移动办公,帮助用户管理和利用推理产物。

西瓜哥的简单解读就到这里了,我们看到,腾讯云存储团队为 AIGC 领域提供了一套全面、高效、智能的解决方案,从数据集的下载和预处理,到大模型训练,再到推理和推理产物管理,展现了强大的技术实力和创新能力。这些解决方案不仅降低了用户的成本和时间,提高了用户的效率和质量,还为用户带来了更多的可能性和价值。  





审核编辑:刘清

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分