随着5G、AI、大数据等新一代信息技术在千行百业中深度应用,非结构化数据呈来源多样化、维度丰富化、数据量爆炸式增长的特征,数据体量从早期的TB级、PB级过渡到现今的EB级。据IDC预测,2025年全球新增数据可达175ZB,其中80%为非结构化数据,大量数据以多模态形式呈现。
非结构化数据多模计算的应用场景
非结构化数据多模计算涵盖海洋观测、自动驾驶、石油勘探、天文观测、生命科学、AIGC、六大应用场景。
海洋观测预报系统。海洋多模态数据具有超巨系统属性,根据当前关于海洋数据量的研究,2030年全球海洋数据总量将达到275PB。NETCDF(Network Common Data Form)是海洋多模态数据最常用的存储格式,海洋遥感图像和时空序列数值是其数据主体。海洋物联网的快速机动组网观测系统是海洋科学研究的基础,由信息感知层、信息传输层、信息处理层及信息应用层组成。目前海洋观测手段正由固定平台观测向固定与移动平台协同观测方向发展;海洋信息传输系统主要以岸基移动通信、海上无线通信、卫星通信和水声通信等网络体系实现对全球覆盖;信息处理层是指开发快速机动组网观测系统软件,基于海洋观测装备及传输链路,研究多平台、多要素海洋环境及目标实时数据采集技术;信息应用层是指生成数据分析产品,提供信息分发与共享服务,并与国家海洋环境安全保障平台对接。
自动驾驶感知系统。自动驾驶驱动的核心是高质量的标注数据,并基于海量的数据来优化训推模型。据统计每辆测试车每天产生约25TB数据,一个中等规模的车队每年产生几十甚至上百PB的数据。自驾车辆终端采集的数据类型包括LiDAR数据(bin格式)、RGB图像(jpeg格式)、标签数据(txt格式)与CALIB校正数据(txt格式)。自驾的全生命周期过程包括数据采集、数据存储、数据预处理、数据标注、模型训练、仿真测试与部署发布,上述环节中所使用的工具和平台,被称作“工具链”。以数据处理为例,单数据类型就多种多样,包括摄像头数据、毫米波雷达数据、激光雷达点云数据,需要先对这些数据进行去噪,也就是所谓的“数据清洗”。数据处理完成后,下一步便开始数据标注。标注的类型大致可分为2D、3D目标物标注、联合标注、车道线标注和语义分割等,还要涉及到具体标注规范和标注质检流程,整个流程异常繁琐。而这复杂流程的每一个环节,都需要与之对应的工具和存储的支撑。
勘探开发一体化系统。石油勘探开发包含地震、钻测井、油气水井等与生产开发相关的多种数据类型。目前陆上高精度三维地震数据体规模可达几十TB,海上原始地震数据体可以达到上百TB。地震数据是地震勘探中体量最大的数据类型,SEG(Society of Exploration Geophysicists)是地震多模态数据最常用的存储格式,野外采集地震数据为64位SEG-D格式,室内地震处理在数据交换基本都采用32位SEG-Y格式。钻测井中核磁共振与成像测井数据的体量最大,对测井数据存储速度、可靠性、安全性与精确性的要求较高。油气井等开发数据以现场大量的实时传感数据为基础的,处理时限要求高,各类传感终端产生实时、连续的事件流,数据流处理系统必须快速对其进行响应并及时输出结果。
非结构化数据多模计算融合存储解决方案
不同应用场景的非结构化多模计算涉及计算、感知、调查、文献与结果等多种数据类型。计算数据包括科研平台、功能实验室等产生的数据;感知数据涉及大数据物联网前端传感器、视频与雷达等实时采集的数据;调查数据指统一的调查报告平台,如科研数据、任务报告、数据报告等汇总的过程数据;文献数据是通过网络、爬虫、期刊、会议、舆情等途径收集到的相关新闻、论文、报告等数据;结果数据涵盖云平台、容器平台、大数据平台、GPU渲染节点和AI计算节点在离线渲染和计算产生的结果数据。基于非结构多模计算的应用场景,浪潮信息发布新一代分布式存储产品与端到端一体化的解决方案,帮助客户存好、用好、管好核心数据资产。
新一代分布式存储产品
AS13000G7/AS15000G7
AS13000G7面向多模数据融合应用场景,提供多源数据零拷贝技术,实现文件、对象、大数据、视频四种协议融合互通,承载非结构化多模计算的实际应用,减少数据拷贝过程中的性能开销。有效解决非结构化数据多模计算应用场景下,各协议数据无法互相访问、高效融合共享的问题,消除存储信息孤岛。
AS15000G7则是面向高性能应用场景,是一种专门为集群环境设计的高性能、可扩展的、具有全局统一命名空间的并行文件系统。可以在群集中的多个节点间实现对共享文件系统中文件的快速存取操作,并提供稳定的故障恢复和容错机制,存储软件功能包括生命周期管理、GDS、文件双活、数据压缩与隔离、远程异步复制等。
端到端一体化存储解决方案
一套集群配置高速SSD与大容量HDD等多个存储池,依据业务需求灵活调整,更好地对接现有和未来可能部署的云平台、容器、大数据、物联网(IOT)等各种应用。同时,整个集群也可以将多种存储池进行统一管理,部署成一个存储集群,这样既能更好地满足业务需求,也能保护投资,避免资源闲置。基于标准协议,分布式存储集群无缝对接云平台应用,并为计算资源提供块、文件、对象、大数据、视频等多样化的数据服务,灵活承载私有云、公有云和混合云平台。存储容量和性能实现弹性扩展,安全隔离租户底层的数据资源,数据可靠性为99.9999%,实现存储资源的统一管理和调度。
应用“存算分离”大数据集群架构,数据存放在专业的存储节点,便于客户分级分类管理。分布式存储通过原生HDFS协议对接大数据平台,提高数据访问效率,简化运维管理。存储集群基于CSI接口对接容器平台,承载非结构化多模计算场景中的敏态业务,为Kubernetes集群中的应用自动地提供持久化存储服务,同时也便于其它容器平台通过CSI接口获取存储信息并调配底层存储资源。人工智能平台作为AI软硬件技术的融合载体,将为AI产业的发展提供大规模数据处理和高性能智能计算支撑,具有高度并行的特点。应用高性能并行存储文件系统对接AI训推一体化平台,满足模型训练推理过程中超高带宽、极低时延与极致IOPS需求。
面对增长迅速、多维、海量等特性的非结构化多模数据,传统集中式文件存储方式在数据使用率、查询分析效率、安全维护和管理上存在不足。浪潮信息通过软件化的模块定义方式,提供非结构化数据多模计算场景下端到端一体化的融合存储的解决方案,实现同一基础架构上不同应用之间的数据业务应用融合,提升集群“存算协同”的能力,降低了用户投资、维护和管理的成本。
全部0条评论
快来发表一下你的评论吧 !