阿拉伯语自然语言处理模型NOOR的详细介绍

文传商讯 2022-04-12 2898

描述

阿布扎比先进技术研究委员会旗下的全球研究中心和应用研究支柱部门技术创新研究所(TII)今天宣布推出NOOR语言处理模型，这是迄今为止全球规模居首的阿拉伯语自然语言处理(NLP)模型。

TII的高级研究人员和人工智能专家团队与LightOn联手，对这个阿拉伯语NLP模型进行了改进。LightOn是一家专为企业提供超大规模机器智能的技术公司。NOOR模型能够执行超出语言领域的任务，可提供覆盖整个端到端处理管道的高质量数据，包括大规模数据抓取、过滤和管理。该模型可促进超大规模数据的分布式训练和服务，基于该模型的应用具有高效推理能力，并可针对特定领域进行模型调整。

TII和ASPIRE首席执行官Ray O. Johnson博士表示：“这一进展将大幅提升我们的研究能力和资质，并提升阿布扎比和阿联酋作为重要研究生态系统的地位。我们的专家团队再次证明，阿布扎比和阿联酋地区可以取得具有世界影响力的、突破性的研发成果。”

TII人工智能跨学科中心部门主任Ebtesam Almazrouei博士表示：“在自然语言处理领域，大型语言模型不断涌现。能推出这个拥有100亿个参数的先进模型，我们感到很自豪。这是全球规模居首的阿拉伯语NLP模型。为训练该模型，我们采集了一套独一无二的大型阿拉伯语数据集。相关工作历经数月时间，包括对各种来源数据的整理、剔除和过滤。在此特别感谢参与该项目的整个团队，他们使NOOR成为世界各地学者和企业首选的阿拉伯语研究模型。”

TII数字科学研究中心和人工智能跨学科中心部门首席研究员Mérouane Debbah教授在发布会上表示：“通过NOOR，TII利用在大型语言模型方面的专有技术，扩大了现代标准阿拉伯语模型的范围，以在新一代人工智能研究中建立跨学科的先进专长。”

NOOR拥有超过300亿字的独特数据集，涵盖网络数据、书籍、诗歌、新闻文章和技术信息等来源，从而打造出全球规模居首的高质量跨领域阿拉伯语数据集，并大幅拓宽了该模型的适用范围。

Ebtesam Almazrouei博士表示，NOOR模型基于流行的Transformer架构，仅包含解码器，结构与GPT-3相似，其设计旨在处理生成类任务。经过升级的架构引入了机器学习领域的最新发展，包括更好的位置嵌入等改进。为确保NOOR大规模数据集的质量，TII团队设计了一个基于机器学习技术的自动过滤管道。相关工具可以识别优质参考文本，并保障模型不受垃圾内容污染。

NOOR利用先进的3D并行技术，在配备128个A100 GPU的高性能计算资源上进行了训练，该过程采用分布式计算模式，能够确保有效利用可用的硬件资源。

人工智能跨学科中心部门主任指出，NOOR只是该部门努力为更广泛的阿联酋人工智能战略做出贡献的第一步。

该模型以阿拉伯语中的“光”命名，以体现模型旨在启迪人类智慧的宗旨。

审核编辑：汤梓红

打开APP阅读更多精彩内容