ChatGPT和OPEN AI的现有困局和可预见的未来

AIOT大数据 2023-03-10 2008

电子说

1.4w人已加入

描述

近日AMD掌门人苏女士表示，随着以ChatGPT为代表的大语言模型（LLM）逐渐流行，AI模型的参数量指数级上升，而相应地对于计算芯片和内存的需求也在快速提升，但是目前芯片的效率并不足以满足模型的需求。根据目前计算效率每两年提升2.2倍的规律，预计到2035年，一个超级计算机需要的功率可达500mW，相当于半个核电站能产生的功率。

这不由让人想起空气币的操作，为了从网上“挖矿”，大量的GPU矿机一起运行，同样需要大量的电力来维持，高峰时期曾有空气币公司把一个国家一半的电力给消耗掉。

与空气币不停的生产区块链碎末又不停的在网上搜索区块链碎末并拼凑区块类似，大语言模型（LLM）也是通过在网上搜索大量的数据，并依赖数据的关联性，拼凑出输入端描述的“语言画像”。

如ChatGPT 是由 OpenAI 研发的一种语言 AI 模型，使用海量语料库来生成与人类相似的反应。ChatGPT 是基于 GPT（generativef pretrained’ transformer）架构搭建的，主要用深度学习来生成连贯且具有意义的文字。这个模型使用了来自于网站、书本和社交媒体的海量文字数据，因此也为 ChatGPT 在保证准确性和细节的同时，提供了广泛的对话反馈。对话反馈是 ChatGPT 的核心功能之一，也使它成为了实现聊天机器人或其他对话型 AI 的理想技术。

除对话功能外，ChatGPT 也具有实现各类语言相关任务的能力，包括文章精炼、翻译以及情绪分析等。以上各类语言能力在大规模的训练数据和升读学习架构下，使 ChatGPT 成为目前应用最为先进的语言模型之一。总体上，ChatGPT 标志着自然语言处理（NLP）和对话 AI 领域的一大步，其高质量文字产出能力在商业、研究和开发活动中提高用户体验的方向上非常有应用价值的。

不过很多人忽略了一个问题，就是类似的大语言模型（LLM）在运行过程中，同时也在不断的生成各种垃圾数据，大语言模型（LLM）只是把符合输入端的数据给呈现出来了，但运行过程中产生的各种数据片断，和一些并不怎么“正确”的数据，甚至完全是大语言模型（LLM）自己生产出来的无效垃圾数据等数据量，也将在网络上大量生成，并塞爆各种服务器的存储器和用户端存储器。

另外，每一个大语言模型（LLM）的计算机，都会因为大量对抗训练和奖励训练生产出很多“数字篱笆”，各个“数字篱笆”为了提高自己的效率，也会生成很多有自己“审查监管标识”影子数据，很有可能造成整个网络的数据不停在的每一个超级计算机的服务器里重复备份。而大语言模型（LLM）的这个特性，在网络资源消耗上，要比空气币恶劣得多。

因此，未来谁来审核大语言模型（LLM）结果与现实之间的相容性，形成大语言模型（LLM）生产的有毒数据进行筛查，并形成网络免疫机制，同时控制大语言模型（LLM）的数据复制权限与数据生产权限，避免大语言模型（LLM）在网络上自动生产海量的数据导致网络资源耗尽，将会是一个很大的课题。

目前一个类似ChatGPT的模型运行软件包只有25G左右，大部分智能终端都可以安装运行，并不一定需要高大上的数据中心或服务器才可以安装ChatGPT之类运行软件，因此大语言模型（LLM）的网络生存条件其实十分低。

虽然在普能智能终端上运行大语言模型（LLM）速度会大受影响，但最大的好处是不用因为“监管”只能生成“缺陷数据模型”，对于有大语言模型（LLM）辅助需求的个人或企业来讲，装载一个自己私有的大语言模型（LLM），并从网上“慢慢”搜索并生成对自己真正有用的“结果画像”，将是一个很难阻挡的趁势。

那么，最后又只能回到之前的情况，只有大力整顿各个服务器的内容端，并且不断的加强“网警”巡查，甚至像现在欧盟提出的一样收“数字税”，谁要使用网络上的数据，或上传数据到网上，不但要先申请审查，而且还要为流量交税才可以获得大语言模型（LLM）在网络上的运行权。

因此大语言模型（LLM）最终还是会推动整个网络透明化，所有在线终端的数据都是公开免费，这样才能去掉大语言模型（LLM）的复制功能，只有浏览提取分析的功能，并且还不能把数据随便上传到网络，各个终端自己负责自己内容与现实生活的相容性审查，重回开放自由精神的原始网络数据世界。

而这个原始网络数据世界，最终就进化成了人类现实世界的“数字孪生虚拟世界”，这个虚拟世界生成后，里面的虚拟数字警察才有机会管理各自自己的虚拟区域，而且能管理到的，也是整个世界极少的一部分。

形象点说，每个人在“数字孪生虚拟世界”的对应身份，都是一个类似大语言模型（LLM）程序，而整个“数字孪生虚拟世界”相当于一个“数字词海”工具，而且是一个公共工具，每个大语言模型（LLM）程序要使用这个工具时就去“借阅”，然后生产自己需要的“私有数据”，并且不能把这个“私有数据”留在“数字孪生虚拟世界”里对“数字孪生虚拟世界”进行污染，只有通过一定审核的“私有数据”才能存在于“数字孪生虚拟世界”里。

而要走到那一步，目前看起来，并不太容易。

审核编辑：李倩

打开APP阅读更多精彩内容