KIMI与海内外主流模型对比及应用方向

阿尔法工场研究院 2024-03-26 2468

描述

KIMI与海内外主流模型对比及应用方向

Q：KIMI模型是使用MOE模型吗？现在的算力是否已经很缺，如果用户量增加，会不会更加缺乏算力？以及这对公司的财务状况有何影响？

A：是的，KIMI模型使用的是MOE模型。日前算力确实已经相对缺乏，主要是因为用户增长速度超出预期，导致即便有动态扩容操作也难以应对突增的流量。就目前而言，算力缺乏的情况已经显现，公司也在紧急扩容中。

对于算力的问题，虽然目前确实面临挑战，但不是无解的问题。背后有大公司的支持和注资，如字节跳动和阿里巴巴，因此从长远来看，算力的问题是可以得到解决的。

“目前算力确实已经相对缺乏”，“背后有大公司的支持和注资”。关于财务状况，目前公司确实在烧钱，但这是初期投入，目的是先打磨产品。

现阶段虽然烧钱，但公司已经有了一些B端的付费用户，虽然C端还未开始盈利，预计在不久的将来，随着问题的解决和用户基数的增加，公司有望逐步实现商业化并开始回收投资。“目前公司确实在烧钱”，“预计在不久的将来，公司有望逐步实现商业化”。

Q：如果DAU达到100万，对公司的成本消耗有何影响？

A：成本消耗可以通过对用户平均需求的计算得出。一位用户大约会产生10万token的需求，按照平均价格计算，每位用户的成本大约在50到60元人民币左右。

因此，如果DAU达到100万，可以按照这个单价进行估算，得出整体的成本消耗。不过，实际的成本会因人而异，取决于每个用户的具体需求。“每位用户的成本大约在50到60元人民币左右”。

Q：目前对内地与海外主流大模型的能力有何评价？KIMI的应用方向和通用能力是否有区别？

A：在中文领域，目前国内的一些大模型，例如KIMI，已经在多数维度上超越了GPT-3.5。这些模型在处理中文时已经达到了很高的能力，有的在特定场景下甚至超过了GPT-4。但对于其他一些较为困难的任务，包括结构化信息处理和图像中潦草文字的识别，KIMI等大模型仍显示出一些短板。

KIMI模型相较于其他模型，在联网搜索、文档处理和长文分析等功能上具有优势。而在生成能力和语音能力上，目前KIMI还未加入这些模态。战略上，KIMI似乎专注于解决具有广泛需求的关键问题，以此为基础，今后可能会向其他领域拓展。

Q：在评价一个模型的综合能力时，有没有行之有效的权威标准？

A：在这个领域很容易出现投机取巧的情况，很多模型厂商不会依赖第三方评价机构的测评结果。企业通常自建数据库，并根据其内部的测试结果来评估模型的能力。

在文本领域，多轮对话被用作衡量标准之一，而在图像领域，则倾向于肉眼评估作品的一致性。目前，国际顶级会议要求用户研究的结果必须附在论文后面，以提供直观的用户感受评分，而不是仅依赖于数值分数。这种用户体验方式被认为更权威。

Q：KIMI模型在扩大上下文处理能力时，参数量需要如何改变？

A：在模型的上下文处理能力提升时，参数量也需要相应地进行调整。不过，参数量的增长并非主要目的，而是在提升时需要对权重分配进行改变。参数量与上下文长度的增长并不是简单的正比关系，而是彼此相关但不是强依赖。

例如，月月酱面模型的参数量仅有几千亿，相比之下GPT模型有几万亿参数，但月月酱面在处理长上下文能力上可以达到GPT即将推出的版本的近十倍。

Q：KIMI与其他大模型在向量数据库的使用上有什么不同？KIMI内部是否构建了向量数据库？

A：在文本模型领域，无论是大型企业还是KIMI，都会使用数据库来支持模型的功能。这些数据库可能是商业版本，也可能是对开源版本进行了修改。

例如，京东开源的一个现代数据库、腾讯的VectorDB和百度相关的数据库在国内较为常用，而国外则有Movers和Chroma等。具体到KIMI，我不太清楚使用的是哪种版本，但其内部一定会有向量数据库的应用，这是不可或缺的。

Q：全球大模型训练对算力的需求将如何变化？

A：从目前来看，KIMI的参数量还能够增长数倍，这对发展来说是必要的。尽管存在一些稀疏化技术，但大模型训练对算力的需求仍然在不断增加。我们之前也做过10万亿参数的模型，并证明了大参数模型对训练算力是一个重要的因素。

根据趋势图，模型的参数量增大会导致对训练算力的需求大幅增长，但未来的算力需求远未达到瓶颈。预计到明年，尽管可能达不到10的27次方，但也将接近10的5乘以10的26次方。这表明，即使进行了各种优化，训练端消耗不会大幅下降，算力需求仍旧很大。

中科星图交流纪要

Q：以具体之前做过的一些项目来说明北斗网格码技术为推动低空经济的发展帮地方政府解决了什么样的痛点？

A：如衢州的项目是去年年底启动的，总经费2.5个亿。今年的1月8号，北斗伏羲正式中标，第一期是4000万。春节前后已经开始在做一定的试运行，现在可以参观和访问。

上周衢州市的高毅书记视察了这个项目，给予了非常高的评价。同时将这个项目上报了了浙江省有关领导。浙江省的发改委也专门安排人来考察这个项目，有望发展成浙江省第一个低空空域基础设施建设的试点城市。

该项目中比较核心的一点是北斗网格码技术在这个体系内发挥了独特的作用。首先简单的介绍一下北斗网格码的基本原理。北斗网格法的基本原理是讲地球从地心到地球外围50万公里，通过GeoSOT模型将其划分成了32级网格体。

最大的网格是整个地球，最小的网格在地球赤道是1.5立方厘米。每一立方厘米都有一个网格，而且有一个整型的二进制数。

在低空就利用米级的网格或者是10米级的网格把低空全部网格化建模。并把被楼宇占据的网格、被电线占据的网格、被树木占据的网格都标识出来。

没有被占据的网格，就理论上可以为无人机飞提供飞行，因此这个网格又是一个可计算的网格，因此这样的话就能形成空中高德的体系。

与高德创始人成从武先生合作，主要的目的是将北斗之星打造成空中高德。空中高德的打造呢就依据这样一套网格图，而且能在网格图上进行导航和路径规划。

确定起点和终点后就可以形成一条导航路线，绕开楼宇和树木、电线。北京大学陈教授发明的专利，也折成了一定股份入主到北斗之星。所以北斗之星就作为中科星图的重要部分，在整个低空建设中处于基础地位。

衢州的项目叫低空基础设施建设项目，他是中国最早的在建项目。该项目的特色是把空域网格化后，可以让不同的无人机在同一个空域融合飞行。

人人都能使用无人机，家家都享受无人机服务，这是低空经济未来的真正的产业方向。北斗伏羲创造的这套标准和这张图，就是融合飞行的基础设施建设，使衢州今后各个公司都可以同时在一个空间进行飞行，形成产业的基础。

Q：衢州的项目执行期就是十个月左右，这些订单是不是今年就能落地？

A：这十个月的订单已经落地，是4000万，现在正在做从11月份开始的后阶段的投资计划。

Q：展望这些2.5个亿的订单的完成周期？

A：提出的是两年，争取在明年的年底前把2.5亿的投资完成。

Q：除了衢州外目前潜在可能合作的城市？

A：每一个省现在都有若干市在参与论证或者是参与项目的计划。最近正式中标了成都的项目，朝阳的项目，中标通知书已经拿到了。其他各省市的陆陆续续会在六月前。

中科创达交流纪要

Q：四季度我们的毛利率有所下降是什么原因？

A：季度拆分对于软件厂商来讲并不是那么精确，因为我们在做一个系统开发里边一定是长期的，季度拆分它并不是特别反映实际情况，另外我们投入了新的平台方向，比如说像我们在鸿蒙系统平台里面也在投入，我们在整车操作系统里也在投入，同时在端侧人工智能里面也在投入，那么这些投入里边，就项目来讲它有一定周期，所以刚开始投入的时候对毛利率还是有影响的。

刚开始投入较大，它的规模效应还没有显现出来，短期来讲会有一定的毛利率下降，但拉长时间线来看的话毛利率整体还是可以的。

Q：在主营业务成本中，硬件产品和材料采购成本有增长，具体涉及到的项目？

A：主要是物联网的硬件，因为物联网硬件也在发生很多革命性变革，ai发展推动端侧智能不断更新，比如苹果推出了vision pro等等，目前在软件和ai能力更新的大周期里面，所以我们会有一些前期的布局，会有物料采购备货，这会让我们在供应链中有很多优势。

Q：aipc这方面的布局？

A：可以说物联网领域，包括这个端侧领域发生了非常大的变化，从整个产业周期来看我们在布局混合ai，其中pc产品跟过去发生了很大的变化，当它有强算力芯片再加上ai的时候，它未来就会变成一个边缘计算中心，在以前传统的pc领域我们之前就投入了，现在aipc会把从芯片再到本身的机器里面的ai能力和它的计算能力进步提升，我们有两方面能力可以提供，一方面是做windows基于arm架构里面的系统优化和本身整合，这个在arm架构里还有很多工作需要去做。

第二点，我们会基于pc产品去做形成aipc的模组，所以这些的业务展开了一个很大空间，当把整个平台能力具备的时候，随着场景增加，是能够不断快速迭代渗透的。互联网领域非常关键的一点是一定要进行平台化思维，软件核心的思维进行整个布局。

Q：2024年三大收入板块会有一个什么成效？

A：从趋势来看，24年就业绩来讲我重点想讲的还是产业变化趋势，现在的产业趋势，就计算机产业而言，几天就会发生翻天覆地的变化，现在产业趋势大概是这几点：

第一点，软件的重要性毋庸置疑，在所有端侧智能里软件会成为核心。

整个芯片架构在走向复杂，需要通过整个计算模式让软件来把所有的软件、所有的库和所有的算法集成到一个中央框架里面，这就是加速计算的本质，加速计算的本质就意味着软件是成中心的核心去定义整个产品。手机厂商、芯片厂商、操作系统厂商一定能够进行下一代产品的定义和开发，这里面软件的需求就会爆发。

第二点就是汽车，从座舱再到驾驶到舱驾融合的趋势，汽车还是有一个非常强的增长动力。物联网业务从去年上半年来讲，些特定产品品类包括客户来讲它本身的产品变化，业务变化导致有些下滑，从下半年就开始恢复了，今年的物联网领域趋势，aipc也好或者端侧智能带来很多产品创新，物联网领域也是积极向好的。整体来看向好，24年会比23年好。

Q：从年报上看我们现金流好转明显是因为我们采取了哪些具体措施？物联网下半年逐渐好转是来自哪些产品线？

A：管理层面和整个团队共同努力，客户的管理、回款管理，包括整个的效能提升，这都会对经营现金流提升这个有很大影响。AR、VR眼镜等领域有很多新品，hr平台、会议视频系统等这里面都能带来增长的动力。

单体大客户扫地机这块有影响，但其他机器人像割草机器人、服务机器人、消费机器人、电动滑板车等都还是在健康增长的。

Q：创达参与了aipc的哪些环节，能不能看到价值量的提升？在什么时间段？

A：现在高通等平台推出了aipc产品，大家对这个产业比较看好，所以在软件方面我们是有这种能力的，基于高通的平台我们做参考设计。每家厂商都不一样，大概今年aipc的一些订单会逐渐体现出来。

理想分析师交流纪要

Q：下调指引后全年80万目标是否有变化？最新的Q1指引是最悲观假设吗？

A：65-80万台的目标确实有改动，全年销量增长率是50%-70%（对应销量指引56w-64w）；Q1的指引是相对保守的，但是还需观察订单情况。

Q：下调指引的原因？Q1后L789稳态销量的预期？L6和纯电上市节奏变化？

A：主要是高估了自身的能力，其实我们从增长率角度看依然是ok的，但是去年的表现亮眼，高估了远超市场预期的指引，但是现在回到了脚踏实地能做到的销量，主要原因是我们对MEGA节奏的判断失误，这个是最大的判断错误，会导致大量的销售投入分配失误。

L6不会有计划变化，稳态依然是2万+，可能在车展前后。

Q：MEGA是否会定价和配置修改？MEGA是否会影响毛利？

A：MEGA不会有价格上的调整，更多的是阶段错误，所以现在围绕第一批用户运营展开，他们的NPS是MEGA体量提升的核心；整体毛利Q1依然是维持20%+。目前全年的毛利计划依然是大于20%。

Q：L系列订单恢复情况？接下来的纯电车型展望？

A：L系列随着最近宣传和动作已有回暖，目前进一步的促销尚未计划，希望今年的经营质量更高，会在财务数据中的有表现。目前纯电尚未披露更多信息。

Q：未来是否降价？降价是否影响品牌力？

A：强调哪怕现在订单情况比预计差，市占率变化也不大，暂时不考虑降价-不同价格段不一样，对于豪华品牌来说降价可能会有副作用，目前我们的市占率还是不错的，就如同想哥在公开信中说的我们忘记了用户的核心需求短期对销量欲望过度追求。

资本市场对于短期会有压力，但是对于公司中长期是非常健康的一件事情。如果豪华品牌新车型降价可能是饮鸩止渴，尤其是在目前市占率没有出现变化的前提下。

Q：如何平衡销量和利润？

A：我们已经放弃了一部分销量，目前我们是合理的预期，目前一致预期也没有80万：利润方面的指引是超越去年全年，所以我们强调经营效率。

AI如何助力新药研发

Q：宏博医药在国内AI制药领域的竞争优势或者领先的地方在哪里？有哪些主要的竞争对手？

A：宏博医药在AI制药领域的竞争优势主要体现在与药化团队的紧密合作上。我们的团队大部分成员都是药化背景，这对于我们作为CRO公司来说非常重要，因为我们的目标是将工具应用得当，发挥其最大价值。

我们的优势在于能够有效地利用现有软件工具，将其应用于实际项目中，从而产生价值。至于竞争对手，任何拥有强大药化团队并且在实际项目中有所作为的公司都可能成为我们的竞争对手。

Q：今后技术的大幅提升是否可以完全不需要经验人员的最后监督指导？

A：在短期内，经验丰富的药化专家仍然非常重要。尽管量子化学的准确性已经很高，但在实际应用中仍需做很多近似处理。

AI的一个挑战是需要大量的数据，而目前在AI制药领域，无论是数据的数量还是质量都远远不足。因此，在有限的数据条件下训练出一个非常准确的模型，而不需要人工干预，目前看来还是很有挑战的。

Q：CADD和AIDD未来的产业趋势如何？CADD的优势是否会在AIDD领域展现？

A：CADD和AIDD各有优势。CADD擅长于分子对接等方面，而AIDD在处理超大规模虚拟筛选和分子动力学方面可能更有优势。

随着算法和计算能力的提升，我们希望AIDD能够在分子对接结合模式的高精度预测方面取得进展。同时，AIDD在进行参数校正和加速整个药物发现过程方面也显示出了其潜力。

Q：国内什么时候可以看到AIDD生成的分子进入临床？

A：根据最新的研究，AIDD生成的分子已经有进入临床的案例。这表明AIDD在药物发现领域的应用已经开始取得实际成果。

Q：AIDD对算力的要求是怎样的？是否成熟的GPU集群就足够？

A：AIDD对算力的要求取决于你要达到的研发深度。对于分子生成这样的任务，成熟的GPU集群确实可以满足基本需求。但如果是进行更复杂的计算，比如寻找隐藏的活性口袋或进行大规模的分子动力学模拟，就需要更大的算力。

我们对算力的追求实际上是无止境的，因为更高的算力可以让我们的模拟更加准确和快速。此外，算力的提升还能让我们模拟的时间延长，或者构建更加完善的体系，从而更真实地模拟药物与生物体系的相互作用。

Q：国内药企在AI制药方面的布局情况如何？

A：国内许多药企已经开始布局AI制药，有的是通过自建平台，有的则是通过与AI公司签订战略合作。自建平台虽然能够更贴合企业自身的需求，但其成熟化需要一定的时间，且成本较高，包括人员、硬件和数据集等方面的投入。因此，很多药企也对外包的AI制药服务有需求。

Q：AI在临床后端的应用有哪些？

A：AI在临床后端主要应用于病人的筛选。很多药物临床试验失败的原因是没有找到合适的病人。通过大数据分析，特别是结合大语言模型的A技术，可以从海量的患者数据中挖掘出最可能受益于特定药物的病人群体，从而提高药物研发的成功率。

Q：哪些环节是AI难以优化的？

A：目前，化学合成是AI难以优化的环节之一。虽然现有的自动化技术可以执行一些常规的化学反应，但许多化学反应并不标准化，不太适合全自动化处理。因此，合成化合物的实验室工作仍然是药物研发中的一个挑战，短期内可能还难以通过自动化技术完全解决。

审核编辑：黄飞

打开APP阅读更多精彩内容