第48届国际软件工程大会(ICSE 2026)于2026年4月12日至18日在里约热内卢召开。作为软件工程领域CCF A类顶会,ICSE被誉为“软件领域的奥林匹克”,汇聚全球顶尖学者与工业界专家。会议期间,华为联合南开大学就在数据通信领域的研究成果《R-Log: Incentivizing Log Analysis Capability in LLMs via Reasoning-based Reinforcement Learning(基于慢思考强化学习的大模型日志分析)》发表了技术报告,该成果针对大模型工业级日志分析的“幻觉”与“泛化难”痛点,提出基于推理的强化学习新范式,为网络智能运维提供全新技术路径。
R-Log核心方法:13套专家推理模板 + 双阶段训练
现代软件系统与通信网络的日志数据复杂度远超人力运维极限,现有大模型监督微调方法因“领域鸿沟”易产生幻觉,且难以应对未知故障场景。
为解决上述问题,华为与南开大学共同提出了R-Log——一种模拟人类结构化、逐步分析思维的推理优先范式。其整体框架包含两大核心阶段:
人类专家推理模板与数据构建:团队从运维手册、经验规则及工程师访谈中提炼出13套推理模板,覆盖日志解析、异常检测、日志解释、根因分析和解决方案推荐五类任务,融合概念式与程序式两种思维方式。
双阶段训练架构:首先实现冷启动,通过监督微调(SFT)对推理链与答案进行模仿学习,使模型形成“先思考再回答”的基础行为模式。再实现强化学习优化,在模拟的多日志任务运维环境中,采用组相对策略优化(GRPO)算法,并设计联合奖励函数,进一步提升模型在多任务场景下的策略可靠性与输出精度。
实证结果:五项任务超越业界最佳,未知场景提升228%
基于真实日志数据的严格评估显示,R-Log在全部五项日志分析任务上均显著超越现有最佳模型,包括DeepSeek-V3.1、Qwen3-235B以及专业日志模型LogLM等。尤其在未见过的日志场景中,相较于非推理模型,R-Log的性能提升高达228.05%,展现了强大的泛化能力。此外,针对推理链带来的时延问题,R-Log创新性地设计了“先输出答案,再输出思考过程”的反向结构,推理时可在出现
华为与南开大学联合打造的R-Log技术范式打破传统“拟合答案”局限,模拟人类专家“先思考、后结论”的结构化思维,通过强化学习自主学习日志潜在规则,在模拟运维环境中优化分析策略,实现运维AI从“感知智能”到“认知智能”的跨越,大幅降低长文本分析幻觉风险,提升未知故障应对能力,有力推动未来打造可泛化的高阶自智网络。
全部0条评论
快来发表一下你的评论吧 !