7B开源，能力全面提升！

文章正文

发布时间：2025-05-14 04:10

近日，360自研AI大模型360智脑7B参数升级版（360Zhinao2-7B）正式开源，现已上线Github开源社区可免费商用。该模型是继今年4月 360Zhinao1-7B 开源后的重要更新，模型各项能力得到全面提升，不仅大幅提升了中英文通用能力，还显著增强了模型的数学逻辑推理能力。模型在中文考试CEval、复杂数学推理math、中文阅读理解C3、中文摘要lcsts等评测集上展现超强竞争力，在10B以下开源模型上排名第一。模型在 IFEval、MT-bench、CF-Bench三个评测上具备竞争力，比如在 IFEval (prompt strict) 上，在开源7B尺寸上得分最高。优异的模型效果，主要得益于360Zhinao2-7B在基础模型训练和模型对齐训练两个方面，均取得了重大进展，下面详细介绍下一些技术细节。

一. 基础模型训练

1.1 模型结构与360Zhinao1-7B一样，模型主要是基于Transformer的dense模型结构，最大不同是采用GQA替代MHA，模型推理吞吐效率大幅提升。1.2 预训练数据基础模型效果上优异表现，主要得益于预训练数据质量得到了大幅的提升。在360Zhinao1-7B技术报告中的大量数据工作外，在网页数据处理和数据合成方面，做了大量的工作。网页数据多样性和质量大幅提升

在minhash文档去重基础上增加语义向量去重，进一步提升网页数据的信息密度和均衡性。

将网页数据拆分成42类，适当降采占比过高数据，增加数据的多样性。

对网页进行改写，大幅提升网页内容组织形式丰富度，网页质量也有显著提升。

图1：中英文网页真实分布占比情况大规模数据合成弥补真实数据不足

图2：数据合成流程示意图我们加大了数学、代码、指令数据的占比。现实中该类数据比较匮乏或质量不高，如：数学经常是只有题目没有解题过程及答案；代码数据只有代码而缺乏代码功能说明文字；开源的指令数据量少且难度不足。为了解决这些问题，我们在合成数据上做了大量的工作：

合成数据多样性：为了解决合成数据重复性的问题，我们借助了真实分布的数据作为合成的上下文，或者利用真实数据生成主题和子主题，极大的提升了合成数据的多样性。

合成数据难度：为了解决合成数据过于简单的问题，我们采用迭代合成的方法，逐渐加大合成数据的难度。

合成数据质量：为了提升合成数据的质量，我们使用大模型对数据进行多维度打分，过滤掉低质量的数据。

调整数据配比，增加数学、代码和指令数据占比相比360Zhinao1-7B，我们大幅降低了网页数据的占比，增加了数学、代码、指令三种类型的数据占比，模型的推理能力和指令遵循能力有了显著的提升。

图3：预训练数据配比
1.3 预训练方法不同于360Zhinao1的一阶段训练方式，我们采用当前主流的两阶段训练方法。第一阶段总共训练10T token，采用cosine学习率，最大学习率3e-4，为了确保退火阶段LR具有较大斜率，我们适当加大了第一阶段的最小学习率；第二阶段退火训练，我们加大了高质量数据的占比，训练了100B高质量token，学习率LR直接decay到0。360Zhinao2-7B总共训练数据量达10.1T token。1.4 基础模型效果我们使用了开源工具OpenCompass对模型进行评估，对比了近半年国内外开源的10B以下模型，360Zhinao2-7B具备较强的竞争力。360Zhinao2-7B在CEval（中文考试）、C3（中文阅读理解）、lcsts（中文短文本摘要）等中文benchmark上表现不俗，中文benchmark均分排名第一。在挑战性的竞赛数学数据集math上，同样排名第一。360Zhinao2-7B模型在中文处理能力、复杂数学推理能力两个方面，具备优势。

表1：基础模型benchmark效果

二. 模型对齐训练

采用iterative DPO，off-policy DPO以及PPO三种进化方式分别对齐，再采用先内插再外插的方法，极致提升模型的天花板。结合高质量人工标注的微调数据以及可验证的复杂指令遵循数据，大幅增强了模型在实际应用场景中的指令遵循能力。
2.1 后训练数据360自有通用微调数据50w，该数据综合考虑技能多样性及360垂直业务数据，生成方法如下：

数据多样性：据360自有标签体系进行领域，意图，难度，长度的分层采样，确保指令多样性

数据质量：用开源数据以及自有的偏序数据训练了360zhinao-pro-rm（reward bench得分92.59），使用该模型进行样本筛选，过滤低质数据。reward model对sft数据打分在类别统计上样本得分符合正态分布，删除规则采用：去除样本分数小于本类别均值和标准差之差的数据。

复杂指令进化：用进化方式做复杂指令优化，优化指令跟随能力。指令进化过程中采用self-instruction、wizard和基于CFbench多类型约束的auto-evol方法。

图4：后训练数据分布情况
2.2 训练方法1、全参数微调：基于50w通用后训练数据，进行全参数微调。微调中使用packing方式（packing训练速度快、且因与pre-train形式保持一致，性能不弱于不packing方案），最大packing长度选择8192，lr、batch_size、weight decay分别设置为:1e-5、 128、 0.1，epoch数为6。综合考虑榜单和自有评测集合得分，选最优checkpoint作为sft-base。2、PPO：在近两年的时间中，我们增量地收集了百万级pair偏好数据，训练了360zhinao-pro-rm（reward bench得分92.59），基于该RM做PPO训练，具体算法使用ReMax或GRPO。3、Iterative on-policy DPO：使用sft-base模型在训练prompt上采样多个答案，用360zhinao-pro-rm打分，取最高最低分组pair进行DPO训练。我们迭代地使用这种on-policy 全参DPO提升模型效果。4、LoRA off-policy DPO：基于人类标注好的偏好对，中英文各1万条，采用QLoRA技术实现高效训练。训练参数一般设置为：LoRA rank为256，LoRA alpha为512，LoRA dropout为0.05，最大序列长度为2048。训练完成后，将多个LoRA adapter合并至原始模型。5、模型合并：在内部评测集合v4.0上，针对上述若干个模型做自动评测，发现不同模型各有其优势技能，考虑模型合并方案。基于sft模型为base，融合PPO和DPO后的模型做内插得到模型v1，然后仍以sft模型为base和v1模型进行外插，外插系数0.2 最终得到360Zhinao2-7B-Chat-4k。

图5：后训练全流程图。我们在SFT后进行了PPO和DPO，并将优势技能不同的模型合并和插值。
2.3 模型效果我们在IFEval、MT-bench、CF-Bench三个流行的评测上对360Zhinao2-7B-4K模型进行了评测比较，模型具备竞争力。在IFEval (prompt strict) 仅次于glm4-9b，在7B尺寸上得分最高:

表2：微调模型benchmark效果

2.4 长文本微调

图6：长文本微调流程图与360Zhinao1开源时的做法基本一致，我们将RoPE base依次扩大为1,000,000和50,000,000，混合长短文本的SFT数据依次拼接至32k和360k，将gradient checkpointing、ZeRO3 offload和序列并行等技术结合，依次微调得到32k和360k长文本模型。在各个32k benchmark上位列第一梯队。

表3：长文本benchmark效果