开源协议:Apache License 2.0
该数据集是从DeepSeek-R1-0528(DeepSeek-R1大型语言模型的改进版本)中提炼出的高质量推理语料库。与最初的发布相比,DeepSeek-R1-0528在推理、指令执行和多轮对话方面展示了显著的进步。受到这些改进的启发,我们使用DeepSeek-R1-0528作为教师模型,收集并提炼了来自多个领域的260万条查询。
DeepSeek-R1-0528的一个显著特点是其输出比之前的版本长得多,特别是在数学领域:对于某些数学问题,输出长度是早期版本的1.5到2倍。这反映了更详细、明确的逐步推理过程。
该数据集遵循统一的格式和验证流程,可以与其他开源蒸馏语料库直接比较。它旨在支持具有强大且可验证推理能力的下一代语言模型的发展。
在此数据集上使用Qwen2.5-32B进行训练的表现。
基准测试 | DeepSeek-R1-0528 | AM-DeepSeek-R1-0528-Distilled |
---|---|---|
AIME2024 | 91.4 | 87.1 |
📂 数据集结构
数据字段
每个样本是一个包含以下字段的字典:
system
: 在蒸馏过程中使用的系统提示,通常通过<think>
和<answer>
标签指导结构化推理。- 注意:我们数据集中的一些实例的
system
字段为空。system
字段在训练中未被使用。请随意使用它们。
- 注意:我们数据集中的一些实例的
conversations
: 一个由对话回合组成的列表,结构如下:from
: 要么是'human'
要么是'assistant'
。value
: 完整的消息内容。info
: 包含元数据的字典:source
: 数据集来源(例如,OpenHermes-2.5
)。category
: 任务领域(例如,math
,code
,general chat
)。ground_truth
: 真实参考(如果适用)。test_case
: 关联的测试案例ID(可选)。instruction_constrain
: 指令约束元数据(可选)。think_content
: 助手的推理轨迹。answer_content
: 最终答案段落。verify_score
: 验证置信度分数(浮点数 ≥ 0.9)。model_name
: 教师模型名称(deepseek-r1-0528
)。ppl
: 助手输出的困惑度。
📈 数据集统计
- 共享查询基数:260万个唯一提示
- 从DeepSeek-R1-0528提炼的响应
- 任务类别细分:
- 一般聊天: 1,223K (47.3%)
- 数学: 674K (26.1%)
- 代码: 412K (16.0%)
- 科学: 220K (8.5%)
- if: 54K (2.1%)
- 每个样本都经过验证,并过滤以保证输出质量
声明:本站内容来自公开平台,如若侵犯到您的权益,请联系我们,我们会第一时间删除!联系QQ:502428990。
评论(0)