该数据集是从DeepSeek-R1-0528(DeepSeek-R1大型语言模型的改进版本)中提炼出的高质量推理语料库。与最初的发布相比,DeepSeek-R1-0528在推理、指令执行和多轮对话方面展示了显著的进步。受到这些改进的启发,我们使用DeepSeek-R1-0528作为教师模型,收集并提炼了来自多个领域的260万条查询

DeepSeek-R1-0528的一个显著特点是其输出比之前的版本长得多,特别是在数学领域:对于某些数学问题,输出长度是早期版本的1.5到2倍。这反映了更详细、明确的逐步推理过程。

该数据集遵循统一的格式和验证流程,可以与其他开源蒸馏语料库直接比较。它旨在支持具有强大且可验证推理能力的下一代语言模型的发展。

在此数据集上使用Qwen2.5-32B进行训练的表现。

基准测试 DeepSeek-R1-0528 AM-DeepSeek-R1-0528-Distilled
AIME2024 91.4 87.1

📂 数据集结构

数据字段

每个样本是一个包含以下字段的字典:

  • system: 在蒸馏过程中使用的系统提示,通常通过<think><answer>标签指导结构化推理。
    • 注意:我们数据集中的一些实例的system字段为空。system字段在训练中未被使用。请随意使用它们。
  • conversations: 一个由对话回合组成的列表,结构如下:
    • from: 要么是'human'要么是'assistant'
    • value: 完整的消息内容。
    • info: 包含元数据的字典:
      • source: 数据集来源(例如,OpenHermes-2.5)。
      • category: 任务领域(例如,mathcodegeneral chat)。
      • ground_truth: 真实参考(如果适用)。
      • test_case: 关联的测试案例ID(可选)。
      • instruction_constrain: 指令约束元数据(可选)。
      • think_content: 助手的推理轨迹。
      • answer_content: 最终答案段落。
      • verify_score: 验证置信度分数(浮点数 ≥ 0.9)。
      • model_name: 教师模型名称(deepseek-r1-0528)。
      • ppl: 助手输出的困惑度。

📈 数据集统计

  • 共享查询基数:260万个唯一提示
  • DeepSeek-R1-0528提炼的响应
  • 任务类别细分:
    • 一般聊天: 1,223K (47.3%)
    • 数学: 674K (26.1%)
    • 代码: 412K (16.0%)
    • 科学: 220K (8.5%)
    • if: 54K (2.1%)
  • 每个样本都经过验证,并过滤以保证输出质量

 

声明:本站内容来自公开平台,如若侵犯到您的权益,请联系我们,我们会第一时间删除!联系QQ:502428990。