70GB的deepseek-r1蒸馏数据集-深蓝探索-人工智能LLM大模型

开源协议：Apache License 2.0

该数据集是从DeepSeek-R1-0528（DeepSeek-R1大型语言模型的改进版本）中提炼出的高质量推理语料库。与最初的发布相比，DeepSeek-R1-0528在推理、指令执行和多轮对话方面展示了显著的进步。受到这些改进的启发，我们使用DeepSeek-R1-0528作为教师模型，收集并提炼了来自多个领域的260万条查询。

DeepSeek-R1-0528的一个显著特点是其输出比之前的版本长得多，特别是在数学领域：对于某些数学问题，输出长度是早期版本的1.5到2倍。这反映了更详细、明确的逐步推理过程。

该数据集遵循统一的格式和验证流程，可以与其他开源蒸馏语料库直接比较。它旨在支持具有强大且可验证推理能力的下一代语言模型的发展。

在此数据集上使用Qwen2.5-32B进行训练的表现。

基准测试	DeepSeek-R1-0528	AM-DeepSeek-R1-0528-Distilled
AIME2024	91.4	87.1

📂 数据集结构

数据字段

每个样本是一个包含以下字段的字典：

system: 在蒸馏过程中使用的系统提示，通常通过<think>和<answer>标签指导结构化推理。
- 注意：我们数据集中的一些实例的system字段为空。system字段在训练中未被使用。请随意使用它们。
conversations: 一个由对话回合组成的列表，结构如下：
- from: 要么是'human'要么是'assistant'。
- value: 完整的消息内容。
- info: 包含元数据的字典：
  - source: 数据集来源（例如，OpenHermes-2.5）。
  - category: 任务领域（例如，math, code, general chat）。
  - ground_truth: 真实参考（如果适用）。
  - test_case: 关联的测试案例ID（可选）。
  - instruction_constrain: 指令约束元数据（可选）。
  - think_content: 助手的推理轨迹。
  - answer_content: 最终答案段落。
  - verify_score: 验证置信度分数（浮点数 ≥ 0.9）。
  - model_name: 教师模型名称（deepseek-r1-0528）。
  - ppl: 助手输出的困惑度。

📈 数据集统计

共享查询基数：260万个唯一提示
从DeepSeek-R1-0528提炼的响应
任务类别细分：
- 一般聊天: 1,223K (47.3%)
- 数学: 674K (26.1%)
- 代码: 412K (16.0%)
- 科学: 220K (8.5%)
- if: 54K (2.1%)
每个样本都经过验证，并过滤以保证输出质量

声明：本站内容来自公开平台，如若侵犯到您的权益，请联系我们，我们会第一时间删除！联系QQ：502428990。

70GB的deepseek-r1蒸馏数据集

📂 数据集结构

数据字段

📈 数据集统计

作者信息

排行榜展示

大语言模型“深度思考”模式的本质解析：结构化模仿而非真实推理

Windows 10 安装WSL配置AI大模型运行环境

vLLM部署Deepseek模型，实现外部助手api访问

138万条高质量医疗模型训练数据【近2G的数据】

AI大模型所有环境包网盘下载

54万条中医数据

文章展示

【项目挖掘第四期】15个比较冷门，低成本，可执行的项目

【第一期】怎样提问AI才能挖掘出有效的蓝海项目

28GB医疗模型训练数据【医疗影像】CT/彩超/MRI多模态数据【第四期】

2万条医疗问答数据

165682万组医疗影像CT/彩超/MRI数据集医学模型训练深度学习人工智能AI训练数据包【第三期】

超过16万组CT/彩超/MRI医疗影像数据集医学模型训练深度学习人工智能AI训练数据包

70GB的deepseek-r1蒸馏数据集

📂 数据集结构

数据字段

📈 数据集统计

相关文章

作者信息

排行榜展示

文章展示