数据集支持的任务
综合性的各种知识数据
该数据集整理并汇总了当前几乎所有开源的中文数据集,可以用于大模型的SFT任务
共29GB,
数据集文件包含了共12M+条样本。数据格式为每行一个样本,里面包含12个字段:
- 1.id,用于追踪数据的唯一标识符。
- 2.instruction,系统提示词。
- 3.input,用户输入指令
- 4.output,输出
- 5.history,历史对话
- 6.language,语言
- 7.data_source,数据来源
- 8.input_len,用户平均单轮输入长度
- 9.output_len,平均输出长度
- 10.num_utter,对话轮次
- 11.type,数据类别
- 12.type_keyword,该类别数据的关键词
为了便于抽样和训练,我们将数据集分为中文数据集和英文数据集,英文数据集中仅包含英文数据,而中文数据集中会包含部分外文数据(这是因为存在部分语言翻译任务,在我们的数据处理过程中,我们将任何包含中文的数据标注为中文数据。)
数据集结构
截取片断1:
input: "好吧,那么根据张三的旅游爱好,能否推荐一些旅游景点?", output: 当然可以为张三推荐一些优秀的旅游景点。根据张三的兴趣,我推荐以下景点:西双版纳,泸沽湖,九寨沟等。这些地方自然风光优美,非常适合旅游。 截取片断2: input: "好的,那你能告诉我怎么挑选合适的太阳镜吗?", "output": "当选择太阳镜时,需要注意以下几点:\n1.防紫外线能力:选择能够防止100%紫外线的太阳镜, 这可以保护眼睛免受紫外线的损害。\n2.镜片颜色:不同颜色的镜片可以适应不同的环境和用途。普遍认为灰色镜片能够最好地保持真实物体的颜色,而绿色或棕色镜片对对比度更敏感, 更适合在太阳强烈的情况下使用。\n3.镜片质量:选择高质量的太阳镜可以保证你的视觉体验,同时也可以更好地保护你的眼睛。\n4.合适的框架:框架适合你的脸型,材料强度适中, 可以确保你的太阳镜耐用。\n希望这些提示能够帮助你挑选适合自己的太阳镜。", "history": [["为什么太阳落山时眼睛会觉得疲劳?\n回答上面的问题。", "当太阳落山时,人们会 不经意地注视它,这会导致眼睛感到不适。这是因为在日落时,光线经过大气层会发生折射和散射,让我们看到的是一种强烈的光线,这种光线包括紫外线和蓝光,是对眼睛有害的。在 这种光线下,眼睛需要更加努力地聚焦来保持视觉清晰,这会导致眼部肌肉疲劳和眼睛的不适。因此,当我们注视落日时,眼睛会感到疲劳。为了减轻这种疲劳,建议在落日时避免直接 注视太阳,或者戴上太阳镜来过滤掉有害的光线。"

声明:本站内容来自公开平台,如若侵犯到您的权益,请联系我们,我们会第一时间删除!联系QQ:502428990。

