LLaMA Factory数据集
数据集格式
{ "数据集名称":{ "hf_hub_url":"Hugging Face 的数据集仓库地址(若指定,则忽略 script_url 和 file_name)","ms_hub_url":"ModelScope 的数据集仓库地址(若指定,则忽略 script_url 和 file_name)","script_url":"包含数据加载脚本的本地文件夹名称(若指定,则忽略 file_name)","file_name":"该目录下数据集文件夹或文件的名称(若上述参数未指定,则此项必需)","formatting":"数据集格式(可选,默认:alpaca,可以为 alpaca 或 sharegpt)","ranking":"是否为偏好数据集(可选,默认:False)","subset":"数据集子集的名称(可选,默认:None)","split":"所使用的数据集切分(可选,默认:train)","folder":"Hugging Face 仓库的文件夹名称(可选,默认:None)","num_samples":"该数据集所使用的样本数量。(可选,默认:None)","columns(可选)":{ "prompt":"数据集代表提示词的表头名称(默认:instruction)","query":"数据集代表请求的表头名称(默认:input)","response":"数据集代表回答的表头名称(默认:output)","history":"数据集代表历史对话的表头名称(默认:None)","messages":"数据集代表消息列表的表头名称(默认:conversations)","system":"数据集代表系统提示的表头名称(默认:None)","tools":"数据集代表工具描述的表头名称(默认:None)","images":"数据集代表图像输入的表头名称(默认:None)","videos":"数据集代表视频输入的表头名称(默认:None)","audios":"数据集代表音频输入的表头名称(默认:None)","chosen":"数据集代表更优回答的表头名称(默认:None)","rejected":"数据集代表更差回答的表头名称(默认:None)","kto_tag":"数据集代表 KTO 标签的表头名称(默认:None)"},"tags(可选,用于 sharegpt 格式)":{ "role_tag":"消息中代表发送者身份的键名(默认:from)","content_tag":"消息中代表文本内容的键名(默认:value)","user_tag":"消息中代表用户的 role_tag(默认:human)","assistant_tag":"消息中代表助手的 role_tag(默认:gpt)","observation_tag":"消息中代表工具返回结果的 role_tag(默认:observation)","function_tag":"消息中代表工具调用的 role_tag(默认:function_call)",