全参预训练怎么设置数据集目录

大佬们,请教一下,如果finetuning_type:full ,stage:pt,数据集有很多的情况下,yaml或者data_info怎么设置指定的数据集目录。谢谢!

每个数据集按照规定的格式定义好,然后在配置文件中的dataset字段用逗号分隔应该就行了

谢谢,如果目录下有很多,比如5000份,每个写上太不方便了。可以支持指定到目录吗?

可以先自己处理下合并数据成一份

好的,谢谢大佬!

大佬,这样配置:finetuning_type:full ,stage:pt ,算是continue pretraining吗?谢谢!

是的,但是要注意继续预训练的训练超参数设置,stage设置为pt仅仅是说这个训练方式是预训练,但是效果不一定就好了

大佬,有没有文档或者博客可以参考。

https://zhuanlan.zhihu.com/p/677653373

https://grok.com/share/bGVnYWN5LWNvcHk%3D_8e522076-7d31-49e8-b24b-66e26cdb4e9f

其实你可以借助大模型deep research相关的功能帮你找一些文章