大佬们,请教一下,如果finetuning_type:full ,stage:pt,数据集有很多的情况下,yaml或者data_info怎么设置指定的数据集目录。谢谢!
谢谢,如果目录下有很多,比如5000份,每个写上太不方便了。可以支持指定到目录吗?
可以先自己处理下合并数据成一份
好的,谢谢大佬!
大佬,这样配置:finetuning_type:full ,stage:pt ,算是continue pretraining吗?谢谢!
是的,但是要注意继续预训练的训练超参数设置,stage设置为pt仅仅是说这个训练方式是预训练,但是效果不一定就好了
大佬,有没有文档或者博客可以参考。
https://grok.com/share/bGVnYWN5LWNvcHk%3D_8e522076-7d31-49e8-b24b-66e26cdb4e9f
其实你可以借助大模型deep research相关的功能帮你找一些文章
