有没有大佬分享一下在使用llamafactory进行微调时的调参策略。以及如何微调才能更好的适配垂直领域,比如:建设工程、建材名称、餐饮分析等等
我这边的经验是可以基于gemini、claude、gpt或者国内的deepseek、qwen快速蒸馏个几千条数据试一下,当然这个过程要在教师模型上快速迭代prompt以达到一个不错的效果,这个过程中注意观察思维链反向迭代提示词,如果没有思维链也要在prompt中要求输出理由。SFT的话其实调参的作用不是特别大的,根据GPU资源选择full或者lora,用默认参数跑一把,后面的迭代主要在于观察badcase。其他的例如你想保留通用能力,可能要注意混入通用数据的比例,考虑课程学习等等。再或者如果幻觉比较大,可能需要考虑搞一波垂域的预料进行持续预训练
(类别换到“技术深浅“吧,做好分类!)
1 个赞
感谢佬的建议,已换