克隆自己
准备环境咯 然后先下载模型,但是我有了所以先准备数据
1. 数据准备
手机备份数据上电脑 我勒个豆,记得需要从手机上操作聊天记录迁移到电脑。电脑微信的备份聊天记录是加密仅供未来还原到手机的,吭哧吭哧传了很久。发现不是我要的效果
然后使用GitHub - xaoyaoo/PyWxDump导出数据csv
2. 洗数据
这里用的 7B 模型 vllm 推理进行打分,我都没看导出来一些啥数据。。洗完再看看


开始训练

这里想用多卡来着。但是我的 23 卡和 01 卡链接似乎有问题,干脆单卡跑算了
训练的时候看了眼数据。我的聊天又小又短,感觉数据集不是很有用
结果
果然。这样默认跑出来一个智障,基本上只会回几个字,倒是很符合我的回复习惯

后面整理个干净点的数据再训练一个