克隆自己

GitHub - xming521/WeClone: 🚀从聊天记录创造数字分身的一站式解决方案💡 使用聊天记录微调大语言模型,让大模型有“那味儿”,并绑定到聊天机器人,实现自己的数字分身。 数字克隆/数字分身/数字永生/LLM/聊天机器人/LoRA

准备环境咯 然后先下载模型,但是我有了所以先准备数据

1. 数据准备

手机备份数据上电脑 我勒个豆,记得需要从手机上操作聊天记录迁移到电脑。电脑微信的备份聊天记录是加密仅供未来还原到手机的,吭哧吭哧传了很久。发现不是我要的效果

然后使用GitHub - xaoyaoo/PyWxDump导出数据csv

2. 洗数据

这里用的 7B 模型 vllm 推理进行打分,我都没看导出来一些啥数据。。洗完再看看 image.png

image.png

开始训练

image.png

这里想用多卡来着。但是我的 23 卡和 01 卡链接似乎有问题,干脆单卡跑算了

训练的时候看了眼数据。我的聊天又小又短,感觉数据集不是很有用

结果

果然。这样默认跑出来一个智障,基本上只会回几个字,倒是很符合我的回复习惯

image.png

后面整理个干净点的数据再训练一个