SLM-1-数据准备
流程 数据导入 - 使用 TinyStories 数据集 数据分词 - 使用 tiktoken 进行 GPT-2 风格的分词 批次创建 - 为训练创建输入-输出批次 模型架构 - 实现了完整的 GPT 架构,包括: LayerNorm CausalSelfAttention MLP Block GPT 主模型类 损失函数 - estimate_loss() 函数 训练配置 - 学习率、批次大小等超参数设置 优化器和调度器 - AdamW 优化器配合学习率调度 训练循环 - 完整的训练过程 可视化 - 损失函数曲线绘制 推理测试 - 模型生成文本的示例 数据导入 用的数据集是 tinystory roneneldan/TinyStories · Datasets at Hugging Face 这是由 gpt 生成的 首先安装依赖后加载数据 依赖 1 2 datasets tiktoken 这里我直接拿到的是 txt 文件。如果网络方便的话可以直接 1 2 3 from datasets import load_dataset # 导入数据,这里记得科学上网,否则无法在hf上下载数据集 ds = load_dataset("roneneldan/TinyStories") 所以我这边根据 C 老师的指导加载本地数据 以及 验证数据加载效果。代码如下 ...