今天写 mitmproxy 那篇的时候,顺手试了一下一个很有意思的 skill,分享一下:
helloianneo/ian-xiaohei-illustrations,好多天前关注的,忘了是在哪看到的,发现最近热度蛮高。
截止写本文,作者在群里分享,它在这周 GitHub 新仓库搜索结果里排第二。
这个仓库名字很直白,就是 Ian(作者) 风格的小黑怪诞正文配图生成 Skill。
本质上它不是一个很复杂的项目。甚至可以说,它简单到让我有点恍然大悟:哦,我之前每次都开着语音和叫 image2 生图其实可以做的优雅一些。
而是把一套稳定的审美、角色设定、构图禁忌、prompt 模板和 QA 规则,塞进一个 SKILL.md 里,然后让 Codex 在需要配图的时候按这个流程走。
可以。
在 mitmproxy 文章里试了一下
最近那篇文章是这个:
mitmproxy 实战以及抓包Claude Code | 安落滢 Blog - 技术分享与生活记录
里面有一段是在讲证书信任和中间人代理。这个概念如果只用文字写,其实也能讲清楚,但正文读起来会有点干。
于是我就让这个 skill 给 mitmproxy 生成了配图。
一半是「浏览器信任 mitmproxy 之后,中间站可以看见 HTTPS 流量」: 另一半是「没有证书不让拆,有证书才能拆开看再封回去」:
效果其实还挺好。
画面不是 PPT 那种规规矩矩的流程图。它能把这种偏抽象的链路,变成一个比较容易记住的画面。
这对博客很有用。
但我想继续改
目前这个 skill 最大的特点是「小黑」。
小黑蛮简单的,黑色实心,白点眼,细腿,没什么表情,认真做一些很荒诞但成立的事。这个设定很合适,也很容易让模型稳定复现。
但是我后面应该不会一直用小黑。
倒不是它不好,而是我还是想慢慢做一点更有我自己味道的角色。博客写久了之后,配图其实也会变成一种个人标识。现在用小黑是借别人的视觉语言,后面如果能变成自己的角色,那就更像我的博客了。
可能不是很复杂的 IP。
也许只是一个更固定的主角、几个常见表情、一套动作库、一点颜色习惯。
另一个问题是一句话能力
现在这个 skill 已经能工作,但我觉得还没有到「我一句话,它就能把完成的图片做出来」的程度。
我想让他 和之前 卡兹克的 writer skills 结合一下,先让 agent 读我的文章,然后根据我留下的指示和上下文,生成配图。
比如我说:
给这段 mitmproxy 证书信任做一张配图。
理想状态不是直接把这句话扔给 image tool。
理想状态应该是:
- 先读正文,找到这个段落到底在讲什么
- 抽出核心关系,比如「浏览器」「mitmproxy」「目标网站」「证书信任」
- 判断适合做成什么结构,是前后对比,还是中间站,还是拆包再封包
- 生成一组中文标注词,别太多,最好能像手写批注
- 再把这些东西整理成一条稳定 prompt
- 生图之后自己检查:是不是太像 PPT?是不是中文太多?小黑是不是只是在旁边罚站?
- 最后保存到固定目录,回填到文章里
也就是说,我想要的不是「一句话生图」。
我想要的是「一句话触发一个小流水线」。
这才是 skill 真正有意思的地方。
后面想补的东西
我现在想到几个方向,先记一下。
角色这一层,要从小黑慢慢换成我自己的角色设定。先不要复杂,能稳定出现、能做动作、能表达状态就行。
理解这一层,要让 skill 更会拆一句话。它不能只看用户的一句话,还应该结合当前文章、段落位置、前后上下文,判断这张图到底该解释什么。
构图这一层,要保留一些可复用的结构,但不能每次都像套模板。比如中间站、前后对比、断点、输入输出闭环,这些结构很好用,但每张图还是得从当前文章里重新长出来。
资产这一层,也要更自动一点。比如按文章 slug 建目录:
| |
然后自动命名:
| |
这部分很琐碎,但很重要。因为博客配图最烦的往往不是画,而是画完之后放哪里、怎么命名、怎么引用、下次还能不能找回来。
这个仓库这几天的热度给我的启发
有时候,聚焦一件事情缩小边界做的够好也能有很大的热度。
先让它跑起来,然后慢慢修。
