豆包输入法你能不能只负责语音
最近豆包输入法的语音输入很火。 我是在开放后下载下来用了一下,确实很好用,对比之前用的 type less 对我而言有点修饰过头,微信输入法整体效果还行但是略逊于豆包。我设置的快捷键是 Command + Option ,按住说话,松开就上屏,体验很顺。 但是我现在主力打字输入法还是微信输入法。 原因也很简单,它有多端剪切板同步。 虽然这个同步率我感觉也就 90% 左右吧,不是每次都稳,但是有总比没有强。用久了之后就有点回不去了。手机上复制点什么,电脑这边能接着用,虽然偶尔抽风,但是整体还是方便的。 所以问题就来了。 我不想把主力输入法换成豆包输入法,但是我又想用豆包的语音输入。我想偷个懒。 我想到我的流程是,平时打字继续用微信输入法,需要语音的时候,按住 Command + Option 临时切到豆包语音,松开之后再回微信输入法。 那么理论可以全自动做这件事情。我把这个需求丢给了 macbook 上跑着的 Hermes,我坚信它以及它背后的 GPT-5.5 能做到。 最终思路 最后 Hermes 先搓了一个后台 agent,后来又把它收成了一个顶栏 mini app: 1 doubao-voice-wetype-agent 它干的事情不是破解豆包,也不是改输入法,而是在中间当一个代理。 更准确地说,它现在像一个很小的插件,常驻在 macOS 顶栏,没有 Dock 图标。平时显示 豆 OK,权限或者监听有问题的时候显示 豆 !,按住语音的时候会变成 豆 REC。 这个小状态栏后来证明很重要。 因为这种系统级快捷键代理如果没有可视状态,真的太黑盒了。你不知道是权限没拿到,还是 event tap 被系统关了,还是输入法切过去了但豆包没接住。现在点开顶栏菜单,至少能看到权限、当前输入法、最近一次事件和监听状态。 大概流程是这样: [text] 显示已折叠代码(33 行) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 当前输入法是微信输入法 | | 按下 Command + Option v agent 捕获到这个组合键 | v 检查当前输入法不是豆包 | v 切换到豆包输入法 | v 重新发送一组干净的 Command + Option keyDown | v 豆包开始语音输入 | | 我继续按住,说话 v 松开 Command + Option | v agent 捕获释放事件 | v 重新发送 Command + Option keyUp | v 豆包结束语音输入 | v 切回微信输入法 一句话就是: ...