我以前是抵制语音输入的。

原因很简单:它太像“没过脑子的流水账”

敲键盘的时候,你会天然地停顿、删改、组织结构;而对着麦克风输出,很容易变成一串未经压缩的原始想法——混乱、跳跃、没逻辑。更早期的模型也接不住这种“毛坯输入”,你说一堆,它回一堆,观点也不够稳。

但从 O3 之后,我对语音输入的态度完全变了:

语音输入不再是“偷懒”,而是提升思维吞吐率的关键工具。


语音输入的核心优势:它的流速 ≈ 你的思维速度

键盘输入有个天然瓶颈:手速。

你脑子里已经跑到“第二段结论”了,你的手还在敲“第一段铺垫”。

语音输入不一样。它的速度很接近思维流速。

你想法刚出来,就能顺势丢出去——这意味着你可以把更多“尚未成形但很有价值的洞见”先保存下来,再慢慢加工。

以前我担心:这样输入太粗糙。

现在我反而觉得:粗糙没关系,关键是先把高价值的“原矿”采出来。

模型负责把它精炼成结构,你负责提供含金量。


我最近甚至接了个语音输入相关的商单(钱不多,但产品化挺对)

我发现一个很现实的点:

Whisper 这种开源模型,能力已经“够用到离谱”。

尤其是我的场景:

  • 中英混输(经常一句中文夹英文名词)
  • 偶尔夹一点日语
  • 更在意“稳定好用”和“随手就能叫出来”,而不是论文指标

Whisper(尤其是 Whisper Large V3 Turbo (Q8) 这种形态)基本能把我需求覆盖掉。

那为什么还需要“产品”?

因为“模型”是一块发动机,“产品化”是把发动机装进车里,让你真的能每天开。


模型能跑 ≠ 你会用:产品化真正值钱的是这几件事

你当然可以自己糊一个:

脚本、快捷键、录音、转写、粘贴……能用就行。

但一个好用的语音输入产品,真正的价值在于:

  1. 跨平台的稳定界面(Mac / Windows / Linux)
  2. 快捷键随叫随到(像打开手电筒一样打开输入)
  3. 本地模型/额外模型的调度(你不用操心怎么跑得快)
  4. 把“能用”做到“顺手”(这就是产品和玩具的区别)

我自己在手机或 ChatGPT 客户端里用语音输入(在线 Whisper)也很好用,但它有硬伤:

  • 看网络质量(尤其是梯子/VPN)
  • 看响应时间(经常要等几秒)
  • 在你最想“连续输出”的时候,它那几秒延迟会打断节奏

本地语音输入:隐私、稳定、低延迟,但也有代价

本地跑的好处太明显了:

  • 不联网:隐私直接拉满
  • 延迟更低:体验更像“键盘输入的替代”而不是“语音识别服务”
  • 不吃网络波动:你在地铁/弱网/开会间隙都能稳定用

代价也存在:

  • 吃本地资源(内存/CPU/GPU,取决于你怎么部署)
  • 需要优化到“够快、够省”,否则它会变成新的负担
  • 模型选择受限:对我来说,其他模型中英混输不够稳,所以基本锁死 Whisper Large V3 Turbo (Q8)

但总体结论是:

对于“高频输入”的人,本地语音输入一旦顺手,性价比爆炸。


我真正想要的下一代语音输入:它得有“记忆”

我现在用的方案“够用”,但我脑子里已经开始畅想终极形态了。

因为语音输入最烦的一类问题,不是识别错一个字,而是识别错“你专属的词”:

比如:

  • “姥爷”这种词(很多模型会误成“老爷”)
  • 人名、产品名、你的常用术语
  • 你自己的口头禅、你常提的项目/地名/缩写

所以我理想的产品应该是:

1)它在本地学习我的“专属词典”

它不需要联网,不需要把数据上传。

它只要在本地做两件事就够了:

  • 词频分析:我常说什么?
  • 纠错反馈:我每次改了哪里?我是在纠正哪个词?

你注意,这里有个关键闭环:

语音输入 → 你手动编辑 → 产品记录你编辑的位置与替换内容 → 下次优先纠正/提示

这才叫“记忆”。不是聊天机器人那种记忆,是输入法意义上的记忆。

2)它像一个轻量 RAG:能检索、能二次确认

当它发现某个词存在歧义(姥爷/老爷),它可以在你说完后做一个很轻的确认:

  • “你刚才说的是:姥爷(外祖父)对吗?”
  • 或者直接按你的历史习惯默认选择

这会让语音输入真正从“识别”进化为“懂你”。

3)它还能顺便当我的发音教练

我已经体验到一个很有趣的副作用:

Whisper 这种东西,真的能帮你纠正发音。

比如你英文里某个词总读歪,系统老识别成另一个词——你就会被迫去调整口型/重音。

这是一种“被动训练”,但长期非常有效。


免费的终极形态很难有市场,但买断制可能行

现实一点说:

如果一个语音输入产品把“本地模型 + 记忆 + 纠错闭环 + 跨平台体验”做得很好,它会非常值钱。

但它也很容易被大厂复制:

尤其是当大厂开始把本地模型能力铺到系统层(甚至直接做成 OS 级输入法)。

所以我更倾向的商业模式是:

  • 买断制(一次买断,长期用)
  • 可选增值:整合各家 API(OpenAI / Google / Anthropic…)
    • 让用户用更低的价格获得“可切换”的能力
    • 你赚的是“调度与体验”,而不是“训练一个模型”

结尾:为什么我现在敢说“请立刻使用语音输入”

因为我终于确认了一件事:

语音输入不是用来“替代键盘”的。
它是用来“捕捉你思维里那些来不及打出来的东西”的。

在模型能力足够强之后,你不需要把输入打磨得像文章。

你只需要把“有价值的原矿”吐出来。

剩下的——结构、逻辑、提纲、润色——交给模型。

从今天开始,把语音输入当成你的“思维高速入口”。

你会发现自己产出的不是更多废话,而是更多可被加工的洞见。

BTW:该篇也是使用语音输入后修改后完成