Sep 3, 2025

数据“质”而非数据“量”；幻觉“量”而非幻觉“率”；算“能力”而非算力

注：以上的截图可能清晰的展现了本文超过50%的意思，即，模型的进步正在遭遇挑战，甚至，一些不当的训练方法正在让它变差。

一段时间没写AI方面的点评了，过去一段时间，点虽然很多，但都是需要“让子弹飞一会儿”的；受各种干扰带来的争议也很大。索性做一段时间案头工作，改变一下原先的节奏，再来看，不知道是不是会清醒一点。

幻觉与模型的bug

OpenAI发布的o3正式版和o4-mini版明确的提到了“幻觉率上升”的问题。实际应用过程中，我也发现了更多奇怪的“幻觉”，很多时候，模型的思考过程显示出它“明知道”正确答案，但就是会在最后给出一个错误的答案，而且无法通过对话被纠正回来。

同样的，GPT-4o的最近一次更新被发现模型的回答变得“很谄媚”，OpenAI官方回应大概的意思是：当他们把用户反馈（👍和👎）加入到后训练环节时，这样的“谄媚”发生了，模型不再坚持先前训练到的“知识”。

模型的不稳定，无论是模型更新还是本身的随机性，正在成为模型大规模进入实际应用的最大阻碍。

如果我们扩大内涵，把这些错误都笼统的叫做“幻觉”的话，那么，其实重要的根本不是“幻觉率”，而是“幻觉量”。

先前很多关于模型差错率和人类差错率的比较根本站不住脚：一个99%准确率但是百倍于人类效率的AI发生错误的次数是90%准确率的人的十倍。

这个问题在我几乎全天侯沉浸于vibe coding后变得越来越突出：我不得不不断修正方法，放慢节奏，让自己有时间修正它的错误。

同样，它也适用于无人驾驶、AI问诊等等等等一系列严肃的场景之下。因为AI的引入，标准应该也变化，我们需要的安全性不是一个标准差，而可能是三到五个甚至更多。

我相信这个标准迟早可以达到，但它不会在明天，不会在三到六个月内，甚至不会在一两年内，而在达到这个更高标准前，我们是痛苦的。

这是否对算力是利空？

某种程度上是的，但是在市场预期已经下调了很多的环境下，有些情绪已经过度悲观了。

信息技术领域的每一次重大突破，都是新算法叠加规模效应而产生的。算法是可遇不可求的，但是规模总是阶梯式上升的。在这个过程中，最好的硬件面临的总是供给不足而非需求不足问题：从去年下半年对NV谨慎时就说过它面临的是技术攻坚问题，因不断延期导致产品更新节奏变化带来的下游开支计划调整，看起来是需求，实质还是供给。

然而在突破下一阶段的积累时期，最好的算力依然还是稀缺品，因为它意味着更大的确定性和更低的拥有成本和时间成本。

是算“能力”，而非简单“算力”。

短期外部冲击的大波动逐渐平稳后，实体与虚拟的分化趋势也许会逐渐清晰。在可预期的全球实体经济下行和生活成本上升，以及模型瓶颈双重作用下，也许一段时间里都不再有趋势性的机会，更多的价格波动带来的机会，但是来自于为下一阶段突破积蓄的“基础设施投入”大概依然可以提供更高的确定性。

数据“质”而非数据“量”；幻觉“量”而非幻觉“率”；算“能力”而非算力

最新模型的更新

幻觉与模型的bug

这是否对算力是利空？