Jul 11, 2025

2024关于AI的十大观点

中文 (Chinese) English

一直在试图找到一种平衡：合理的表达自己的观点，但是又不至于会触碰到工作和合规的禁区。上一篇尝试了一种方式，这一篇，尝试另一种方式。

1、大语言模型还会如何进步？

单纯的语言模型能够进步的空间不那么大了，多模态出来后，更需要的是具备规划能力的模型，无论是OpenAI，Google，还是其他模型公司，都在这个方向努力。

2、Transformer架构会不会被取代？

长时间维度下，这个答案是肯定的。但是六个月内可能还难以看到，更可能的是在下一个大版本中，看到与Transformer共存的架构。

3、模型参数量还会有数量级的提升吗？

可以肯定的是，2024年的主流模型都将是多模态的，模型的参数量至少还有成倍提升的空间，而训练的数据量，还有数量级提升的空间。

4、文生图、文生视频、文生三维模型都处在什么水平？

我曾经画过一张图：文生图模型的水平大概相当于一年前ChatGPT发布的时候，文生视频成熟度低一点，文生三维更低一点。当然，我这里只是用文生图与文生视频代指二维视觉模型，文生三维代指三维视觉模型，其实不一定需要是“文生”的。统称，视觉模型。

5、视觉模型会带来ChatGPT级别的震撼吗？

在我看来，视觉模型在2024年带来的改变将远大于ChatGPT，只不过在“想象空间”的边际效应是降低的。因为，所有这些可能性大家在2023年都畅想过了，只不过是逐步落地罢了。但是，永远不要低估“科幻走进现实”带来的改变的力量。ChatGPT只是带来无限的想象空间，2024年的视觉模型将永久的改变很多行业。

6、三维模型与元宇宙马上就会成为现实吗？

实事求是讲，发生在2024年的概率不太大，模型会很快速的进步，三维效果也会越来越好，但是在没达到可以“欺骗”人眼的效果前，都还是量变的过程。

7、AI PC的空间很大吗？

我早就说过，最好的AI PC已经存在了，就是苹果的M系列芯片的笔记本电脑。关于这个问题，我在M3芯片发布时就说过了，不想再赘述了。

写在Apple新一代M3发布之际

8、AI手机呢？

如果我们简单把AI分分类，大概会有这么三种：工业用，比如我们早就习惯的各种识别，或者各企业优化服务和产品；发烧友DIY，比如自己部署个模型啥的，其实2023年最大的增量在这一块；C端应用，最大的云端服务就是ChatGPT了，但依然有许多的场景和需求是希望私有化到每个人的手机中的，而这一轮AI在应用端的最大改进就是“傻瓜化操作”。

另外，每一次技术变革，都是硬件先行，软件跟上的，十五年前，有多少人认为智能手机会占据绝对统治力？今天，这个问题的答案也差不多的，AI一定会落地在某种我们随时随地可以触及到的硬件上，不一定是手机，只不过目前看起来落在手机上最顺而已。

9、怎么卷应用？

我相信，传统的软件开发模式已经走向了终结，应用者（或者说创作者会更合适）和“码农”的身份将逐渐融合，不会用模型完成自己工作的创作者，和需要别人提出需求才能开发的程序员，都将被快速淘汰。

最好的应用一定是由最好的创作者开发出来的，最好的程序员还是最懂应用的那批。

这种情况下，怎么卷？欢迎线下探讨。

10、这一轮AI会跟过去一样，遇到某个瓶颈之后快速沉寂，等待下一次爆发吗？

在每一个单一的方向上，比如大语言模型，图片生成模型，等等，都可能遇到这种情况。但是这一次最大的不同，是以神经网络和Transformer架构为基石，在各个方向上都同时取得突破。甚至于，越来越多的人意识到transformer本身代表着我们可能找到了一种“向机器解释人类世界”的方法。

所以，我们看到，语言模型突破后，带动视觉模型突破，带动三维，带动其他很多模型的进步，反过来，视觉模型突破，也进一步打开了语言模型进步的空间。

正如之前所说，Transformer当然会遇到瓶颈，但是多点突破带来的动量，至少我们在2024年的绝大多数时间还看不到衰减的迹象。