因为假期和新项目的准备工作,两周没有更新。当然,也是因为没有特别重要的事情需要点评,关于模型的点点滴滴的想法在过去一段时间也都基本涉及到了,可以有展望,但是有些东西在现在说出来会显得猜测意味过重,那不如就等出现后再说吧,反正等待时间也不会太长的。
下周大科技公司其实有一系列的活动的:OpenAI的5月13日的live demo,Microsoft的5月13日开始的一系列的开发者活动,Google的5月15日的IO Day。
公开的明确的或者可信度非常高的信息是:
1、OpenAI会有关于ChatGPT和GPT-4的重大更新,当然关于搜索引擎和GPT-5的rumor已经被Sam公开否定了,可以关于语音交互、Agent的传闻还是像模像样的;
2、Microsoft可能(5月16日?)会发布吸收合并Inflection AI后的第一个大规模模型MAI-1,传闻是500B参数,这至少在很大程度上证实了我们之前关于Microsoft与OpenAI之间关系越来越微妙的判断或者说猜测;
3、Google会拿出什么来还不太确定,但是将Gemini全面整合进Workspace和Google One的动作已经很大了,所以,能有快速落地就很好了。
毫无疑问,在经历了很短时间的信息真空后,几大巨头将开启新一轮的重大发布和更新周期。如果再结合上周各种事件一起讨论,则会更有趣:
1、Apple拿出了M4,宣告仅半年的M3生命期结束,发布了最贵的iPad Pro(性能也是最强的,其实这个产品太完美了,我也很喜欢,但就是找不到场景而已,同样的价格,确实可以到高内存版本的Macbook);
2、DeepSeek V2模型发布,还开源,给国产模型打了一剂很强的强心针;
3、ICLR期间,DeepMind拿出了一系列论文,有几篇我觉得很有意思,市场影响力当然都远不如AlphaFold3来的那么震撼,但其实这是迟早的事情,不是吗?我们这时候不更改看看怎么可以让模型“越狱”吐出隐私信息,怎么利用LLM作为基础工具改变各种现有的研究框架吗?
4、大家又关注到一个Transformer的潜在替代者:KAN,其实我觉得无论是Mamba还是KAN,相比当初Transformer的发布而言,都不是革命性的,如果一定要牵强附会的话,不如看看x-LSTM,LSTM作为Transformer的牺牲品,如今进行改造进入到Transformer的大架构下,其实还是很有价值的。如今大模型开发中所谓的“数学”,都是在降低训练推理成本和增强记忆能力上做文章,这对于工程落地很有意义,但是对于“革命性”而言,还远远不够;
承接上面的第四点,因为,大语言模型本质上就是知识的压缩器。有了这个压缩器,我们可以百科问答,可以搜索,可以function call,可以写程序自己造工具,可以成为agent……
其实,从GPT-4发布的那一刻开始,就证明了人类已经可以达到这个程度了,如今更多模型的发布,只是证明了:1、GPT不是偶然;2、知识压缩方法被更多人掌握了;
于是,这条道路上只留下了两个基本问题:1、我们用它来做什么?2、后面的模型怎么走?
对于第一个问题,是过去几个月来最关注的问题,什么样的产品落地?C端还是B端?软件还是硬件?怎么在商业上正反馈?
所以,我们看到Apple下场了,提前拿出了M4,甚至传出以M2 Ultra作为基础芯片构建数据中心,都知道我极度看到Apple的All-in-One能力。如今,我依然认为这个能力是AI落地时最重要的;
所以,我们看到,以Kimi为代表的国产模型越来越好用了,周围越来越多的朋友开始习惯于将Kimi作为日常工作中不可或缺的工具,这个趋势大概率在未来几个月会不断加速;
所以,我们看到,越来越多人开始相信云和SaaS;
所以,我们看到,越来越多人开始相信AI PC和AI手机能够带来更多的需求;
……
可是,对于第二个问题,其实才是那些科技巨头真正更关注的,甚至,这决定了OpenAI未来的生死前途。
我们人是按照自己来想象AI的,我们承认即使一生所有的时间都用来学习知识,一个人能够获得的知识也比大模型少好几个数量级,这是数字计算的优势。
可是,我们在骄傲于自己生物计算优势的同时,也希望AI能够拥有这种能力:深度思考、交互中学习、记忆……
在拥有了压缩全世界知识能力的基础上,下一代的模型应该需要deliver更多。
呼应标题,离OpenAI的demo直播还有差不多三十个小时的时间,我们当然已经知道不会有所谓的GPT-5,但是,我们依然可以期待透露出来的任何一点关于未发布模型能力的信息,和,下一步的方向。
我们暂时不太需要为Transformer找接班人,它只是下一步的基础而已,而这下一步,无论是谁迈出,也许就意味着这之后的不久,会真正有巨头倒下。
或者,也有另一种可能,因为监管加强的可能性正在不断提升……