Sep 3, 2025

AI是不是我们“拿回属于自己的数据”的机会？

中文 (Chinese) English

就标题的问题而言，我的回答是，虽然很困难，但是我相信！

从内容上而言，这应该是接着上一篇的。ChatGPT“悄悄”推出搜索功能，变局正式开始了

从结构而言，上一篇讨论的搜索服务，是用户主动Request。今天要讨论的是另一面，向用户的推送。前者是互联网的初衷，后者是互联网如今商业帝国的基础。

这部分不好写，因为，我既不相信如今已经成为众多互联网研究员信条的“用户让渡自己的数据所有权，从而获取互联网公司提供的服务”，也不会激进到认为“互联网巨头都该死”。

观点不鲜明，总是表达的大忌。

但我依然相信现状或者说ChatGPT出来前的状态只是个短暂的不稳定状态，因为它不是互联网的初衷。我们能看到越来越多的人在通过各种努力让数据回到用户（每个人）自身，同时，至少名义上Apple和Google也是这么表态的。

AI提供给了我们这样的机会。

二十年前，当我有幸参与到一个现在看起来极其庞大的项目的第一个版本构建工作中时，互联网是平的。那时候，参与其中的人都看到了数据的价值，但是过于年轻的我们不能理解这有机会成为一个“乌托邦”。当然，更不可能去想象，这背后会有如此巨大的商业机会。

年轻且无知，让我错过了后面十五年的BAT，即使十五年的金融从业训练也没有使我纠正这顽固的偏见。

即使现在，我都认为，你不能简单的通过将用户数据换个马甲（广告主）卖回给用户挣钱，但是，推荐算法认为它可以，“科技巨头”认为他们可以。

推荐算法起源于一个讲了超过二十年的“大数据”（当然那时候还没有大数据的说法）的故事：啤酒与尿布。

这个故事我曾经也讲过很多次，只要你有机会“看到”这么多的数据，得出故事里的结论毫无难度。问题是，数据属于谁？

然而，我们已经习惯了这样一种“病毒”：当我们不断搜索关键词“AI”和“ChatGPT”时，搜索引擎的首页就会推荐给我们关于AI的内容，短视频APP就会不断给我们推“卖课”视频；当我们浏览了一些关于新手机的内容时，搜索引擎，短视频，购物APP，一系列的应用会用“手机广告”或者“购物链接”将我们包围……

以上内容当然是一个众人皆知却已经麻木的事实，我无意重复与批判。因为，我既没这么愤世嫉俗，同时也深信改变已经到来了。

1、在推荐算法里，我们每一个人都是一堆标签，然后在云端跟内容或者广告的标签进行匹配。算法根据“预算”和相似度将相关内容推送给我们；

2、最有价值的标签只需要简单直白的处理：我们经常看足球新闻，当然是因为我们喜欢足球……

3、我们只是通过浏览器阅读了一个门户网站的足球新闻，然后，几乎所有的APP都知道了我们这个“行为”。我们已经签了一大堆自己都没有意识到的Agreements，将这一数据分发行为合法化了；

4、这几年，Apple引入了一些数据使用的限制，如今，以Meta为代表的社交巨头开始鼓吹AI帮助他们提高了广告商ROI。可是简单的统计和关联规则并不等于我们理解的AI；

5、一定程度上，用户获得了大量免费的信息服务，推荐算法也在很大程度上帮助用户屏蔽不感兴趣的内容；

6、这套模式下成本最低的方式，就是在云端跑批：批量化的生成和调整标签，批量化的进行标签匹配，批量化的推送。算法的核心是更“精准”，以及计算成本更低。“千人千面”实现的基础是用一套中心化算法处理所有数据；

7、用户没有机会拿回自己的数据，因为整个计算网络没有机会“去中心化”；

当我们已经习惯了中心化的千人千面后，ChatGPT出现了。一年多前，所谓生成式的模型还在被诟病只能“千人一面”：当把模型的随机性（温度）降到足够低时，不同人，同样的输入就只会产生同样的输出，每一个人的每一次提问，都是一次不菲的计算成本开支。

模型当然可以足够个性化，只要有人为“一面”的计算成本买单就可以。

如果把成本的因素暂且放在一边，【如果每个人都拥有大模型】就是可实现的。如今越来越清晰的AI Agent的实质，就是把推荐算法面前“无差别”的人，变回到模型服务的一个又一个“个性化”的客体。

再把成本因素放回来，一年多以来，降速最快的就是“模型的推理成本”：同样的输出能力下，OpenAI的成本至少下降了几十倍，国内的很多模型公司成本下降的幅度更夸张，开源模型（开放权重）更是提供了我们在自有硬件上无需第三方服务无需另外付费即可运行模型的机会……

对于大企业而言，通过在云端私有化部署GPT-4等模型，加载企业私有数据，可以让模型只为企业内部服务，而不再需要向科技公司“卖出数据”；对于有一定技术能力的个人而言，通过在个人PC等设备上部署LlaMA等开源模型，有机会让算法模型从“千人千面”走向“一人一面”；对于绝大多数用户而言，通过越来越好的手机AI或者其他硬件设备上的AI，也在慢慢地走向“一人一面”……

前一篇提到，我们无法再简单的把现在的模型叫做生成式AI了，暂且叫做Agent吧。

Agent可以搜索最新信息，可以处理我们自己的数据，可以逐渐完成我们交予的任务例如购物、订票等等……

虽然，例如新闻、购物、订票等还需要访问到第三方服务，依然如同我们自己使用一样会“贡献”部分用户数据。但是，基于推荐后推送的商业闭环正在被打破：

当Agent代替我们搜索，并处理结果返回给我们时，搜索页的广告加载就无效了；

当Agent本地处理完我们的偏好数据，直接指向有价值的新闻、商品、票务信息等时，推送链接就无效了；

当然，上面的结论还比较理想化，更“很早期”。

但是，当模型进步到如今的样子时，核心的驱动因素已经变化了：“中心化”的计算变成了“去中心化”的计算。成本的快速降低使得越来越多数据从“云端计算”走向“本地计算”。

这是我看到的拿回自己数据的机会。

在这样的机会下，“中心化”与“去中心化”也许会长期共存。

其实，从我接触互联网的第一刻开始，我就认为它是“去中心化”的。