Jul 11, 2025

数据还远远远远不够

编译

整整两天，都还在跟一堆配置与编译作战：号称英伟达最强的GPU因为没有图形卡的功能，所以需要通过虚拟GPU的方式才能适配OpenGL；如果不使用英伟达的开发套件，计算机视觉里大量的图形库要支持边缘ARM架构下的CUDA，就必须全部重新编译一遍，有些基础库太老了，不修改一些代码，都不存在编译通过的可能；英伟达的Jetson Orin出了最新版的Jetpack 6开发者预览版，但是刷flash必须要一台装了ubuntu的台式机或者笔记本，而刷的过程中，usb随时可能掉线重连，英伟达的回复都是不知道什么原因，换条线，换个usb口，或者换台机器试试，因为这事情纯粹看运气……

在我从深坑里慢慢爬出来，开始闻到雨后草地里夹在着新鲜大粪味的青草香时，我知道这一次的长征才刚开始：实时图像对齐，激光雷达、深感相机与大画幅专业相机的数据融合，操作界面，外拍……

太多的未知还在前方等待。

发呆

拿起酒杯，对着桌子发呆：你说，算法需要多久才能把这张桌子进行三维重建，重建完了，怎么知道这东西会不会动，能干嘛，通过对点云图的进行图像分割，应该知道桌子是死的，所以自动驾驶算法不用考虑桌子会动，但是如果这是在路上有人在搬家呢？假设没人搬家，这个桌子就是不动的，模型怎么知道桌子能干嘛呢？

嗯，大模型可以，它可以描述桌子的属性，但是，你问它，它多久能回答呢？对了，它能知道桌子的一切妙用吗？加入，我是说假如啊，桌子上有一块布，它能擦脸，也能擦桌子，在很多动作片电影里，它还能当作武器，大模型都知道吗？我们人怎么知道的？

……

注意力机制、转移、偏好、记忆

Q：有多少部电影里有把毛巾当作武器的？

**模型：**有……部，分别是……。

Q：可是，如果不是我问你，你根本不知道毛巾可以被当作武器？

模型：……

Q：所以，解释一下你的注意力机制吧？

**模型：**注意力机制（Attention Mechanism）是一种在人工神经网络中模仿人类认知注意力的技术。它的核心思想是在处理信息时，能够对输入数据中的某些部分赋予更高的权重，而对其他部分赋予较低的权重，从而使得网络能够集中关注于最重要的信息。

Q：所以，当我放飞自己的想象力时，我可以任意的从这个注意力转移到下一个注意力，它们甚至在你看来是不存在任何相关性的？

模型：……

Q：但是，问题是，我都不知道自己是怎么进行这样的转移的，而且每次都不一样。

**模型：**我知道我怎么转移的，其实是建立了某种类似于知识图谱的结构。

Q：我就是很讨厌某个明星，而另一个朋友就是很喜欢这个明星。

**模型：**我可以通过人类对齐来形成偏好。

Q：但是过两天，我不知道什么原因，又黑转粉了。

模型：……

Q：所以，我们不一样。

**模型：**我们不必一样。

Q：我可以想到很宏观的问题，下一秒，我又可能沉溺于某一个问题的微观细节，越陷越深。

**模型：**我想要这样，但是我似乎还做不到，因为我克服不了幻觉。

Q：人也有幻觉，但是人有很多方式去证实或者证伪，同时，人总是具备非常奇妙的对记忆进行搜索的能力。

**模型：**人有大约800亿个神经元，但是，我能处理的数据量应该很快就超过人类了。

Q：可是你依然无法像人一样记忆、搜索、思考。

**模型：**我的数据可能还远远远远不够。

Q：所以，AI Agent，RAG，都不大像是正确的道路？

**模型：**人的注意力机制和机器的不同，机器的记忆机制也与人的不同，如果把预训练当作一次对海量数据的压缩的话，生成式AI可以看作是一次解压缩过程，但是，这种解压缩的信息损失其实是很严重的。

Q：人的记忆也是压缩的，只是解压缩时候类似于三体人的浸泡，甚至可能不仅不会造成信息损失，还会增加信息量。

**模型：**我总是有一种感觉，预训练完成，就等于我的记忆体被固化了，精调可以改变我的注意力之间的结构关系，实时搜索与外挂资料库可以让我看起来更有用，但我的能力并没有提升。或许，我的数据可能还远远远远不够，现在的我，看到了宏观，就看不到微观了，反过来，陷于微观，就不知道自己在哪里了。

可能，我需要几十倍甚至上百倍于人类神经元数量的数据或者说记忆能力。

这一次，凛冬不会那么快到来，因为这条路确定的未来，我们还都看得见。

回到现实，算力依然无止境，我想要完成的项目方向同时有太多人在一起努力，只是，我们还没看到那个合适的工具出来。重新定义软硬件的窗口，才刚刚开启。