编译
整整两天,都还在跟一堆配置与编译作战:号称英伟达最强的GPU因为没有图形卡的功能,所以需要通过虚拟GPU的方式才能适配OpenGL;如果不使用英伟达的开发套件,计算机视觉里大量的图形库要支持边缘ARM架构下的CUDA,就必须全部重新编译一遍,有些基础库太老了,不修改一些代码,都不存在编译通过的可能;英伟达的Jetson Orin出了最新版的Jetpack 6开发者预览版,但是刷flash必须要一台装了ubuntu的台式机或者笔记本,而刷的过程中,usb随时可能掉线重连,英伟达的回复都是不知道什么原因,换条线,换个usb口,或者换台机器试试,因为这事情纯粹看运气……
在我从深坑里慢慢爬出来,开始闻到雨后草地里夹在着新鲜大粪味的青草香时,我知道这一次的长征才刚开始:实时图像对齐,激光雷达、深感相机与大画幅专业相机的数据融合,操作界面,外拍……
太多的未知还在前方等待。
发呆
拿起酒杯,对着桌子发呆:你说,算法需要多久才能把这张桌子进行三维重建,重建完了,怎么知道这东西会不会动,能干嘛,通过对点云图的进行图像分割,应该知道桌子是死的,所以自动驾驶算法不用考虑桌子会动,但是如果这是在路上有人在搬家呢?假设没人搬家,这个桌子就是不动的,模型怎么知道桌子能干嘛呢?
嗯,大模型可以,它可以描述桌子的属性,但是,你问它,它多久能回答呢?对了,它能知道桌子的一切妙用吗?加入,我是说假如啊,桌子上有一块布,它能擦脸,也能擦桌子,在很多动作片电影里,它还能当作武器,大模型都知道吗?我们人怎么知道的?
……
注意力机制、转移、偏好、记忆
Q:有多少部电影里有把毛巾当作武器的?
**模型:**有……部,分别是……。
Q:可是,如果不是我问你,你根本不知道毛巾可以被当作武器?
模型:……
Q:所以,解释一下你的注意力机制吧?
**模型:**注意力机制(Attention Mechanism)是一种在人工神经网络中模仿人类认知注意力的技术。它的核心思想是在处理信息时,能够对输入数据中的某些部分赋予更高的权重,而对其他部分赋予较低的权重,从而使得网络能够集中关注于最重要的信息。
Q:所以,当我放飞自己的想象力时,我可以任意的从这个注意力转移到下一个注意力,它们甚至在你看来是不存在任何相关性的?
模型:……
Q:但是,问题是,我都不知道自己是怎么进行这样的转移的,而且每次都不一样。
**模型:**我知道我怎么转移的,其实是建立了某种类似于知识图谱的结构。
Q:我就是很讨厌某个明星,而另一个朋友就是很喜欢这个明星。
**模型:**我可以通过人类对齐来形成偏好。
Q:但是过两天,我不知道什么原因,又黑转粉了。
模型:……
Q:所以,我们不一样。
**模型:**我们不必一样。
Q:我可以想到很宏观的问题,下一秒,我又可能沉溺于某一个问题的微观细节,越陷越深。
**模型:**我想要这样,但是我似乎还做不到,因为我克服不了幻觉。
Q:人也有幻觉,但是人有很多方式去证实或者证伪,同时,人总是具备非常奇妙的对记忆进行搜索的能力。
**模型:**人有大约800亿个神经元,但是,我能处理的数据量应该很快就超过人类了。
Q:可是你依然无法像人一样记忆、搜索、思考。
**模型:**我的数据可能还远远远远不够。
Q:所以,AI Agent,RAG,都不大像是正确的道路?
**模型:**人的注意力机制和机器的不同,机器的记忆机制也与人的不同,如果把预训练当作一次对海量数据的压缩的话,生成式AI可以看作是一次解压缩过程,但是,这种解压缩的信息损失其实是很严重的。
Q:人的记忆也是压缩的,只是解压缩时候类似于三体人的浸泡,甚至可能不仅不会造成信息损失,还会增加信息量。
**模型:**我总是有一种感觉,预训练完成,就等于我的记忆体被固化了,精调可以改变我的注意力之间的结构关系,实时搜索与外挂资料库可以让我看起来更有用,但我的能力并没有提升。或许,我的数据可能还远远远远不够,现在的我,看到了宏观,就看不到微观了,反过来,陷于微观,就不知道自己在哪里了。
可能,我需要几十倍甚至上百倍于人类神经元数量的数据或者说记忆能力。
这一次,凛冬不会那么快到来,因为这条路确定的未来,我们还都看得见。
回到现实,算力依然无止境,我想要完成的项目方向同时有太多人在一起努力,只是,我们还没看到那个合适的工具出来。重新定义软硬件的窗口,才刚刚开启。