2023年过去的很快,时间仿佛都因为ChatGPT的出现而加快了流逝的速度。其实,今年对我而言最大的改变不是交流人工智能,而是,技术正在从根本上改变我对影像的看法,某种程度上讲,我走上了“实验摄影”的道路,区别在于胶片时代,实验摄影依赖于暗房技术,数码时代,依赖于PS这样的后期工具,我现在,开始依赖于各种不同的算法。
最早让我开始尝试,并走上这条道路的算法,都是关于三维重建的。第一个算法叫做NeRF(Neural Radiance Fields),然后为了实现NeRF,需要使用SFM(Structure From Motion),需要SIFT(Scale Invairant Feature Transform),当初理解这些技术与模型,大概花费了超过一周的时间,然后就是动手拍摄,然后是跑模型,所以,如果现在回溯的话,下面这一段就是我差不多第一个月结束后获得的结果。
结果只能说差强人意,但是,看到结果出来的一刻的震撼,是远超过任何一次设备升级的,哪怕是第一次使用数码后背的时候。因为,这是从二维到三维,也因为,这是一个持续一个月的DIY过程。
然后,就是不断的尝试,改进,调整流程,改进算法,测试不同的参数设置。
我相信,如果没有ChatGPT的火爆,可能我的2023绝大多数的业余时间都将贡献给Photogrammetry和NeRF。但忙碌的2023二三四季度确实把拍摄的时间全部挤占了,也变得越来越“纸上谈兵”了:只能不断快速的通览相关论文或者成果,却没有时间去通过拍摄来优化了。
单纯从拍摄本身而言,我是一个对前期工作重视程度远高于后期的人:我们有一生的机会通过后期不断去优化自己的照片,却可能只有一次机会抓住转瞬即逝的光线。也正是因为这样,任何新的想法,我也需要不断回到前期拍摄中去尝试与优化。
但正如后期可以提示自己前期拍摄时被忽略的点,对论文和别人研究成果的通览,也能够帮助自己更好的去优化拍摄流程,提升素材,或者说数据质量。
所以,在一年即将结束的时候,商场里硕大的圣诞树激发了我拍摄的冲动,我优化了流程,在不改变算法的前提下,获得了自认为超过之前的效果,算是给2023年画上一个句号。
无论是出于分析师、程序员、摄影师的哪一种身份,都会有强烈的直觉在对我说:三维成像才是未来最大的机会。因为把我们的世界数字化,再在其中无限延伸,也许除了探索宇宙奥秘和人类起源外,很难有其他课题可以相提并论。同样是无论出于哪种身份,我都想参与其中,也因为,我只能参与其中。
从技术上讲,三维成像是智能驾驶、机器人的基础,又快又精确的三维成像,才是一切基于现实世界交互与决策的基础;三维成像也自然是新一代影视制作与娱乐游戏里最重要的前提,其他,在工业、科学研究、能源、矿业、建筑,太多的科研与工程领域后面的进步也都高度依赖这一基础技术,这还不包括导航。
从实际进展看,虽然2023年有大量关于三维成像的论文发表,但是还没有出现突破性的进展,NeRF算是2021年的成果,2022年的演进方向一是加快建模速度,二是提升画质,但都是量的积累,还没到质的提升。3D Gaussian Splatting算法作为NeRF的衍生版本,是2023年的一个较大亮点,但无论是NeRF还是Gaussian Splatting,本质上都是渲染算法,前提是都还要依靠二维照片的对齐算法,最近出来一些可以不依赖于前期对齐的算法,但是使用场景还是会受到比较大的限制。
客观来说,三维重建模型既可以算是生成式的AI,也可以不算:三维空间中的很多像素点是靠模型“猜”出来的,但也不能是无中生有的,需要大量的二维照片作为基础。
照片质量越高,前期采集过程越是精确,三维生成的质量也就越高。但是,为了更高质量,目前而言,必须在整体流程上付出巨大的工作,不仅是采集设备,拍摄流程,还有图库管理,照片对齐模型,三维建模算法。这些代表着至少一台相机,一台有英伟达专业级显卡以上配置的PC,两到三个专用软件或者算法,还有与图像数量和质量成NlogN关系的运算时间。
所以,当苹果的Vision Pro发布时,那种可以只依靠一台all-in-one的设备就能实现高质量三维成像的功能产生多大的震撼力就可想而知了,甚至,“空间计算”这个名词开始被广泛使用。
虽然几乎还没有人能够真实体验到Vision Pro的三维成像能力,但这不影响再次加深对于AI时代产品的认知:1、All-in-One,围绕一个核心功能,把复杂的流程极大的简化,达到“专业相机的能力,傻瓜相机的操作”;2、核心模型必须是最top的,也许第二第三名还有一点点生存空间,但是三名开外一定没有商业价值,因为那是属于开源免费最终人人都可得的;3、要改变交互方式。
实事求是讲,出于对苹果软硬件能力的了解,我不认为Vision Pro的三维成像能力相比我目前的流程会有质的提升,我经常使用带有LiDAR的iPhone配合polycam进行三维成像,质量确实不如我目前的流程,Vision Pro一定有提升,但提升也极有限。
但是,我很希望看到类似的硬件,假设有一天有一家公司能够推出单反相机大小的三维成像相机,直接在机内完成拍摄,计算,到最终的成像,那我一定毫不犹豫的“吃螃蟹”。甚至,我自己都在规划DIY一台这样的设备。
幸运的是,在2023年的Q4,这样的设备出现了,不幸的是,我可能再一次错过一个创业做产品的机会。
这是由Ravopoint公司推出的Miraco,产品形态叫做三维扫描仪,就是一台可以不借助任何其他设备完成三维成像全过程的集采集,计算到三维成像为一体的all-in-one设备。
我第一时间参加了众筹,经过数个月的等待,终于在我回到新加坡的同一天,拿到了机器。
我不会做开箱视频,到手的第一时间只是拍了几张照片进行一下直观的比较。

操作非常简单,虽然因为时间关系,我还处于跟设备的磨合之中,但是几乎傻瓜化的操作、快速的计算过程和极高的精度已经让我非常惊艳了。为了完整的展示它的能力,我直接使用了机器的录屏功能,所以下面的视频都是在机器的实际操作过程,原速。
全部的过程没有使用到除了Miraco之外的任何设备,而下一段视频更是展示了我完全通过机器本身建的几个小模型,同样,是实际操作过程的录屏,原速。
我跟机器的磨合还在进行中,所以,这不能算是严格意义上的测评,但是我依然可以简单的总结一下周末的使用感受:
1、AI时代,这种软硬结合的All-in-One设备一定是最重要的趋势,甚至很难有之一,门槛一旦建立,壁垒比纯软件应用要高出不少; 2、三维成像的ChatGPT时刻随着硬件与模型的共同进步正在快速到来; 3、这个产品完成度相当高,也确实是目前精度最高也是最方便的完整产品,但是依然有很多瑕疵; 4、固件还有些问题,特别是与PC的连接上还有些小问题; 5、室内环境,近距离是机器最擅长的领域,但是室外环境的表现很差,特别是在光线强烈的环境下,因为宽容度的问题变得几乎不可用,我认为这里面同时有摄像头本身参数限制和固件不成熟两方面原因,相信未来随着固件升级,会有不少改善; 6、相信这个产品只是开始,如果Ravopoint作为一家领先的三维扫描仪产品公司提供更好的开发者生态,比如开放固件的模型接口,可以方便使用者加载最新的Gaussian Splatting等模型,那这种产品的能力和应用面将会得到极大的扩展。毕竟,我相信,产品的绝大多数用户应该都具备一定的程序开发能力,同时对三维成像算法也不陌生。
诚然,作为第一代产品,它还无法满足我在三维成像方面的所有需求,但是,它至少是一个巨大的突破:1、配合一台三维打印机,就能很方便的完成从采集、计算、建模、编辑到输出的全流程;2、如果说人形机器人、智能驾驶汽车是大型的边缘计算设备的话,Miraco可能就是第一个完整形态的便携式小型边缘(生成式)AI计算设备,它的销量不会太大,但是可以给到很多寻找AI应用机会的初创公司足够的提示和引领作用;3、未来五到十年,三维成像至少是一个量级不会小于专业数码相机的市场,这个产业链足够长,想象空间足够大,应用场景足够多,而现在,谁都有机会。