Sep 17, 2025

Claude是氛围编程，Codex就是超级助手

花了一天时间，终于在Codex的帮助下基本实现了基于“remotion + gemini”的一键生成日报视频流程，样例如下：当然，因为Gemini API的Rate Limit问题，有些声音与内容的缺失。

选择Codex的原因是：1. Claude Code搞不定我这项任务，因为需要的“脑洞”有点大；2. 恰逢OpenAI更新了gpt-5-codex模型，试试结果如何。

结果是，在全程开启high模式下，一路都很顺利，代码的成功率很高，出现的错误往往都来自于外部调用，比如截图时的权限，比如gemini的api错误，尤其是对于remotion这样的工具的理解力（Claude Code失败的原因就在虽然也给了完整的文档，但是对于remotion的使用方法技术上没错，架构上有问题）。

当然，相比之下，没有打开“high”，错误率就高了点，算力还是王道。

虽然已经取消了cursor的订阅，但因为长时间以来还是习惯了cursor的ide，师出vscode，但是简洁流畅许多。因为codex可以以插件形式运行在cursor中，使用中跟cursor原生的模式也没什么区别了。

IDE如下：暴露了一些本地文件的目录结构，不过也不需要“打码”了。能找到有价值信息的应该都是“同道中人”。

使用Codex是跟Claude Code完全不同的体验，简单而言，Claude Code是个代码“完成器”，但是当前版本的Codex就更像一个超级助手：

它会不断在过程中就执行方案跟用户沟通，选择更合适的；
它在使用外部三方类库方面的“知识”显然更多，使用方式也更合理；
在一些执行环节的准确性更高，比如截图的精准性；
虽然codex跑在项目中，但是视角并不仅仅局限于项目本身，很多与用户的沟通确认都是项目代码之外但又很重要的内容；

我把所有对话内容贴给了GPT-5，生成一份分析如下，分享给希望进一步关心细节的朋友。

所以，最终可以生成一个如本文最开头的视频播报内容。

当然，这个过程进一步体现了Codex超级助手的定位：通过一步一步的沟通完善，它帮助我自动化了整个过程，一键输出。但是，关于页面设计、内容生成、图像、语音，它离不开一系列外部模型和工具：

报告原文内容是跑在ChatGPT下的“Agent”模式生成的；

所有的页面设计是在基于Gemini的设计工具Stitch中完成的：

口播稿和语音tts离不开Gemini-2.5；

视频生成和渲染离不开Remotion；

当然，也离不开我长期以来“不务正业”、“时刻分心”、“从不知足”的“商业缺陷”。