Claude是氛围编程,Codex就是超级助手

Claude是氛围编程,Codex就是超级助手


花了一天时间,终于在Codex的帮助下基本实现了基于“remotion + gemini”的一键生成日报视频流程,样例如下:当然,因为Gemini API的Rate Limit问题,有些声音与内容的缺失。

选择Codex的原因是:1. Claude Code搞不定我这项任务,因为需要的“脑洞”有点大;2. 恰逢OpenAI更新了gpt-5-codex模型,试试结果如何。

结果是,在全程开启high模式下,一路都很顺利,代码的成功率很高,出现的错误往往都来自于外部调用,比如截图时的权限,比如gemini的api错误,尤其是对于remotion这样的工具的理解力(Claude Code失败的原因就在虽然也给了完整的文档,但是对于remotion的使用方法技术上没错,架构上有问题)。

当然,相比之下,没有打开“high”,错误率就高了点,算力还是王道。

虽然已经取消了cursor的订阅,但因为长时间以来还是习惯了cursor的ide,师出vscode,但是简洁流畅许多。因为codex可以以插件形式运行在cursor中,使用中跟cursor原生的模式也没什么区别了。

IDE如下:暴露了一些本地文件的目录结构,不过也不需要“打码”了。能找到有价值信息的应该都是“同道中人”。

image

使用Codex是跟Claude Code完全不同的体验,简单而言,Claude Code是个代码“完成器”,但是当前版本的Codex就更像一个超级助手:

  1. 它会不断在过程中就执行方案跟用户沟通,选择更合适的;
  2. 它在使用外部三方类库方面的“知识”显然更多,使用方式也更合理;
  3. 在一些执行环节的准确性更高,比如截图的精准性;
  4. 虽然codex跑在项目中,但是视角并不仅仅局限于项目本身,很多与用户的沟通确认都是项目代码之外但又很重要的内容;

我把所有对话内容贴给了GPT-5,生成一份分析如下,分享给希望进一步关心细节的朋友。

image

所以,最终可以生成一个如本文最开头的视频播报内容。

当然,这个过程进一步体现了Codex超级助手的定位:通过一步一步的沟通完善,它帮助我自动化了整个过程,一键输出。但是,关于页面设计、内容生成、图像、语音,它离不开一系列外部模型和工具:

报告原文内容是跑在ChatGPT下的“Agent”模式生成的;

image

所有的页面设计是在基于Gemini的设计工具Stitch中完成的:

image

口播稿和语音tts离不开Gemini-2.5;

视频生成和渲染离不开Remotion;

当然,也离不开我长期以来“不务正业”、“时刻分心”、“从不知足”的“商业缺陷”。

← Back to Blog