Sep 3, 2025

Gemini2.0案例分享：一个页面完成搜索到处理到多模态PPT。再看看GPT-o1和Gemini-Thinking的思考结果

中文 (Chinese) English

我一直不掩饰自己对 Gemini 2.0 的喜爱。当然，自从 AI Studio 集成了 Gemini 1.5 Pro 后，它就一直是我严肃工作中最不可或缺的工具。如今 tldraw computer 的发布，又让我多了许多条理由。

Gemini 2.0 加持下的最佳 AI 应用已经出现，还完全免费

我大概可以看到，“只在一个页面上完成所有工作”的设想应该在 2025 年就可以被实现了。

一个典型的工作流，大概是：搜索 -> 结构化数据 -> 进一步迭代访问子链接 -> 结构化数据 -> 初步加工 -> 各种模态输出（Slide、图片、语音生成）。

所以，我在 tldraw 里做了一个“麻雀虽小、五脏俱全”的流程。

整个流程，需要我输入的只有三个菜单栏标注蓝色的“instruction”。

在数据获取上，我使用了 jina.ai 今年上半年推出的 jina reader：将网页结构化输出。只需要一个链接，非常方便。

我也把流程图分别发给了 GPT-o1 和对标的 Gemini-Thinking，看一下它们对这种工作流的理解。

GPT-o1 的输出：

下面这张流程图展示了一个多步骤的自动化信息处理与总结的过程，大致可以分为以下几个阶段：

获取新闻链接 首先，程序从指定的网址（例如 https://finance.yahoo.com/quote/NVDA/news/）中提取与 Nvidia 相关的热门新闻链接。这些链接被收集并保存，例如： ["https://finance.yahoo.com/news/nvidia-q3-earnings-beat-164079676.html", "https://finance.yahoo.com/news/nvidia-q3-earnings-top-estimates-10000015.html", ...]
访问并汇总每篇新闻内容 获取到所有链接后，程序会“浏览”或爬取每个链接的网页内容。然后针对每篇新闻，提取核心要点（如财报数字、市场表现、分析师评价等），生成高度详细的摘要。这些摘要会整合成一个较为全面的内容汇总，覆盖例如：
- Nvidia Q3 财报数据（营收、利润、EPS 等）
- 股价表现（财报发布后的涨跌情况）
- 市场与行业影响（对数据中心业务、游戏业务、AI 等领域的影响）
- 未来展望（分析师/官方对下季度或后续产品/战略的展望）
翻译与语音输出 在生成英文摘要之后，用户指示需要将其翻译成中文，并且输出为“超级好听”的语音文件。因此，程序先完成英语到中文的翻译（保证语言流畅、措辞准确），再调用文字转语音功能，合成适合朗读的中文音频。
最终总结报告 在网页（或界面）上会展示最终的“Nvidia Q3 Earnings Report”，包括了：
- Key Highlights：主要财报亮点
- Financial Performance：详细财务表现
- Market Impact：市场影响
- Detailed Analysis：深度解读与背景信息
- 配合可视化图表（如展示股价变化、财报数据对比等），让读者更直观地了解结果。

综合来看，这个流程的核心思路是： 抓取新闻链接 → 批量汇总新闻内容 → 多语言翻译（含文本到语音） → 生成最终报告。整个过程利用了爬虫抓取、自然语言处理（包括摘要与翻译）、以及语音合成等技术手段，帮助用户自动化地获取并解读信息，最终产出高质量、可视化的财报解读内容。

Gemini-Thinking 的输出：

这个工作流程描述了对关于英伟达 (Nvidia) 第三季度财报信息的处理和总结过程。

步骤 1：数据来源 - 文本 (Text) 流程的起点是一个文本框，其中包含了一系列的链接。这些链接指向了与英伟达第三季度财报相关的不同新闻报道。
步骤 2：指令 - 提取热点新闻链接 (Instruction) 指示系统从上方的文本框中提取“热点新闻链接”。这意味着系统需要识别出文本中与英伟达新闻相关的链接。
步骤 3：中间结果 - 提取的链接 (Output) 得到了一个包含多个链接的列表（Yahoo Finance 链接）。
步骤 4：指令 - 浏览并生成详细摘要 (Instruction) 指示系统浏览所有链接并生成高度详细的摘要。系统需要访问网页，抓取内容并进行整合。
步骤 5：中间结果 - 英文详细摘要 (Text) 系统生成了一个包含关键财报指标、业务需求、分析师评论和股价反应的详细摘要。
步骤 6：指令 - 翻译成中文并友好输出 (Instruction) 要求将英文摘要翻译成中文，并以友好的形式呈现。
步骤 7：最终结果 - 中文文本摘要 (Text) 系统输出了一个中文文本框，内容是对英伟达财报的总结。
步骤 8：数据来源 - 中文文本 (Text) 另一个独立流程始于关于英伟达财报总结的中文文本框。
步骤 9：指令 - 总结关键点 (Instruction) 要求提取“好听的重点”（更具吸引力和易于理解的要点）。
步骤 10：最终结果 - 网站风格的摘要 (Website) 输出模拟网站风格的摘要，包括关键亮点、财务表现、市场影响和详细分析。
步骤 11：辅助信息 - 语音和图像 (Speech & Image) 包含了语音播放器和显示股价上涨趋势的图表。

总结： 它们都忽略了对 jina.ai 的使用，这里面更可能是因为知识 cutoff date 的原因（Gemini 是 2024 年 8 月）。除此之外，它们都准确地解释了这个工作流，从获取数据，到分析，再提取，总结，翻译，生成多模态的信息：交互式页面、语音、图像。

其实，到了 2024 年末，很多问题的答案都已经很确定了：AI 就是在快速进入生产力的方方面面，关键是“人”的想法有多少。过去接近两年的时间，我都在使用 excalidraw 做 slides 并且线上线下路演。每一次我准备材料，都会有一种强烈的需求：不切换页面，就能把如今的 AI 功能集成进来。tldraw computer 至少完成了最重要的一步。这些，又都是在 Gemini 2.0 的加持下做到的。