我一直不掩饰自己对 Gemini 2.0 的喜爱。当然,自从 AI Studio 集成了 Gemini 1.5 Pro 后,它就一直是我严肃工作中最不可或缺的工具。如今 tldraw computer 的发布,又让我多了许多条理由。
Gemini 2.0 加持下的最佳 AI 应用已经出现,还完全免费
我大概可以看到,“只在一个页面上完成所有工作”的设想应该在 2025 年就可以被实现了。
一个典型的工作流,大概是:搜索 -> 结构化数据 -> 进一步迭代访问子链接 -> 结构化数据 -> 初步加工 -> 各种模态输出(Slide、图片、语音生成)。
所以,我在 tldraw 里做了一个“麻雀虽小、五脏俱全”的流程。
整个流程,需要我输入的只有三个菜单栏标注蓝色的“instruction”。
在数据获取上,我使用了 jina.ai 今年上半年推出的 jina reader:将网页结构化输出。只需要一个链接,非常方便。
我也把流程图分别发给了 GPT-o1 和对标的 Gemini-Thinking,看一下它们对这种工作流的理解。
GPT-o1 的输出:
下面这张流程图展示了一个多步骤的自动化信息处理与总结的过程,大致可以分为以下几个阶段:
获取新闻链接 首先,程序从指定的网址(例如
https://finance.yahoo.com/quote/NVDA/news/)中提取与 Nvidia 相关的热门新闻链接。 这些链接被收集并保存,例如:["https://finance.yahoo.com/news/nvidia-q3-earnings-beat-164079676.html", "https://finance.yahoo.com/news/nvidia-q3-earnings-top-estimates-10000015.html", ...]访问并汇总每篇新闻内容 获取到所有链接后,程序会“浏览”或爬取每个链接的网页内容。然后针对每篇新闻,提取核心要点(如财报数字、市场表现、分析师评价等),生成高度详细的摘要。这些摘要会整合成一个较为全面的内容汇总,覆盖例如:
- Nvidia Q3 财报数据(营收、利润、EPS 等)
- 股价表现(财报发布后的涨跌情况)
- 市场与行业影响(对数据中心业务、游戏业务、AI 等领域的影响)
- 未来展望(分析师/官方对下季度或后续产品/战略的展望)
翻译与语音输出 在生成英文摘要之后,用户指示需要将其翻译成中文,并且输出为“超级好听”的语音文件。因此,程序先完成英语到中文的翻译(保证语言流畅、措辞准确),再调用文字转语音功能,合成适合朗读的中文音频。
最终总结报告 在网页(或界面)上会展示最终的“Nvidia Q3 Earnings Report”,包括了:
- Key Highlights:主要财报亮点
- Financial Performance:详细财务表现
- Market Impact:市场影响
- Detailed Analysis:深度解读与背景信息
- 配合可视化图表(如展示股价变化、财报数据对比等),让读者更直观地了解结果。
综合来看,这个流程的核心思路是: 抓取新闻链接 → 批量汇总新闻内容 → 多语言翻译(含文本到语音) → 生成最终报告。整个过程利用了爬虫抓取、自然语言处理(包括摘要与翻译)、以及语音合成等技术手段,帮助用户自动化地获取并解读信息,最终产出高质量、可视化的财报解读内容。
Gemini-Thinking 的输出:
这个工作流程描述了对关于英伟达 (Nvidia) 第三季度财报信息的处理和总结过程。
步骤 1:数据来源 - 文本 (Text) 流程的起点是一个文本框,其中包含了一系列的链接。这些链接指向了与英伟达第三季度财报相关的不同新闻报道。
步骤 2:指令 - 提取热点新闻链接 (Instruction) 指示系统从上方的文本框中提取“热点新闻链接”。这意味着系统需要识别出文本中与英伟达新闻相关的链接。
步骤 3:中间结果 - 提取的链接 (Output) 得到了一个包含多个链接的列表(Yahoo Finance 链接)。
步骤 4:指令 - 浏览并生成详细摘要 (Instruction) 指示系统浏览所有链接并生成高度详细的摘要。系统需要访问网页,抓取内容并进行整合。
步骤 5:中间结果 - 英文详细摘要 (Text) 系统生成了一个包含关键财报指标、业务需求、分析师评论和股价反应的详细摘要。
步骤 6:指令 - 翻译成中文并友好输出 (Instruction) 要求将英文摘要翻译成中文,并以友好的形式呈现。
步骤 7:最终结果 - 中文文本摘要 (Text) 系统输出了一个中文文本框,内容是对英伟达财报的总结。
步骤 8:数据来源 - 中文文本 (Text) 另一个独立流程始于关于英伟达财报总结的中文文本框。
步骤 9:指令 - 总结关键点 (Instruction) 要求提取“好听的重点”(更具吸引力和易于理解的要点)。
步骤 10:最终结果 - 网站风格的摘要 (Website) 输出模拟网站风格的摘要,包括关键亮点、财务表现、市场影响和详细分析。
步骤 11:辅助信息 - 语音和图像 (Speech & Image) 包含了语音播放器和显示股价上涨趋势的图表。
总结: 它们都忽略了对 jina.ai 的使用,这里面更可能是因为知识 cutoff date 的原因(Gemini 是 2024 年 8 月)。除此之外,它们都准确地解释了这个工作流,从获取数据,到分析,再提取,总结,翻译,生成多模态的信息:交互式页面、语音、图像。
其实,到了 2024 年末,很多问题的答案都已经很确定了:AI 就是在快速进入生产力的方方面面,关键是“人”的想法有多少。过去接近两年的时间,我都在使用 excalidraw 做 slides 并且线上线下路演。每一次我准备材料,都会有一种强烈的需求:不切换页面,就能把如今的 AI 功能集成进来。tldraw computer 至少完成了最重要的一步。这些,又都是在 Gemini 2.0 的加持下做到的。