Gemini 2.0加持下的最佳AI应用已经出现,还完全免费

Gemini 2.0加持下的最佳AI应用已经出现,还完全免费


过去两年里,我最重要的工作平台就是:Obsidian和excalidraw for obsidian插件。尽管在插件里,已经可以加入AI功能,但是解决方案依然比较复杂。

我不是没考虑过基于Obsidian写一套更适合自己使用的插件,但是在我如今的数据量下,Obsidian基本达到了性能的极限。

其实主要的问题还是来自于:Obsidian是基于文件系统的,闭环系统虽然可以自行开发插件,但是对后端的改造难度还是很大的。

半年前我把目光转向了两套开源替代方案:tldraw和Blocksuite。然而在改写的过程中,tldraw后端功能偏弱,虽然潜力巨大,但开发量也很大;Blocksuite的文档结构比较复杂,同时受到商业版本Affine的影响,每次更新的代码变化都比较剧烈。

我一直相信,随着模型能力的不断提升,很多复杂的开发架构是可以被优化的,当下的“痛点”可能很快就会因为模型能力增强而被解决。所以,整整半年多的时间一直在这样一种内耗中:当下考虑的这种解决方案是不是值得花费时间去实现,还是等别人来实现。

然后,就在年尾,“幸福”来了:tldraw computer。

AI时代,我们所需要的就是一张空白的Canvas。这个观点正在得到越来越多人的认可,越来越多的产品也正在向这个方向靠拢。

可是,毫无疑问,是在Gemini 2.0推出后,这个“可能”才真正落地下来了:

1、我们需要一个模型可以真正处理各种模态,完成各种不同的任务; 2、我们需要在这样的模型后台的基础上,把交互做的简单、漂亮、高性能;

第一项,输入Google DeepMind的功劳,第二项,属于tldraw团队的功劳。

一个简单的例子截图如下:

image

故事生成-->图片生成-->音频解说-->音频文字稿。

自从去年的ComfyUI开始,我用过很多低代码AI工具,但是没有任何一个可以做到如今的tldraw computer一样,既强大,又简单。

1、如上所述,各种模态都有; 2、模型不需要任何配置,直接使用; 3、所有的组件都不需要调整参数; 4、组件类型很简单,五种:提示词、文本、图像、音频,以及流程控制;

image

对于这样的循环+分支流程也能完美解决。

还有,Claude3.5最强的功能:Artifacts。

image

上图右边是直接生成的网页式的ppt:Gemini 2.0负责了代码。

好了,我要去试试让模型跟模型下棋了。

这是,目前为止,在我的应用领域,最完美匹配的AI工具。

我也相信后面会有很多令人兴奋的更新:

1、代码开源:tldraw本身就是开源的,我相信当这个实验性的工具开始成熟后,开源代码是大概率事件; 2、支持跟embed的交互:tldraw支持一系列embed,打通之间的数据流,就“完美”了;

image

3、语音或者对话框交互:如果连手动画组件和拖拽的步骤都少了,通过对话,直接生成复杂流程,那就“超神”了。

上面的,不难。

感谢Google DeepMind的Gemini 2.0,不仅仅是模型能力,各种模态API都开放,而且,还免费。

← Back to Blog