Cohere发布面向企业端模型，推理成本成为下一阶段关键

Sep 3, 2025

Cohere发布面向企业端模型，推理成本成为下一阶段关键

中文 (Chinese) English

Cohere在4月4号发布了新的闭源模型Command R+。

当然，现在敢闭源的模型，基本都要达到甚至超过GPT-4，最好，API调用成本还低于GPT-4。

这点，Cohere差不多做到了，至少按照自己的表现评分看。

这个模型有几方面特色。

首先，是带位置引用的高级版RAG（Retrieval Augmented Generation），用来消除“幻觉”。我试了一下，如下图，左边对话结果里淡灰色背景的文字部分都是从文档里找出的部分，点击后，右边可以直接有出处。实话说，这个对于现在的RAG而言，基本上不算是新功能了，但是如果换一个角度考虑，如今模型应用于文档处理的渗透率其实非常低，这种功能的整合还是会推动很多应用加速渗透的。

RAG Citations

在用户主观盲选的测试中，Command R+略胜GPT-4 Turbo。可惜没看到跟Claude 3 Opus模型的对比，毕竟这才是现在最好的正式版模型。

Human Evaluation Comparison

Command R+模型的第二大特色是：多语言能力。其实，在Sora发布时，Cohere发了一个开源模型Aya，依靠全球差不多3000位独立研究员的共同努力，得到非常优异的多语言能力表现。有这个基础，放到闭源模型里，多语言能力应该是在预期之中。

Multilingual Capabilities

第三个特色，就是适合商业应用场景的复杂工具调用能力。其实自动化的工作流和“函数调用”的应用场景非常多，也是AI落地的一个重要基础。Command R+超过GPT-4 Turbo的表现，还是非常优异的。

Tool Use Capabilities

这就是一个完全面向企业端的模型，当然，也是第一时间跟微软Azure云合作，Azure云用户可以直接调用模型。

这一轮AI，最大赢家显然是英伟达，其次，就是云服务企业了。微软似乎也在去年OpenAI管理层震动后快速调整了策略，与Mistral的合作，合并Inflection，现在又第一时间与Cohere合作。MaaS（模型即服务）的商业模式看起来开始清晰了。

Cohere的Command R+模型其实提出了两个问题：

1、模型提供给谁？企业，这个答案很清晰。 2、当能力达到了，最重要的是什么？使用成本。

所以，相比于模型本身的能力，用户使用成本和实际推理成本，成为模型间竞争一个非常重要的关键因素了。

首先，如果按照每百万token的使用费看。Command R+的输入成本只有GPT-4 Turbo的30%，输出成本是50%（如果考虑企业应用往往输入端上下文更长，那么综合成本是低于50%的）。

Pricing Comparison

目前最贵的模型也不是GPT-4 Turbo了，而是Claude 3 Opus。输入和输出分别是15美金和75美金，每百万token。

Claude 3 Opus Pricing

其次，看起来，模型还是一门很挣钱的生意，昨天，我只是试了一下OpenAI刚刚开源的Transformer Debugger，几个例子就花了接近8美金。

OpenAI Debugger Costs

但是，如果参考Databricks的计算，即使使用Llama 2-70B模型推理，每百万token的推理成本也超过100美金（按照云服务器租赁价格计算）。

Inference Cost Calculation

我相信，大模型公司的推理成本会比这个显著低，但是非常大的概率，模型公司的token费用是覆盖不了推理成本的。

推理成本的竞争才开始，这个竞争既是模型公司的，更是芯片公司的。

← Back to Blog