这份用数万亿代币揭示今年人工智能发展趋势的硅谷报告正在疯传。无论是对这个话题的分析角度,还是从中得出的一些结论,都是引起网友热议的话题。它还公开支持中国的开源模式,每周代币使用率一度达到30%。除了DeepSeek之外,还为编程领域的新人MiniMax做了专门的队列。这份报告由 OpenRouter 和 a16z 联合制作,标题为“AI 现状:1000 亿 OpenRouter 代币的实证研究”。我们分析了2024年11月至2025年11月OpenRouter平台上300多个模型的使用情况,涵盖了国内外主要的开源和闭源模型,如GPT系列、Claude、Gemini、DeepSeek、Qwen、Kimi等。而且统计角度非常特别。我们不关注各种基准分数,而是关注模型的实际代币消耗离子。代币消耗直接反映了模型的使用和范围,因此比测试分数更能揭示其内在价值。这次,基于100万亿代币,他们在报告(存档版)中得出了以下主要结论:到今年年底,开源模型的使用量预计将达到三分之一左右,使其成为闭源模型的补充,而不是零和游戏。在开源力量中,中国模式尤其受欢迎,流量份额从1.2%跃升至30%。模型从“语言生成”到“系统”再到“推理执行系统”,推理模型成为新的范式。编程和角色扮演是该模型的主要用途。用户留存呈现出“玻璃鞋效应”(一旦适合,就会发光),关键在于新模式在推出时能否彻底解决某一类问题。型号价格的下降很重要,但远没有那么重要你可能会想。如果你也想了解更多2025年AI的发展,就来了解更多儿童比特吧。开源不再是闭源的替代品,中国的力量已经深度分化。关于开源模式(OSS模式),本报告主要回答以下核心问题: 问题一:开源与闭源模式的实力对比在过去的一年里发生了怎样的变化?问题2:开源领域的主要参与者有哪些?问题3:开源模式的形态正在发生怎样的变化?首先,过去大多数人认为开源模式是闭源模式的“替代品”,开发者常常不得不在两者之间做出选择。然而,开源模型现在已经受到关注,并成为某些场景下的首选。因此,两者现在几乎是互补的,开发人员经常同时使用这两种类型的模型。并且值得一提的是,使用开源模型是c不断增加。随着DeepSeek V3、Kim K2等主要开源模型的推出,预计到2025年底使用量将达到三分之一左右。同时,中国的开源模型正在成为这一增长的支柱。我想要一个引擎。国内开源模型的周使用率从去年底的1.2%上升到最高30%,平均为13%。作为比较,平均比例其他地区开源模型的平均比例为13.7%。然而,值得注意的是,开源模型的格局正在发生巨大变化。然而,就总使用量而言,DeepSeek 仍然是最大的贡献者。然而,开源模型的涌入已经削弱了这一优势。以“夏季转折点(2025年中)”为转折点,今年上半年的开源力量集中(过半)在DeepSeek V3和R1上。然而,今年下半年,出现了潜水员的趋势。随着 MiniMax M2、Kimi K2、GPT-OSS 等相继发布,到 2025 年底,将没有单一模型占据代币使用量和开源市场 25% 以上。整个领域预计将平均分为5至7款车型。换句话说,很明显,2025年开源领域的竞争将会加剧,未来很可能不会出现强者。开源车型的形态也在发生变化,中型车型现在在市场上获得了更多的支持。报告中的分类如下: 大:参数超过 700 亿的模型 中:参数在 150 亿到 700 亿之间的模型 小:参数少于 150 亿的模型 过去,开源模型大多在“快与弱”或“强大而昂贵/慢”两个极端之间取得平衡,很少有“快且足够强”等中间选项。但现在,数据显示,虽然大、中、小类别的车型数量不断增加,小型车型逐渐失去人气,中型和大型车型正在取而代之。报告指出,当 Qwen2.5-Coder-32B 于 2024 年 11 月推出时,这个细分市场将几乎微不足道。但后来 Mistral Small 3 和 GPT-OSS 20B 等型号出现,这个细分市场逐渐成为一个独立的领域。报告指出:小规模模型主导开源生态系统的时代可能已经结束。市场现在已出现两极分化,用户倾向于使用新兴且功能强大的类别中的中型型号,或者将其工作负载整合到单一、大型、功能最强大的型号中。推理模型成为一种新的范式。其次,语言模型从对话系统升级为推理执行系统。今年早些时候,用于模型推理的代币数量可以忽略不计,但现在已超过 50%。所有推理模型中,Grok Code Fast 1,ow由 Musk 开发的 xAI,目前使用推理流量比例最高,领先于 Gemini 2.5 Pro 和 Gemini 2.5 Flash。直到几周前,Gemini 2.5 Pro还是旗舰机型,与DeepSeek R1和Qwen3一起也位居前列。报告指出:推理模型正在成为现实世界工作负载的默认选择。同时,模型调用工具的比例也在不断增加。最初,此功能仅专注于少数包含 GPT 的型号。今年年初,-4o-mini 和 Claude 3.5 和 3.7 占据了大多数。今年年中,越来越多的车型开始支持工具调用,体现了生态系统的竞争更加激烈和多样化。自9月底以来,Claude 4.5 Sonnet模型迅速获得了市场份额,Grok Code Fast和GLM 4.5等新玩家也取得了明显的进展。报告称,向模型运营商发出的信号是明确的。这意味着使用高价值工作流程更多工具。没有可靠工具的模型可能会在企业采用和编排环境中落后。编程和角色扮演已成为人工智能的主要用途。去年,人工智能模型的使用方式也发生了根本性转变。这主要体现在三点:一是任务变得更加复杂,从“写一篇短文”到“解决一个难题”。到目前为止,人工智能主要用于生成文章和简单的答案。它现在经常用于分析整个文档、代码库或长时间对话的记录,以提取重要信息。二是投入和产出都变“重”。报告指出,用户给予模型的关键词平均数量每次增加约 4 倍,这再次反映出工作负载对上下文信息的依赖程度越来越高。此外,由于模型推理会消耗更多的代币,因此模型完成任务所需的代币数量为也增加了近三倍。第三,模型正在成为“自动化代理”。用户不再满足于仅仅提出和回答问题。如今常见的用途是给模型一个复杂的目标,让它规划自己的步骤,调用各种工具(搜索、执行代码等),并在长时间的对话中使用它,记住状态,最终完成任务。换句话说,人工智能正在从“聊天机器人”转变为可以自主执行任务的“智能代理”。值得一提的是,在所有任务类别中,编程和角色扮演是目前人工智能的最主要用途。在所有类别中,编程经历了更一致的增长:查询使用率从年初的 11% 增加到最近的 50% 以上。在所有编程模型中,Claude级数模型始终占据主导地位,大多数情况下占比超过60%。然而,这一立场开始动摇。 2025年11月,Anthropic的市场该领域的份额首次跌破 60%,但自 7 月以来,OpenAI 的市场份额在最近几周已从约 2% 上升至约 8%。同期,谷歌的市场份额稳定在15%左右。其他几个开源模型(例如 Qwen 和 Mistral)也在稳步增加其市场份额。报告还特别提到,MiniMax 是一家快速增长的初创公司,最近几周实现了显着增长。而且,角色扮演游戏几乎等同于编程。开源模型(通常限制较少)可占使用量的 52%。该领域中西方开源模式平分秋色。 DeepSeek超过三分之二的流量是角色扮演和聊天游戏,消费者粘性很大。传统型号有自己的开口形状。除了DeepSeek上的角色扮演之外,用户对于主流主流机型也有自己喜欢的“拆包方式”。人类pic显然是一个程序员,其80%以上的流量都用于技术和编程任务。谷歌比较全面,用途比较广泛,涵盖法律、科学、技术和一些常识性查询。马斯克的xAI还专注于编程,其技术应用、角色扮演游戏和学术用途在11月下旬大幅增加。随着时间的推移,OpenAI 的工作重点发生了显着变化,逐渐从娱乐和休闲活动转向技术和编程任务。 Qwen 模型还侧重于编程方面,但科学和角色扮演任务随着时间的推移而变化。换句话说,你最常使用的编程正在成为兵家必争之地。顺便说一下,“玻璃鞋效应”出现在用户留存上。该报告专门解决了用户保留问题,并提出了一个有趣的“玻璃鞋效应”。这意味着大多数用户很快就会流失,b但随着每一代“下一代”人工智能模型的发布,一小部分“精选用户”被困住了。这些用户的工作需求与模型的新功能完美契合,就像灰姑娘穿着水晶鞋一样。一旦安装,即使以后出现更好的型号也很难更换。主要的例子包括 5 月份发布的 Claude 4 Sonnet 和 6 月份发布的 Gemini 2.5 Pro。五个月后,该公司的用户保留率仍保持在 40% 的高位。这正是由于工具调用和推理能力的进步。这也提醒大家,有时候“快”比“好”更重要。它们是最早以创新功能解决重要问题的车型,即使后来被彻底超越,也能凭借一开始就建立起来的用户习惯和系统集成,长期维持其基本市场。这里我们也会使用一些知名的模型来测试并查看哪个是特定模型。成功区块(Claude、GPT-4o Mini等):在初始版本中获得了核心用户群,并且这些用户的要求非常高。 Never Fit(例如Gemini 2.0 Flash):该型号在发布时没有包含创新功能,因此用户无法坚持,我的表现也很平庸。 Boomerang效应(例如DeepSeek):有些用户尝试后放弃,但尝试其他模型后又回来。我们发现,就成本效益和某些功能而言,DeepSeek 仍然是更好的选择。然而,报告还声称,“玻璃鞋效应”的寿命非常短,基本上只有在刚刚推出并被认为是“前沿”的时候才有效。随着竞争产品的推出和功能差距的缩小,吸引和留住新用户变得非常困难。除上述内容外,本报告得出的其他结论还包括:人工智能不再是硅谷独有的主导地位,而且亚洲付费使用比例翻了一番,从 13% 增至 31%。尽管AI在北美的地位相对有所下降,但仍然是最大的市场,份额不足50%。英语仍然以 82% 的绝对领先优势,而简体中文则占近 5%。参与第二名。型号价格对使用量的影响小于预期,价格下降了 10%,而使用量仅增长了 0.5% 至 0.7%。此外,降价并不意味着用户的支出会减少。当某种模型变得更便宜、更容易使用时,人们会在更多地方、更长的上下文中、更频繁地调用它。因此,代币总数的价值可能会增加,而花费的总金额可能不会减少。这也是报告中提到的“杰文斯悖论”。最后,我们必须提醒大家,这份报告有一定的局限性。 OpenRouter主要体现开发者和服务端的API调用行为。然而,现实中,有很多你直接通过应用程序和网络(例如 ChatGPT 应用程序/Web)访问它的用户,并且他们的流量不驻留在 OpenRouter 中。此外,OpenRouter的定价策略也影响着开发者的选择。例如,如果某个平台上 GPT-5.1 更贵,而 Claude 更便宜,则使用数据可能会偏向 Claude。是的,但这并不能真正代表“克劳德更受欢迎”。但无论如何,这份报告一定会给我们新的视角和新的有用答案。而这或许就是它最大的价值。报告地址:https://openrouter.ai/state-of-ai
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本silverforma仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。