您的位置 首页 TI

效率拐点已至:当微软、Uber都为API账单发愁,Agnes给出了另一种答案

分析师/智涵 校对/Tina 策划/Eason “谁还有免费的API token?”“API账单又涨了?”“模型是变强了,我也快破产了。” 这些话最近在开发者论坛、创业公司群聊里反…

6a18f96599815

分析师/智涵

校对/Tina
策划/Eason

“谁还有免费的API token?”“API账单又涨了?”“模型是变强了,我也快破产了。”

这些话最近在开发者论坛、创业公司群聊里反复出现,像一句句无奈的接头暗号。就连微软也撞上了这堵墙。2025年底,它向数千名员工开放Claude Code,鼓励大家用vibe coding重塑工作流。员工们太喜欢这个工具了——喜欢到仅仅6个月后,微软就收回了许可。不是工具不好,是token账单远超预期。Uber更惨:全年的AI编程工具预算,前四个月就烧光了。

大模型很强,但普通人真的用不起了。

6a18f96fc124b

这正是2026年AI行业最真实的困局。过去三年,整个行业卷参数规模、卷GPU数量、卷千亿万亿的算力集群。但到了真刀真枪的企业落地阶段,模型能力已经不是最大瓶颈——用不起、部署不了才是。

当行业从“比谁更强”进入“比谁更能干活”的阶段,谁来提供“高性价比”的解决方案,谁就能掌握定义下一个十年AI规则的话语权。

而最近全球AI社区的聚光灯,正打在一家相对低调但数据亮眼的公司身上——Agnes AI。

从ClawEval到Artificial Analysis等国际权威榜单,再到“全球AI Lab排名第9”的认证,这家公司正在用一套覆盖文本、图像、视频三栖能力的“全模态模型矩阵”,在全球AI江湖切开一道关键的裂口。

01
AI行业的“效率拐点”:

从参数竞赛到性价比竞赛

过去三年,大模型行业的竞赛逻辑简单且粗暴:参数量即话语权,算力集群即护城河。千亿、万亿、十万亿——参数如同核弹头的当量,堆得越高,声量越足。

然而,一场无声的“效率塌方”正在发生。

当参数从千亿跃至万亿,任务准确率提升不足2.3%,推理成本却翻了17倍。更致命的是,AI战场正从“聊天”转向“Agent干活”。一个Agent任务是拆解指令、调用工具、执行代码的多步长链,成本随链长指数级放大。许多场景ROI为负——省下的人力成本,甚至不够付API账单。

真正的瓶颈已经不再是“模型强不强”,而是“用不用得起、部署不部署得了”。

当成本成为新的标尺,评价体系也随之剧烈重构。过去大家更爱看“刷题榜”,问的是“模型能答对多少题”。现在,Claw-Eval和Artificial Analysis等真实任务导向的基准测试正在取代传统评测。它们不再迷恋纸面分数,而是追问一个更本质的问题:模型在真实场景中能完成多少任务?花多少钱?

正是在这两个新派评测体系中,一个名字高频出现。它同时位列视频、图像和文本模型的前列,而价格却低得令人怀疑看错了小数点。

这家公司叫Agnes。

它交出的成绩单脉络清晰:文本模型Agnes-2.0-Flash在Claw-Eval上部分任务超越Gemini Flash;图像模型Agnes-Image-2.0-Flash在Artificial Analysis图像编辑榜单进入全球前列;视频模型Agnes-Video-V2.0同样站稳视频生成榜单。三个模型、三条战线,同时在国际评测体系中站稳脚跟。

6a18f98417fa3

你可能会问:一家同时做三件事的公司,凭什么能把价格打到主流模型的十分之一?

答案不在烧钱补贴,而藏在其底层技术路线的结构性优势里——全模态协同。

02
全模态不是拼图游戏:

为什么“三条腿”比“一条腿”更有效率

很多AI公司的惯路径是:先在一个赛道上跑出成绩,再慢慢补其他能力。但Agnes从一开始就把文本、图像、视频三条能力线打通成整体。

为什么?因为单一模态在Agent时代会天然“瘸腿”。

比如电商场景:给一张产品图,要求分析风格并生成短视频。单一模态需要先调图像模型“翻译”成文字,再调文本模型写脚本,最后调视频模型生成——三次调用、三次网络延迟,信息不断打折。

有人会说:那我同时调用三个顶尖模型,拼在一起不就行了?但这种“拼图式”多模态,只是把串联缺陷变成了并联混乱,三个模型各自优化,没有共享中间结果。你需要写大量胶水代码,忍受延迟,输出经常对不上。

真正的全模态,并不是简单将文本、图片、视频模型进行组合,而是在底层实现多模态能力的深度协同。基于Harness架构,Agnes通过统一的技术底座和 Web 端,将文本、图像、视频整合为一体,实现跨模态高效协作与信息共享。相比传统串联方式,这更能减少信息损失和推理冗余,用内部协同取代外部拼凑。

回到核心问题:为什么“三条腿”比“一条腿”更有效率?关键不在腿的数量,而在它们共用同一副骨架。单一模态每多一种信息就多一次调用和风险;拼图式方案只是堆砌问题;真正的全模态把跨模态成本降到趋近于零。

Agnes的低成本也源于此——靠重新设计效率链条,而不是砍性能。别人给每个模态单独建工厂,Agnes只建一座综合性工厂:三条生产线共用供电、物流和管理,运营成本远低于三个独立工厂的总和。

03
Agnes的“效率配方”:
三个模型,一条路线

从文本到图像再到视频,任务自动往下推:文本拆解意图,图像生成画面,视频动起来。每条模型生产线单独看,都交出了足够硬核的成绩单。

文本模型:极致低价格,第一梯队的执行能力

Agnes-2.0-Flash的API定价为输入tokens 0.03美元,每百万输出tokens 0.15美元。这是什么概念?输出价格仅为许多主流模型的0.6%到5%,优势一目了然。

6a18f991017c0

但便宜只是开始。真正让开发者兴奋的是:Agnes-2.0-Flash在Claw-Eval这个“硬核干活榜”上,部分任务表现甚至超越了Gemini Flash和很多公认的第一梯队选手。这意味着什么?省钱不省能力——用极致的低价格,完成同等复杂度的Agent任务。

它不仅能完成任务规划、文件编辑、代码生成、测试运行、页面调试与多轮迭代,更适合交付完整应用、交互式游戏以及研究型网页报告。

这里不妨看两个真实的测评案例:

案例一:飞机大战游戏

开发者只需用自然语言描述规则,Agnes-2.0-Flash 就能用HTML文件快速生成一个可交互的的网页飞机大战游戏,不依赖任何外部文件。支持键盘方向键控制,从输入指令到生成完整可运行的代码,不到1分钟——即写即玩,流畅上线。

案例二:极简背单词小程序

只需用语言描述你的学需求,模型就能自动生成一个极简、安静的背单词工具。支持记忆卡片和语音,界面清爽,看着舒服,帮你养成长期学惯。

既能秒级生成可玩的小游戏,也能快速打造清爽专注的背单词工具——Agnes-2.0-Flash用实力说话:便宜只是表面,能应用、会思考,才是第一梯队的真本事。

图像模型:十分之一的成本,国际前列的品质

在图像编辑方面,Agnes-Image-2.0-Flash的定价更令人震惊:每1000张图片仅需3美元。而行业主流模型的平均价格普遍在30美元左右——Agnes的价格只有行业平均水平的十分之一。

低价就一定低质吗?看看它生成的例子:

比如,输入一句“帮我做一张2012年版义务教育教科书《人文·地理》上册的教材封面,采用庄重简洁的官方排版和怀旧的书本质感”,就把一本经典教材的年代感与严谨装进了一张朴素大方的封面里,既有学术味的庄重,又有学生时代的亲切感。

 

6a18f99b4bc0e

 

而在更强调视觉冲击力和创意表达的商业场景里,它同样能够胜任。

一套2026年世界杯主题海报,从史诗级全景的绿茵球场、巨星群像与地标元素融合,到超燃的射门瞬间与火焰光效,再到美式复古的做旧胶片质感——三组完全不同风格的画面,每一张都达到了商业赛事级的宣传质感。它不是只能出一种模版的“快消品”,而是能hold住复杂创意需求的“生产力工具”。

 

 
 
6a18f9abe9cc9

 

在Artificial Analysis的Image Editing Leaderboard上,Agnes-Image-2.0-Flash通过真实用户盲评进入了全球前列。参评者不知道图片来自哪个模型,纯粹根据生成质量投票。结果说明:效率竞争不是“低价低质”,而是更少的钱,同样的品质。

6a18f9bf74a8f

视频模型:把生成从“能跑”推到“好用”

文本和图像的价格已经够震撼了,但视频模型的定价几乎是在“刷新认知”。Agnes-Video-V2.0每生成一分钟视频仅需0.3美元。在行业普遍视频生成成本居高不下的背景下,这个价格让规模化视频制作第一次变得现实。

6a18f9c6ad168

价格是A面,质量才是B面。我们从几个实操对比来看Agnes在视频能力上的突破:

在运镜语言方面,同样一段“森林中小提琴手”的提示词,其他模型生成的视频像一个“交作业”的任务——人物完成动作、运镜呆板;而Agnes的视频则展示出电影级的审美——镜头从地面野花开始,螺旋上升穿越树冠,运镜与人物情绪同步起伏,整个片段具备了商业短片的质感。

在物理规律方面,一段“工业缝纫机缝合布料”的画面,其他模型在面料轨迹和布料堆叠上出现明显穿模或贴图飘移;Agnes则准确捕捉了双手引导布料过针的连贯动作,连针脚下布料的微微褶皱和蕾丝花纹的错位细节都做了出来。

综合来看,Agnes-Video-V2.0已经在运镜语言、人物情绪表达、物理规律遵循、AI感消除等维度形成了明显的竞争力。视频生成不再只是“能跑”,而是真正达到了“好用”的水平。

6a18f9ce50e6e

 

回过头来看,这一切能够成立,根本原因还是那个Agent原生的底层设计。文本、图像、视频三个模型不是拼在一起的,而是长在一起的。任务像流水一样自然推进,成本像水电一样按量计费,这才是Agnes“高效率”和“低成本”真正成立的逻辑起点。

04
效率时代的终局:
当成本不再是门槛,AI才能真正走向每个人

 

文本输出价格砍到一半,图像生成压到十分之一,视频每分钟只要三毛钱。这些数字放在一起,很容易被理解成“又一家公司在打价格战”。

但事情没那么简单。

英伟达CEO黄仁勋说过一个数字:过去两年,推理所需的计算量增长了约1万倍,使用量增长了100倍。算力需求在爆炸,成本下降的速度却远远跟不上。

但更深一层的问题是:就算成本降下来了,如果模型只会处理文本,那多出来的场景也只能是文本场景。真实世界不是由单一模态构成的。一个工厂的全流程质检,需要同时看图片、读仪表、听异响、记录日志;一个医疗Agent辅助诊断,要看CT影像、读病历文本、听心音、观察患者视频。缺了任何一个模态,这个场景就落不了地。

场景每扩大十倍,对模型“全能性”的要求就上一个台阶。只有全模态,才能接住那些真正复杂、真正值钱的场景。单一模态做得再好,也只能在窄门里打转。

这就是Agnes从一开始就坚持文本、图像、视频三条腿走路的真正原因——不是为了好看,是为了让成本下降释放出来的场景量级,能被真正消化掉。

当成本不再是门槛,当全模态可以一把抓起混合任务,一个更本质的变化就会发生:AI不再只是大厂的专利,不再只是那些付得起昂贵API账单的人的玩具。

Agnes希望服务那99.5%的互联网用户——那些从未使用过付费AI产品的人。这些用户可能在东南亚的小城市,可能在印度的农村,可能只是一个刚起步的独立开发者,月预算不超过100美元。对他们来说,AI不是“能不能更强”的问题,而是“能不能用得起”的问题。

这不仅是商业策略,更是一种选择。如果AI始终停留在“昂贵的基础设施”这个定位上,大厂的护城河会越来越深,创业公司连入场券都拿不到;小语种和边缘场景永远排期靠后;AI会变成一种特权,而不是一种权利。

Agnes赌的是另一条路:让AI像水电煤一样成为基础设施。你不需要思考“该用哪家”,因为你根本不会去想水龙头里的水来自哪个水厂。而谁定义了“性价比”的基准线,谁就定义了下一个十年的竞争规则。

这不是价格战——价格战是杀敌一千自损八百。这是价值战:你赢的方式,就是让用户赢。

对于正在为高昂AI账单发愁的开发者、内容创作者、中小企业来说,这可能不是纸上谈兵的愿景,而是明天就能用上的工具箱。因为Agnes已经把文本、图像、视频三个模型的价格,拉到了一个让所有人都能说“我来试试”的位置。

而这,才是一切的开始。

免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。

作者: admin

返回顶部