太任性了,这粗略是APPSO报谈AI以来履历过更新最为密集的一个月。
在给各人先容完一众新模子后,今天这篇著作,想和你聊聊对AI行业的发布周期所产生的「超现实」景象。
在车轮滔滔的周期中,AI媒体们,包括APPSO我方,也成为了「共谋」。归根结底,在其位谋其事,潮流的标的难以违抗。但咱们发现越来越多东谈主齐有雷同的感受,是以本文也算是一种内省。
事情要从Opus 4.7提及。
只看大部分单项基准测试分数的话,你会以为Anthropic再次举高了大模子的上限。然则在发布之后,实在用上Opus 4.7的用户嗅觉并非如斯。Token破钞变得比前代愈加夸张,落魄文智力和编码场景下的器用调用智力齐有所倒退。
在使用了一段时期后,一些修复者切回了Opus 4.6。Pragmatic Engineer作家Gergely Orosz示意这个新模子「像是在跟我作对」。「Opus 4.7是一次严重的倒退,而非升级。」许多修复者齐示意了雷同的不雅点。Business Insider报谈,吐槽Opus 4.7的推文赢得了数万次点赞。

基准测试的扫尾,是对Opus 4.7的景象;用户实感,相同是对Opus 4.7的景象。关系词两者之间,有着一丈差九尺。
这种分别,指向了一个秘籍在通盘AI行业的文化景象,也即:
AI行业,十分是以Anthropic、OpenAI为代表的公司,它们辛勤保管着一种模子/AI居品发布周期(launch cycles),每隔几个月以致几周就有大版块发布,每天齐有新功能推出。
关系词,这种车轮滔滔的发布周期,有如左脚踩右脚一般,已然形成了一种自我维系的新经济模式。「发布」这件事本人,以及围绕这些发布所撰写的营销物料和媒体报谈,足以塑造、固化东谈主们对于AI逾越的默契,何况激发真实的财务后果(关系公司的股价涨跌)。
也就是说,AI在默契道理上的逾越,依然先于真实体验上的逾越,以致在很猛进度上完全替代了后者。
发布取代了体验,炒作成为了现实。
鲍德里亚与AI行业的超现实
在《黑客帝国》的主要变装进组开拍之前,主创沃卓斯基姐妹也曾强制条目他们阅读法国玄学家让·鲍德里亚的《拟象与模拟》(Simulacres et Simulation)一书。
文化驳斥界无边认为,《黑客帝国》是流行文化作品对鲍德里亚的想维框架的绝佳演绎:大部分东谈主给与了虚构的幻象,唯有少数东谈主「东谈主间知道」。在Cypher这个变装的身上,你会看到有东谈主更偏好好意思好的幻象,而非艰难的现实。
而《黑客帝国》三部曲的主角们,取舍的是红药丸,是不管争胜母体的可能性有何等的飘渺,齐要回到何况再行掌捏我方的现实,掌控我方的主体性。
调侃的是,在2003年,法国杂志《新不雅察家》采访了鲍德里亚本东谈主对《黑客帝国》的见解,他是这样说的:
《黑客帝国》实足是「母体」本人会制作出来的那种对于「母体」的电影。
翻译一下鲍德里亚的这句话,他其实是在吐槽《黑客帝国》流于「投诚劲敌,重掌自我」的流行文化俗套。他并不认为《黑客帝国》领路了我方建议的理念的精髓。
正违抗,鲍德里亚认为,「景象」的歪曲力场依然如斯之强,以至于景象与现实依然不存在骨子性的分别——景象早已取代了现实。
一家饭店的菜单,成为了饭店的具象代表,关系词你仅从菜单上是回味不出这家餐馆的口味的;东谈主们从一张平面的寰球舆图中形成对于不同国度幅员大小的默契,但当二维的比例尺切换到真实寰球中却并不精准,以致差之沉。
现实虽然是存在的,只是在景象先行的时间,它逐渐变得不足为患了。
回到本文的主题:AI模子和居品的发布周期,你会发现一切恰是按照鲍德里亚所预言的「超现实」(hyperreality)那样,正在发生。
环绕在最新的AI模子周围的配套体系,已然发展地如斯迅猛,变得无比弘大和放心,具备了苍劲而难以撼动的自我保管智力,以至于新闻稿、基准测试分数、媒体报谈……等等的「外围」,依然变成了AI本人,足以塑造东谈主们对于AI的默契;用户对于模子/居品的真实体验,反而变成了不足为患的次要要素。
今时本日,AI新品的发布,并莫得确实揭晓居品。而是发布的活动本人塑造了某种叙事,形成了某种景象。而这些叙事、景象,取代了真实体验(lived experience)。
发布本人,就是「居品」。
Opus 4.7、Gemini、Sora
在Opus 4.7发布的并吞周,Figma的股价一共暴跌了三次。
按照时期倒序:终末一次是Claude Design发布;中间是Opus 4.7发布;而第一次,是在4月14日,Opus 4.7发布的两天前。
当天,The Information独家报谈了Anthropic准备在当周发布Opus 4.7模子以及遐想器用的音书。

在4月14日哪一天,股价下落的不啻Figma:Adobe、Wix、GoDaddy等一众公司齐有挫伤——数十亿好意思元的市值挥发,仅因为一家泰斗媒体报谈了一个对于外界并不实在存在的、无法被切实感知到的居品。
淌若说目下的AI行业依然完全沦为一个景象当先于现实的「超现实」,The Information这篇报谈所激发的股票抛售畏惧就是绝佳的例证。

随后,Opus 4.7分解发布。Anthropic声称它是有史以来最苍劲的Opus模子,并提供了一系列基准测试分数来作证:SWE-bench Verified从80.8%普及到87.6%,CursorBench从58%到70%。
在发布的那刹那间,东谈主们无比怡悦,因为这个有史以来最苍劲的Opus模子,不仅看起来是毫无争议的逾越,而且果然加量不涨价,仍然是$5/25每百万输入/输出token。
过了一段时期,真实用户体验如潮流般涌来,一切齐变了。
用户们发现,Opus 4.7在许多特定任务上「降智」情况显赫。比如修复者和博主Theo Browne发现,即便在Anthropic官方推出的Claude桌面端中,使用Anthropic官方的harness来编排Opus 4.7履行代码类任务,它仍然会分解地很蠢,举例找不到Node.js的最新版、无视官方的系统辅导词等等。
再比如,Opus 4.7在多轮落魄文寻回基准测试(MCMR)中的分数,连前代Opus 4.6的一半水平齐够不上。这个基准测试所对应的落魄文寻回智力,对于Anthropic主打的中枢行业用户,包括法律、金融等等行业来说可能会有显赫影响,他们确实需要在百万级的超长落魄文窗口下责任。

Claude Code主创Boris Cherny亲身下场,声称MCMR是一个厄运、过气的基准测试,以后齐会用GraphWalk来动作落魄文测试的基准。
Cherny的解释并没些许劝服力。他说MCMR莫得现实道理,但东谈主们相同不错说GraphWalk,一个通过十六进制哈希值来评价图遍历性能的测试,跟MCMR莫得分别,齐没什么现实道理,齐是「用度心想」式的测试任务。

Opus 4.7选拔的新分词器也带来了新的负普及,可能导致输入、输出前的想考进程的稀奇消耗,普及最高35%。在新模子发布后的一天内,有企业用户反应在此前交流的任务上使用Opus 4.7在Claude上运行任务,比4.6提前30%-80%达到5小时名额。
修复者Abhishek Ray对Opus 4.7的新分词器作念了深入测试,发现在阅读文档(比如CLAUDE.md)的消耗能够达到4.6的1.45-1.47倍。
而Anthropic官方说的0到35%token增多,会让你以为真实场景会在这个区间内浮动——关系词实践上,在真实场景里,稀奇的破钞比Anthropic的「上限」还要高。

Anthropic的应酬战略是什么呢?如故派出了Boris Cherney,去X上理论通知:咱们为统共效户提高了名额!
当事实跟叙事对不上的时候,Anthropic会忽略事实、蜕变叙事。这就好比一个封建领主干戈失了地,他不想着争转头,反而把舆图给改了,然后告诉你「我的王国从来齐是这样大」。
在Opus 4.7的官方基准跑分表上,还有另一滑数字属于Mythos模子:SWE-Bench Verified高达93.9%,GPQA Diamond高达94.6,CyberGYM高达83.1%——简直全场合超越Opus 4.7。
Mythos是在Opus 4.7之前「发布」的,关系词此次「发布」远比Anthropic作念过的任何一次发布齐愈加匪夷所想:
平日用户是莫得方针在发布的并吞天用上Mythos的,A社只是通知了有这个史无先例版苍劲的模子的存在,唯有不卓越50个公司招供的互助伙伴不错第一时期用上。A社还说,莫得在近期将Mythos公敞开出的计议。

Mythos存在吗?存在,也不存在,它只存在于Anthropic官方的行状器上,存在于这些被A社官方认证的「互助伙伴」的体验当中。
然则这并不妨碍网红博主和AI媒体们对其发表多样溢好意思之词:一个将会绝对翻新千行百业的大模子,一个秒杀一切其它模子的「终末的大模子」……
Mythos是阿谁堪称苍劲到以至于寰球上99.999%的东谈主齐不配使用的模子。
关系词对于平日东谈主来说,它迄今为止独一的真实道理,就是塑造Anthropic乃至于通盘AI行业将会绝对重塑这个寰球的默契。
但Anthropic并不是第一家这样作念的公司。
2023年底,Google发布了一条展示Gemini多模态的宣传视频。在这条视频里,Gemini能够对录像头拍到的画面进行及时的视觉领路,它能看懂用户手绘涂鸦的内容,能在用户玩游戏的时候进行及时讲明,以致能猜顶用户在玩的「空壳游戏」(几个杯子一个球,猜球藏在哪个杯子里)。它的语音成果暖和而富饶东谈主味——在2023年的时候惊为天东谈主。
Google CEO Sundar Pichai也转发了这条视频,在YouTube上的播放量一天内破了百万。科技媒体纷繁撰写了报谈,盛赞AI的逾越已然打破了文本对话本人,在赢得多模态智力后实在参预真实寰球并带来深入影响。
这个被营造出来的默契,在只是2天后就轰然塌房。
在彭博社和TechCrunch的记者逼问下,Google打法了实情:视频中Gemini所谓的及时对话,其实是静态图片和辅导词一条一条喂进去青年景的陈说。不仅Gemini居品在其时作念不到及时对话,就连Google DeepMind团队我方齐无法在里面实现。这个demo本人就是假的。
真相曝光后,Google仍在插嗫。一位公司公关示意,这条视频是「Gemini可能性的演绎」。但咱们齐显著潜台词是什么兴味,就像《盗梦空间》里的「植梦」那样,科技行业通过这样的营销活动,在用户的心智中种下种子,让它生根发芽,枝繁叶茂,吐花扫尾。
虽然,在今天,低延长的对话功能和多模态识别智力早已被Gemini们实现。但事件发生的规定仍然贫窭:Google先结了果,才去种的因。
这条视频自后被Google删除了。但在被证伪之前,依然有上百万东谈主看过了视频,参与了这场倒果为因的饰演——有些许东谈主今天还记适其时Gemini团队作念了这件事?真相是什么,依然不贫窭了。
雷同的事情也发生在早期的Sora身上。
2024年2月,OpenAI展示了这个其时还在检修中的视频生成模子,赛博一又克齐市里的迷醉霓虹,以伪乱确实猛犸象穿越雪原,纸鸢如鸟群一般翱翔在天外。
直到24年底,带着相互「穿模」的物体、尽是六根手指的手、走样到无法辩认的东谈主脸,Sora模子确实来了。用户期待着能像年头的预报视频里那样松开生成秀好意思而真实的画面,得到的却是需要大齐抽卡才强迫能用一个概述短视频生成器。
有一说一,OpenAI的确在24年这视频的一源头就明确示意,其时的Sora还只是一个商量名堂。但这条视频所营造出的「景象」,所塑造的默契,直到前年Sora 2分解上线才算强迫实现。
自后的事情各人齐知谈了:如今Sora名堂依然绝对关闭,秀雅着OpenAI暂时退出了视频生成模子的赛谈。
Sora走罢了属于它的生命周期。但它所考证的「景象当先现实」这一恶疾,却仍然荼毒着通盘AI行业。
莫得一派雪花是无辜的
当下这种情况,并不是捏造出现的,不同角度的行业东谈主士参与到其中,而每个参与者齐有我方的狡计——最终形成共谋。
AI公司的居品司理、阛阓营销与公关撰写新闻稿,在种种基准测试中找到最有劝服力的数字。这些公司的首创东谈主和高管,更是极为擅长通过演讲、播客、推文去营造FOMO(错失狂躁),让安静的畏惧(不管是否真实)秘籍在公论的头顶。
然后,媒体和自媒体网红们,通过一条又一条的著作、推文、视频、播客,将上述统共信息进行咀嚼、吞咽、反刍、排出。
行业常说模子即居品。但在更高的维度上,你会发现居品早已不是模子本人,而是环绕在模子左近的「外围系统」。
是一代更比一代高的基准测试分数,更是一篇又一篇以「地震」「海啸」「雪崩」为标题,宣告着「AGI奇点到来」,令东谈主「头皮发麻」「大出血」「盗汗直流」「吓出癫痫」的AI网红帖文和媒体报谈著作。
模子不再是居品,景象才是居品。现实不再构澄净象的要件,景象变成了新的现实。

动作一个AI媒体的典型作家,我会在使用一个模子不到短短一天(大部分时候可能几个小时就够了)后给它打上「最强模子」的标签;当GPT的版块号从4进化到5的时候,我勇于不瞎想索就声称新模子比GPT-4实现了这样或那样的逾越。「碾压」「颠覆」「炸裂」在我的词汇内外,早已通货彭胀到不值一文。
合上电脑的时候,我无为堕入自我怀疑:今天写的著作在多猛进度上经得住回头的事实磨真金不怕火?我有莫得实在准确、负背负地景象这个AI模子或居品的创新性和实用道理?
究其根本,咱们每天报谈这个新模子,阿谁新址品,这样或那样的新技能变革,早已不再单纯因为它们有些许,以致根柢有莫得创新性和实用道理了。
实践上,咱们每天作念这些报谈,通常单纯是因为居品发布行将发生,而AI科技媒体淌若不报谈这些居品发布,淌若无谓这些词汇去写报谈,报谈就无法被推选、点击、阅读、共享,就将过期于他东谈主。
在今天,在这个AI营销模式下,莫得哪个从业者不错无谓无计可施。是的,即就是APPSO也无法避免。每一家媒体,每一个AI网红博主,齐在为这个「无尽逾越」的轮回孝敬着我方或大或小的推力。
咱们写了Opus 4.7是最强模子;转头咱们又写了Opus 4.7降智。这些不雅点看似相互矛盾,可它们齐来自于事实——但它们又绝非一齐和独一的事实。时期长了你就习尚这种傍边脑互搏了。
在每一个时期点上,这些不雅点齐击中了公论的某种偏好或审好意思,适合当下的「时间精神」,是以当然会有勇往直前的媒体和博主去束缚发表、增幅这些不雅点,激发争议,获取流量。
动作读者,你不应该期待今天看完这篇著作之后,来日不再看到它所品评的那种著作发表在APPSO上。以致这篇调侃的著作,本人也成了它所调侃的对象。淌若不是因为Opus 4.7的发布,和看到了后续的争议,我不会写这篇著作。
咱们能最终逃离这个轮回吗?
也不是完全莫得但愿。
Claude、GPT这样的模子,暖和度富裕高,用户富裕多。在发布之后的第一时期里(无为在一两个小时内),咱们能够看到一些真实用户的评测体验,十分是那些站在营销话术的对立面的真实陈说。不错说,情况如故有鼎新的。
令我印象最深的其实是GPT-4o下线和GPT-5的发布。
东谈主们对新的GPT大版块期待已久,山姆·奥特曼本东谈主对模子作念出「人人级别的智能」这一评价,以及那条经典的「死星」推文居功甚伟。

紧接着,GPT-5确实来了,却在X、Reddit等平台上激发了寰宇经久的反向公论。「降智」「不如4o」「还我4o」的声息此伏彼起。掂量阛阓Polymarket上其时有一个掂量标题是「哪家公司到8月底能拿出最强模子」,OpenAI在里面的比例在GPT-5发布后的短短一个小时内从百分之七十多裁减到了十几。
顶不住压力的OpenAI,不得不把下线的4o又给搬转头。
关系词这个轮回如故没能落空:GPT-5的小版块接二连三地推出,发布和更新的周期从年逐渐加快到以月为计。4o限时返场后最终如故下线,成为了滔滔上前的车轮压过的一粒石子。

研讨到Opus 4.7赚足了眼球,而OpenAI依然好永劫期(在今天的周期里简直是过活如年)莫得上线新模子了,听说中的「Spud」,以及行将在本年内发布的GPT-6,齐将在它们各自专属的时段内成为「最强模子」,这件事已成定局。
上轮反省还没扫尾,新的周期已然开动。
当你读完这篇著作,关掉页面,刷新了一下一又友圈、公众号列表或者X,会看到又一篇讲明新模子的著作发表了,可能是DeepSeek V4、Kimi 2.6、Hunyuan 3或者GPT 5.5,以致可能是实在到来的Mythos。
这些著作的标题,会有相同的炸裂词汇。你在正文里,将看到「最强模子」的多样分数一而再、再而三地被刷新。
你以为这个新模子将会是绝杀,成为the last model to end all models……
但那又怎样?在北京的知春路,在杭州的汇金国外开云体育(中国)官方网站,在旧金山的Mission Bay和Market St.,比最新的周期还要更新的一轮,早已动掸起来。