“OpenAI的創(chuàng)新好像到瓶頸期了。”一位業(yè)界人士這樣說(shuō)道。
今日凌晨,預(yù)熱了很久的OpenAI o3模型完整版終于面世,且與以往直播“擠牙膏”式的依次、慢吞發(fā)布方式不同的是,這次o3和o4-mini是同時(shí)發(fā)布。
在OpenAI官方的陳述中,o3和o4-mini的亮點(diǎn)主要在于可以組合調(diào)用ChatGPT中的各個(gè)工具,像是網(wǎng)絡(luò)搜索、Python、圖像分析、文件解釋和圖像生成等。這可以看作是OpenAI開(kāi)始后發(fā)補(bǔ)足自身在Agent能力上的探索。
其中,o3作為推理模型,在編程、數(shù)學(xué)、科學(xué)、視覺(jué)感知等多個(gè)維度的基準(zhǔn)測(cè)試中都刷新了紀(jì)錄。比如在Codeforces、SWE-bench、MMMU基準(zhǔn)測(cè)試中,視覺(jué)任務(wù)準(zhǔn)確率高達(dá)87.5%,而MathVista達(dá)到75.4%。
其實(shí)分?jǐn)?shù)、榜單,這些都是常規(guī)操作。相較于以往,這次的最大不同在于,o3和o4-mini將上傳的圖像直接集中到思維鏈中,這就意味著,圖像不僅僅是被看到,還能被用來(lái)作為思考過(guò)程中的一部分。
從OpenAI團(tuán)隊(duì)成員、中科大校友Jiahui Yu發(fā)布的帖文來(lái)看,“用圖像思考”應(yīng)該是OpenAI去年9月發(fā)布o(jì)系列模型以來(lái),就在研發(fā)計(jì)劃中,之前還悄悄推出了o1 Vision并進(jìn)行了初步預(yù)覽,但并沒(méi)有取得很好的效果,也沒(méi)有引起關(guān)注,直到這次在o3和o4-mini上實(shí)現(xiàn)了這一能力。
根據(jù)外部專(zhuān)家評(píng)估,o3作為o1系列模型的繼任者,其在復(fù)雜問(wèn)題上的錯(cuò)誤率要比后者低20%,適合在生物學(xué)、數(shù)學(xué)和工程領(lǐng)域的復(fù)雜問(wèn)題查詢(xún)。
針對(duì)這一點(diǎn),國(guó)外一位醫(yī)學(xué)博士在測(cè)評(píng)后發(fā)帖表示,這一點(diǎn)確實(shí)有很大進(jìn)步,當(dāng)他向o3來(lái)提問(wèn)一些頗具挑戰(zhàn)性的臨床或醫(yī)學(xué)問(wèn)題時(shí),回答精準(zhǔn)、全面,符合對(duì)一位該領(lǐng)域真正專(zhuān)家的期望。
對(duì)于那些想親自測(cè)評(píng)、體驗(yàn)的用戶(hù)來(lái)說(shuō),OpenAI官方已經(jīng)表示,目前ChatGPT的Plus、Pro會(huì)員以及Team用戶(hù),即日起就可以直接體驗(yàn)o3、o4-mini,以及o4-mini-high,而之前的o1、o3-mini和o3-mini-high已默默退出舞臺(tái)。這一操作也被有些網(wǎng)友戲稱(chēng)為“內(nèi)部賽馬”,新的產(chǎn)品出來(lái)后,之前的通通讓路。
到目前為止,之前預(yù)告要發(fā)布的GPT?4.1全家桶系列、o3、o4-mini模型就已經(jīng)全部亮相展示了。據(jù)Sam Altman表示,o3和o4-mini可能是ChatGPT在GPT-5發(fā)布之前的最后獨(dú)立AI推理模型了,期間大概率是不會(huì)再有其他新款模型出來(lái)了,另外他也說(shuō)了,預(yù)計(jì)將在幾周內(nèi)將o3-pro升級(jí)到專(zhuān)業(yè)版。
在OpenAI官方的宣傳口徑中,o3和o4-mini是OpenAI所有模型中最為強(qiáng)大、智能的模型,一些開(kāi)發(fā)者、用戶(hù)在使用時(shí),也感受到了進(jìn)步。但是,創(chuàng)新能力似乎并沒(méi)有達(dá)到預(yù)期。
“OpenAI的步調(diào)已經(jīng)不再挺胸闊步了,更不知所措。”在看完OpenAI這次發(fā)布的新品后,一位業(yè)內(nèi)人士這樣感嘆道。
雖然o3、o4-mini模型作為新產(chǎn)品,效果不錯(cuò),但相較于OpenAI以往的激進(jìn)和高舉旗幟式前進(jìn),如今在創(chuàng)新上面呈現(xiàn)出明顯的心有余而力不足。
其實(shí)前兩天在GPT4.1系列套餐發(fā)布后,不少業(yè)內(nèi)人士就向虎嗅表示,“暫時(shí)還沒(méi)看到有什么特別亮眼的突破。”“對(duì)o3期待值沒(méi)有那么高。”
或者這種“失望”要來(lái)得更早一點(diǎn)。
去年12月,o3在OpenAI的系列直播尾聲亮相,Sam Altman稱(chēng)其為“一個(gè)非常、非常聰明的模型”,完全將O1甩在身后,更是在ARC-AGI測(cè)試這一旨在評(píng)估AI系統(tǒng)適應(yīng)新任務(wù)和展示流動(dòng)智力能力的測(cè)試中,獲得87.5%的成績(jī),也是首次超越人類(lèi)平均水平(85%),令業(yè)界感到震驚,被認(rèn)為是在通往AGI的道路上迎來(lái)了新突破。但在業(yè)界開(kāi)發(fā)者看來(lái),似乎并不是這樣。
“這就好比高考成績(jī)不能代表工作業(yè)務(wù)能力。”一位開(kāi)源領(lǐng)域人士銳評(píng)道。而且,如今的行業(yè)趨勢(shì)已經(jīng)進(jìn)入到對(duì)數(shù)據(jù)高要求、對(duì)Agent全適配方向中,這就意味著私有化和混合模型推理為主的時(shí)代到來(lái)了。但是OpenAI對(duì)于開(kāi)源的態(tài)度,眾所周知。
尤其是在年初,當(dāng)DeepSeek-R1憑借著超低的訓(xùn)練成本和性能媲美o1精彩亮相時(shí),無(wú)疑是給了OpenAI一記響亮的耳光,而DeepSeek的全方位、無(wú)死角開(kāi)源,像是又給了OpenAI再一記更響亮的耳光。
之后,這兩記耳光不僅打得OpenAI黯然失色,還亂了它的陣腳和節(jié)奏,模型命名混亂、功能創(chuàng)新不足、嘗試開(kāi)源但態(tài)度曖昧不明,再加上內(nèi)部人員高頻流失,等等,無(wú)疑正在讓它慢慢失去競(jìng)爭(zhēng)優(yōu)勢(shì),再不復(fù)一年之前被視為通往AGI的正確的、領(lǐng)先的道路引領(lǐng)者角色……
而官方也說(shuō)了,此次發(fā)布的GPT4.1系列、o3,以及o4-mini是GPT-5正式發(fā)布前的最后一次模型發(fā)布了,也被視為GPT-5時(shí)刻的關(guān)鍵一步,可以理解為是GPT-5的前菜,主打“量大管飽”。但是,在技術(shù)的攀登道路上,量變能夠引起質(zhì)變并非唯一真理,更何況,這個(gè)量還遠(yuǎn)遠(yuǎn)不足。
“GPT-5應(yīng)該是多個(gè)GPT4.1組成的吧。”一位業(yè)內(nèi)人士這樣戲謔道,一直傳GPT-5或?qū)⒃?月發(fā)布,到底OpenAI還能不能重回巔峰,只有到時(shí)候揭曉了。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。