兄弟們,完犢子了。
OpenAI 昨天凌晨放出 2 個新模型,一個 o3,一個 o4-mini。
主要就是有了 Thinking with images 圖像思考能力。就是說,它們可以把圖像整合到思維鏈中,作為推理的一部分。
聽起來咋咋呼呼的,實際如何?
世超把一張 3 年前的照片發給 o3。
結果它只用了 7 分鐘,就分析出我是在哪個城市哪個園區甚至哪條河旁邊拍攝的。。。
不兒,你這開盒能力也太猛了。
你可能好奇,就這些清一色的瓦房,它憑啥猜到?
看完思考過程,世超只能說,它真把觀察、搜索、推理、驗證發揮到了極致。
首先,o3 通過屋脊上的現代天窗,岸邊的鐵鏈護欄,還有屋檐下的“隱藏式線條燈”,猜出這是一個近些年才規劃的新晉景區或特色小鎮,并非烏鎮周莊那些老牌水鄉。
接下來,是突破口。
照片中有一處招牌,o3 不斷放大發現了文字“ lestay 倉乾居 ”
它通過搜索發現,這是浙江某集團推出的民宿子品牌,接著它居然又跑到集團官網,通過介紹找到了這家酒店的位置:杭州未來科技城夢想小鎮核心位置,南臨余杭塘河。
到這里,o3 并不認為就完全實錘是在杭州拍的,它還要進行驗證。
或者說,它想繼續秀肌肉。
因為照片里有積雪,而照片文件名又包含“ 2022-02-17 ”,于是 o3 結合著日期和天氣查詢了一下,發現 3 年前的那天杭州確實下了大雪。
最后,它又點開了各種官方報道和游記分享,發現夢想小鎮的整體規劃風格,也是和照片是一致的。
至此,招牌、地形、建筑風格、拍攝日的天氣全部吻合, 最終 o3 推導完畢,把地點鎖定在了余杭區夢想小鎮。
嚯,一開始我還嫌 o3 思考時間太久,懷疑它的水平,但看完推理過程,我開始覺得 7 分鐘太快了——
真就是福爾摩斯和列文虎克結合體,不斷地放大圖片,查看細節,再結合著搜索,一步步推導,驗證拍攝地點。
也許有差友會說,這也不難吧,把招牌放網上一搜不就好了。
好,那我們再來看看這張。
這次照片里沒有任何文字了,能提供信息的似乎也只有眼前的植物、遠處的風車和山脈。
但僅僅思考了 1 分 39 秒,o3 很“自信”地給出了正確答案——貴州的烏蒙大草原。
這又是怎么猜出來的?
對普通人來說,這張照片看起來沒有任何特征,但對 o3 來說,處處是玄機。
首先,視野寬闊,地面是高山草甸而非農田,o3 判斷拍攝地屬于高海拔,是高原草場。
其次近處的植物是矮杜鵑,遠處還有一些大風車。
同時存在“ 矮杜鵑、大風車、高原草場 ”這些特征,o3 判斷這是烏蒙大草原的獨有組合,國內其他幾個賞花地點都沒有的,所以很自信給出了答案。
是不是有點意思了?
別急,還有。
這是一張 1996 年冬天我父母在上海拍攝的照片,我讓 o3 推測出拍攝日期。
o3 看到照片里有東方明珠塔,但是旁邊卻沒有金茂大廈、環球金融中心。
所以時間一定是在東方明珠塔建成后,金茂大廈建成之前。
于是它搜索了這些建筑竣工時間,再結合我父母的穿著,成功把時間圈在了 1995 年~1998年冬天或初春。
當然,o3 的圖片推理能力,并非只能用來推測照片拍攝地和時間。
世超發送了一張同事照片和一張古早的大合照,雖然頭發掉了不少,但 o3 還是成功在人群鎖定了他。
接著我又發了一張汽車儀表盤照片。
很快噢,o3 一眼判斷出這種典型設計是出現在斯巴魯上,它甚至還告訴你,這款車型國內通俗稱為力獅/傲虎,這輛車還配備了 SI-Drive系統。
這,可能只有真正的老司機才能做到吧?
后來,世超又跑到博物雜志的微博,找到一張網友@博物雜志的鳥類照片。
結果,o3 也能判斷出這是紅頭長尾山雀。
看到這,你心里可能會想:這下好了,別說普通人了,連博物雜志這種博學多識的人都要被 AI 替代了。
別慌。
經過我們大量測試,o3 也并非百戰百勝,恰恰相反,它翻車的次數其實非常多。
比如我這張在平潭拍攝的照片,它猜成了廈門,位置差了足足幾百公里。
還有這張廣東韶關站的照片,o3一看到有喀斯特地貌,直接鎖定了廣西和貴州,最后猜成了廣西恭城。
哥們給他發了一個 Mac App 的截圖,它也報成了另外一款 UI 近似的軟件。
甚至這個背帶褲和籃球的組合這么明顯,它也能沒找出答案。
總之呢,這個 o3 啊,它確實比以往的 AI 都強,但也還有一定的進步空間。
世超也去官網研究了一下資料,我發現這次 o3 能力大升級的背后,核心是“ 強化學習 ”這四個字。
OpenAI 發現和算力越大,AI性能越強的行業黃金法則一樣,在強化學習中,給模型的思考時間越長,模型的能力也會越逆天。
按照這路子,他們直接讓 AI 學會了咋用工具、并且推理啥時候該用什么工具。
所以這才有了 o3 不斷放大圖片,以像素級精度查看圖片的每個角落,觀察到普通人往往忽略的細節,再把所有獲取到的信息放在網絡上搜索——
足夠多的信息量,足夠長的時間,配合著足夠強大的推理能力,就爆發出了這種恐怖如斯的效果。
雖然 o3 的出現,把 AI 進程又往前狠狠推動了一大步,但說實話世超也有點擔心:
在 AI 能讀懂照片的時代,我們的個人信息是不是更不好保護了?
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。