本站4月18日消息,據報道,谷歌發布了突破性混合推理模型Gemini 2.5 Flash,該模型創新性地引入可調節"思考預算"功能,在保持高性能的同時顯著降低使用成本。
在閉源思考模式下,其成本僅為0.6美元/百萬tokens,相比全功能思考模式(3.5美元/百萬tokens)大幅降低600%。值得注意的是,即便在基礎模式下運行,其性能依然超越前代Gemini 2.0 Flash。
性能表現方面,Gemini 2.5 Flash在大模型排行榜中以1392分ELO評分高居第二,僅次于GPT-4.5-preview,與Grok-3表現相當。
具體任務測試中,該模型展現出顯著優勢:在GPQA知識問答中,24K思考預算可帶來6%的性能提升;在LiveCodeBench代碼基準測試中,16K思考預算時達到最佳表現。
對比測試結果顯示,Gemini 2.5 Flash在多模態推理和數學任務上明顯優于Claude 3.7 Sonnet,綜合性能與OpenAI最新o4-mini模型不相上下。在模擬人類綜合能力的"人類最后一次考試"基準測試中,該模型以12.1%的高分位列第二,再次印證其強大實力。
此次發布的Gemini 2.5 Flash通過創新的"思考預算"機制,在性能與成本之間實現了突破性平衡,為AI應用開發提供了更靈活、更經濟的選擇。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。