4月17日,面向企業(yè)市場,字節(jié)跳動旗下火山引擎發(fā)布豆包1.5?深度思考模型,同步升級文生圖模型 3.0、視覺理解模型,推出 OS Agent 解決方案及AI云原生推理套件,幫助企業(yè)客戶構(gòu)建與部署Agent(智能體)應(yīng)用。
技術(shù)邏輯上,Agent是此次豆包發(fā)布系列產(chǎn)品的重點,而深度思考模型是其技術(shù)底座。采訪中,火山引擎總裁譚待對第一財經(jīng)記者表示,聊天和信息處理只是AI中的一小部分,要真正為各行各業(yè)帶來變革,Agent是必經(jīng)之路。
而深度思考模型正是構(gòu)建Agent的基礎(chǔ),譚待稱,模型要有能力做好思考、計劃和反思,且一定要支持多模態(tài),就像人類具備視覺和聽覺一樣,Agent才能更好地處理復(fù)雜任務(wù)。
技術(shù)報告顯示,豆包深度思考模型采用MoE架構(gòu),總參數(shù)為200B,激活參數(shù)僅20B。該模型還上線了一款深度思考視覺版,具備視覺推理能力,能夠像人類一樣對看到的事物進行聯(lián)想和思考。在實際案例中,該模型可以看懂復(fù)雜的企業(yè)項目管理流程圖表,快速定位關(guān)鍵信息;也可以結(jié)合地貌特征分析航拍圖,判斷區(qū)域開發(fā)可行性。競品對比環(huán)節(jié),根據(jù)數(shù)學(xué)推理AIME 2024 測試,豆包1.5?深度思考模型得分追平OpenAI o3-mini-high,編程競賽和科學(xué)推理測試成績接近o1。
多模態(tài)深度思考模型的基礎(chǔ)之上,譚待認(rèn)為Agent需要良好的架構(gòu)和工具去操作數(shù)字世界和物理世界。此次火山推出的OS Agent解決方案便現(xiàn)場演示了由Agent操作瀏覽器搜索商品頁、實現(xiàn)iPhone比價的任務(wù)。
模型與工具加速Agent落地的同時,Agent也會帶來更大量的模型推理消耗。據(jù)火山引擎披露,截至2025年3月底,豆包大模型日均 tokens 調(diào)用量已達(dá)到12.7萬億,較去年5月發(fā)布時增長上百倍。為應(yīng)對大規(guī)模推理需求,火山引擎打造AI云原生ServingKit 推理套件,GPU 消耗相比傳統(tǒng)方案降低80%。
趨勢之下,行業(yè)也開始出現(xiàn)Agent泛濫的現(xiàn)象,有廠商自稱部署近5000個Agent。譚待認(rèn)為Agent定義需要更新——簡單完成打油詩等任務(wù)的已不能稱為 Agent。從定性角度來看,Agent 應(yīng)能完成專業(yè)度較高、耗時較長的完整任務(wù);從技術(shù)實現(xiàn)角度來看,如果沒有運用思考模型、缺乏反思和規(guī)劃能力,也很難被認(rèn)定為 Agent。
隨著技術(shù)落地,今年行業(yè)對Agent的定義將會更加清晰,譚待認(rèn)為或許會像自動駕駛分級一樣,對Agent也進行自L1至L4的分級。但整體來看,深度思考模型是構(gòu)建Agent的基礎(chǔ),模型要有能力做好思考、計劃和反思,并且一定要支持多模態(tài),就像人類具備視覺和聽覺一樣。
幫企客致力于為您提供最新最全的財經(jīng)資訊,想了解更多行業(yè)動態(tài),歡迎關(guān)注本站。鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。