百度DuMate登頂PinchBench，成全球龍蝦執行爭霸賽冠軍 - etnet 經濟通 Mobile|香港新聞財經資訊和生活平台

08/05/2026 18:31

【ＡＩ】百度DuMate登頂PinchBench，成全球龍蝦執行爭霸賽冠軍

摘要意見回饋

免責聲明

本內容由人工智能根據現有市場數據及新聞來源生成，僅供參考。其內容不代表《經濟通》之觀點或立場，亦不構成任何投資建議。鑒於AI生成資訊可能存在錯誤、遺漏或偏差，用戶應自行核實相關內容或諮詢專業意見後再作出投資決定。《經濟通》對因依賴本內容而導致之任何損失或損害概不負責。

▷ 百度DuMate登頂PinchBench及DeepResearchBench榜首
▷ PinchBench成績93.3%、93.2%，超越Anthropic及OpenAI
▷ 採用端雲協同架構，通過信通院兩項安全測評

More ▼ Less ▲

　　百度DuMate登頂智能體評測基準PinchBench榜首，並在前5位中佔據3席，超越Anthropic和OpenAI拿下全球龍蝦執行爭霸賽冠軍。在另外一項DeepResearch深度研究榜單中，DuMate同樣位列第一。

　　PinchBench是OpenClaw賽道最能體現Agent真實工作能力的評測基準，重點考察Agent在23個真實工作場景下147個任務的多步推理、工具調用和任務閉環能力，並從成功率、速度、成本三個維度綜合排名。榜單顯示，DuMate以93.3%和93.2%的總成績包攬前兩名。作為對照，Anthropic和OpenAI的同款模型場景下的成績分別為89.0%和91.6%。這意味著，同一模型在DuMate框架中，展現出更強的執行力。

　　超越原生表現的技術基礎，是DuMate的端雲協同Harness架構。該系統在任務到達時進行意圖識別和敏感度判斷，隱私相關操作留在本地執行，複雜推理任務上雲完成，無需用戶手動切換。同時，系統對每次執行所需的上下文做按需組裝--根據任務語義和用戶歷史行為，預判並注入必要的背景信息，減少冗餘干擾。Harness與Skills還基於歷史執行軌跡持續迭代，使得不同底層模型都能在接近其能力上限的狀態下穩定運行。

　　DeepResearch Bench是當前對深度研究型Agent最全面的評測基準，從洞察深度、內容準確性、可讀性等維度考察Agent處理複雜研究任務的綜合能力。DuMate以58.03的綜合分位列第一，支撐這一成績的是DuMate自研Skills體系中的Deep Search與Deep Research雙引擎--前者負責跨平台語義檢索與高價值信息定位，後者在此基礎上疊加多輪推理與因果分析，將碎片信息提煉為結構化研究成果。

　　自2026年3月上線以來，DuMate保持一日一版的更新節奏，已通過信通院兩項安全測評且均獲最高等級。
《經濟通通訊社8日專訊》

【你點睇？】美國再公開疑似外星人檔案，你認為這些UFO事件是否屬實？美方公開相關檔案是否有意淡化國內其他爭議？► 立即投票

【ＡＩ】百度DuMate登頂PinchBench，成全球龍蝦執行爭霸賽冠軍

【ＡＩ】字節跳動據報將AI基礎設施支出增加25%至2000億元 11/05/2026 09:39

【ＡＩ】阿里(09988)否認數據中心使用過任何被禁售英偉達芯片 08/05/2026 17:32

其他ＡＩ

【ＡＩ】Vbot維他動力完成近5億元Pre-A輪融資，超能機器狗已量產交付 11/05/2026 11:04

【ＡＩ】阿里將千問app與淘寶全面互通，千問app接入淘寶全品類商品 11/05/2026 10:20

【ＡＩ】梁文鋒據報將出資200億元領投DeepSeek首輪融資 11/05/2026 09:50

【ＡＩ】印度投資者轉向海外市場，因國內缺乏AI題材且回報率低 08/05/2026 16:30

【ＡＩ】中國移動發布移動模型服務平台MoMA，首創Token集約化運營模式 08/05/2026 14:18