{{ 'fb_in_app_browser_popup.desc' | translate }} {{ 'fb_in_app_browser_popup.copy_link' | translate }}
{{ 'in_app_browser_popup.desc' | translate }}

3C快訊 / 責任編輯 Jo / AI排行榜, AI基準測試, benchmark, AI評測, 幻覺率, AI工具比較, 2026 AI, GPQA, LM Arena, AAII / 更新時間 2026-05
隨著各大實驗室推出超大杯的前沿模型,AI 的能力已經逼近甚至超越人類專家的極限。
但是啊⋯⋯當每一家都宣稱自己是「世界第一」時,我們該信誰?⋯⋯哪個 AI 在胡說八道?哪個 AI 幻覺率是真的最低?我們怎麼知道?要怎麼量化?
所以我們需要「Benchmark」也就是基準測試,來進行橫向對比。
今天,帶你看看 2026 年最具公信力的 AI 權威基準測試到底有哪些、它們怎麼測?以及當然——你最想知道的測試結果:各大 AI 的戰力排行!
本篇大綱(傳送門)
2026 六大 AI Benchmark 懶人包
| Benchmark | 這是什麼⋯⋯? | 用來看什麼⋯⋯? |
|---|---|---|
| GPQA Diamond | 博士級科學推理考試 | 高難度知識、邏輯推理、理工能力 |
| SWE-bench Pro | 模擬真實工程師修 bug | 寫程式、Debug、軟體工程能力 |
| Humanity’s Last Exam | 人類最終極綜合考試 | 超高難度跨領域推理 |
| LM Arena | 真人盲測投票競技場 | 實際聊天體驗、創意、好不好用 |
| AAII 智能指數 | 十項 benchmark 的綜合 IQ | 全方位 AI 智力 |
| Hallucination Rate 幻覺率 | AI 亂掰機率 | AI 可信度、穩定性 |

這是紐約大學(NYU)研究團隊主導 + 各界專家協作的 AI 測試集,是目前最具鑑別度的科學推理測試之一,衡量 AI 在生物、物理、化學等「高難度領域」的專業知識、與邏輯能力。白話文說就是連博士都只能勉強及格的 SSR 超爆難考試。
由各領域專家精心設計出 198 道選擇題。題目「極度困難」到就算擁有該領域博士學位的人類專家也只能答對 65-70%。難度拿學測來比較可能大概是這種感覺⋯⋯?
🎓 學測:「DNA 複製時,哪個酶負責解開雙股螺旋?」
💎 GPQA Diamond 風格:「CRISPR-Cas9 在非同源末端接合(NHEJ)修復後,插入缺失(indel)的分佈偏態原因為何?」

AI 在學測、SAT、甚至醫師執照考試都已經接近滿分了,我們需要拿出一把「更難的尺」來分辨不同 AI 的真實能力差距。GPQA Diamond 就是目前常被引用的「頂級智力壓力測試」之一;也通常被視為目前最嚴格的 AI 推理能力基準之一。
| GPQA Diamond | ||
|---|---|---|
| 模型(取各家最高得分) | 正確率 | 公司 |
| 👑 GPT-5.4 Pro (xhigh) | 94.6% ±1.6% | OpenAI |
| 👑 Gemini 3.1 Pro Preview | 94.1% ±1.7% | Google DeepMind |
| Claude Opus 4.6 (32k thinking) | 90.5% ±1.7% | Anthropic |
| Muse Spark | 89.8% ±2.2% | Meta AI |
| GLM-5 | 87.8% ±2.3% | Z.ai (智譜AI) |
| Kimi K2.5 (Fireworks) | 87.6% ±1.9% | Moonshot (月之暗面) |
| Grok 4 | 87.0% ±2.0% | xAI |
| DeepSeek-V3.2 (Thinking) | 83.4% ±2.0% | 深度求索 |
| Qwen3-235B-A22B (Jul 2025) | 80.1% ±2.6% | Alibaba (阿里巴巴) |
雖然 GPQA 是學術論文性質的資料集,但原作者(NYU 等)從未建立持續維護的官方評分排行榜。
意思是,GPQA 的分數主要來自於三處:
1. 各家 AI 公司自報
2. 獨立第三方執行後公布
3. 專門彙整評測資料的排行榜
而此,我們引用的數據是來自當前公信力最高的學術研究機構 Epoch AI,有一定的結構性獨立性,是一個多領域研究非營利機構。其網站所提供的 GPQA 是公開透明、可重現、嚴格控制變數而給出的分數。


跟上一個 GPQA 考「知識理解」不一樣,SWE 考的是實際動手解決問題的能力。SWE-bench = Software Engineering Benchmark;簡單說,就是請 AI 當軟體工程師啦~ 給它指定好的任務,看修 bug 的能力如何等等等。
最早的 SWE 收集了上千個在 GitHub(程式碼協作平台)上的問題,但有些問題描述寫得不清不楚、測試有錯誤,或根本很難判斷對錯,導致考試不公平。

第二版「Verified」驗證版,OpenAI 主動合作找來很多真正專業的軟體工程師,一題一題人工審核挑出 500 個問題;後來,幾乎每家 AI 實驗室都拿這個基準測試炫耀(?)自己的模型。結果今年二月,這個版本被 OpenAI 官方公布棄用(啪沒了),因為 OpenAI 稽核後,發現許多模型根本沒有在推理,只是靠「記憶」在背答案,已經受到「資料污染」了(模型在訓練的時候就已經不小心看到答案並且過目不忘)。
現在,大家逐漸轉向 SWE-Bench Pro,由 Scale AI 開發維護,規模大了將近四倍—— 1,865 道任務、41 個程式碼庫、公開題庫(731 題)和不公開題庫(858 題)分開以避免資料污染。
| SWE-bench Pro (Public Database 公開題) | ||
|---|---|---|
| 模型(取各家最高得分) | 正確率 | 公司 |
| 👑 GPT-5.4 (xhigh) | 59.10% ±3.56% | OpenAI |
| 👑 Muse Spark | 55.00% ±3.60% | Meta AI |
| Claude Opus 4.6 (thinking) | 51.90% ±3.61% | Anthropic |
| Gemini 3.1 Pro (thinking) | 46.10% ±3.60% | Google DeepMind |
| Qwen3-Coder-480B-A35B | 38.70% ±3.55% | Alibaba (阿里巴巴) |
| minimax-2.1 | 36.81% ±3.55% | MiniMax (上海稀宇極智) |
| Kimi-k2-instruct | 27.67% ±3.25% | Moonshot (月之暗面) |
| DeepSeek-V3P2 (Thinking) | 15.56% ±2.63% | 深度求索 |
| GLM-4.6 | 9.67% ±2.15% | Z.ai (智譜AI) |
| SWE-bench Pro (Private Database 不公開題) | ||
|---|---|---|
| 模型(取各家最高得分) | 正確率 | 公司 |
| 👑 Claude Opus 4.6 (thinking) | 47.10% ±6.07% | Anthropic |
| 👑 Muse Spark | 44.70% ±6.05% | Meta AI |
| GPT-5.4 (xhigh) | 43.40% ±6.03% | OpenAI |
| Gemini 3.1 Pro (thinking) | 32.20% ±5.69% | Google DeepMind |
咦?怎麼不公開題的排行榜只有這幾位?因為公開的 SWE-bench Verified 你可以自己下載資料集、自己跑、自己回報成績。
但 SWE-bench Pro 不公開的程式碼庫你根本拿不到,沒辦法自己測。要測就得先跟 Scale AI 合作,這對規模小的 AI 公司來說傷成本,測出來分數低還自傷品牌,多不划算。
然而隨著 SWE-bench Pro 的影響力擴大,之後可能見到更多公司(如 xAI)的模型分數公開。


HLE 由 Center for AI Safety(CAIS)和 Scale AI 聯合開發,取名有夠中二蝦趴:「人類的最後一場考試。」只不過不是人類被考,是 AI 被考。取這名字是因為 AI 進步太快,這可能是現在人類還有辦法做出來難倒 AI 的最後一批題目了。

題目來自五十個不同國家、超過五百個不同機構、近千位專家貢獻而成(主要是教授、研究員和博士生)。出題者甚至可以競爭一個五十萬美元的獎金池。
題目共 2500 題,橫跨超過一百個學科,包括數學、物理、化學、生物、醫學、電腦科學、人文與社會科學。
#題目篩選流程:題目會先讓前沿 LLM 測試(也就是當前最強的大型語言模型),只有難倒這些模型的題目才能進入下一關,接著再經過兩輪人類專家審核,通過後才正式納入題庫。此外,如果「有搜尋工具時模型答對、沒有工具時答錯」,就會被判定為「可搜尋題」並直接剔除。 #隱藏測試集:官方保留了一批未公開的題目,用來偵測模型是否靠死記硬背來刷高分。 以上都是官方設計目標。但阿里巴巴研究團隊事後審查發現,原始 HLE 中仍有一定比例的題目存在題意模糊、答案有誤、或題目與解答前後矛盾的問題,並發布了修正版 HLE-Verified。 |
| Humanity's Last Exam(HLE) | |||
|---|---|---|---|
模型(取各家最高得分) 潛在汙染警告:模型在 HLE 公開發布後才接受評估,模型開發者可能已接觸到題目與答案。 | 正確率 | 校準誤差(Calib Err) ≈ 模型自認答對率 − 實際答對率 | 公司 |
| 👑 Gemini 3.1 Pro Preview (thinking high) | 46.44% ±1.96% | 51 | Google DeepMind |
| 👑 GPT 5.4 pro 2026-03-05 | 44.32% ±1.95% | 38 | OpenAI |
| Muse Spark | 40.56% ±1.92% | 50 | Meta AI |
| Claude Opus 4.7 | 36.20% ±1.88% | 47 | Anthropic |
| Kimi-k2.5 | 24.37% ±1.81% | 67 | Moonshot (月之暗面) |
| GLM-4P5 | 8.32% ±1.08% | 79 | Z.ai (智譜AI) |
| Llama 4 Maverick | 5.68% ±0.91% | 83 | Meta AI |
| Mistral Medium 3 | 4.52% ±0.81% | 77 | Mistral AI |
| Nova Pro | 4.40% ±0.80% | 80 | Amazon |


LMSYS Chatbot Arena(簡稱 LM Arena)是由加州大學柏克萊分校等學者組成的研究組織 LMSYS Org 所推出的「大型語言模型公開盲測平台」。就像「AI競技場」一樣,透過全球用戶盲測投票,產生即時排行榜。用人類真實偏好來評分,並用 Elo 積分系統排名;類似國際象棋評分,初始值約 1100-1200。

雙盲對決:進入 arena.ai 網站後,給予任意提示詞或任務,由兩個 Chatbot 同時交出答案。
💡 越貼近你真實工作場景的任務,結果越有參考價值。(中文也可以放心輸入~)
人工投票:看完兩邊的回覆內容後,投票選擇:A 更好/B 更好/都好/都不好。
🧭 如果你覺得兩個都不夠好,寧選「都不好」也別勉強挑一個,這能讓排行榜更真實。
平手或票數不足 → 分數微調或不變
LM Arena 被視為最貼近實際使用體驗的 LLM* 排行榜之一。和前面三個考試型的不同,LM Arena 直接從用戶的感受得到回饋,比起傳統 benchmark,更能反映模型的多維度表現(整體的好用感),同時也更不易被「刷榜」,不像做好的題庫容易被特別針對優化。
*LLM=Large Language Model,即「大型語言模型」。
但人為投票當然也是有明顯的缺點——例如高度主觀、系統性偏誤,只要答案讀起來舒服、就算有幻覺也會勝出;難以驗證需要專業知識的回答;也難以重現結果,無法精確指出模型在「哪個維度」失敗,對診斷模型弱點的幫助有限。
| LM Arena (Text Arena Overview) 文本賽場 總體排行 | |||||
|---|---|---|---|---|---|
| 名次 | 模型 | 分數 | 票數 | 名次分佈區間 | 公司 |
| 1 | Claude Opus 4.7 (thinking) | 1503 ±7 | 7,615 | 1~7 | Anthropic |
| 2 | Claude Opus 4.6 (thinking) | 1502 ±5 | 22,385 | 1~5 | Anthropic |
| 3 | Claude Opus 4.6 | 1497 ±5 | 23,846 | 1~7 | Anthropic |
| 4 | Gemini 3.1 Pro Preview | 1493 ±5 | 28,096 | 2~8 | Google DeepMind |
| 5 | Claude Opus 4.7 | 1491 ±7 | 8,346 | 1~9 | Anthropic |
| 5 | Muse Spark | 1491 ±6 | 9,414 | 1~9 | Meta AI |
| 7 | GPT-5.5 (high) | 1488 ±8 | 5,121 | 2~15 | OpenAI |
| 8 | Gemini 3 Pro | 1486 ±4 | 41,369 | 4~13 | Google DeepMind |
| 9 | Grok 4.20 beta1 | 1480 ±5 | 17,413 | 5~18 | xAI |
| 10 | Grok 4.20-beta-0309-reasoning | 1477 ±5 | 16,204 | 7~18 | xAI |
*排名可能隨時變動,完整即時排名點我前往 LM Arena 官網
| LM Arena (Text Arena: Math) 文本賽場 數學排行 | |||||
|---|---|---|---|---|---|
| 名次 | 模型 | 分數 | 票數 | 名次分佈區間 | 公司 |
| 1 | GPT-5.4 (high) | 1514 ±18 | 1,015 | 1~15 | OpenAI |
| 2 | Claude Opus 4.6 (thinking) | 1513 ±16 | 1,368 | 1~13 | Anthropic |
| 3 | Gemini 3.1 Pro Preview | 1507 ±14 | 1,794 | 1~17 | Google DeepMind |
| LM Arena (Code Arena: Overall) 程式碼賽場 整體排行 | |||||
|---|---|---|---|---|---|
| 名次 | 模型 | 分數 | 票數 | 名次分佈區間 | 公司 |
| 1 | Claude Opus 4.7 (thinking) | 1568 ±12 | 2,948 | 1~3 | Anthropic |
| 2 | Claude Opus 4.7 | 1562 ±12 | 2,999 | 1~4 | Anthropic |
| 3 | Claude Opus 4.6 (thinking) | 1549 ±9 | 6,075 | 1~5 | Anthropic |
| LM Arena (Text-to-Image Arena: Overall) 文生圖賽場 整體排行* | |||||
|---|---|---|---|---|---|
| 名次 | 模型 | 分數 | 票數 | 名次分佈區間 | 公司 |
| 1 | GPT-image-2 (medium) | 1507 ±9 | 15,391 | 1~1 | OpenAI |
| 2 | Gemini-3.1-flash-image-preview (nano-banana-2) [web-search] | 1271 ±5 | 55,988 | 2~2 | Google DeepMind |
| 3 | Gemini-3-pro-image-preview-2k (nano-banana-pro) | 1244 ±4 | 94,356 | 3~4 | Google DeepMind |
| LM Arena (Image Edit Arena: Single-Image Edit) 修圖賽場 單張排行* | |||||
|---|---|---|---|---|---|
| 名次 | 模型 | 分數 | 票數 | 名次分佈區間 | 公司 |
| 1 | GPT-image-2 (medium) | 1510 ±7 | 10,746 | 1~1 | OpenAI |
| 2 | chatgpt-image-latest-high-fidelity (20251216) | 1393 ±4 | 338,216 | 2~5 | OpenAI |
| 3 | Gemini-3-pro-image-preview-2k (nano-banana-pro) | 1389 ±4 | 323,125 | 2~5 | Google DeepMind |
| LM Arena (Text-to-Video Arena) 文生影像賽場 | |||||
|---|---|---|---|---|---|
| 名次 | 模型 | 分數 | 票數 | 名次分佈區間 | 公司 |
| 1 | Seedance 2.0 dreamina-seedance-2.0-720p | 1460 ±11 | 6,836 | 1~2 | ByteDance (字節跳動) |
| 2 | HappyHorse 1.0 | 1444 ±15 | 1,843 | 1~2 | Alibaba (阿里巴巴) |
| 3 | Veo 3.1-audio-1080p | 1375 ±13 | 7,762 | 3~8 | Google DeepMind |
| LM Arena (Image-to-Video Arena) 圖生影像賽場 | |||||
|---|---|---|---|---|---|
| 名次 | 模型 | 分數 | 票數 | 名次分佈區間 | 公司 |
| 1 | Seedance 2.0 dreamina-seedance-2.0-720p | 1454 ±10 | 18,176 | 1~2 | ByteDance (字節跳動) |
| 2 | HappyHorse 1.0 | 1444 ±10 | 4,216 | 1~2 | Alibaba (阿里巴巴) |
| 3 | Grok-imagine-video-720p | 1421 ±7 | 256,734 | 3~4 | xAI |
*影像編修賽場與上方圖生影像賽場排行相同,不再另列


「AAII 智能指數」是由獨立 AI 評測機構 Artificial Analysis 所推出的一項「AI 純文字能力整合分數」。專測 AI 在「純文字、全英文」狀態下的聰明程度,包含:邏輯推理、知識廣度、數學運算、寫程式等。
它把市面上多種權威的 AI 考試(資料集)成績整合在一起,算得出一個綜合分數。
當前的 AAII 智能指數版本來到 v4.0,整體分成四大類,每一類各佔比 25%(AAII自己制定的):整合了總共 10 項評測,包括:
1.「代理」類型測試
- GDPval-AA、𝜏²-Bench Telecom
2.「程式設計」類型測試
- Terminal-Bench Hard、SciCode
3.「通用」類型測試包含幻覺、遵從指令度、長文推理等
- AA-LCR、AA-Omniscience、IFBench
4. 高難度鑑別「科學推理」類型測試(包含前面介紹過的博士級和人類最後考試)
- Humanity's Last Exam、GPQA Diamond、CritPt
其中兩項 AA- 開頭的是由 Artificial Analysis 原創自行設計,一項 -AA 結尾的是外部資料+自建框架,其餘 7 項則是引入外部學術或機構的評測,但強調所有評測都由 Articifial Analysis 獨立重跑,不採信各 AI 公司自己公布的數字,這是 AAII 與一般單純整合排行榜的網站之間的最大差異。

這個複合指標可避免模型只在單一領域過度專精,並提供一個追蹤數學、科學、程式設計與推理等通往 AGI 進展的單一分數。
而如果你只想看「一個數字」快速知道哪個 AI 語言模型最聰明,AAII 或許是目前市面上最具參考價值的。
#然而 Artificial Analysis 自己也明確指出,AAII 智能指數是有侷限性的,未必適用於每一種應用情境:非英語使用者、多模態(圖像、語音)需求完全不在 AAII 範圍內,另有獨立指數處理。
| AAII 智能指數:主要綜合排行 | ||||||
|---|---|---|---|---|---|---|
| 智能指數* | 模型 | 記憶長度(tokens) (=context window 上下文長度) | 價格 (混合輸出入,USD/每百萬tokens) | 平均輸出速度(每秒tokens) | 平均等待回應時間(秒) | 公司 |
| 60 | GPT-5.5 (xhigh) | 922k | $11.25 | 80 | 65.59 | OpenAI |
| 57 | Claude Opus 4.7 (max) | 1M | $10.94 | 54 | 30.08 | Anthropic |
| 57 | Gemini 3.1 Pro Preview | 1M | $4.5 | 139 | 33.42 | Google DeepMind |
| 54 | Kimi K2.6 | 256k | $1.71 | 34 | 3.04 | Moonshot (月之暗面) |
| 54 | MiMo-V2.5-Pro | 1M | $1.5 | 67 | 2.99 | Xiaomi (小米) |
| 54 | GPT-5.3 Codex (xhigh) | 400k | $4.81 | 102 | 72.7 | OpenAI |
| 53 | Grok 4.3 | 1M | $1.56 | 109 | 31.59 | xAI |
| 54 | Qwen3.6 Max Preview | 256k | $2.92 | 36 | 3.46 | Alibaba (阿里巴巴) |
| 52 | DeepSeek-V4 Pro (High) | 1M | $2.17 | 34 | 1.74 | 深度求索 |
| 51 | GLM-5.1 | 200k | $2.15 | 59 | 1.4 | Z.ai (智譜AI) |
| 36 | NVIDIA Nemotron 3 Super | 1M | $0.41 | 192 | 1.17 | NVIDIA |
| 33 | Mercury 2 | 128k | $0.38 | 753 | 3.77 | Inception Labs |
| 14 | Llama 4 Scout | 10M | $0.29 | 143 | 0.8 | Meta AI |
*如前所述,AAII 建立的「智能指數」綜合十項獨立評測而成,包含:GDPval-AA、𝜏²-Bench Telecom、Terminal-Bench Hard、SciCode、AA-LCR、AA-Omniscience、IFBench、Humanity's Last Exam、GPQA Diamond、CritPt。
綜合目前的 AAII 排行榜,各項指標的資優生如下:綜合智力表現上 GPT-5.5 系列穩坐榜首(),Claude Opus 4.7 與 Gemini 3.1 Pro Preview 亦名列前茅;若追求極致速度與低延遲,Mercury 2 的輸出最快,而 Qwen3.5 4B 和 NVIDIA Nemotron 3 Nano 則能最快做出初步回應。
在價格方面,Qwen3.5 0.8B 與 Gemma 3n E4B 堪稱最經濟實惠的選擇,擁有極低的運算成本;最後,若需處理巨量資料,Llama 4 Scout 與 Grok 4 系列具備最頂級的上下文長度(Context Window),最高可支援千萬等級的 tokens,能應對長篇文本的輸入需求。


什麼是 Hallucination(幻覺)?
AI 模型在回答問題時,有時會生成聽起來合理但實際上是捏造的內容——錯誤的事實、不存在的引用、虛構的人名等。這個現象叫做「幻覺」——「Hallucination Rate」就是量化這種行為的比例。

核心困難:沒有統一標準
沒有任何單一 benchmark 能給你「某個模型的幻覺率」這個數字。如果有人只引用一個數字,要嘛是為了方便簡化,要嘛是在行銷導向地挑選數據。
這是因為「幻覺」本身就有不同類型,目前業界主要從三個維度測量:
1. 📄 文件忠實度(Grounded Faithfulness)
給模型一份文件,看它摘要或回答時有沒有捏造文件中不存在的內容。
2. 🧠 短問答事實準確度(Parametric Factual Recall)
直接問模型一個有明確答案的問題,看它回答正不正確,不給任何參考文件。
3. 🔬 知識幻覺複合指標
這類指標的核心設計理念是:不只看「答對了沒」,還要看「答錯時模型有沒有意識到自己不知道」。
幻覺率是目前少數能讓「AI 可信度」這個抽象概念變得可量化、可比較、可追蹤的指標。沒有這個指標,「我們的模型更可信」就只是行銷話術;有了這個指標,至少能要求廠商拿出數字來接受檢驗——即使各家測法不一致,這個問責機制本身就有價值。
所以幻覺率本質上是一個部署風險指標,幫助決策者判斷「這個模型在這個場景下需要多少人工覆核」。
基於球員不應該兼裁判的道理,以下是兩個「第三方獨立機構」Vectara 和上一節介紹的 Artificial Analysis 關於幻覺率的評測結果。而非由 Google DeepMind 或 OpenAI 發起評測排行的 SimpleQA 或 FACTS Grounding 等指標。
Vectara HHEM Leaderboard(目前最常被引用的幻覺排行榜) 由 Vectara 公司發起,2025 年底宣布推出升級版,資料集從原始約 1,000 篇短文擴充至超過 7,700 篇文章,涵蓋法律、醫療、金融、教育、科技等領域,以 GitHub 為主要發布地點持續更新,並另提供 Hugging Face 互動式介面供查詢使用。 | ||||
|---|---|---|---|---|
| 名次 | 模型 | 幻覺率 | 拒答率* | 公司 |
| 1 | finix-s1-32b | 1.8 % | 0.5 % | Ant Group(螞蟻集團) |
| 2 | GPT-5.4-nano-2026-03-17 | 3.1 % | 0 % | OpenAI |
| 3 | Gemini 2.5 Flash Lite | 3.3 % | 0.5 % | Google DeepMind |
| 4 | Phi-4 | 3.7 % | 19.3 % | Microsoft |
| 5 | Llama 3.3 70B Instruct | 4.1 % | 0.5 % | Meta AI |
| 6 | Arctic Instruct | 4.3 % | 37.3 % | Snowflake |
| 7 | Gemma 3 12B | 4.4 % | 2.6 % | Google DeepMind |
| 8 | Mistral Large 2411 | 4.5 % | 0.1 % | Mistral AI |
| 9 | Qwen3 8B | 4.8 % | 0.1 % | Alibaba (阿里巴巴) |
| 10 | Nova Pro v1 / Nova 2 Lite v1 | 5.1 % | 0.7 % 0.4 % | Amazon |
| 10 | Mistral Small 2501 | 5.1 % | 2.1 % | Mistral AI |
| 其他前沿模型 | ||||
| 49 | GPT-5.5 | 9.3 % | 0 % | OpenAI |
| 76 | Claude Opus 4.7 | 12 % | 2 % | Anthropic |
| 58 | Gemini 3.1 Pro Preview | 10.4 % | 0.6 % | Google DeepMind |
| 85 | Kimi K2.5 | 14.2 % | 7.8 % | Moonshot (月之暗面) |
| 98 | Grok 4-fast-reasoning | 20.2 % | 0.5 % | xAI |
| 46 | Qwen3-235B-A22B | 9.3 % | 5.1 % | Alibaba (阿里巴巴) |
| 16 | DeepSeek-V3.2-Exp | 5.3 % | 3.4 % | 深度求索 |
| 56 | GLM-5 | 10.1 % | 0.3 % | Z.ai (智譜AI) |
*拒答率以 100-(官方表格中的 Answer Rate 回答率)得出。有些模型遇到觸發詞會啟動安全機制,直接拒絕或給很短的回答。「低幻覺率但拒答率高」等於模型某種程度上是用「不回答」換來好看的分數。
AA-Omniscience(AA-全知能力,包含多項指數,由 Artificial Analysis 獨立評測) AA-全知能力:衡量知識可靠性和幻覺率。包含以下三項獨立指標;可以藉由輔助指標理解模型是「因為答得準而得高分」還是「因為很保守地拒答而得高分」。 | ||||
|---|---|---|---|---|
主要指標:AA-全知指數(AA-Omniscience Index) 數值越高越好。正確答案加分,錯誤或幻覺上扣分,拒答不扣分。得分範圍為 -100 到 100,0 表示正確和錯誤答案數量相同,剛好抵銷;負數則表示錯誤的答案多於正確的。 輔助指標:精度(Accuracy) 數值越高越好。衡量所有問題中被正確回答的比例,不論模型選擇回答哪些問題。 輔助指標:幻覺率(Hallucination Rate) 數值越低越好。此指標衡量模型在本來應該拒答或承認自己不知道時出現錯誤回答的機率。 | ||||
| 模型 | AA-全知指數 | 精度 | 幻覺率* | 公司 |
| Gemini 3.1 Pro Preview | 33 | 55 % | 50 % | Google DeepMind |
| Claude Opus 4.7 (max) | 26 | 46 % | 36 % | Anthropic |
| GPT-5.5 (xhigh) | 20 | 57 % | 86 % | OpenAI |
| Grok 4.3 | 18 | 35 % | 25 % | xAI |
| Gemini 3 Flash | 12 | 54 % | 92 % | Anthropic |
| Qwen3.6 Max Preview | 10 | 38 % | 44 % | Alibaba (阿里巴巴) |
| Kimi K2.6 | 6 | 33 % | 39 % | Moonshot (月之暗面) |
| GPT-5.4 (xhigh) | 6 | 50 % | 89 % | OpenAI |
| Muse Spark | 4 | 45 % | 73 % | Meta AI |
| MiMo-V2.5-Pro | 4 | 23 % | 25 % | Xiaomi (小米) |
| GLM-5.1 | 2 | 24 % | 29 % | Z.ai (智譜AI) |
| DeepSeek V4Pro (Max) | -10 | 43 % | 94 % | 深度求索 |
| GPT-5.4 mini (xhigh) | -19 | 37 % | 90 % | OpenAI |
| Mistral Small 4 | -30 | 22 % | 67 % | Mistral AI |
| NVIDIA Nemotron 3 Super | -42 | 24 % | 87 % | NVIDIA |
| Nova 2.0 Pro Preview (medium) | -48 | 22 % | 90 % | Amazon |
*幻覺率很高的原因:Vectara 測的是「給你答案你會不會抄錯」,AA-Omniscience 測的是「不知道答案時你會不會亂說」。後者本來就更難,所以數字高出許多是正常的。
🔍 總結 FAQ
Q1:什麼是 AI Benchmark(AI 基準測試)?
AI Benchmark(基準測試)是一套用來量化 AI 模型能力的標準化測驗,是業界、學者甚至政府機構用來衡量 AI 能力強弱的重要依據。
目前常見的 AI Benchmark 包含但不限於:
#GPQA Diamond
#SWE-bench Pro
#Humanity’s Last Exam(HLE)
#LM Arena
#AAII Intelligence Index
#Hallucination Rate(幻覺率)
Q2:2026 年目前最強 AI 是誰?
如果以本篇 Benchmark 來看,目前頂級前沿模型主要集中在:
但不同 Benchmark 的冠軍不一樣:
Q3:GPQA Diamond 是什麼?
GPQA Diamond 是目前最知名的高難度 AI 科學推理 Benchmark 之一。
題目由物理、化學、生物等領域專家設計,難度高到連博士專家平均也只有約 65%~70% 正確率,因此常被視為 AI「硬核智力測驗」。
Q4:SWE-bench Pro 為什麼很重要?
SWE-bench Pro 是目前最受關注的 AI 軟體工程 Benchmark。它不只是考寫程式,而是讓 AI 讀懂大型 GitHub 專案、修復真實 Bug;因此比一般 Coding 題更接近真實工程師工作。
現在許多 AI Agent 與 Coding AI 的能力,都會引用 SWE-bench 成績。
Q5:Humanity’s Last Exam(HLE)是什麼?
Humanity’s Last Exam(HLE)被稱為「人類最後考試」。
它由全球近千位專家共同設計,涵蓋超過 100 個學科,目的就是建立目前人類能設計出的最高難度 AI 測試。目前即使最強 AI,正確率也仍低於 50%。
Q6:LM Arena 為什麼和其他 Benchmark 不一樣?
LM Arena 最大特色是「真人盲測」。
使用者輸入問題後,兩個 AI 同時回答,由真人投票選出較好的答案,再用 Elo 系統排名。因此它不像傳統考試,而更接近真實聊天體驗,反應出文筆創意、指令遵循能力、和使用感受。
Q7:AAII 智能指數是什麼?
AAII 是由 Artificial Analysis 推出的 AI 綜合智能排行榜。
它整合 GPQA、HLE、幻覺率、長文推理、程式碼、代理基準測試⋯⋯等 10 項指標,最後得到單一「智能指數」。可以視為目前最接近 AI 綜合 IQ 的排行榜之一。
Q8:為什麼 Benchmark 很重要?AI 公司都愛強調 Benchmark 分數?
因為 Benchmark 已成為 AI 世界最重要的「戰力證明」。
它可以向市場展示技術實力、吸引企業採用、提升品牌信任度、爭奪開發者與投資人⋯⋯但真正重要的還是:AI 是否適合你的實際工作與使用場景。
手機的大小問題,Q哥都能提供最專業的服務。
我們不只賣手機,更關心你的使用體驗。

Q哥專業服務項目:
如果你正在關注 Apple 新機,或是想入手 iPhone、iPad、Apple Watch、AirPods、Mac,甚至 Windows 電腦、Android 手機,Switch,Q哥都能幫你搞定。
如有相關問題也可以到 Q哥 苗栗、台中、員林、南投、雲林、嘉義、台南、高雄、屏東門市詢問。
點我加入Q哥官方Line
延伸閱讀:
• 哪個 AI 最好用?六大 AI 工具詳細介紹——打造專屬於你的戰隊!
• MacBook Neo 到手之後?從新手變高手,多工高效設定教學 (2026)
• 2026 音樂串流平台大對決:怎麼選?音質、內容、價格全方位詳細比較
• WWDC 2025 懶人包:蘋果全新「液態玻璃」設計語言登場