用六個極限測驗，見證 AI 如何超越人類

一張充滿活力的象徵性藝術圖像，展示了一個金色的人類剪影在彩色光束道路上通往一個巨大的、包含知識之樹的金色球體。五個較小的球體環繞著它，分別代表著推理、語言、科學和物理世界的 AI 能力領域。這幅圖象徵著 2026 年具公信力的 AI 權威基準測試（Benchmark），用於量化、比較和排行各大 AI 前沿模型的真實戰力，是通往理解 AI 智慧核心的導航圖。

3C快訊 / 責任編輯 Jo / AI排行榜, AI基準測試, benchmark, AI評測, 幻覺率, AI工具比較, 2026 AI, GPQA, LM Arena, AAII / 更新時間 2026-05

華山論劍：一篇文看懂 AI 權威評測 —— 看見真實的戰力排行

隨著各大實驗室推出超大杯的前沿模型，AI 的能力已經逼近甚至超越人類專家的極限。

但是啊⋯⋯當每一家都宣稱自己是「世界第一」時，我們該信誰？⋯⋯哪個 AI 在胡說八道？哪個 AI 幻覺率是真的最低？我們怎麼知道？要怎麼量化？

所以我們需要「Benchmark」也就是基準測試，來進行橫向對比。

今天，帶你看看 2026 年最具公信力的 AI 權威基準測試到底有哪些、它們怎麼測？以及當然——你最想知道的測試結果：各大 AI 的戰力排行！

本篇大綱（傳送門）

2026 六大 AI Benchmark 懶人包

Benchmark	這是什麼⋯⋯？	用來看什麼⋯⋯？
GPQA Diamond	博士級科學推理考試	高難度知識、邏輯推理、理工能力
SWE-bench Pro	模擬真實工程師修 bug	寫程式、Debug、軟體工程能力
Humanity’s Last Exam	人類最終極綜合考試	超高難度跨領域推理
LM Arena	真人盲測投票競技場	實際聊天體驗、創意、好不好用
AAII 智能指數	十項 benchmark 的綜合 IQ	全方位 AI 智力
Hallucination Rate 幻覺率	AI 亂掰機率	AI 可信度、穩定性

AI 生成示意圖，身著學士袍的研究者背對鏡頭凝視巨大發光原子模型，周圍環繞星系、行星、分子結構、神經網路腦圖、顯微鏡與燒杯等科學符號，呼應 GPQA 基準測試涵蓋物理、化學、生物等跨領域專家級題目的概念。

一、GPQA Diamond：博士都差點被當的超難考試！

這是啥？

這是紐約大學（NYU）研究團隊主導 + 各界專家協作的 AI 測試集，是目前最具鑑別度的科學推理測試之一，衡量 AI 在生物、物理、化學等「高難度領域」的專業知識、與邏輯能力。白話文說就是連博士都只能勉強及格的 SSR 超爆難考試。

怎麼測？

由各領域專家精心設計出 198 道選擇題。題目「極度困難」到就算擁有該領域博士學位的人類專家也只能答對 65-70%。難度拿學測來比較可能大概是這種感覺⋯⋯？

🎓 學測：「DNA 複製時，哪個酶負責解開雙股螺旋？」
💎 GPQA Diamond 風格：「CRISPR-Cas9 在非同源末端接合（NHEJ）修復後，插入缺失（indel）的分佈偏態原因為何？」

測這個幹嘛？

AI 在學測、SAT、甚至醫師執照考試都已經接近滿分了，我們需要拿出一把「更難的尺」來分辨不同 AI 的真實能力差距。GPQA Diamond 就是目前常被引用的「頂級智力壓力測試」之一；也通常被視為目前最嚴格的 AI 推理能力基準之一。

測驗結果⋯⋯

GPQA Diamond
模型（取各家最高得分）	正確率	公司
👑 GPT-5.4 Pro (xhigh)	94.6% ±1.6%	OpenAI
👑 Gemini 3.1 Pro Preview	94.1% ±1.7%	Google DeepMind
Claude Opus 4.6 (32k thinking)	90.5% ±1.7%	Anthropic
Muse Spark	89.8% ±2.2%	Meta AI
GLM-5	87.8% ±2.3%	Z.ai (智譜AI)
Kimi K2.5 (Fireworks)	87.6% ±1.9%	Moonshot (月之暗面)
Grok 4	87.0% ±2.0%	xAI
DeepSeek-V3.2 (Thinking)	83.4% ±2.0%	深度求索
Qwen3-235B-A22B (Jul 2025)	80.1% ±2.6%	Alibaba (阿里巴巴)

雖然 GPQA 是學術論文性質的資料集，但原作者（NYU 等）從未建立持續維護的官方評分排行榜。

意思是，GPQA 的分數主要來自於三處：

1. 各家 AI 公司自報
2. 獨立第三方執行後公布
3. 專門彙整評測資料的排行榜

而此，我們引用的數據是來自當前公信力最高的學術研究機構 Epoch AI，有一定的結構性獨立性，是一個多領域研究非營利機構。其網站所提供的 GPQA 是公開透明、可重現、嚴格控制變數而給出的分數。

來自 Epoch 研究機構所提供的 AI 實驗室排行 — 就連人類只能答對 70% 的 GPQA，頂級前沿模型都已經推到很小的實力差距了；意思是，這個考試也漸漸快要接近飽和了⋯⋯未來可能會需要更艱難的任務和題目、更多樣複雜的指標來衡量 AI 的實力。

（⭡回目錄）

二、SWE‑bench Pro 模擬軟體工程師——嗯？原來考題還會被AI先偷看？

這是啥？

跟上一個 GPQA 考「知識理解」不一樣，SWE 考的是實際動手解決問題的能力。SWE-bench = Software Engineering Benchmark；簡單說，就是請 AI 當軟體工程師啦～給它指定好的任務，看修 bug 的能力如何等等等。

怎麼測？

最早的 SWE 收集了上千個在 GitHub（程式碼協作平台）上的問題，但有些問題描述寫得不清不楚、測試有錯誤，或根本很難判斷對錯，導致考試不公平。

第二版「Verified」驗證版，OpenAI 主動合作找來很多真正專業的軟體工程師，一題一題人工審核挑出 500 個問題；後來，幾乎每家 AI 實驗室都拿這個基準測試炫耀(?)自己的模型。結果今年二月，這個版本被 OpenAI 官方公布棄用（啪沒了），因為 OpenAI 稽核後，發現許多模型根本沒有在推理，只是靠「記憶」在背答案，已經受到「資料污染」了（模型在訓練的時候就已經不小心看到答案並且過目不忘）。

現在，大家逐漸轉向 SWE-Bench Pro，由 Scale AI 開發維護，規模大了將近四倍—— 1,865 道任務、41 個程式碼庫、公開題庫（731 題）和不公開題庫（858 題）分開以避免資料污染。

測這個幹嘛？

比「寫一段簡單函數」這種考試更接近真實的工作內容。
現在很多強大的 AI（例如 Claude、GPT 系列等）都會公布在這個測試上的成績。
分數越高，代表這個 AI 越有能力幫工程師處理實際的程式問題（例如修 Bug、加功能）。

測驗結果⋯⋯

SWE-bench Pro (Public Database 公開題)
模型（取各家最高得分）	正確率	公司
👑 GPT-5.4 (xhigh)	59.10% ±3.56%	OpenAI
👑 Muse Spark	55.00% ±3.60%	Meta AI
Claude Opus 4.6 (thinking)	51.90% ±3.61%	Anthropic
Gemini 3.1 Pro (thinking)	46.10% ±3.60%	Google DeepMind
Qwen3-Coder-480B-A35B	38.70% ±3.55%	Alibaba (阿里巴巴)
minimax-2.1	36.81% ±3.55%	MiniMax (上海稀宇極智)
Kimi-k2-instruct	27.67% ±3.25%	Moonshot (月之暗面)
DeepSeek-V3P2 (Thinking)	15.56% ±2.63%	深度求索
GLM-4.6	9.67% ±2.15%	Z.ai (智譜AI)

SWE-bench Pro (Private Database 不公開題)
模型（取各家最高得分）	正確率	公司
👑 Claude Opus 4.6 (thinking)	47.10% ±6.07%	Anthropic
👑 Muse Spark	44.70% ±6.05%	Meta AI
GPT-5.4 (xhigh)	43.40% ±6.03%	OpenAI
Gemini 3.1 Pro (thinking)	32.20% ±5.69%	Google DeepMind

咦？怎麼不公開題的排行榜只有這幾位？因為公開的 SWE-bench Verified 你可以自己下載資料集、自己跑、自己回報成績。

但 SWE-bench Pro 不公開的程式碼庫你根本拿不到，沒辦法自己測。要測就得先跟 Scale AI 合作，這對規模小的 AI 公司來說傷成本，測出來分數低還自傷品牌，多不划算。

然而隨著 SWE-bench Pro 的影響力擴大，之後可能見到更多公司（如 xAI）的模型分數公開。

SWE-benchmark Pro Public Database 公開集官方排行榜 — **SWE-benchmark Pro 官方排行榜：公開題（Public Database）測試分數榜單**

SWE-benchmark Pro Private Database 未公開的任務，零資料污染的排行榜 — **SWE-benchmark Pro 官方排行榜：不公開題（Private Database）測試分數榜單**

（⭡回目錄）

三、Humanity's Last Exam（HLE）（人類最後考試）

這是啥？

HLE 由 Center for AI Safety（CAIS）和 Scale AI 聯合開發，取名有夠中二蝦趴：「人類的最後一場考試。」只不過不是人類被考，是 AI 被考。取這名字是因為 AI 進步太快，這可能是現在人類還有辦法做出來難倒 AI 的最後一批題目了。

雀食確實 — **GPQA 各大模型都快同分了，SWE 也是從 Verified 版本做到 Pro 版，有了不公開題庫才更有鑑別度（雖然目前可見分數資料有限）。總之，當今的前沿模型彷彿在表示：人類，我們需要更厲害的測試。**

怎麼測？

題目來自五十個不同國家、超過五百個不同機構、近千位專家貢獻而成（主要是教授、研究員和博士生）。出題者甚至可以競爭一個五十萬美元的獎金池。

題目共 2500 題，橫跨超過一百個學科，包括數學、物理、化學、生物、醫學、電腦科學、人文與社會科學。

＃題目篩選流程：題目會先讓前沿 LLM 測試（也就是當前最強的大型語言模型），只有難倒這些模型的題目才能進入下一關，接著再經過兩輪人類專家審核，通過後才正式納入題庫。此外，如果「有搜尋工具時模型答對、沒有工具時答錯」，就會被判定為「可搜尋題」並直接剔除。

＃隱藏測試集：官方保留了一批未公開的題目，用來偵測模型是否靠死記硬背來刷高分。

以上都是官方設計目標。但阿里巴巴研究團隊事後審查發現，原始 HLE 中仍有一定比例的題目存在題意模糊、答案有誤、或題目與解答前後矛盾的問題，並發布了修正版 HLE-Verified。

測這個幹嘛？

主要也是因為舊測試不夠力了，需要更難的新測試來看出模型的實力差距。
另一個大重點是 AI 安全研究——HLE 由 Center for AI Safety 主導（簡稱CAIS，人工智慧安全中心。比較廣為人知的是 2023 年他們發布了一份「AI 滅絕風險聲明」），目的是讓研究者和政策制定者能用具體數字，去量化、了解 AI 現在到底多強大了。

測驗結果⋯⋯

Humanity's Last Exam（HLE）
模型（取各家最高得分）潛在汙染警告：模型在 HLE 公開發布後才接受評估，模型開發者可能已接觸到題目與答案。	正確率	校準誤差（Calib Err） ≈ 模型自認答對率 − 實際答對率（越低越好＝越自知）	公司
👑 Gemini 3.1 Pro Preview (thinking high)	46.44% ±1.96%	51	Google DeepMind
👑 GPT 5.4 pro 2026-03-05	44.32% ±1.95%	38	OpenAI
Muse Spark	40.56% ±1.92%	50	Meta AI
Claude Opus 4.7	36.20% ±1.88%	47	Anthropic
Kimi-k2.5	24.37% ±1.81%	67	Moonshot (月之暗面)
GLM-4P5	8.32% ±1.08%	79	Z.ai (智譜AI)
Llama 4 Maverick	5.68% ±0.91%	83	Meta AI
Mistral Medium 3	4.52% ±0.81%	77	Mistral AI
Nova Pro	4.40% ±0.80%	80	Amazon

HLE 是 Scale AI 和安全機構一起做的官方 benchmark，放在 Scale Labs 的 leaderboard 裡。表上的分數是 Scale 用同一套流程幫各家模型考出來的「第三方統一成績」，不是各家公司自己報的分數。

（⭡回目錄）

四、LMSYS Chatbot Arena (LM Arena)：聊天機器人競技場！

這是啥？

LMSYS Chatbot Arena（簡稱 LM Arena）是由加州大學柏克萊分校等學者組成的研究組織 LMSYS Org 所推出的「大型語言模型公開盲測平台」。就像「AI競技場」一樣，透過全球用戶盲測投票，產生即時排行榜。用人類真實偏好來評分，並用 Elo 積分系統排名；類似國際象棋評分，初始值約 1100-1200。

怎麼測？

**LM Arena 有三種模式可以使用，一是盲測對決的 Battle Mode、二是可以自由指定兩個AI機器人對決的 Side by Side、三是單純的單一模型直接對話。**

雙盲對決：進入 arena.ai 網站後，給予任意提示詞或任務，由兩個 Chatbot 同時交出答案。
💡 越貼近你真實工作場景的任務，結果越有參考價值。（中文也可以放心輸入～）
人工投票：看完兩邊的回覆內容後，投票選擇：A 更好／B 更好／都好／都不好。
🧭 如果你覺得兩個都不夠好，寧選「都不好」也別勉強挑一個，這能讓排行榜更真實。
揭曉＋計分：你的投票會匿名納入全體統計，系統以 Elo 演算法動態調整兩個模型的分數：
1. 打敗高分模型 → 加分多
2. 輸給低分模型 → 扣分多
3. 平手或票數不足 → 分數微調或不變
所有結果會持續匯總，最終呈現在官方 Chatbot Arena Leaderboard。

測這個幹嘛？

LM Arena 被視為最貼近實際使用體驗的 LLM* 排行榜之一。和前面三個考試型的不同，LM Arena 直接從用戶的感受得到回饋，比起傳統 benchmark，更能反映模型的多維度表現（整體的好用感），同時也更不易被「刷榜」，不像做好的題庫容易被特別針對優化。

*LLM＝Large Language Model，即「大型語言模型」。

但人為投票當然也是有明顯的缺點——例如高度主觀、系統性偏誤，只要答案讀起來舒服、就算有幻覺也會勝出；難以驗證需要專業知識的回答；也難以重現結果，無法精確指出模型在「哪個維度」失敗，對診斷模型弱點的幫助有限。

測驗結果⋯⋯

LM Arena (Text Arena Overview) 文本賽場總體排行
名次	模型	分數	票數	名次分佈區間	公司
1	Claude Opus 4.7 (thinking)	1503 ±7	7,615	1~7	Anthropic
2	Claude Opus 4.6 (thinking)	1502 ±5	22,385	1~5	Anthropic
3	Claude Opus 4.6	1497 ±5	23,846	1~7	Anthropic
4	Gemini 3.1 Pro Preview	1493 ±5	28,096	2~8	Google DeepMind
5	Claude Opus 4.7	1491 ±7	8,346	1~9	Anthropic
5	Muse Spark	1491 ±6	9,414	1~9	Meta AI
7	GPT-5.5 (high)	1488 ±8	5,121	2~15	OpenAI
8	Gemini 3 Pro	1486 ±4	41,369	4~13	Google DeepMind
9	Grok 4.20 beta1	1480 ±5	17,413	5~18	xAI
10	Grok 4.20-beta-0309-reasoning	1477 ±5	16,204	7~18	xAI

＊排名可能隨時變動，完整即時排名點我前往 LM Arena 官網

LM Arena (Text Arena: Math) 文本賽場數學排行
名次	模型	分數	票數	名次分佈區間	公司
1	GPT-5.4 (high)	1514 ±18	1,015	1~15	OpenAI
2	Claude Opus 4.6 (thinking)	1513 ±16	1,368	1~13	Anthropic
3	Gemini 3.1 Pro Preview	1507 ±14	1,794	1~17	Google DeepMind

LM Arena (Code Arena: Overall) 程式碼賽場整體排行
名次	模型	分數	票數	名次分佈區間	公司
1	Claude Opus 4.7 (thinking)	1568 ±12	2,948	1~3	Anthropic
2	Claude Opus 4.7	1562 ±12	2,999	1~4	Anthropic
3	Claude Opus 4.6 (thinking)	1549 ±9	6,075	1~5	Anthropic

LM Arena (Text-to-Image Arena: Overall) 文生圖賽場整體排行*
名次	模型	分數	票數	名次分佈區間	公司
1	GPT-image-2 (medium)	1507 ±9	15,391	1~1	OpenAI
2	Gemini-3.1-flash-image-preview (nano-banana-2) [web-search]	1271 ±5	55,988	2~2	Google DeepMind
3	Gemini-3-pro-image-preview-2k (nano-banana-pro)	1244 ±4	94,356	3~4	Google DeepMind

*LM Arena 文生圖賽場於官方頁上可以查看子分類如產品、攝影、3D，但排行基本沒太大差別。

LM Arena (Image Edit Arena: Single-Image Edit) 修圖賽場單張排行*
名次	模型	分數	票數	名次分佈區間	公司
1	GPT-image-2 (medium)	1510 ±7	10,746	1~1	OpenAI
2	chatgpt-image-latest-high-fidelity (20251216)	1393 ±4	338,216	2~5	OpenAI
3	Gemini-3-pro-image-preview-2k (nano-banana-pro)	1389 ±4	323,125	2~5	Google DeepMind

*多張修圖的排行一三名相同，僅第二名變成 gemini-3.1-flash-image-preview

LM Arena (Text-to-Video Arena) 文生影像賽場
名次	模型	分數	票數	名次分佈區間	公司
1	Seedance 2.0 dreamina-seedance-2.0-720p	1460 ±11	6,836	1~2	ByteDance (字節跳動)
2	HappyHorse 1.0	1444 ±15	1,843	1~2	Alibaba (阿里巴巴)
3	Veo 3.1-audio-1080p	1375 ±13	7,762	3~8	Google DeepMind

LM Arena (Image-to-Video Arena) 圖生影像賽場
名次	模型	分數	票數	名次分佈區間	公司
1	Seedance 2.0 dreamina-seedance-2.0-720p	1454 ±10	18,176	1~2	ByteDance (字節跳動)
2	HappyHorse 1.0	1444 ±10	4,216	1~2	Alibaba (阿里巴巴)
3	Grok-imagine-video-720p	1421 ±7	256,734	3~4	xAI

*影像編修賽場與上方圖生影像賽場排行相同，不再另列

LM Arena 的文字能力排行，分類很詳細 — **總體而言，文字相關的能力（整體、專業、程式碼、創意、遵循指令、高難度、長文）Claude 當前在用戶的喜好上幾乎是大獲全勝。**

（⭡回目錄）

五、Artificial Analysis Intelligence Index（AAII 智能指數）

這是啥？

「AAII 智能指數」是由獨立 AI 評測機構 Artificial Analysis 所推出的一項「AI 純文字能力整合分數」。專測 AI 在「純文字、全英文」狀態下的聰明程度，包含：邏輯推理、知識廣度、數學運算、寫程式等。

怎麼測？

它把市面上多種權威的 AI 考試（資料集）成績整合在一起，算得出一個綜合分數。

當前的 AAII 智能指數版本來到 v4.0，整體分成四大類，每一類各佔比 25%（AAII自己制定的）：整合了總共 10 項評測，包括：

1.「代理」類型測試
- GDPval-AA、𝜏²-Bench Telecom

2.「程式設計」類型測試
- Terminal-Bench Hard、SciCode

3.「通用」類型測試包含幻覺、遵從指令度、長文推理等
- AA-LCR、AA-Omniscience、IFBench

4. 高難度鑑別「科學推理」類型測試（包含前面介紹過的博士級和人類最後考試）
- Humanity's Last Exam、GPQA Diamond、CritPt

其中兩項 AA- 開頭的是由 Artificial Analysis 原創自行設計，一項 -AA 結尾的是外部資料＋自建框架，其餘 7 項則是引入外部學術或機構的評測，但強調所有評測都由 Articifial Analysis 獨立重跑，不採信各 AI 公司自己公布的數字，這是 AAII 與一般單純整合排行榜的網站之間的最大差異。

測這個幹嘛？

這個複合指標可避免模型只在單一領域過度專精，並提供一個追蹤數學、科學、程式設計與推理等通往 AGI 進展的單一分數。

而如果你只想看「一個數字」快速知道哪個 AI 語言模型最聰明，AAII 或許是目前市面上最具參考價值的。

＃然而 Artificial Analysis 自己也明確指出，AAII 智能指數是有侷限性的，未必適用於每一種應用情境：非英語使用者、多模態（圖像、語音）需求完全不在 AAII 範圍內，另有獨立指數處理。

測驗結果⋯⋯

AAII 智能指數：主要綜合排行
智能指數*	模型	記憶長度(tokens) (=context window 上下文長度)	價格 (混合輸出入,USD/每百萬tokens)	平均輸出速度(每秒tokens)	平均等待回應時間(秒)	公司
60	GPT-5.5 (xhigh)	922k	$11.25	80	65.59	OpenAI
57	Claude Opus 4.7 (max)	1M	$10.94	54	30.08	Anthropic
57	Gemini 3.1 Pro Preview	1M	$4.5	139	33.42	Google DeepMind
54	Kimi K2.6	256k	$1.71	34	3.04	Moonshot (月之暗面)
54	MiMo-V2.5-Pro	1M	$1.5	67	2.99	Xiaomi (小米)
54	GPT-5.3 Codex (xhigh)	400k	$4.81	102	72.7	OpenAI
53	Grok 4.3	1M	$1.56	109	31.59	xAI
54	Qwen3.6 Max Preview	256k	$2.92	36	3.46	Alibaba (阿里巴巴)
52	DeepSeek-V4 Pro (High)	1M	$2.17	34	1.74	深度求索
51	GLM-5.1	200k	$2.15	59	1.4	Z.ai (智譜AI)
36	NVIDIA Nemotron 3 Super	1M	$0.41	192	1.17	NVIDIA
33	Mercury 2	128k	$0.38	753	3.77	Inception Labs
14	Llama 4 Scout	10M	$0.29	143	0.8	Meta AI

*如前所述，AAII 建立的「智能指數」綜合十項獨立評測而成，包含：GDPval-AA、𝜏²-Bench Telecom、Terminal-Bench Hard、SciCode、AA-LCR、AA-Omniscience、IFBench、Humanity's Last Exam、GPQA Diamond、CritPt。

綜合目前的 AAII 排行榜，各項指標的資優生如下：綜合智力表現上 GPT-5.5 系列穩坐榜首（），Claude Opus 4.7 與 Gemini 3.1 Pro Preview 亦名列前茅；若追求極致速度與低延遲，Mercury 2 的輸出最快，而 Qwen3.5 4B 和 NVIDIA Nemotron 3 Nano 則能最快做出初步回應。

在價格方面，Qwen3.5 0.8B 與 Gemma 3n E4B 堪稱最經濟實惠的選擇，擁有極低的運算成本；最後，若需處理巨量資料，Llama 4 Scout 與 Grok 4 系列具備最頂級的上下文長度（Context Window），最高可支援千萬等級的 tokens，能應對長篇文本的輸入需求。

Artificial Analysis 的首頁，用來做各家大型語言模型與 API 供應商的獨立評測與比較，幫助使用者依「智力、速度、價格」選擇模型和供應商。 — **Artificial Analysis 的首頁，提供各大語言模型與 API 供應商的獨立評測與比較，幫助使用者依智力、速度、價格等做出選擇。**

Artificial Analysis 的「LLM Leaderboard」，用來比較與排名 300+ 個以上的大型語言模型，從智慧程度、價格、速度（輸出速度與延遲）、context window 等多個指標來評分。 — Artificial Analysis 的「LLM Leaderboard」（大型語言模型排行榜），用來比較與排名 300+ 個以上的大型語言模型，從智慧程度、價格、速度（輸出速度與延遲）、context window 等多個指標來評分。

（⭡回目錄）

六、Hallucination Rate (幻覺率)

這是啥？

什麼是 Hallucination（幻覺）？

AI 模型在回答問題時，有時會生成聽起來合理但實際上是捏造的內容——錯誤的事實、不存在的引用、虛構的人名等。這個現象叫做「幻覺」——「Hallucination Rate」就是量化這種行為的比例。

怎麼測？

核心困難：沒有統一標準

沒有任何單一 benchmark 能給你「某個模型的幻覺率」這個數字。如果有人只引用一個數字，要嘛是為了方便簡化，要嘛是在行銷導向地挑選數據。

這是因為「幻覺」本身就有不同類型，目前業界主要從三個維度測量：

1. 📄 文件忠實度（Grounded Faithfulness）

給模型一份文件，看它摘要或回答時有沒有捏造文件中不存在的內容。

2. 🧠 短問答事實準確度（Parametric Factual Recall）

直接問模型一個有明確答案的問題，看它回答正不正確，不給任何參考文件。

3. 🔬 知識幻覺複合指標

這類指標的核心設計理念是：不只看「答對了沒」，還要看「答錯時模型有沒有意識到自己不知道」。

測這個幹嘛？

幻覺率是目前少數能讓「AI 可信度」這個抽象概念變得可量化、可比較、可追蹤的指標。沒有這個指標，「我們的模型更可信」就只是行銷話術；有了這個指標，至少能要求廠商拿出數字來接受檢驗——即使各家測法不一致，這個問責機制本身就有價值。

所以幻覺率本質上是一個部署風險指標，幫助決策者判斷「這個模型在這個場景下需要多少人工覆核」。

測驗結果⋯⋯

基於球員不應該兼裁判的道理，以下是兩個「第三方獨立機構」Vectara 和上一節介紹的 Artificial Analysis 關於幻覺率的評測結果。而非由 Google DeepMind 或 OpenAI 發起評測排行的 SimpleQA 或 FACTS Grounding 等指標。

Vectara HHEM Leaderboard（目前最常被引用的幻覺排行榜）由 Vectara 公司發起，2025 年底宣布推出升級版，資料集從原始約 1,000 篇短文擴充至超過 7,700 篇文章，涵蓋法律、醫療、金融、教育、科技等領域，以 GitHub 為主要發布地點持續更新，並另提供 Hugging Face 互動式介面供查詢使用。
名次	模型	幻覺率	拒答率*	公司
1	finix-s1-32b	1.8 %	0.5 %	Ant Group（螞蟻集團）
2	GPT-5.4-nano-2026-03-17	3.1 %	0 %	OpenAI
3	Gemini 2.5 Flash Lite	3.3 %	0.5 %	Google DeepMind
4	Phi-4	3.7 %	19.3 %	Microsoft
5	Llama 3.3 70B Instruct	4.1 %	0.5 %	Meta AI
6	Arctic Instruct	4.3 %	37.3 %	Snowflake
7	Gemma 3 12B	4.4 %	2.6 %	Google DeepMind
8	Mistral Large 2411	4.5 %	0.1 %	Mistral AI
9	Qwen3 8B	4.8 %	0.1 %	Alibaba (阿里巴巴)
10	Nova Pro v1 / Nova 2 Lite v1	5.1 %	0.7 % 0.4 %	Amazon
10	Mistral Small 2501	5.1 %	2.1 %	Mistral AI
其他前沿模型
49	GPT-5.5	9.3 %	0 %	OpenAI
76	Claude Opus 4.7	12 %	2 %	Anthropic
58	Gemini 3.1 Pro Preview	10.4 %	0.6 %	Google DeepMind
85	Kimi K2.5	14.2 %	7.8 %	Moonshot (月之暗面)
98	Grok 4-fast-reasoning	20.2 %	0.5 %	xAI
46	Qwen3-235B-A22B	9.3 %	5.1 %	Alibaba (阿里巴巴)
16	DeepSeek-V3.2-Exp	5.3 %	3.4 %	深度求索
56	GLM-5	10.1 %	0.3 %	Z.ai (智譜AI)

*拒答率以 100-（官方表格中的 Answer Rate 回答率）得出。有些模型遇到觸發詞會啟動安全機制，直接拒絕或給很短的回答。「低幻覺率但拒答率高」等於模型某種程度上是用「不回答」換來好看的分數。

AA-Omniscience（AA-全知能力，包含多項指數，由 Artificial Analysis 獨立評測） AA-全知能力：衡量知識可靠性和幻覺率。包含以下三項獨立指標；可以藉由輔助指標理解模型是「因為答得準而得高分」還是「因為很保守地拒答而得高分」。
主要指標：AA-全知指數（AA-Omniscience Index）數值越高越好。正確答案加分，錯誤或幻覺上扣分，拒答不扣分。得分範圍為 -100 到 100，0 表示正確和錯誤答案數量相同，剛好抵銷；負數則表示錯誤的答案多於正確的。輔助指標：精度（Accuracy）數值越高越好。衡量所有問題中被正確回答的比例，不論模型選擇回答哪些問題。輔助指標：幻覺率（Hallucination Rate）數值越低越好。此指標衡量模型在本來應該拒答或承認自己不知道時出現錯誤回答的機率。
模型	AA-全知指數	精度	幻覺率*	公司
Gemini 3.1 Pro Preview	33	55 %	50 %	Google DeepMind
Claude Opus 4.7 (max)	26	46 %	36 %	Anthropic
GPT-5.5 (xhigh)	20	57 %	86 %	OpenAI
Grok 4.3	18	35 %	25 %	xAI
Gemini 3 Flash	12	54 %	92 %	Anthropic
Qwen3.6 Max Preview	10	38 %	44 %	Alibaba (阿里巴巴)
Kimi K2.6	6	33 %	39 %	Moonshot (月之暗面)
GPT-5.4 (xhigh)	6	50 %	89 %	OpenAI
Muse Spark	4	45 %	73 %	Meta AI
MiMo-V2.5-Pro	4	23 %	25 %	Xiaomi (小米)
GLM-5.1	2	24 %	29 %	Z.ai (智譜AI)
DeepSeek V4Pro (Max)	-10	43 %	94 %	深度求索
GPT-5.4 mini (xhigh)	-19	37 %	90 %	OpenAI
Mistral Small 4	-30	22 %	67 %	Mistral AI
NVIDIA Nemotron 3 Super	-42	24 %	87 %	NVIDIA
Nova 2.0 Pro Preview (medium)	-48	22 %	90 %	Amazon

*幻覺率很高的原因：Vectara 測的是「給你答案你會不會抄錯」，AA-Omniscience 測的是「不知道答案時你會不會亂說」。後者本來就更難，所以數字高出許多是正常的。

🔍 總結 FAQ

Q1：什麼是 AI Benchmark（AI 基準測試）？

AI Benchmark（基準測試）是一套用來量化 AI 模型能力的標準化測驗，是業界、學者甚至政府機構用來衡量 AI 能力強弱的重要依據。

目前常見的 AI Benchmark 包含但不限於：

＃GPQA Diamond
＃SWE-bench Pro
＃Humanity’s Last Exam（HLE）
＃LM Arena
＃AAII Intelligence Index
＃Hallucination Rate（幻覺率）

Q2：2026 年目前最強 AI 是誰？

如果以本篇 Benchmark 來看，目前頂級前沿模型主要集中在：

GPT-5.5（OpenAI）
Claude Opus 4.7（Anthropic）
Gemini 3.1 Pro Preview（Google DeepMind）

但不同 Benchmark 的冠軍不一樣：

科學推理：GPT-5.4、Gemini 3.1、Muse Spark
真實聊天體驗：Claude Opus 4.7
程式設計：GPT-5.4、Muse Spark、Claude Opus 4.6
綜合文字智能：GPT-5.5、Claude Opus 4.7
幻覺控制：finix-s1-32b、GPT-5.4、Gemini 3.1、Claude Opus 4.7、Grok 4.3

Q3：GPQA Diamond 是什麼？

GPQA Diamond 是目前最知名的高難度 AI 科學推理 Benchmark 之一。

題目由物理、化學、生物等領域專家設計，難度高到連博士專家平均也只有約 65%～70% 正確率，因此常被視為 AI「硬核智力測驗」。

Q4：SWE-bench Pro 為什麼很重要？

SWE-bench Pro 是目前最受關注的 AI 軟體工程 Benchmark。它不只是考寫程式，而是讓 AI 讀懂大型 GitHub 專案、修復真實 Bug；因此比一般 Coding 題更接近真實工程師工作。

現在許多 AI Agent 與 Coding AI 的能力，都會引用 SWE-bench 成績。

Q5：Humanity’s Last Exam（HLE）是什麼？

Humanity’s Last Exam（HLE）被稱為「人類最後考試」。

它由全球近千位專家共同設計，涵蓋超過 100 個學科，目的就是建立目前人類能設計出的最高難度 AI 測試。目前即使最強 AI，正確率也仍低於 50%。

Q6：LM Arena 為什麼和其他 Benchmark 不一樣？

LM Arena 最大特色是「真人盲測」。

使用者輸入問題後，兩個 AI 同時回答，由真人投票選出較好的答案，再用 Elo 系統排名。因此它不像傳統考試，而更接近真實聊天體驗，反應出文筆創意、指令遵循能力、和使用感受。

Q7：AAII 智能指數是什麼？

AAII 是由 Artificial Analysis 推出的 AI 綜合智能排行榜。

它整合 GPQA、HLE、幻覺率、長文推理、程式碼、代理基準測試⋯⋯等 10 項指標，最後得到單一「智能指數」。可以視為目前最接近 AI 綜合 IQ 的排行榜之一。

Q8：為什麼 Benchmark 很重要？AI 公司都愛強調 Benchmark 分數？

因為 Benchmark 已成為 AI 世界最重要的「戰力證明」。

它可以向市場展示技術實力、吸引企業採用、提升品牌信任度、爭奪開發者與投資人⋯⋯但真正重要的還是：AI 是否適合你的實際工作與使用場景。

想換一隻順跑 AI 的手機嗎？找Ｑ哥就對了！

手機的大小問題，Ｑ哥都能提供最專業的服務。

我們不只賣手機，更關心你的使用體驗。

Ｑ哥專業服務項目：

新機預購與販售：全系列 Apple 商品 (iPhone, iPad, Mac, Watch)、各大品牌安卓手機、Switch 遊戲主機、Windows 電腦。
二手機買賣回收：透明估價、流程安心。
專業維修服務：iPhone、iPad、Switch、Windows 主機等，現場快速維修，解決你的燃眉之急。
無卡分期服務：學生、上班族皆可辦理，輕鬆入手產品，購機無負擔。
配件周邊最齊全：各式保護貼、手機殼、充電器、線材等，一站購足。