阿里巴巴 Qwen3-Max-Thinking 超越美國基準：中國 AI 再創佳績

阿里巴巴旗下通義實驗室發布的 Qwen3-Max-Thinking 推理模型，在多項標準化測試中超越了美國主要基準，包括被稱為「人類最後考試」（Humanity's Last Exam）的超高難度測試。這一成就再次證明中國 AI 公司的快速崛起。

什麼是「人類最後考試」？

「人類最後考試」是一套由頂尖學者設計的極高難度測試，涵蓋數學、物理、生物、哲學等多個學科的前沿問題。這些問題難到連該領域的專家有時也會感到棘手，旨在測試 AI 是否真正具備深層推理能力。

此前，這項測試一直被認為是大語言模型的「天花板」，大多數模型的得分都相當有限。

                        Qwen3-Max-Thinking 亮點
                        「人類最後考試」：超越主要美國模型
模型類型：推理專用（Thinking）模型
開發商：阿里巴巴通義實驗室
特色：深度思考鏈（Chain-of-Thought）優化

                    

推理模型的崛起

Qwen3-Max-Thinking 是所謂「推理模型」或「思考模型」的最新代表。與傳統的大語言模型不同，推理模型被設計為在回答問題前進行更深入的「思考」——分解問題、考慮多種可能性、逐步推理。

這種方法最初由 OpenAI 的 o1 系列普及，現在已被各大 AI 實驗室採用。阿里巴巴的 Qwen3-Max-Thinking 展示了中國公司在這一新興領域的競爭力。

中國 AI 的全面崛起

Qwen3-Max-Thinking 的成功是中國 AI 產業全面崛起的一部分：

DeepSeek R1：以有限資源達到世界級性能的推理模型
Moonshot Kimi K2.5：萬億參數開源多模態模型
百度文心：持續迭代的大語言模型
騰訊混元：多模態和長上下文能力

「中國 AI 公司不再只是追趕者，在某些領域已經成為引領者。這種競爭對整個 AI 產業都是好事。」

美國出口管制的影響

值得注意的是，這些成就是在美國對中國實施嚴格 AI 晶片出口管制的背景下取得的。中國公司無法獲得 NVIDIA 最先進的 GPU，但通過軟件創新和算法優化，仍然能夠開發出具有競爭力的模型。

這表明，在 AI 競爭中，軟件創新可能比硬件優勢更為重要。或者說，硬件限制可以在一定程度上被軟件創新所彌補。

對全球 AI 格局的影響

中國 AI 公司的崛起正在重塑全球 AI 競爭格局：

多極化發展

AI 領導地位不再是美國的專利。中國、歐洲、甚至一些新興市場都在發展自己的 AI 能力。

開源策略

許多中國公司選擇開源策略，這與 OpenAI 等美國公司的閉源傾向形成對比。開源策略幫助中國公司贏得全球開發者的信任。

價格競爭

中國 AI 服務通常價格更低，這對於價格敏感的市場和開發者具有吸引力。

對香港的機遇

作為連接中國與國際市場的橋樑，香港在 AI 領域有獨特的定位：

可以同時獲取中美兩邊的 AI 技術和服務
為國際企業評估和採用中國 AI 模型提供諮詢
發展面向全球市場的 AI 應用
促進學術和產業的國際合作

                        本文要點總結
                        阿里巴巴 Qwen3-Max-Thinking 在「人類最後考試」中超越美國模型
推理模型成為 AI 發展新方向
中國 AI 在晶片限制下仍取得重大突破
開源和價格策略幫助中國 AI 贏得全球市場
全球 AI 格局正在走向多極化