Taalas HC1 將 AI 模型硬連線進矽晶片:每秒 17,000 tokens 的革命性 ASIC 架構
總部位於加拿大多倫多的 AI 晶片新創公司 Taalas 推出 HC1,將 Llama 3.1 8B 模型的每一個參數永久燒錄進矽晶片電路,實現每用戶每秒 17,000 tokens 的推理速度——較當前最快的 GPU 方案快近 10 倍,建造成本僅為二十分之一
總部位於加拿大多倫多的 AI 晶片新創公司 Taalas 推出 HC1,將 Llama 3.1 8B 模型的每一個參數永久燒錄進矽晶片電路,實現每用戶每秒 17,000 tokens 的推理速度——較當前最快的 GPU 方案快近 10 倍,建造成本僅為二十分之一
在 AI 推理硬體的競賽中,過去兩年的主旋律一直是「更大的 GPU 叢集、更快的記憶體頻寬、更複雜的互連拓撲」。從 Nvidia 的 H200 到 Cerebras 的晶圓級引擎,從 Groq 的 LPU 到 SambaNova 的可重配置資料流架構,各家廠商都在同一個基本框架內角力:如何更高效地把模型權重從記憶體載入到計算單元。然而,一家來自加拿大多倫多的新創公司正在徹底改寫這個框架。Taalas 於 2026 年 2 月正式發表 HC1——一顆將 Meta 的 Llama 3.1 8B 模型完整「硬連線」(hardwired)進矽晶片的專用積體電路(ASIC),實現了每用戶每秒 17,000 tokens 的推理吞吐量。這個數字不僅遠超當前所有 GPU 和專用加速器方案,更從根本上挑戰了我們對 AI 晶片應該如何設計的既有認知。
要理解 HC1 的革命性所在,首先必須理解傳統 AI 推理硬體面臨的根本瓶頸。無論是 Nvidia GPU、Google TPU 還是各種新興加速器,它們本質上都是「通用」的可程式設計處理器——模型的權重(parameters)儲存在外部記憶體(通常是 HBM 或 DRAM)中,推理時需要將這些權重不斷載入到計算單元進行運算。這個「記憶體到計算」的資料搬運過程,正是目前 AI 推理的最大瓶頸,業界稱之為「記憶體牆」(memory wall)。
以 Nvidia H200 為例,其配備的 HBM3e 提供約 4.8 TB/s 的記憶體頻寬,但即便如此,在運行 8B 參數模型時,每一次前向傳播(forward pass)都需要將數十 GB 的權重從 HBM 讀取到計算核心。這個過程的延遲和能耗構成了推理速度的硬上限——H200 在運行 Llama 3.1 8B 時的典型推理速度約為每秒 230 tokens。
Taalas 的解決方案徹底繞過了記憶體牆。HC1 不使用任何外部記憶體來儲存模型權重——取而代之的是,Llama 3.1 8B 的每一個參數都被直接編碼進晶片的電晶體電路之中。模型權重不再是儲存在記憶體中、需要動態載入的「數據」,而是成為晶片物理結構的一部分,如同將軟體變成了硬體。這意味著推理過程中完全不需要存取外部記憶體,計算單元可以以晶片內部電路的速度直接讀取所有參數,從而徹底消除了記憶體頻寬這一瓶頸。
「我們重新思考了一個最基本的問題:如果你知道要運行哪個模型,為什麼還要在每次推理時花費大量時間和能量去搬運同樣的數據?直接把模型寫進電路,讓電子以光速流過邏輯閘——這就是 HC1 的核心理念。」——Taalas 創辦人兼執行長 Ljubisa Bajic
HC1 的技術參數令人印象深刻。這顆 ASIC 採用台積電(TSMC)6 奈米製程生產,擁有約 530 億個電晶體,晶片面積達到 815 平方毫米。作為對比,Nvidia 的 H100 約有 800 億個電晶體、814 平方毫米的晶片面積——兩者在矽面積上幾乎相同,但設計哲學截然不同。H100 的電晶體被用來建構通用的 CUDA 核心、Tensor 核心、HBM 控制器和高速互連介面;HC1 的電晶體則幾乎全部用於編碼 Llama 3.1 8B 的模型結構和參數。
HC1 採用了 Taalas 自主研發的專有 3-bit 數據格式,搭配 6-bit 的參數精度。這是一個極為激進的量化方案——目前業界的主流做法是 FP16(16 位元浮點數)或 INT8(8 位元整數),即使是最激進的量化方案通常也至少使用 4-bit。Taalas 的 3-bit/6-bit 方案在理論上會帶來一定程度的精度損失,但公司表示,通過針對硬連線架構的深度優化,他們在大多數基準測試中實現了與 FP16 版本「在統計上不可區分」的輸出品質。這一點仍需更多獨立的第三方驗證,但如果屬實,將是量化技術的重要突破。
在功耗方面,HC1 的表現同樣令人矚目。單顆 HC1 的功耗約為 250W,在一台標準的 2U 伺服器中可以安裝 10 張 HC1 加速卡,整機功耗約為 2.5 kW。相比之下,一台搭載 8 顆 Nvidia H200 的 DGX 系統功耗通常在 10 kW 以上,而推理吞吐量卻遠低於 10 張 HC1 的組合。更重要的是,2.5 kW 的功耗水準完全可以在標準風冷機架中運行,無需昂貴的液冷基礎設施——這對數據中心的部署靈活性和總體擁有成本(TCO)都是巨大的優勢。
HC1 每用戶每秒 17,000 tokens 的推理速度,在當前的 AI 硬體格局中是一個令人震驚的數字。讓我們將其與主要競爭對手進行系統性的比較。
Nvidia H200 是目前部署最廣泛的 AI 推理加速器,在運行 Llama 3.1 8B 時的典型推理速度約為每秒 230 tokens。這意味著 HC1 的速度約為 H200 的 74 倍——不是 74%,而是 7,400%。即使考慮到 H200 是一顆通用 GPU、可以運行任意模型這一重要差異,這個性能差距仍然令人難以忽視。
在專用推理加速器領域,Cerebras 是此前公認的速度之王,其晶圓級引擎在 Llama 3.1 8B 上可達約每秒 1,936 tokens——HC1 的速度仍然是其 8.8 倍。SambaNova 的可重配置資料流架構達到約每秒 916 tokens,Groq 的 LPU 約為每秒 609 tokens。HC1 相較於這些已被視為「極速」的方案,仍然快了一個數量級。
建造成本方面的優勢同樣驚人。Taalas 聲稱 HC1 的製造成本較同等推理能力的 GPU 方案低 20 倍,能耗則低 10 倍。這背後的邏輯是清晰的:HC1 不需要昂貴的 HBM 記憶體(HBM 通常佔據 AI 晶片總成本的 30-50%),不需要複雜的記憶體控制器電路,不需要支援通用程式設計的指令解碼器和暫存器堆——所有這些在傳統 AI 晶片中不可或缺的組件,在 HC1 上都被省略了,因為它們根本不需要。晶片上的每一個電晶體都在為一個目的服務:盡可能快地運行 Llama 3.1 8B。
「GPU 是一把瑞士軍刀——什麼都能做,但沒有一樣做到極致。HC1 是一把為特定任務鍛造的武士刀。如果你知道需要切什麼,為什麼還要帶著開罐器和螺絲起子?」——Ljubisa Bajic 在一次技術訪談中這樣類比。
HC1 的驚人性能並非沒有代價。最根本的限制在於:這顆晶片只能運行 Llama 3.1 8B。它無法運行 GPT-4、無法運行 Claude、無法運行任何其他模型——模型已被物理性地寫入電路,如同一本已經印刷完成的書,無法更改其中的文字。這是硬連線架構與生俱來的特性,也是其飽受質疑的焦點。
批評者指出,AI 領域的模型迭代速度極快。Llama 3.1 8B 在今天可能是一個有競爭力的開源模型,但六個月後可能就會被下一代模型超越。花費大量資源去生產一顆只能運行特定模型的晶片,是否會面臨迅速過時的風險?這是一個合理且重要的質疑。
Taalas 對此有幾個層面的回應。首先,HC1 支援通過 LoRA(Low-Rank Adaptation)進行微調。LoRA 是一種參數高效的微調技術,通過在凍結的基礎模型權重之上添加少量可訓練的低秩矩陣,實現對模型行為的定制。在 HC1 上,基礎模型的權重雖然是硬連線的,但 LoRA 適配器的參數可以動態載入,使得用戶能夠在不改變晶片硬體的前提下,將模型適配到不同的下游任務和應用場景。
其次,Taalas 在晶片設計上採用了一個巧妙的架構策略:在整個 HC1 的光罩組(mask set)中,僅有兩層光罩(mask)需要根據不同的模型進行客製化。這意味著當需要為新模型生產晶片時,不需要從零開始設計——只需修改這兩層光罩,其餘的光罩可以完全重用。據 Taalas 表示,從確定新模型到完成晶片生產的周轉時間約為兩個月。在半導體產業中,這是一個極為快速的迭代週期——一顆全新設計的 ASIC 通常需要 12 至 18 個月的開發時間。
這種「兩層光罩」的架構設計是 HC1 商業模式的關鍵。它使得 Taalas 能夠在保持硬連線架構的極端性能優勢的同時,維持一定程度的模型更新能力。雖然兩個月的週轉時間仍然遠不如 GPU「即插即用」的靈活性,但對於那些已經確定使用特定模型的大規模部署場景而言,這個時間框架是可以接受的。
HC1 採用的專有 3-bit 數據格式和 6-bit 參數精度,是另一個引發廣泛討論的技術選擇。在深度學習領域,模型量化——即用更少的位元數來表示模型的權重和激活值——是提升推理速度和降低功耗的標準技術。但 3-bit 是一個極為激進的量化等級,距離業界的舒適區有相當距離。
標準的 FP16(16 位元浮點數)推理是品質基準線。INT8 量化在大多數場景中幾乎無損,已被廣泛採用。INT4/FP4 量化會帶來輕微的品質下降,但對大多數應用而言仍然可以接受。而 3-bit 量化則進入了一個更為微妙的領域——理論上,每個參數能表示的狀態數從 FP16 的 65,536 個驟降至 8 個,信息損失是顯而易見的。
Taalas 表示,他們的量化方案並非簡單的均勻量化,而是針對硬連線架構的特性進行了深度定制。6-bit 的參數精度提供了比單純 3-bit 更多的表示空間,而 3-bit 的數據格式則是用於中間計算的激活值。公司聲稱,在 MMLU、HumanEval、GSM8K 等標準基準測試上,HC1 的輸出品質與 FP16 版本的 Llama 3.1 8B 相比差異在統計噪音範圍內。
然而,對於這一說法,業界的態度是謹慎的。量化研究的經驗表明,基準測試的得分不一定能完全反映真實使用場景中的品質差異——特別是在需要精確數學推理、長上下文理解或處理罕見語言模式的任務中,極端量化可能會暴露出隱藏的品質問題。在獨立的第三方大規模評測結果公布之前,3-bit/6-bit 方案的品質表現仍然是一個有待驗證的問題。
HC1 只是 Taalas 路線圖的起點。公司已經公佈了一個雄心勃勃的產品發展計劃,目標是在短短一年內將硬連線架構從 8B 參數級別擴展至前沿級模型。
近期目標方面,Taalas 計劃在 2026 年夏季推出支援 200 億參數模型的新版晶片。這將是 HC1 的直接繼任者,參數規模擴大約 2.5 倍,預計需要更大的晶片面積或更先進的製程節點——或兩者兼備。200 億參數的模型在能力上較 8B 模型有顯著提升,能夠處理更複雜的推理任務和更長的上下文窗口,將大幅拓寬硬連線架構的適用場景。
更值得關注的是年底的計劃:Taalas 預計在 2026 年底推出代號為 HC2 的下一代晶片,目標是支援「前沿級」(frontier-class)參數規模的模型。雖然公司尚未公佈 HC2 的具體參數規模,但「前沿級」這一描述暗示目標可能在數百億甚至千億參數的量級。如果 Taalas 能夠實現這一目標,將意味著硬連線架構可以直接與 GPT-4、Claude 和 Gemini 等最頂級模型所使用的硬體基礎設施競爭。
值得注意的是,Taalas 已經展示了一個令人矚目的技術演示:在 30 張晶片的配置下運行 DeepSeek R1 模型,實現了每用戶每秒 12,000 tokens 的推理速度。DeepSeek R1 是一個在推理能力方面表現出色的模型,其參數規模遠大於 Llama 3.1 8B。這一演示不僅證明了硬連線架構可以擴展到更大的模型,也展示了多晶片協作方案的可行性——對於超出單晶片容量的模型,可以通過將模型拆分到多顆 HC 系列晶片上來實現。
Taalas 的創辦人兼執行長 Ljubisa Bajic 在 AI 晶片領域有著深厚的背景。他此前任職於 Tenstorrent——另一家位於多倫多的 AI 晶片公司,由傳奇晶片架構師 Jim Keller 領導。在 Tenstorrent 的經歷使 Bajic 深刻理解了通用 AI 加速器的設計哲學和其固有的局限性,這直接啟發了他對硬連線架構這條截然不同路線的探索。
多倫多是全球深度學習研究的搖籃之一——Geoffrey Hinton 在多倫多大學開創了深度學習的現代復興,Ilya Sutskever 和眾多 AI 領域的開拓者都與這座城市有著深厚的淵源。Taalas 選擇在這裡建立總部,得以接觸到北美最頂尖的 AI 和半導體人才庫。
在資本方面,Taalas 已累計融資超過 2 億美元。對於一家硬體新創公司而言,這是一筆可觀但並非充裕的資金——晶片設計和流片(tape-out)的成本極高,一次先進製程的流片費用可能就高達數千萬美元。然而,HC1 的「兩層光罩」架構在這裡展現了其成本優勢:由於大部分光罩可以在不同模型版本間重用,每次為新模型生產晶片的邊際成本遠低於全新設計一顆 ASIC。
Bajic 曾在多個場合強調,硬連線架構的經濟模型與傳統 AI 晶片截然不同。GPU 的研發成本極高(Nvidia 每代 GPU 的研發投入以數十億美元計),但一旦量產即可適用於所有模型和場景。HC 系列晶片的單次研發成本更低(因為大部分設計可重用),但需要為每個模型單獨生產。這種「低固定成本、按模型定制」的經濟模型,在 AI 推理市場走向少數幾個主流模型集中化的趨勢下,可能具有獨特的成本優勢。
Taalas HC1 的出現對香港和亞太地區的 AI 產業發展有著多重啟示意義。
香港正積極推動 AI 應用的落地,從金融科技到智慧城市、從醫療健康到法律服務,大量場景需要大規模的語言模型推理能力。傳統方案下,部署足夠的 GPU 算力來支撐這些應用的成本極為高昂——一台 DGX H200 的售價超過 50 萬美元,還需要加上電費、冷卻和機房空間的成本。如果 HC1 的性價比優勢在商業部署中得到驗證,它可能為香港的 AI 應用部署提供一個成本更低、能效更高的替代方案。每秒 17,000 tokens 的速度也意味著同等規模的硬體可以同時服務更多用戶,對於人口密集的城市環境而言尤其具有吸引力。
香港的數據中心面臨著嚴峻的電力和空間限制。土地成本居全球最高之列,電力供應受限且價格不菲。HC1 僅需約 250W 的功耗、在標準風冷機架中即可運行的特性,對香港的數據中心運營商而言是極具吸引力的——無需為部署 AI 推理能力而大規模改造冷卻系統或升級電力基礎設施。10 張 HC1 卡僅需 2.5 kW 的功耗,卻能提供相當於數十張高端 GPU 的推理吞吐量,這種能效比可能在寸土寸金的香港創造出獨特的部署機會。
在中美科技博弈持續升溫、先進晶片出口管制不斷收緊的背景下,亞太地區的企業和機構迫切需要多元化的 AI 硬體供應來源。HC1 雖然同樣是由台積電代工(且因此可能受到同樣的出口管制),但其「模型硬連線」的架構意味著最終產品的性質與通用 GPU 有本質不同——一顆只能運行特定開源模型的 ASIC,其出口管制分類可能與通用 AI 加速器不同。這一點值得政策研究者和產業界密切關注,因為它可能為受管制地區獲取高性能 AI 推理能力開闢一條新的路徑。
對香港的科技投資者而言,Taalas 代表了一個全新的 AI 硬體投資範式。過去幾年,AI 晶片投資幾乎等同於「Nvidia 及其挑戰者」的故事——Cerebras、Groq、SambaNova 等公司本質上都在爭奪 GPU 替代品的市場。Taalas 的硬連線架構則開闢了一個全新的類別:不是替代 GPU,而是在特定場景中完全繞過 GPU 的必要性。這種「正交創新」(orthogonal innovation)在風險投資中往往具有非對稱的回報潛力——如果成功,它定義的是一個全新市場,而非在現有市場中爭搶份額。
「HC1 的出現迫使我們重新思考 AI 基礎設施投資的基本框架。不再是『誰能做出更好的 GPU 替代品』,而是『在什麼場景下,通用計算架構本身就是一個不必要的妥協?』這個思維轉變對香港和亞太地區的 AI 產業布局有深遠的影響。」——一位香港科技投資基金合夥人評論道。
Taalas HC1 的出現引發了一個更深層的產業問題:AI 推理硬體的未來,究竟是走向更強大的通用處理器,還是走向為特定模型深度定制的專用晶片?
歷史可以提供一些啟示。在加密貨幣挖礦領域,幾乎完全一樣的演進路徑已經發生過——從 CPU 到 GPU,再到 FPGA,最終到專用 ASIC(如 Bitmain 的螞蟻礦機)。ASIC 礦機在效率上對 GPU 的碾壓是如此徹底,以至於 GPU 挖礦在大多數加密貨幣上已經完全失去經濟可行性。AI 推理是否會走上同樣的道路?
關鍵的區別在於:加密貨幣挖礦算法很少改變,而 AI 模型的迭代速度極快。比特幣的 SHA-256 算法從 2009 年至今未變,但 AI 領域每隔幾個月就會出現新的模型架構和權重更新。這意味著硬連線 AI 晶片面臨的模型過時風險遠高於加密貨幣 ASIC。Taalas 的「兩層光罩、兩個月周轉」策略是否足以應對這種迭代速度,是決定其商業模式能否持續的核心問題。
一個可能的未來場景是「混合架構」——大規模的 AI 推理基礎設施同時部署通用加速器和硬連線 ASIC。通用加速器用於靈活地運行各種模型、進行實驗和開發;當某個模型的使用量達到足夠規模且趨於穩定時,便將其遷移到硬連線 ASIC 上以獲取極致的速度和成本效率。這種策略類似於雲端計算中「通用實例 + 專用實例」的部署模式,在經濟和技術上都具有合理性。
對於 Taalas 而言,接下來的幾個季度至關重要。HC1 需要在真實的商業部署中驗證其性能和品質承諾;200 億參數版本和 HC2 需要按時推出以證明架構的可擴展性;更重要的是,需要有重量級的客戶願意將生產工作負載遷移到硬連線晶片上。17,000 tokens/sec 的數字確實令人振奮,但從技術演示到大規模商業部署之間的鴻溝,在半導體歷史上已經吞噬了太多有前途的技術。
無論 Taalas 最終能否成功,HC1 所代表的「將模型寫入矽晶片」的理念已經不可逆轉地拓寬了 AI 硬體產業的想像空間。在一個每秒 tokens 數直接決定用戶體驗和商業競爭力的時代,17,000 tok/s 的標竿將迫使所有 AI 硬體廠商重新審視自己的技術路線。比起 HC1 本身,這種對整個產業的催化效應,或許才是 Taalas 最深遠的貢獻。