在 NVIDIA 幾乎壟斷 AI 算力的這幾年,Cerebras 是最受矚目的挑戰者之一。它在 2026 年 5 月上市,首日股價暴漲 68%,市場用真金白銀,肯定了這個挑戰者。

這是一家怎樣的公司,它的產品在實戰上能打到什麼程度,技術突破在哪裡,隱憂又在哪裡。

如果把 12 吋晶圓,不切割,直接做成一顆超大晶片呢?

Cerebras Systems 成立於 2016 年 3 月,總部在加州 Sunnyvale,由 Andrew Feldman 等五人創辦。它的核心理念,用一句話講完,就是不要把晶圓切成很多小晶片,而是把一整片十二吋晶圓,做成單獨一顆巨大的晶片

這違反了半導體業最基本的成本邏輯。一般晶片受限於曝光機一次能成像的面積(業界稱光罩極限),單顆上限大約 800 平方公釐;Cerebras 的晶圓級引擎(Wafer-Scale Engine)邊長 21.5 公分、面積 46,225 平方公釐,等於把這個上限直接跳過,靠特殊製程把整片晶圓上的電路連起來。

它的作法是:曝光機照常一格一格曝,但連平常用來切割、原本會被丟掉的「切割道」也一起曝上連接線路,最後整片不切,就變成一顆晶片。所以突破點不在曝光技術,而在「連道路都曝、然後不切」這個特殊製程。

工程師捧著 Cerebras WSE 晶圓級引擎
Cerebras 的晶圓級引擎,幾乎是一張餐盤大小的單一晶片。一般 GPU 在它面前,就只是張郵票的大小。圖片來源:Cerebras Systems

晶圓本身是圓的,這顆晶片卻是方的:它取的是一片標準 300 公釐圓形晶圓上,能切出的最大正方形,幾乎用滿一整片晶圓。

最新一代 WSE-3(搭配 CS-3 系統)採用台積電 5 奈米製程,內含 4 兆個電晶體、90 萬個 AI 核心、直接整合在晶片上的 44 GB SRAM,記憶體頻寬達 21 PB/s。整片晶圓做成一顆,最大的好處是核心之間的資料不用再透過晶片外的線路傳輸,延遲與頻寬瓶頸幾乎被消滅。

在矽晶圓常見的良率問題上,一般晶片因為面積小、數量多,只要有瑕疵就捨棄不用;但 Cerebras 這種超大面積晶片,採用的解法是預留冗餘核心,硬體偵測到瑕疵就自動繞開、維持功能。

Cerebras 容錯機制示意圖:偵測到瑕疵核心後,硬體用備用核心重新接線
容錯機制:左為無瑕疵,右為偵測到瑕疵核心(黑色)後,硬體啟用備用核心並重新接線。這是「整片晶圓做成一顆」能量產的關鍵。圖片來源:Cerebras Systems
2016成立年份
4 兆電晶體數
90 萬AI 核心數
21 PB/s記憶體頻寬

註:上述規格多為 Cerebras 官方數據,經 IEEE Spectrum 等第三方轉述確認,但尚無中立第三方實測。

已經有產品了嗎?誰在用、多少錢,開發環境打得過 CUDA 嗎?

產品已經到第三代(CS-3)。它是一台機架式伺服器,16U 高(資料中心的機櫃以「U」為高度單位,1U 約 4.4 公分,16U 大約 70 公分高),重達數百公斤,單台功耗約 23 kW,採客製化內循環水冷。這種熱密度,一般機房放不下,必須要有高密度供電與強力液冷的資料中心才能部署。

Cerebras CS-3 系統的機箱外觀,蜂巢狀散熱面板
CS-3 系統本體。那層蜂巢狀面板底下,是一整片晶圓與它的水冷系統。圖片來源:Cerebras Systems

誰在用:

  • 雲端與 AI:OpenAI 簽下多年算力合約(下面談上市與隱憂時會詳述);2026 年 3 月起與 AWS 合作。這個合作常被誤解為「把 CS-3 丟進 AWS 機房出租」,其實不是:依 AWS 官方公告,是在 Amazon Bedrock 上的「拆解式推論」,Trainium 做前段、CS-3 做後段,只做推論、不碰訓練。
  • 主權 AI:G42 是阿聯酋阿布達比的國家級 AI 集團,旗下有雲端、模型、醫療 AI 等實際營運單位,不是純持股公司;由阿聯酋國家安全顧問 Tahnoun bin Zayed Al Nahyan 擔任主席兼控股股東,背後有國家主權基金 Mubadala,微軟也在 2024 年投資它 15 億美元,政府與國安色彩很濃。它串聯數十台 CS 系統,打造「Condor Galaxy」超級電腦。這個客戶後面談隱憂時還會再出現。
  • 研究與製藥:美國阿貢、勞倫斯利佛摩等國家實驗室;GSK 與 AstraZeneca(曾把一項訓練從兩週縮短到兩天)

價格與效果:整套系統售價在數百萬美元等級,再加上 MemoryX(存放模型權重用的外接記憶體單元)等元件後更高;但 Cerebras 主推的其實是雲端按量計費的推論服務。推論速度方面,官方數據在大模型上可達每秒 1,800 到 2,600 個字元(token)。它發表初期宣稱比 NVIDIA GPU 雲端方案快約 20 倍後續自家更新仍宣稱領先一個數量級(某次數據是比最快的 GPU 方案快約 16 倍)。要提醒的是,這些都是 Cerebras 自家測試,目前沒有中立第三方的跨廠 benchmark。

打不贏 NVIDIA 的軟體生態,那就讓開發者不需要它

NVIDIA 真正的護城河,是一套叫 CUDA 的開發軟體。幾乎全世界的 AI 工程師都是用它訓練出來的、用習慣了,要大家換掉非常難。Cerebras 沒有正面去搶這塊,它走的是另一條路:讓工程師根本不必碰最麻煩的那一段。

打個比方。平常要訓練一個超大模型,工程師得自己想辦法把模型「切成很多塊」,分散到成百上千張晶片上跑,還要盯著這些晶片之間怎麼互相協調,這是出了名的繁瑣又容易出錯。Cerebras 的運算是一整片晶圓,模型權重放在外接的那組記憶體裡,軟體把整套硬體包裝成「單一一台機器」呈現給開發者:你就當成有一台記憶體大到塞得下整個模型的電腦在寫,不必去管底下其實是晶圓和外接記憶體在分工。工程師照樣用原本熟悉的開發工具(PyTorch)寫程式,切分和協調都交給系統自動處理。對寫程式的人來說,等於把最痛的那段直接省掉了。

股票上市了嗎?市場反應如何?

Cerebras 在 2026 年 5 月 14 日正式於 Nasdaq 掛牌,股票代號 CBRS。據 CNBCSiliconANGLE:發行價每股 185 美元,售出 3,000 萬股,募得約 55.5 億美元;開盤跳到 350 美元,收盤 311.07 美元,首日大漲 68%

$185發行價
$311首日收盤
+68%首日漲幅
$55.5 億募資金額

目前市值,Motley Fool 以完全稀釋計算約 564 億美元,CNBC 則以收盤市值計算約 950 億美元。差別在「稀釋與非稀釋」的計算基礎不同:非稀釋只算現在實際在市場上流通的股票;完全稀釋還會把員工尚未行使的選擇權、認股權證這些「未來可能變成股票」的部分一起算進總股數。再加上兩家取的股價時點不同,得出的市值自然不一樣。

此前 IPO 一度卡關,原因是美國外國投資委員會(CFIUS)要審查 G42 的持股;後來 G42 把股權改成無投票權,2026 年 4 月才重新遞件,5 月成功掛牌。

資料中心內成排的 Cerebras 系統與粉色光纖

Cerebras 如此強勁,未來有什麼隱憂嗎?

首日暴漲 68% 很熱鬧,但招股書(S-1)裡的東西冷靜得多。以下六點,來自 S-1 拆解分析

一、客戶集中度極端高

2025 年營收的 86%,集中在兩個阿聯酋客戶身上:G42 與 MBZUAI。G42 就是前面介紹過的那家阿聯酋政府色彩濃厚的 AI 集團,MBZUAI 則是當地的人工智慧大學。兩者合計 86%(其中 MBZUAI 占 62%、G42 占 24%)。未來營收則高度押注在 OpenAI 這個新大客戶身上,等於從一個集中風險,換到另一個集中風險。

二、地緣政治與出口管制

這裡有兩件事要分開講。第一,G42 帶有阿聯酋主權與國安體系的背景,這種中東主權色彩的大客戶兼股東,曾引發美國外國投資委員會(CFIUS)的國安審查,也正是 Cerebras 上市一度卡關的原因。第二,Cerebras 自己的美國本土客戶營收,2025 年大幅下滑 34%(從 2.83 億美元掉到 1.88 億美元),等於它的成長越來越靠海外、尤其是靠中東客戶撐著。萬一美國政府收緊高階 AI 晶片輸往中東的出口管制(這類限制已經用在中國身上,中東也被討論過),Cerebras 的營收支柱可能遭到毀滅性打擊。

三、扣掉一次性收益,本業其實在虧

先解釋兩個會計名詞。GAAP 是美國公認會計準則,也就是財報「照官方規定」算出來的數字;公司通常還會附一個 Non-GAAP 版本,把一次性、不會年年發生的項目剔除,試著呈現「本業常態」長什麼樣。Cerebras 2025 年 GAAP 帳面是賺錢的,但這份獲利裡,包含一筆來自 G42 重組協議的 3.63 億美元一次性非現金收益。把這種「今年有、明年不會再有」的項目拿掉,本業其實是淨損約 7,570 萬美元。換句話說,單靠賣晶片這件事本身,它還沒真正賺到錢。

四、產能命脈,全壓在台積電

WSE-3 用台積電 5 奈米,而且一顆晶片就吃掉一整片晶圓,晶圓消耗量極大。它手上有高達 246 億美元、客戶已經下單但還沒交貨的訂單(也就是「訂單積壓」,主要來自 OpenAI),代表外面要跟它買的需求很猛;問題是要把這些訂單真的做出來,得跟台積電搶產能,而它在這件事上的議價籌碼,比 NVIDIA 弱得多。

五、公司治理與執行長的前科

招股書也自承財務報告的內部控制有重大缺失(material weakness)。更微妙的是執行長 Andrew Feldman 的一段往事:他二十多年前在 Riverstone Networks 任職期間,公司涉及以私下協議灌水營收的會計舞弊,遭美國證管會(SEC)起訴,Feldman 為此付出代價(含繳回不當所得、刑事認罪)。這不是新聞標題會放大的事,但白紙黑字寫在 Cerebras 招股書的風險因子裡。

六、雙層股權與解禁賣壓

它採「雙層股權」結構:股票分兩種,一般投資人在市場上買到的是普通股、一股一票;創辦人與內部人手上則是 Class B 股,每股有 20 票投票權。結果就是,就算外部股東出了大部分的錢、持有大量股份,公司的控制權還是牢牢握在內部人手裡。加上部分早期股東的閉鎖期(上市後一段時間內不能賣)一旦到期,未來有潛在的解禁賣壓。

怎麼看這六點

技術很猛、IPO 很猛,但這是一家「靠一個中東客戶撐起八成營收、本業還在虧、命脈綁在台積電、執行長有前科」的公司。看好它的技術,跟把它當穩健投資,是兩件不同的事。

缺算力的 Anthropic,為什麼不找它合作?

幾個結構性原因。

  • 已被巨頭排他綁定。Anthropic 兩大金主是 Amazon 與 Google。據 Axios,Amazon 已投資 Anthropic 50 億美元、並握有最高再加碼 200 億美元的選項,另有商業協議讓 Anthropic 砸下約 1,000 億美元、最高 5GW 的 AWS 算力;Google 則最高投資 400 億美元(先投 100 億、估值 3,500 億美元,另 300 億視里程碑達標),同樣綁定 5GW 的 Google Cloud 與 TPU。兩邊都把算力綁死在自家雲,沒有空間大舉採購 Cerebras。
  • 真正的瓶頸是電力,不是晶片。2026 年的 AI 限制因素是電網供電。Anthropic 傾向直接找「手上有電、有資料中心」的對象:例如它在 2026 年 5 月租下 Colossus 1(超過 300MW、逾 22 萬顆 GPU;這座資料中心原屬 xAI,xAI 併入 SpaceX 後成其資產),而不是再去整合一套高耗電的新硬體。
  • 產能被 OpenAI 先卡位。OpenAI 已先簽下 Cerebras 大量產能與雲端容量,Anthropic 想拿也難。據 OpenAI 官方The Next Platform,這紙合約 2026 年 1 月 14 日公布,基礎規模超過 100 億美元、750MW 推論算力(後續報導擴大到逾 200 億美元),OpenAI 另提供 10 億美元、利率 6% 的營運資金貸款,以及最多約 10% 至 11% 的無投票權認股權證。
  • 模型架構適配成本高。Cerebras 軟體目前對結構公開的開源模型優化最好,要把 Anthropic 高度保密的模型搬上去,深度底層整合的時間成本太高。

用算力電力比來看,Cerebras 跟 NVIDIA 到底誰划算?

先講純理論峰值,再講為什麼帳面數字會騙人。

NVIDIA DGX H100(8 卡系統)
功耗約 10.2 kW,FP16 約 16 PetaFLOPs,能效比約 1.6 PFLOPs/kW(規格見 NVIDIA DGX H100 官方手冊;官方標 32 PFLOPs 為 FP8,FP16 約其一半)
Cerebras CS-3(單晶片系統)
功耗約 23 kW,約 125 PetaFLOPs,能效比約 5.4 PFLOPs/kW(規格見 Cerebras 官方
理論峰值差距
Cerebras 約為 H100 世代的三倍上下(皆為廠商峰值數字,非中立實測)

註:能效比是以上述功耗與算力換算(PetaFLOPs ÷ kW),非廠商直接公布的數字。

但帳面數字會騙人,原因有二:

  • 大規模叢集的隱形損耗。NVIDIA 大規模串聯時,網路交換器、光纖模組很耗電,GPU 等待通訊時也有閒置功耗,整體有效能效會衰減。Cerebras 核心通訊在晶圓內部,這塊損耗較小,但這同樣是它官方的宣稱。
  • 熱密度是致命傷。我們前面拿來比的那一代 NVIDIA(DGX H100),一般機房用風扇吹、風冷就能應付(不過 NVIDIA 最新的 Blackwell 整櫃系統也已改成液冷)。Cerebras 沒有這個選項:23 kW 的熱量全壓在一張 21 公分見方的晶圓上,熱密度極高,必須配上精密的高壓客製水冷。更麻煩的是,因為它是「整片晶圓做成一顆」,散熱只要某一處出狀況,壞掉的不是其中一顆可以單獨抽換的晶片,而是有可能傷到整片晶圓,這是單片架構天生的脆弱面。蓋這種局部超高密度供電加散熱的基礎設施,成本也會吃掉它在電費上省下來的一部分優勢。
怎麼看

理論峰值 Cerebras 確實漂亮,但「省電」是系統層級的總帳,不是看單台 spec。真實工作負載、散熱基建折舊算進去,差距會收斂。這也是為什麼能效比這種數字,要永遠記得它是廠商給的。

那 NVIDIA 自己,有沒有在走「大尺寸整合」這條路?

有,但 NVIDIA 走的是「先進封裝把多顆拼成一顆」,而不是 Cerebras 那種「整片晶圓做一顆」。

  • 第一步:雙晶片合體。B200 由兩顆達光罩尺寸極限的晶粒,透過台積電 CoWoS-L 封裝放在同一個中介層上,晶粒間互連達 10 TB/s,軟體上表現得像一顆超大晶片。
  • 第二步:整櫃當成一顆。再往上一層,GB200/GB300 NVL72 用第五代 NVLink 這種超高速銅線背板,把整櫃 72 顆 GPU 綁在一起,在軟體上被當成「一顆超級 GPU」操作。這些連線整櫃加總起來的傳輸速度約 130 TB/s(對照一下,上面第一步兩顆晶粒之間是 10 TB/s,這裡又快了一個量級),快到 72 顆 GPU 之間搬資料幾乎不會卡,所以才能被當成一顆來用。
  • 下一代 Rubin:延續同一套路,用更先進的封裝把多顆晶粒和記憶體疊在一起,走的還是「把很多顆拼成一顆」這條路,不是 Cerebras 那種整片晶圓。坊間有「Rubin 會改走整片晶圓」的傳聞,但目前沒有可靠來源佐證。

商業邏輯的差異很清楚:NVIDIA 選擇「小晶片先進封裝 → 機櫃互連」,是為了保住良率、100% 繼承 CUDA 生態,以及維持從單卡到整櫃的產品線彈性,買多買少都可以,升級降級很容易。Cerebras 則選了一條沒有退路、但延遲與頻寬天生贏的路。這是兩種完全不同的賭注。

戴著無塵手套的雙手捧著 Cerebras 晶圓級引擎