【導讀】近日,摩爾線程正式發布并開源面向GPU底層算子生成的專用代碼大模型MusaCoder。這是業內首個基于國產GPU算力底座完成全鏈路訓練與驗證的開源代碼大模型,其完整后訓練流程均在基于MTT S5000構建的夸娥智算集群上完成。在KernelBench嚴格評測中,MusaCoder-27B-RL以Overall Pass@8 93.2%、Avg.@8 88.60%的成績,超越Claude Opus 4.7、GLM-5.1、DeepSeek-V4 Pro、Kimi K2.6等主流SOTA代碼模型,展現出在GPU原生Kernel生成任務上的領先性能。

KernelBench準確率(Avg.@8)對比
MusaCoder模型權重已開源:https://huggingface.co/MooreThreads/MusaCoder-27B
MusaCoder論文地址:http://arxiv.org/abs/2606.04847
MusaCoder:專為GPU設計的高性能算子生成模型
MusaCoder是摩爾線程面向GPU底層算子生成任務設計的專用代碼大模型,包含9B和27B兩個參數規模。該模型重點支持從PyTorch標準算子自動生成高性能CUDA/MUSA原生Kernel代碼,旨在降低開發者手寫底層GPU算子的門檻,提升GPU高性能計算場景下的代碼生成、驗證和優化效率。
傳統代碼大模型雖然具備較強的通用編程能力,但在GPU Kernel生成任務中仍面臨顯著挑戰:一方面,GPU Kernel 對并行計算、線程組織、內存訪問、索引映射和硬件執行特性要求極高;另一方面,生成代碼不僅要語法正確,還必須能夠通過編譯、數值正確性驗證、反作弊檢測,并在真實執行中獲得性能收益。

MusaCoder訓練總流程
針對上述難點,MusaCoder構建了一套面向GPU原生算子(CUDA/MUSA)生成的大模型全棧后訓練方法論。該流程覆蓋數據構建、執行驗證、強化學習優化等關鍵環節,使模型能夠從基礎代碼能力逐步進化為具備底層算子生成與修復能力的專用模型。
在數據構建階段,MusaCoder 通過結構化推理過程和顯式 Shape 信息注入,增強模型對張量形狀、內存布局和索引關系的理解,解決從通用代碼能力遷移到 GPU Kernel 生成任務時的冷啟動問題。
在評測與訓練環境方面,摩爾線程構建了 MooreEval 分布式執行驗證系統。MooreEval 能夠對模型生成的代碼進行自動編譯、執行、正確性驗證、性能測試和反作弊檢測,并將結果轉化為穩定的訓練反饋信號。這使得模型不僅能學習“寫出能運行的代碼”,還能夠進一步學習“寫出正確、合法且更高效的原生 GPU Kernel”。
在強化學習階段,MusaCoder針對GPU Kernel生成任務中的多輪修復、訓練穩定性和長尾困難樣本等問題,引入了PrimeEcho、MirrorPop和BDR等機制,用于提升模型在多輪調試場景下的修復能力和訓練穩定性。通過這些方法,MusaCoder打通了從基礎代碼微調到執行反饋強化學習的完整優化閉環。
核心成果:正確率與真實加速能力雙提升
在MooreEval執行式驗證協議下,MusaCoder-27B-RL在KernelBench評測中取得了顯著領先表現。

表1:KernelBench評估結果對比。Pass@8表示8個采樣代碼中至少有一個通過驗證,而Avg.@8則衡量8個樣本的平均正確率。
高準確率超越SOTA:從正確率來看,MusaCoder-27B-RL的Overall Pass@8達到93.2%,Avg.@8達到88.60%,均超過Claude Opus 4.7的87.2%和77.30%。在更具挑戰性的Level 3任務上,MusaCoder-27B-RL的優勢更加明顯。Level 3任務通常涉及復雜shape推導、索引映射和多算子組合,對模型的底層代碼理解能力和調試能力提出了更高要求。在該難度級別上,MusaCoder-27B-RL的Pass@8和Avg.@8分別領先Claude Opus 4.7的18個百分點和26.5個百分點。
真實加速能力突出:在MooreEval標準下,只有同時通過正確性驗證、合法性檢查,并且相比PyTorch baseline獲得有效加速的候選實現,才會被計入 Faster Rate。MusaCoder-27B-RL的Overall Faster Rate達到15.0%(vs. PyTorch Eager)和9.2%(vs. torch.compile),分別高于Claude Opus 4.7的 11.8%和7.5%。
這表明MusaCoder不僅能夠更穩定地生成正確的GPU Kernel,也更有能力生成具備實際性能收益的原生算子代碼。
國產GPU完成全流程后訓練,驗證夸娥智算集群能力
MusaCoder模型的SFT(監督微調)、RFT(拒絕采樣微調)、RL(強化學習)、異步rollout、在線編譯執行驗證及reward計算等全棧訓練與驗證流程,均依托摩爾線程旗艦級AI訓推一體智算卡MTT S5000所構建的夸娥智算集群完成。
這一成果,充分驗證了國產GPU不僅能夠支撐大模型推理和常規微調任務,更能夠穩定承載代碼大模型后訓練全周期算力需求。尤其是在GPU Kernel生成這一類任務中,訓練系統需要頻繁進行代碼生成、編譯、執行、驗證和反饋計算,對硬件、編譯棧、運行時、調度系統和評測基礎設施都提出了更高要求。
MusaCoder的成功實踐,將一次模型訓練驗證沉淀為可復用的工程范式:不僅為AI Coding、AI Infra等基礎設施的自主可控提供了實踐范例,也展現了摩爾線程在AI軟件棧、訓練平臺、評測系統和開源模型生態方面的完整工程支撐能力。
共建開放生態,推動國產AI創新與應用
MusaCoder的正式開源,旨在為MUSA生態提供面向PyTorch到原生算子生成的基礎模型能力,幫助開發者更高效地完成GPU Kernel 的生成、驗證、修復和優化,降低底層算子開發門檻。
同時,MusaCoder也為高校、科研機構和開源社區提供了一個基于國產全功能GPU的代碼生成研究平臺,推動異構計算編程、AI編譯優化和自動化Kernel生成等方向的開放研究與技術交流。
未來,摩爾線程將持續增強MusaCoder在復雜任務上的生成與修復能力,并進一步探索與IDE插件、自動調試工具、profiling工具等開發者工具鏈的結合,逐步形成從PyTorch參考實現到MUSA原生Kernel的自動生成、驗證、修復和優化閉環,持續推動國產GPU生態建設與AI基礎設施創新。



