黃錦輝 立法會議員 香港中文大學工程學院副院長(外務(wù)) 香港專業(yè)及資深行政人員協(xié)會副會長

DeepSeek(「深度求索」)研發(fā)的大模型橫空面世,提供一個效能處於世界頂尖水平且極具性價比的LLM開源模型,特區(qū)政府若可採用DeepSeek公開數(shù)據(jù),開發(fā)「公開開源人工智能平臺」,正好可以幫助香港突破人工智能技術(shù)局限,又讓香港充分發(fā)揮聯(lián)通世界所長,推動DeepSeek高端智能技術(shù)進一步走向世界。

乙巳年啟始,坊間喜喜興興地送龍迎蛇,人工智能界亦發(fā)生一件舉世矚目的大事。靈蛇引來一頭來自中國人工智能公司DeepSeek(「深度求索」)創(chuàng)造、震動美國硅谷、衝擊華爾街股市的「藍鯨」——DeepSeek-R1 (DS-R1)人工智能推理模型。簡單形容,從應(yīng)用層面來說,DS-R1可成為OpenAI開發(fā)的ChapGPT之代替品。

DS-R1的優(yōu)點是其在系統(tǒng)生成中的性價比(Price-Performance)遠高於傳統(tǒng)「生成式人工智能」,例如ChatGPT。在基準測試(Benchmark Evaluation)中,DS-R1的效率不但比其他大型語言模型,包括ChatGPT、 Llama等優(yōu)勝,而且其所需要的硬件設(shè)備亦較少。例如,DS-V3(R1的前一版)訓(xùn)練成本約560萬美元,僅使用了2,048顆英偉達(Nvidia)H800晶片,並在兩個月內(nèi)成功開發(fā)。

採用了兩種嶄新技術(shù)

相比之下,OpenAI訓(xùn)練ChatGPT-4o模型使用了2.5萬顆性能強大的H100晶片,訓(xùn)練成本高達1億美元。而且除了經(jīng)濟考慮之外,訓(xùn)練DS-R1所需的能源消耗亦較Llama3低。

從技術(shù)層面,DS-R1採用了兩種嶄新技術(shù),分別為「多頭潛在注意力機制」(Multi-head Latent Attention, MLA)及「混合專家系統(tǒng)」(Mixture of Experts, MoE)。兩者目標一致,令運算更聚焦,避免浪費算力。MoE精簡了訓(xùn)練對象的特徵,從而提升模型對於計算資源的利用效率,並加速人工智能的整個訓(xùn)練過程。簡而言之,人工智能預(yù)測依賴特徵,但關(guān)鍵在於特徵的質(zhì)量而非數(shù)量。

運算的高維特徵空間中常常包含重複或冗餘的信息。舉個例子,當我們判斷一個人是否在跑步時,會觀察心率加快、呼吸急促、出汗增多等生理指標。雖然這些都是獨立的指標,但它們之間存在密切的關(guān)聯(lián),本質(zhì)上都在描述同一種運動狀態(tài)。冗餘的信息不僅對訓(xùn)練沒有幫助,反而會增加不必要的計算負擔。

針對這問題,DeepSeek模型的MLA在傳統(tǒng)注意力機制的基礎(chǔ)上作出創(chuàng)新:通過低秩近似技術(shù),提取出一組精簡但富有代表性的「基礎(chǔ)特徵」。這就像是從紛繁複雜的數(shù)據(jù)中找出真正起決定性作用的關(guān)鍵因素,既保留了重要信息,又顯著降低了計算成本,從而大大提升模型的運行效率。

MoE也是DeepSeek模型的一個重要組成部分。MoE就像一個有很多專家組成的團隊,每個專家都擁有擅長的知識和技能,專門處理某一類特定任務(wù),例如代碼編寫、數(shù)學分析、文學寫作等。MoE就像一個智能的調(diào)度員,會根據(jù)輸入的信息來決定應(yīng)該讓哪個專家來處理。因為每個專家都有自己擅長的領(lǐng)域,所以在處理複雜任務(wù)時,MoE比一般的單一模型做得更好。

除此之外,MoE只有在有需要的時候才調(diào)用特定的專家,不需要讓整個大模型都工作,從而節(jié)省了計算資源,提升計算效率。這種專家分工協(xié)作的設(shè)計理念,使MoE在保持強大性能的同時,實現(xiàn)了更靈活和高效的資源利用。

開源運作大獲歡迎

DS-R1另一優(yōu)點是開源。它的模型以及其代碼都是公開的,任人使用。相比ChatGPT的封閉式操作專有模型,DS-R1大獲全球科技界歡迎。DeepSeek的完全開源策略不僅降低了使用者的使用門檻,也促進了人工智能開發(fā)者社群的協(xié)作生態(tài)。透過開源,DeepSeek吸引了大量開發(fā)者和研究人員的關(guān)注,他們可以在平臺上自由取得和修改模型程式碼,共同推動人工智能技術(shù)的發(fā)展。美國法裔電腦科學家、2018年圖靈獎得主楊立昆(Yan LeCun)認為,開源是DeepSeek致勝之道,但他指出關(guān)鍵並不在DeepSeek推行完全開源,而是該公司善用開源操作,並認為DeepSeek的成功,反映出開源模型正在超越專有模型,每個人都可以從中受益,發(fā)揮開放研究和開源的力量。對此,筆者非常同意,並建議香港創(chuàng)科業(yè)界認真考慮推行,而且特區(qū)政府可以利用其公開數(shù)據(jù)的經(jīng)驗,開設(shè)一個「公開開源人工智能平臺」,讓科學家、工程師共享原代碼。

2015年OpenAI成立,他們的計劃是研發(fā)安全人工智能,並把成果公諸於世,以不牟利開源模式與全球共享??墒?,到了ChatGPT-3面世之後,公司總裁阿特曼(Sam Altman)因承受不住經(jīng)濟壓力改變初衷,公司開始推行商業(yè)運作模式,以賺錢來支持公司大額的研發(fā)經(jīng)費。

助港提升新質(zhì)生產(chǎn)力

更不可接受的是,OpenAI停止向中國(包括香港特區(qū)在內(nèi))提供服務(wù),令香港產(chǎn)學研界的工作都受到嚴重影響。例如學界只能使用舊版ChatGPT,嚴重影響教與學。為了擺脫對OpenAI的依賴,特區(qū)政府去年投資了過億港元,與本地大學合作研發(fā)一套港版ChatGPT。

人工智能是香港創(chuàng)新發(fā)展的重點領(lǐng)域,大型語言模型是全球熱門研究領(lǐng)域,本港科研團隊也非常投入。以筆者為例,正在研究提升LLM可靠性的技術(shù)。不過,自「特朗普1.0」開始,美國變本加厲打壓中國科技發(fā)展,禁止美國先進人工智能科技產(chǎn)品出售給中國,當中包括英偉達芯片,令內(nèi)地及香港科研進度受阻。所幸的是,DeepSeek研發(fā)出極具成本效益的運算方法,對中國人工智能發(fā)展大有幫助,亦有助工商界提升新質(zhì)生產(chǎn)力。