春節期間,被國人所關注且大量“玩?!钡囊粋€工具就是AI大模型DeepSeek。它之所以掀起了又一波的大模型平民化的浪潮,大概有兩個原因,一個是回答更加千人千面且具有更好的真人思考狀態,二是免費,你愛怎么弄都行,幾乎都有求必應。當然,它出自中國,也讓國人的使用門檻降低,避免了往日與西方科技界之間的那種知識與語言的鴻溝。
其實就其成功的核心而言,它被業界稱為開創性地實現了“輕量化知識蒸餾”技術。這就意味著,相當于將千億參數大模型的智能壓縮到移動端可承載的小體積,類似于讓2G網絡用戶也能使用AI服務。由于DeepSeekV3引入了獨特的專家混合(MoE)模型架構,在推理時可以選擇部分模型進行計算,避免了大量不必要的計算,提高了模型的運行效率。這樣一來,它的平民化普及就成了更高的條件。所以甚至有人說從此對算力的需求不再那么令人感到焦慮了。
是的,在資訊極大豐富的時代,過往的大模型依然是一種對大數據進行極其復雜的匯編演繹,然后使其順理成章,并貌似創造產品那樣去回應咨詢者。然而,當人們需要的不只是資訊的大雜燴,而是更深層的思考,更有方向感的導向時,AI的升級也就勢在必行。因此DeepSeekV3的關鍵就在于通過思維鏈條,逐步分解復雜的問題,一步步得到令人意想不到的甚至驚嘆的結果。如此高效訓練,采用多令牌訓練目標、多頭潛在注意力等技術,提高了數據處理效率,減少了計算量,提升了模型性能,也能在一定程度給出更精準而不是泛泛而談的內容。
此外,應用場景的豐富也讓這個大模型工具能夠在很多地區迅速得以應用。比如媒體就報道了,在撒哈拉以南地區,DeepSeek的醫學影像診斷模塊準確率已達三甲醫院主治醫師水平,為醫療資源匱乏地區提供了幫助。其獨創的文化基因解碼器可識別2000種文化符號,幫助不同文化背景的人在對話中消除文化誤讀。如此等等,貌似并不是DeepSeek的首創,但確實是性能調優之后的一種巨大進化。
因此,通過不斷優化模型架構和訓練方法,在降低成本的同時提升性能,進而能惠及大眾,這才是一家科技公司及其產品了能夠被社會接受和尊重的原因。相比之下,如果只是靠換個馬甲,模仿名稱、借鑒外表甚至全盤山寨,然后就趕緊靠注冊會員充值一年賺一筆的商業模式,就顯得非常低檔且短期。因為在不斷迭代的大模型面前,使用這種收割法的公司基本也只能是短命行為。別說引領科技潮流,連服務還能不能持續都很成問題,當然也很難獲得人們的真正擁抱。