名詞解釋
語料數據(Corpus Data)
是指用于訓練、測試和優化自然語言處理(NLP)模型或人工智能系統的一系列文本或語言數據。這些數據通常以文本形式存在,包括但不限于書籍、文章、新聞報道、對話記錄、社交媒體內容、專業文獻等。對于大語言模型(LLMs)的訓練和優化而言,語料數據是自然語言處理和人工智能領域中不可或缺的基礎資源。
前不久,國產人工智能大模型DeepSeek以其廣博的知識儲備和快速的思考應答能力火爆“出圈”。作為其訓練的基礎與關鍵“燃料”,語料數據也走入公眾視野,成為多領域熱議的話題。
在2月下旬于上海舉辦的2025全球開發者先鋒大會上,業界針對大模型語料展開深度布局,不僅發布2025語料風云榜招募令,還啟動了具身智能語料專項工程,成立了語料工作委員會。
隨著“大模型時代”的到來,如何進一步加強語料數據應用?未來產業相關企業如何突破發展瓶頸,加快語料庫建設?
場景應用
貼合本土文化特征
“如何能夠讓外語模型在交互過程中更好地展示中國的流行式表達?若借助常見的GPT-4大模型將‘上海City不City?’翻譯成外語,易出現‘上海是一座城市還是一座城市?’的直譯,缺少語句在實際運用中所傳遞出的時尚感和趣味性。而在我們最新開發的‘萬卷·絲路’多語言語料庫的助力下,通過對中國語義進行保真和本地化處理,在翻譯時注重傳遞出‘City’作為一種流行熱詞所包含的時尚生活方式和氛圍。”上海人工智能創新中心場景與數據聯盟合作中心負責人王宇介紹,“萬卷·絲路”是一款圍繞高質量共建“一帶一路”專門打造的多語種語料庫,首期開源了包含泰語、俄語、阿拉伯語、韓語、越南語5個語種的語料,總規模超1.2TB(單語種均超過150GB),涵蓋使用上述語種國家地區的生活、百科、文化、新聞等七大領域數據,收集了多國網絡公開信息、文獻、專利等資料。
除了常規翻譯的應用,“萬卷·絲路”語料庫在文旅場景下也有精彩表現。例如,多語言的支持能夠滿足不同語言背景游客的需求,提升他們的跨文化交流體驗。此外,該語料庫還通過專家人工標注和數據智能處理,建立了包含7個維度的文本數據質量評估體系,確保數據的完整性、有效性、可理解性、流暢性、相關性、相似性和安全性。這種高質量的語料可以用于訓練智能導覽系統,為游客提供精準、流暢的語音導覽及信息查詢服務,并向游客講述更多景點背后的歷史故事,展示豐富的人文內涵。
中國信息通信研究院華東分院院長廖運發對中國城市報記者表示,當前語料應用集中在通用服務、垂直行業與前沿探索三大領域。其中,通用服務以智能客服、內容生成為主,如百度“文心一言”依托搜索引擎語料優化問答體驗。而在垂直行業中,金融、醫療、教育是重點。例如,財躍星辰的大模型通過高量級的金融語料訓練,已實現智能投研與風險預警。前沿探索則包括自動駕駛的視覺語料訓練、元宇宙的多模態內容生成等。
廖運發稱,國產大模型的語料應用特點可概括為“本土適配”與“政策驅動”。一方面,國產大模型注重融入主流媒體、古籍文獻等中式價值觀語料,進一步契合本土用戶的文化認知。另一方面,政策引導推動語料向合規與安全傾斜。例如,《生成式人工智能服務管理暫行辦法》要求訓練數據需符合社會主義核心價值觀,促使企業優先采用經過審核的語料。
“要加強對各類場景需求的了解和挖掘,才能更好推動語料數據的實際應用。在大模型訓練過程中,需要結合諸如外事、‘出海’等具體場景,對語料數據的需求進行價值挖掘。”王宇說。
搭平臺、育人才
加速構建產業生態
在語料應用如火如荼開展的同時,語料產業生態也在加速構建。
去年12月召開的中央經濟工作會議提出,要開展“人工智能+”行動,培育未來產業。
上海市經濟和信息化委員會副主任張宏韜表示,上海積極落實國家戰略任務,加快建設人工智能“上海高地”。在頂層設計方面,瞄準技術前沿、堅持應用牽引,實施“模塑申城”行動方案,建設智能算力集群、語料供給體系、虛實融合實訓場以及行業基座大模型等基礎“底座”。在示范平臺方面,依托公共算力平臺,建設帶動產業鏈協同發展。依托上海儀電(集團)有限公司、上海庫帕思科技有限公司(以下簡稱庫帕思)等企業,建設市級智能算力公共服務平臺、語料公共服務平臺,提升規模化先進算力調度和供給能力,打造大模型語料的“超級工廠”。
創新是引領發展的第一動力,而人才則是創新的主體。作為一家專注于語料服務的公司,庫帕思格外注重招募和培養語料行業人才。庫帕思CEO黃海清在接受中國城市報記者采訪時稱,無論是人工智能公司還是大模型公司,其最核心的資產就是人才。“在人才培養方面,我們最關心的是如何能讓年輕人快速成長與發展,提升技術技能。為此,我們提出了‘聰明地工作、努力地工作、開心地工作’理念。打造活潑、開放的企業氛圍及文化。”黃海清說。
多層面發力
破解語料庫建設難題
大規模、高質量的語料數據能夠顯著提升大模型的理解、生成和推理能力。而有業內人士認為,高質量語言數據或將在2027年內被消耗殆盡。此外,當前主流大模型的訓練大多基于英文語料,極大影響了國產大模型的性能提升和泛化推廣。基于這些因素考慮,建設高質量中文語料庫成為當務之急。
廖運發分析,當前中文語料庫建設面臨多重挑戰,核心問題可歸納為規模、質量、結構和生態4個維度。一是數據規模與多樣性不足。盡管中文互聯網內容龐大,但全球高質量語料庫中中文占比不足5%,且通用語料多、垂直領域語料少。二是數據質量參差不齊。現有中文語料存在大量未經清洗的噪聲數據,如錯別字、語法錯誤甚至價值觀偏差內容,直接影響模型輸出的準確性和可靠性。三是標準化與共享機制缺失。國內語料庫標注標準不統一,元數據規范化程度低,導致不同機構間的語料難以互通,資源重復建設現象嚴重。四是版權與隱私風險突出。語料收集需平衡知識產權保護與數據利用需求,而現行法律對語料使用的界定模糊,企業創新常因版權爭議或隱私合規成本高而受限。
如何突破建設過程中的障礙?廖運發建議,可從政策引導、技術創新、生態協同三方面發力。政策層面,強化頂層設計,例如設立國家級語料庫建設專項基金,支持專業領域語料采集與標注,同時推動數據安全法、個人信息保護法在語料領域的實施細則,明確版權合理使用邊界。技術層面,提升智能化處理能力,例如開發自動化清洗工具,降低噪聲數據比例,利用半監督學習減少人工標注成本,并通過分布式存儲和加密技術保障語料安全。生態層面,構建開放共享機制,可借鑒歐洲語言資源協調機構經驗,由權威機構牽頭制定元數據標準,推動高校、企業、出版機構共建語料聯盟。此外,還可探索“語料銀行”商業模式,通過數據確權與交易平臺促進語料流通。
“未來,中文語料庫將具備實時更新(從靜態學習到動態學習與更新)、精細加工(從源語料到精標語料)、品類豐富(多來源、多模態、多場景)等特點。總體來看,中文語料庫建設是AI競爭的戰略高地,需以規模擴容、質量提升、生態協同為核心,同時把握多模態與專業化趨勢。國產大模型唯有扎根本土語料資源,才能在全球化競爭中凸顯差異化優勢,為數字經濟時代發展提供堅實‘底座’。” 廖運發說。
《中國城市報》(2025年03月17日第10版)
《中國城市報》社有限公司版權所有,未經書面授權禁止使用
Copyright ? 2015-2025 by www.yktax-zh.com. all rights reserved