名詞解釋
語料數(shù)據(jù)(Corpus Data)
是指用于訓(xùn)練、測試和優(yōu)化自然語言處理(NLP)模型或人工智能系統(tǒng)的一系列文本或語言數(shù)據(jù)。這些數(shù)據(jù)通常以文本形式存在,包括但不限于書籍、文章、新聞報道、對話記錄、社交媒體內(nèi)容、專業(yè)文獻(xiàn)等。對于大語言模型(LLMs)的訓(xùn)練和優(yōu)化而言,語料數(shù)據(jù)是自然語言處理和人工智能領(lǐng)域中不可或缺的基礎(chǔ)資源。
前不久,國產(chǎn)人工智能大模型DeepSeek以其廣博的知識儲備和快速的思考應(yīng)答能力火爆“出圈”。作為其訓(xùn)練的基礎(chǔ)與關(guān)鍵“燃料”,語料數(shù)據(jù)也走入公眾視野,成為多領(lǐng)域熱議的話題。
在2月下旬于上海舉辦的2025全球開發(fā)者先鋒大會上,業(yè)界針對大模型語料展開深度布局,不僅發(fā)布2025語料風(fēng)云榜招募令,還啟動了具身智能語料專項工程,成立了語料工作委員會。
隨著“大模型時代”的到來,如何進(jìn)一步加強(qiáng)語料數(shù)據(jù)應(yīng)用?未來產(chǎn)業(yè)相關(guān)企業(yè)如何突破發(fā)展瓶頸,加快語料庫建設(shè)?
場景應(yīng)用
貼合本土文化特征
“如何能夠讓外語模型在交互過程中更好地展示中國的流行式表達(dá)?若借助常見的GPT-4大模型將‘上海City不City?’翻譯成外語,易出現(xiàn)‘上海是一座城市還是一座城市?’的直譯,缺少語句在實際運用中所傳遞出的時尚感和趣味性。而在我們最新開發(fā)的‘萬卷·絲路’多語言語料庫的助力下,通過對中國語義進(jìn)行保真和本地化處理,在翻譯時注重傳遞出‘City’作為一種流行熱詞所包含的時尚生活方式和氛圍。”上海人工智能創(chuàng)新中心場景與數(shù)據(jù)聯(lián)盟合作中心負(fù)責(zé)人王宇介紹,“萬卷·絲路”是一款圍繞高質(zhì)量共建“一帶一路”專門打造的多語種語料庫,首期開源了包含泰語、俄語、阿拉伯語、韓語、越南語5個語種的語料,總規(guī)模超1.2TB(單語種均超過150GB),涵蓋使用上述語種國家地區(qū)的生活、百科、文化、新聞等七大領(lǐng)域數(shù)據(jù),收集了多國網(wǎng)絡(luò)公開信息、文獻(xiàn)、專利等資料。
除了常規(guī)翻譯的應(yīng)用,“萬卷·絲路”語料庫在文旅場景下也有精彩表現(xiàn)。例如,多語言的支持能夠滿足不同語言背景游客的需求,提升他們的跨文化交流體驗。此外,該語料庫還通過專家人工標(biāo)注和數(shù)據(jù)智能處理,建立了包含7個維度的文本數(shù)據(jù)質(zhì)量評估體系,確保數(shù)據(jù)的完整性、有效性、可理解性、流暢性、相關(guān)性、相似性和安全性。這種高質(zhì)量的語料可以用于訓(xùn)練智能導(dǎo)覽系統(tǒng),為游客提供精準(zhǔn)、流暢的語音導(dǎo)覽及信息查詢服務(wù),并向游客講述更多景點背后的歷史故事,展示豐富的人文內(nèi)涵。
中國信息通信研究院華東分院院長廖運發(fā)對中國城市報記者表示,當(dāng)前語料應(yīng)用集中在通用服務(wù)、垂直行業(yè)與前沿探索三大領(lǐng)域。其中,通用服務(wù)以智能客服、內(nèi)容生成為主,如百度“文心一言”依托搜索引擎語料優(yōu)化問答體驗。而在垂直行業(yè)中,金融、醫(yī)療、教育是重點。例如,財躍星辰的大模型通過高量級的金融語料訓(xùn)練,已實現(xiàn)智能投研與風(fēng)險預(yù)警。前沿探索則包括自動駕駛的視覺語料訓(xùn)練、元宇宙的多模態(tài)內(nèi)容生成等。
廖運發(fā)稱,國產(chǎn)大模型的語料應(yīng)用特點可概括為“本土適配”與“政策驅(qū)動”。一方面,國產(chǎn)大模型注重融入主流媒體、古籍文獻(xiàn)等中式價值觀語料,進(jìn)一步契合本土用戶的文化認(rèn)知。另一方面,政策引導(dǎo)推動語料向合規(guī)與安全傾斜。例如,《生成式人工智能服務(wù)管理暫行辦法》要求訓(xùn)練數(shù)據(jù)需符合社會主義核心價值觀,促使企業(yè)優(yōu)先采用經(jīng)過審核的語料。
“要加強(qiáng)對各類場景需求的了解和挖掘,才能更好推動語料數(shù)據(jù)的實際應(yīng)用。在大模型訓(xùn)練過程中,需要結(jié)合諸如外事、‘出海’等具體場景,對語料數(shù)據(jù)的需求進(jìn)行價值挖掘。”王宇說。
搭平臺、育人才
加速構(gòu)建產(chǎn)業(yè)生態(tài)
在語料應(yīng)用如火如荼開展的同時,語料產(chǎn)業(yè)生態(tài)也在加速構(gòu)建。
去年12月召開的中央經(jīng)濟(jì)工作會議提出,要開展“人工智能+”行動,培育未來產(chǎn)業(yè)。
上海市經(jīng)濟(jì)和信息化委員會副主任張宏韜表示,上海積極落實國家戰(zhàn)略任務(wù),加快建設(shè)人工智能“上海高地”。在頂層設(shè)計方面,瞄準(zhǔn)技術(shù)前沿、堅持應(yīng)用牽引,實施“模塑申城”行動方案,建設(shè)智能算力集群、語料供給體系、虛實融合實訓(xùn)場以及行業(yè)基座大模型等基礎(chǔ)“底座”。在示范平臺方面,依托公共算力平臺,建設(shè)帶動產(chǎn)業(yè)鏈協(xié)同發(fā)展。依托上海儀電(集團(tuán))有限公司、上海庫帕思科技有限公司(以下簡稱庫帕思)等企業(yè),建設(shè)市級智能算力公共服務(wù)平臺、語料公共服務(wù)平臺,提升規(guī)模化先進(jìn)算力調(diào)度和供給能力,打造大模型語料的“超級工廠”。
創(chuàng)新是引領(lǐng)發(fā)展的第一動力,而人才則是創(chuàng)新的主體。作為一家專注于語料服務(wù)的公司,庫帕思格外注重招募和培養(yǎng)語料行業(yè)人才。庫帕思CEO黃海清在接受中國城市報記者采訪時稱,無論是人工智能公司還是大模型公司,其最核心的資產(chǎn)就是人才。“在人才培養(yǎng)方面,我們最關(guān)心的是如何能讓年輕人快速成長與發(fā)展,提升技術(shù)技能。為此,我們提出了‘聰明地工作、努力地工作、開心地工作’理念。打造活潑、開放的企業(yè)氛圍及文化。”黃海清說。
多層面發(fā)力
破解語料庫建設(shè)難題
大規(guī)模、高質(zhì)量的語料數(shù)據(jù)能夠顯著提升大模型的理解、生成和推理能力。而有業(yè)內(nèi)人士認(rèn)為,高質(zhì)量語言數(shù)據(jù)或?qū)⒃?027年內(nèi)被消耗殆盡。此外,當(dāng)前主流大模型的訓(xùn)練大多基于英文語料,極大影響了國產(chǎn)大模型的性能提升和泛化推廣。基于這些因素考慮,建設(shè)高質(zhì)量中文語料庫成為當(dāng)務(wù)之急。
廖運發(fā)分析,當(dāng)前中文語料庫建設(shè)面臨多重挑戰(zhàn),核心問題可歸納為規(guī)模、質(zhì)量、結(jié)構(gòu)和生態(tài)4個維度。一是數(shù)據(jù)規(guī)模與多樣性不足。盡管中文互聯(lián)網(wǎng)內(nèi)容龐大,但全球高質(zhì)量語料庫中中文占比不足5%,且通用語料多、垂直領(lǐng)域語料少。二是數(shù)據(jù)質(zhì)量參差不齊。現(xiàn)有中文語料存在大量未經(jīng)清洗的噪聲數(shù)據(jù),如錯別字、語法錯誤甚至價值觀偏差內(nèi)容,直接影響模型輸出的準(zhǔn)確性和可靠性。三是標(biāo)準(zhǔn)化與共享機(jī)制缺失。國內(nèi)語料庫標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一,元數(shù)據(jù)規(guī)范化程度低,導(dǎo)致不同機(jī)構(gòu)間的語料難以互通,資源重復(fù)建設(shè)現(xiàn)象嚴(yán)重。四是版權(quán)與隱私風(fēng)險突出。語料收集需平衡知識產(chǎn)權(quán)保護(hù)與數(shù)據(jù)利用需求,而現(xiàn)行法律對語料使用的界定模糊,企業(yè)創(chuàng)新常因版權(quán)爭議或隱私合規(guī)成本高而受限。
如何突破建設(shè)過程中的障礙?廖運發(fā)建議,可從政策引導(dǎo)、技術(shù)創(chuàng)新、生態(tài)協(xié)同三方面發(fā)力。政策層面,強(qiáng)化頂層設(shè)計,例如設(shè)立國家級語料庫建設(shè)專項基金,支持專業(yè)領(lǐng)域語料采集與標(biāo)注,同時推動數(shù)據(jù)安全法、個人信息保護(hù)法在語料領(lǐng)域的實施細(xì)則,明確版權(quán)合理使用邊界。技術(shù)層面,提升智能化處理能力,例如開發(fā)自動化清洗工具,降低噪聲數(shù)據(jù)比例,利用半監(jiān)督學(xué)習(xí)減少人工標(biāo)注成本,并通過分布式存儲和加密技術(shù)保障語料安全。生態(tài)層面,構(gòu)建開放共享機(jī)制,可借鑒歐洲語言資源協(xié)調(diào)機(jī)構(gòu)經(jīng)驗,由權(quán)威機(jī)構(gòu)牽頭制定元數(shù)據(jù)標(biāo)準(zhǔn),推動高校、企業(yè)、出版機(jī)構(gòu)共建語料聯(lián)盟。此外,還可探索“語料銀行”商業(yè)模式,通過數(shù)據(jù)確權(quán)與交易平臺促進(jìn)語料流通。
“未來,中文語料庫將具備實時更新(從靜態(tài)學(xué)習(xí)到動態(tài)學(xué)習(xí)與更新)、精細(xì)加工(從源語料到精標(biāo)語料)、品類豐富(多來源、多模態(tài)、多場景)等特點。總體來看,中文語料庫建設(shè)是AI競爭的戰(zhàn)略高地,需以規(guī)模擴(kuò)容、質(zhì)量提升、生態(tài)協(xié)同為核心,同時把握多模態(tài)與專業(yè)化趨勢。國產(chǎn)大模型唯有扎根本土語料資源,才能在全球化競爭中凸顯差異化優(yōu)勢,為數(shù)字經(jīng)濟(jì)時代發(fā)展提供堅實‘底座’。” 廖運發(fā)說。
《中國城市報》(2025年03月17日第10版)