名詞解釋
語料數(shù)據(jù)(Corpus Data)
是指用于訓(xùn)練、測試和優(yōu)化自然語言處理(NLP)模型或人工智能系統(tǒng)的一系列文本或語言數(shù)據(jù)。這些數(shù)據(jù)通常以文本形式存在,包括但不限于書籍、文章、新聞報(bào)道、對(duì)話記錄、社交媒體內(nèi)容、專業(yè)文獻(xiàn)等。對(duì)于大語言模型(LLMs)的訓(xùn)練和優(yōu)化而言,語料數(shù)據(jù)是自然語言處理和人工智能領(lǐng)域中不可或缺的基礎(chǔ)資源。
前不久,國產(chǎn)人工智能大模型DeepSeek以其廣博的知識(shí)儲(chǔ)備和快速的思考應(yīng)答能力火爆“出圈”。作為其訓(xùn)練的基礎(chǔ)與關(guān)鍵“燃料”,語料數(shù)據(jù)也走入公眾視野,成為多領(lǐng)域熱議的話題。
在2月下旬于上海舉辦的2025全球開發(fā)者先鋒大會(huì)上,業(yè)界針對(duì)大模型語料展開深度布局,不僅發(fā)布2025語料風(fēng)云榜招募令,還啟動(dòng)了具身智能語料專項(xiàng)工程,成立了語料工作委員會(huì)。
隨著“大模型時(shí)代”的到來,如何進(jìn)一步加強(qiáng)語料數(shù)據(jù)應(yīng)用?未來產(chǎn)業(yè)相關(guān)企業(yè)如何突破發(fā)展瓶頸,加快語料庫建設(shè)?
場景應(yīng)用
貼合本土文化特征
“如何能夠讓外語模型在交互過程中更好地展示中國的流行式表達(dá)?若借助常見的GPT-4大模型將‘上海City不City?’翻譯成外語,易出現(xiàn)‘上海是一座城市還是一座城市?’的直譯,缺少語句在實(shí)際運(yùn)用中所傳遞出的時(shí)尚感和趣味性。而在我們最新開發(fā)的‘萬卷·絲路’多語言語料庫的助力下,通過對(duì)中國語義進(jìn)行保真和本地化處理,在翻譯時(shí)注重傳遞出‘City’作為一種流行熱詞所包含的時(shí)尚生活方式和氛圍?!鄙虾H斯ぶ悄軇?chuàng)新中心場景與數(shù)據(jù)聯(lián)盟合作中心負(fù)責(zé)人王宇介紹,“萬卷·絲路”是一款圍繞高質(zhì)量共建“一帶一路”專門打造的多語種語料庫,首期開源了包含泰語、俄語、阿拉伯語、韓語、越南語5個(gè)語種的語料,總規(guī)模超1.2TB(單語種均超過150GB),涵蓋使用上述語種國家地區(qū)的生活、百科、文化、新聞等七大領(lǐng)域數(shù)據(jù),收集了多國網(wǎng)絡(luò)公開信息、文獻(xiàn)、專利等資料。
除了常規(guī)翻譯的應(yīng)用,“萬卷·絲路”語料庫在文旅場景下也有精彩表現(xiàn)。例如,多語言的支持能夠滿足不同語言背景游客的需求,提升他們的跨文化交流體驗(yàn)。此外,該語料庫還通過專家人工標(biāo)注和數(shù)據(jù)智能處理,建立了包含7個(gè)維度的文本數(shù)據(jù)質(zhì)量評(píng)估體系,確保數(shù)據(jù)的完整性、有效性、可理解性、流暢性、相關(guān)性、相似性和安全性。這種高質(zhì)量的語料可以用于訓(xùn)練智能導(dǎo)覽系統(tǒng),為游客提供精準(zhǔn)、流暢的語音導(dǎo)覽及信息查詢服務(wù),并向游客講述更多景點(diǎn)背后的歷史故事,展示豐富的人文內(nèi)涵。
中國信息通信研究院華東分院院長廖運(yùn)發(fā)對(duì)中國城市報(bào)記者表示,當(dāng)前語料應(yīng)用集中在通用服務(wù)、垂直行業(yè)與前沿探索三大領(lǐng)域。其中,通用服務(wù)以智能客服、內(nèi)容生成為主,如百度“文心一言”依托搜索引擎語料優(yōu)化問答體驗(yàn)。而在垂直行業(yè)中,金融、醫(yī)療、教育是重點(diǎn)。例如,財(cái)躍星辰的大模型通過高量級(jí)的金融語料訓(xùn)練,已實(shí)現(xiàn)智能投研與風(fēng)險(xiǎn)預(yù)警。前沿探索則包括自動(dòng)駕駛的視覺語料訓(xùn)練、元宇宙的多模態(tài)內(nèi)容生成等。
廖運(yùn)發(fā)稱,國產(chǎn)大模型的語料應(yīng)用特點(diǎn)可概括為“本土適配”與“政策驅(qū)動(dòng)”。一方面,國產(chǎn)大模型注重融入主流媒體、古籍文獻(xiàn)等中式價(jià)值觀語料,進(jìn)一步契合本土用戶的文化認(rèn)知。另一方面,政策引導(dǎo)推動(dòng)語料向合規(guī)與安全傾斜。例如,《生成式人工智能服務(wù)管理暫行辦法》要求訓(xùn)練數(shù)據(jù)需符合社會(huì)主義核心價(jià)值觀,促使企業(yè)優(yōu)先采用經(jīng)過審核的語料。
“要加強(qiáng)對(duì)各類場景需求的了解和挖掘,才能更好推動(dòng)語料數(shù)據(jù)的實(shí)際應(yīng)用。在大模型訓(xùn)練過程中,需要結(jié)合諸如外事、‘出?!染唧w場景,對(duì)語料數(shù)據(jù)的需求進(jìn)行價(jià)值挖掘?!蓖跤钫f。
搭平臺(tái)、育人才
加速構(gòu)建產(chǎn)業(yè)生態(tài)
在語料應(yīng)用如火如荼開展的同時(shí),語料產(chǎn)業(yè)生態(tài)也在加速構(gòu)建。
去年12月召開的中央經(jīng)濟(jì)工作會(huì)議提出,要開展“人工智能+”行動(dòng),培育未來產(chǎn)業(yè)。
上海市經(jīng)濟(jì)和信息化委員會(huì)副主任張宏韜表示,上海積極落實(shí)國家戰(zhàn)略任務(wù),加快建設(shè)人工智能“上海高地”。在頂層設(shè)計(jì)方面,瞄準(zhǔn)技術(shù)前沿、堅(jiān)持應(yīng)用牽引,實(shí)施“模塑申城”行動(dòng)方案,建設(shè)智能算力集群、語料供給體系、虛實(shí)融合實(shí)訓(xùn)場以及行業(yè)基座大模型等基礎(chǔ)“底座”。在示范平臺(tái)方面,依托公共算力平臺(tái),建設(shè)帶動(dòng)產(chǎn)業(yè)鏈協(xié)同發(fā)展。依托上海儀電(集團(tuán))有限公司、上海庫帕思科技有限公司(以下簡稱庫帕思)等企業(yè),建設(shè)市級(jí)智能算力公共服務(wù)平臺(tái)、語料公共服務(wù)平臺(tái),提升規(guī)?;冗M(jìn)算力調(diào)度和供給能力,打造大模型語料的“超級(jí)工廠”。
創(chuàng)新是引領(lǐng)發(fā)展的第一動(dòng)力,而人才則是創(chuàng)新的主體。作為一家專注于語料服務(wù)的公司,庫帕思格外注重招募和培養(yǎng)語料行業(yè)人才。庫帕思CEO黃海清在接受中國城市報(bào)記者采訪時(shí)稱,無論是人工智能公司還是大模型公司,其最核心的資產(chǎn)就是人才?!霸谌瞬排囵B(yǎng)方面,我們最關(guān)心的是如何能讓年輕人快速成長與發(fā)展,提升技術(shù)技能。為此,我們提出了‘聰明地工作、努力地工作、開心地工作’理念。打造活潑、開放的企業(yè)氛圍及文化?!秉S海清說。
多層面發(fā)力
破解語料庫建設(shè)難題
大規(guī)模、高質(zhì)量的語料數(shù)據(jù)能夠顯著提升大模型的理解、生成和推理能力。而有業(yè)內(nèi)人士認(rèn)為,高質(zhì)量語言數(shù)據(jù)或?qū)⒃?027年內(nèi)被消耗殆盡。此外,當(dāng)前主流大模型的訓(xùn)練大多基于英文語料,極大影響了國產(chǎn)大模型的性能提升和泛化推廣?;谶@些因素考慮,建設(shè)高質(zhì)量中文語料庫成為當(dāng)務(wù)之急。
廖運(yùn)發(fā)分析,當(dāng)前中文語料庫建設(shè)面臨多重挑戰(zhàn),核心問題可歸納為規(guī)模、質(zhì)量、結(jié)構(gòu)和生態(tài)4個(gè)維度。一是數(shù)據(jù)規(guī)模與多樣性不足。盡管中文互聯(lián)網(wǎng)內(nèi)容龐大,但全球高質(zhì)量語料庫中中文占比不足5%,且通用語料多、垂直領(lǐng)域語料少。二是數(shù)據(jù)質(zhì)量參差不齊?,F(xiàn)有中文語料存在大量未經(jīng)清洗的噪聲數(shù)據(jù),如錯(cuò)別字、語法錯(cuò)誤甚至價(jià)值觀偏差內(nèi)容,直接影響模型輸出的準(zhǔn)確性和可靠性。三是標(biāo)準(zhǔn)化與共享機(jī)制缺失。國內(nèi)語料庫標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一,元數(shù)據(jù)規(guī)范化程度低,導(dǎo)致不同機(jī)構(gòu)間的語料難以互通,資源重復(fù)建設(shè)現(xiàn)象嚴(yán)重。四是版權(quán)與隱私風(fēng)險(xiǎn)突出。語料收集需平衡知識(shí)產(chǎn)權(quán)保護(hù)與數(shù)據(jù)利用需求,而現(xiàn)行法律對(duì)語料使用的界定模糊,企業(yè)創(chuàng)新常因版權(quán)爭議或隱私合規(guī)成本高而受限。
如何突破建設(shè)過程中的障礙?廖運(yùn)發(fā)建議,可從政策引導(dǎo)、技術(shù)創(chuàng)新、生態(tài)協(xié)同三方面發(fā)力。政策層面,強(qiáng)化頂層設(shè)計(jì),例如設(shè)立國家級(jí)語料庫建設(shè)專項(xiàng)基金,支持專業(yè)領(lǐng)域語料采集與標(biāo)注,同時(shí)推動(dòng)數(shù)據(jù)安全法、個(gè)人信息保護(hù)法在語料領(lǐng)域的實(shí)施細(xì)則,明確版權(quán)合理使用邊界。技術(shù)層面,提升智能化處理能力,例如開發(fā)自動(dòng)化清洗工具,降低噪聲數(shù)據(jù)比例,利用半監(jiān)督學(xué)習(xí)減少人工標(biāo)注成本,并通過分布式存儲(chǔ)和加密技術(shù)保障語料安全。生態(tài)層面,構(gòu)建開放共享機(jī)制,可借鑒歐洲語言資源協(xié)調(diào)機(jī)構(gòu)經(jīng)驗(yàn),由權(quán)威機(jī)構(gòu)牽頭制定元數(shù)據(jù)標(biāo)準(zhǔn),推動(dòng)高校、企業(yè)、出版機(jī)構(gòu)共建語料聯(lián)盟。此外,還可探索“語料銀行”商業(yè)模式,通過數(shù)據(jù)確權(quán)與交易平臺(tái)促進(jìn)語料流通。
“未來,中文語料庫將具備實(shí)時(shí)更新(從靜態(tài)學(xué)習(xí)到動(dòng)態(tài)學(xué)習(xí)與更新)、精細(xì)加工(從源語料到精標(biāo)語料)、品類豐富(多來源、多模態(tài)、多場景)等特點(diǎn)??傮w來看,中文語料庫建設(shè)是AI競爭的戰(zhàn)略高地,需以規(guī)模擴(kuò)容、質(zhì)量提升、生態(tài)協(xié)同為核心,同時(shí)把握多模態(tài)與專業(yè)化趨勢。國產(chǎn)大模型唯有扎根本土語料資源,才能在全球化競爭中凸顯差異化優(yōu)勢,為數(shù)字經(jīng)濟(jì)時(shí)代發(fā)展提供堅(jiān)實(shí)‘底座’。” 廖運(yùn)發(fā)說。
《中國城市報(bào)》(2025年03月17日第10版)
《中國城市報(bào)》社有限公司版權(quán)所有,未經(jīng)書面授權(quán)禁止使用
Copyright ? 2015-2025 by www.yktax-zh.com. all rights reserved