chinese体育生自慰xxx,宝贝腿往外打开一点就不疼了,欧美日韩精品一区二区三区在线,护士洗澡被狂躁a片在线观看

您的位置:首頁 > 新聞資訊

AI風口下,語料數據如何“助燃”大模型時代?

2025年03月04日 16:06:51 來源:中國城市網 作者:王迪

近期,國產人工智能大模型DeepSeek以其廣博的知識儲備和快速的思考應答能力火爆出圈,作為其訓練的基礎與關鍵“燃料”——語料數據也走入公眾視野,成為各方熱議的焦點。

在今年2月21日至23日上海舉辦的2025全球開發者先鋒大會上,業界針對大模型語料展開深度布局,不僅發布2025語料風云榜招募令,還啟動了具身智能語料專項工程、成立語料工作委員會等。

隨著DeepSeek大模型時代的到來,如何進一步加強語料數據應用?助力行業廓清產業生態,推動克服發展瓶頸,加快語料庫建設?中國城市網記者走訪報道。

場景應用貼合本土文化特征

“如何能夠讓匈牙利語模型在交互過程中更好展示出中國文化?比如借助常見的GPT-4大模型將‘上海city不city?’翻譯成匈牙利語,易出現‘上海是一座城市還是一座城市?’的直譯,缺少實際語句里包含的上海時尚感?!鄙虾H斯ぶ悄軇撔轮行膱鼍芭c數據聯盟合作中心負責人王宇在日前一場論壇現場介紹,“而在我們最新開發的‘萬卷·絲路’多語言語料庫的助力下,通過對中國語義進行保真和本地化處理,在翻譯時注重傳遞出‘city’作為一種流行熱詞所包含的一種時尚的生活方式和氛圍?!?/p>

中國城市報記者了解到,“萬卷·絲路”是一款圍繞“一帶一路”高質量建設專門打造的多語種語料庫,首期開源了包含泰語、俄語、阿拉伯語、韓語、越南語等五個語種的語料,總規模超1.2TB(單語種均超過150GB),Token總數超過300B,涵蓋使用上述語種國家地區的生活、百科、文化、新聞等七大領域數據,收集了多國網絡公開信息、文獻、專利等資料。

除了上述教育場景中的應用,“萬卷·絲路”語料庫在文旅場景下也有精彩表現。例如,多語言的支持能夠滿足來自不同語言背景的游客的需求,提升跨文化交流的體驗。此外,這一語料庫還通過專家人工標注和數據智能處理,建立了包含七個維度的文本數據質量評估體系,確保數據的完整性、有效性、可理解性、流暢性、相關性、相似性和安全性。這種高質量的語料可以用于訓練智能導覽系統,在游客參觀游覽的過程中,不僅可以提供精準、流暢的語音導覽,還可以進行信息查詢服務,向游客講述更多景點背后的歷史故事,展示豐富的人文內涵。

當前大模型語料應用的聚焦點及特點有哪些?對此,中國信通院華東分院院長廖運發告訴中國城市網記者,當前語料應用集中在通用服務、垂直行業與前沿探索三大領域。其中通用服務以智能客服、內容生成為主,如百度“文心一言”依托搜索引擎語料優化問答體驗;垂直行業中,金融、醫療、教育是重點。例如,財躍星辰的大模型通過萬億級金融語料訓練,已實現智能投研與風險預警;前沿探索則包括自動駕駛的視覺語料訓練、元宇宙的多模態內容生成等。

廖運發強調,國產大模型的語料應用特點可概括為“本土適配”與“政策驅動”。一方面,國產模型注重融入主流媒體、古籍文獻等中式價值觀語料,進一步契合本土用戶的文化認知。另一方面,政策引導推動語料向合規與安全傾斜。例如,《生成式人工智能服務管理暫行辦法》要求訓練數據需符合社會主義核心價值觀,促使企業優先采用經過清洗和審核的語料。

自今年年初上海AI實驗室聯合大模型語料數據聯盟成員發布“萬卷·絲路”語料庫以來,相關應用不斷深化。作為項目團隊的一員,王宇深有感觸?!耙訌妼Ω黝悎鼍靶枨蟮牧私夂屯诰颍拍芨猛苿诱Z料數據的實際應用。在大模型訓練過程中,需要結合諸如外事、出海等具體場景下對語料數據的需求進行價值挖掘?!彼f。

結合人工智能加速生態構建

語料應用如火如荼開展的同時,語料產業生態也在加速構建。去年12月召開的中央經濟工作會議提出,要開展“人工智能+”行動,培育未來產業。北京、上海、深圳等多地在這股科技浪潮中嶄露頭角,成為推動相關產業發展的中堅力量。

上海市經濟和信息化委員會副主任張宏韜在近期舉辦的一場語料專題論壇上表示,上海積極落實國家戰略任務,加快建設人工智能“上海高地”。在頂層設計方面,瞄準技術前沿、堅持應用牽引,實施“模塑申城”行動方案,建設智能算力集群、語料供給體系、虛實融合實訓場,行業基座大模型等基礎底座。在示范平臺方面,依托公共算力平臺,建設帶動產業鏈協同發展。圍繞上海儀電(集團)有限公司、上海庫帕思科技有限公司(以下簡稱“庫帕思”)等建設市級的智能算力公共服務平臺、語料公共服務平臺,構建規?;冗M算力調度和供給能力,打造大模型語料的超級工廠。

產業的發展為人才提供了機會和平臺,而人才是產業升級和創新的核心動力。作為一家專注于語料服務的公司,庫帕思格外注重招募語料行業人才。其CEO黃海清對中國城市報記者表示,無論是人工智能公司還是大模型公司,最核心的資產就是人才?!霸谌瞬排囵B方面,我們最關心的是如何能讓年輕人能夠快速成長與發展,提升技術技能。為此,我們提出了Work Smarter、Work Harder、Work Happily三‘W’文化,即聰明地工作、努力地工作、開心地工作。我們由衷地希望團隊能在開心的氛圍里工作,這也是我們致力于打造的企業文化?!秉S海清說。

跨界合作破解語料庫建設難題

大規模、高質量的語料數據能夠顯著提升大模型的理解、生成和推理能力。而有業內人士認為,高質量語言數據或將在2027年內被消耗殆盡。此外,當前主流大模型的訓練大多基于英文語料,這極大影響了國產大模型的性能提升和泛化推廣,建設高質量中文語料庫成為當務之急。

廖運發分析,當前中文語料庫建設面臨多重挑戰,核心問題可歸納為規模、質量、結構和生態四個維度。一是數據規模與多樣性不足。盡管中文互聯網內容龐大,但全球高質量語料庫中中文占比不足5%,且通用語料多、垂直領域語料少;二是數據質量參差不齊?,F有中文語料存在大量未經清洗的噪聲數據,如錯別字、語法錯誤甚至價值觀偏差等內容,直接影響模型輸出的準確性和可靠性;三是標準化與共享機制缺失。國內語料庫標注標準不統一,元數據規范化程度低,導致不同機構間的語料難以互通,資源重復建設現象嚴重;四是版權與隱私風險突出。語料收集需平衡知識產權保護與數據利用需求,而現行法律對語料使用的界定模糊,企業常因版權爭議或隱私合規成本高而受限。

如何突破建設過程中的障礙?廖運發建議,可從政策引導、技術創新、生態協同三方面發力。即在政策層面上強化頂層設計。例如設立國家級語料庫建設專項基金,支持專業領域語料采集與標注,同時推動《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》在語料領域的實施細則,明確版權合理使用邊界。在技術層面上提升智能化處理能力。例如開發自動化清洗工具降低噪聲數據比例,利用半監督學習減少人工標注成本,并通過分布式存儲和加密技術保障語料安全。在生態層面上構建開放共享機制,可借鑒歐洲語言資源協調機構經驗,由權威機構牽頭制定元數據標準,推動高校、企業、出版機構共建語料聯盟。例如,中國大模型語料數據聯盟的“書生”系列語料庫已初步實現跨機構協作。此外,還可探索“語料銀行”商業模式,通過數據確權與交易平臺促進語料流通。

“未來,中文語料庫將具備實時更新(從靜態學習到動態學習與更新)、精細加工(從源語料到精標語料)、品類豐富(多來源、多模態、多場景)等特點??傮w來看,中文語料庫建設是AI競爭的戰略高地,需以規模擴容、質量提升、生態協同為核心,同時把握多模態與專業化趨勢。國產大模型唯有扎根本土語料資源,才能在全球化競爭中凸顯差異化優勢,為數字經濟時代提供堅實底座?!?廖運發說。

名詞解釋:語料數據(Corpus Data)是指用于訓練、測試和優化自然語言處理(NLP)模型或人工智能系統的一系列文本或語言數據。這些數據通常以文本形式存在,包括但不限于書籍、文章、新聞報道、對話記錄、社交媒體內容、專業文獻等。對于大語言模型(LLMs)的訓練和優化而言,語料數據是自然語言處理和人工智能領域中不可或缺的基礎資源。

責任編輯:喬妙妙
  • 人工智能
  • 語料庫
  • 大數據
歡迎關注中國城市報微信號
分享到: 

關于我們

城市服務

報社業務


網站備案號:京ICP備15005404號-4 京公網安備 11010502043907號
互聯網新聞信息服務許可證10120190005 舉報郵箱: jubao@people.cn  違法和不良信息舉報電話: 010-65367114  010-65363263 地址:北京市金臺西路2號人民日報社 郵編 100733

《中國城市報》社有限公司版權所有,未經書面授權禁止使用

Copyright ? 2015-2025 by www.yktax-zh.com. all rights reserved

主站蜘蛛池模板: 老河口市| 吉隆县| 永登县| 福海县| 义乌市| 全椒县| 田东县| 磐石市| 雷波县| 新宁县| 望江县| 山西省| 静宁县| 佛教| 罗平县| 黄冈市| 溧阳市| 吐鲁番市| 滁州市| 屏山县| 滨海县| 横山县| 南阳市| 阿图什市| 镇巴县| 绥阳县| 城口县| 于都县| 黄山市| 公安县| 南昌县| 武山县| 普陀区| 惠东县| 文水县| 揭阳市| 苗栗市| 宁津县| 边坝县| 兴隆县| 镇平县|