欧美日韩国产在线观看网站_欧美日韩精品免费观看视频_日韩精品看片_91精品国产综合久久久久久久久

首頁  >  財經  >  經濟觀察

中文高質量數據集加速建設 大模型如何更懂“中國話”

2025-12-25 13:39:09

來源:人民日報

  中文高質量數據集加速建設

  大模型如何更懂“中國話”(“十五五”文化熱詞·推進文化和科技融合)

  “過馬路時,你要注意看車!”

  “我計劃明天去車展看車。”

  這兩句話里的“看車”是一個意思嗎?相信不少人要會心一笑,表面上看是同一個詞組,但其含義因語境不同發生了變化。

  這就是中文里常見的“一詞多義”現象。人工智能大模型是一種與人類語言密切相關的技術,要讓大模型深刻理解這一現象,離不開中文數據的持續供給。

  目前,國內多數模型訓練使用的數據,中文數據占比已經超過60%,有的模型達到80%。大模型訓練中,中文數據占比提升有何意義?中文高質量數據為何持續增加?如何進一步增加中文數據的開發與供給?記者進行了采訪。

  數據就像大模型的“知識教材”

  不同語言的數據對大模型性能有怎樣的影響?“數據就像大模型的‘知識教材’,教材的語言屬性不同,會對模型的知識體系產生不同影響。”清華大學計算社會科學與國家治理實驗室執行主任、教授孟慶國表示。

  從知識來源看,過去我國大模型常面臨“數據依賴”風險——英文數據在全球互聯網的占比較高,如前沿科技論文、行業標準、文化典籍等多以英文呈現,全球高質量標注數據也多以英文為主。

  “語言類大模型一般需要遵循一定的語言習慣。”工業和信息化部信息通信經濟專家委員會委員盤和林認為,中文數據占比提高,既方便了用戶理解其輸出結果,又可以保障和提升我國在大模型上的研發能力。

  “若中文數據占比低,模型在關鍵技術迭代中易受‘數據授權限制’‘更新延遲’等影響。”孟慶國說,中文數據占比提高,助力我國在“數據安全”“技術自主”上邁出關鍵步伐,有利于我國掌握大模型發展主動權。

  “中文數據中獨有的文化習慣、隱喻表達、政策術語等在英文數據中難以得到體現。模型長期學習英文數據,所形成的‘英文式認知邏輯’,在理解中文特有的思維方式時容易出現偏差。”科大訊飛消費者AI交互業務部總經理趙艷軍介紹,中文數據比重的提升,增強了大模型對中華文化及中國場景的理解能力。比如中醫問診時,“上火”“濕氣”等概念需要中文語境才能準確推理。

  從知識傳承看,中文數據承載著我國數千年的文化積累,中文數據占比提高,能讓大模型推動中華文化的數字化傳播。“中文數據占比高的模型能講解‘文言文虛詞用法’‘詩詞平仄規律’等。比如,在解釋‘之乎者也’時,結合《論語》《孟子》等中文典籍案例,讓傳統文化教育更生動。”孟慶國說。

  中文高質量數據供給能力不斷增強

  中文普通數據和中文高質量數據有何區別?普通數據多為未經審核的網絡文本、非專業內容,易出現事實錯誤或概念混淆。而高質量數據需經過“事實核查、專業審核”,語義準確且來源可追溯。

  要理解中文高質量數據的重要性,可從醫療診斷這一專業場景講起。今年8月,中文臨床醫學知識圖譜“磐醫知識圖譜”在浙江臺州發布。“當前,一些大模型學習的醫學知識,來源于互聯網公開數據,而這些公開數據,有的不嚴謹、有的存在矛盾、有的更新滯后,這些情況都會對大模型生成的結果產生負面影響。”浙江省全省醫療智能決策重點實驗室主任林輝表示,“磐醫知識圖譜”中的數據均由醫學專家審核,每個知識點都有明確來源,且動態更新醫學進展。

  大模型性能的提升,體現了中文高質量數據的價值。得益于一系列因素的合力助推,中文高質量數據的供給能力不斷增強——

  政策有支持。從《“數據要素×”三年行動計劃(2024—2026年)》提出“打造高質量人工智能大模型訓練數據集”,到國家數據局布局建設數據標注基地,政策利好下,大量中文高質量數據集加速建設。

  技術有突破。中文數據因“歧義多、語境依賴強”,早期標注成本是英文數據的1.8—2.5倍,隨著技術不斷進步,開發難度也在降低。例如,國內某“中文語義標注系統”已可自動區分“打毛衣”“打電話”中“打”的含義,讓標注效率提升了3倍,且成本有效降低。

  行業有共識。國內垂直場景對“中文適配”大模型的需求不斷升溫,推動中文數據從“輔助補充”變為“核心資源”,更多企業參與到中文數據的開發之中。如中國移動已建成覆蓋超30個行業、超3500TB(太字節)的通用高質量數據集。

  協同建標準,細分多場景

  Token(通常所說的“詞元”)是處理文本的最小數據單元。數據顯示,2024年初,我國日均Token的消耗量為1000億,截至今年9月底,我國日均Token消耗量已突破40萬億。這些數字背后,是中文數據資源的快速積累和價值釋放。

  如何進一步增強中文數據的開發和供給?專家學者帶來了思考和建議。

  首先是建標準。現有的中文數據中,重復的內容多、質量高的少,尤其是在醫療、工業等垂直領域,高質量數據更是稀缺。比如醫療數據,有的醫院記錄病歷只寫“發燒”,有的會寫“發燒38.5攝氏度、伴咳嗽2天”,若無標準的“尺子”判斷數據質量,進一步的開發難以推進。

  “明確了不同領域的中文標注標準后,才更有利于建設和完善評價、激勵機制。”孟慶國認為,應加快研究制定中文數據分級標準,從而釋放中文數據的供給活力。

  其次是強技術。高質量數據集的建設過程中仍不可避免會遇到大量數據孤島和合規難題,比如,不同機構的數據因為隱私安全等合規要求,難以跨域流通,導致各機構重復開展數據標注,既浪費資源,又無法形成規模效應。

  “可推廣應用新一代標注技術,在原始數據不出域且保證隱私安全的條件下,完成跨機構協同標注,從而整合多機構力量,避免重復勞動。”趙艷軍說。

  此外要補場景。我國產業體系完備,其廣度和深度決定了需要更多細分場景的中文數據。“比如,在元宇宙等新興場景中,中文數據使用量僅為英文的1/5;又如,中醫、非遺等傳統場景數字化程度低,大量寶貴信息尚未轉化為可用數據資源。”孟慶國表示,可推動政產學研用協同,專項采集各種垂直場景中文數據,激活產業應用。

  本報記者 王云杉

  推進文化和科技融合

  “十五五”規劃建議提出,“推進文化和科技融合”。探索文化和科技融合的有效機制,需要用互聯網思維和信息技術改進文化創作生產流程,推動文化建設數智化賦能、信息化轉型。

  “文化IP+科技體驗”,重塑文旅產業生態。通過線上數字平臺與線下沉浸場景的結合,多地打造數字文旅空間、開發“旅游+智能體”新應用等,實現文化和科技雙向賦能。“文化創作+人工智能”,拓展產業融合場景。當前,以大模型為代表的AI技術,與影視、文博等領域深度融合,催生出AI短劇、博物館數字文創等新產品,不僅豐富了文化表達方式,也培育出更多文化消費新場景。“特色文化+數字技術”,助力鄉村全面振興。通過數字技術,將地標農產品、鄉村非遺技藝融入微短劇等內容創作,能夠進一步提升特色文化產品的創意能力和表現力,為鄉村全面振興注入新動能。

  ——北京大學文化產業研究院學術委員會主任 陳少峰

  來源:《人民日報》(2025年12月25日 第 07 版)

免責聲明:本網對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。 本網站轉載圖片、文字之類版權申明,本網站無法鑒別所上傳圖片或文字的知識版權,如果侵犯,請及時通知我們,本網站將在第一時間及時刪除。
欧美日韩国产在线观看网站_欧美日韩精品免费观看视频_日韩精品看片_91精品国产综合久久久久久久久
亚洲成人资源| 欧美精品三级| 亚洲精品少妇30p| 国产欧美丝祙| 国产精品美腿一区在线看| 欧美精品一区二区在线播放| 久久精品99| 久久精品亚洲一区二区| 亚洲综合国产激情另类一区| 艳女tv在线观看国产一区| 在线成人激情视频| 精品88久久久久88久久久| 国产精品乱码一区二三区小蝌蚪| 欧美日韩国产一区精品一区| 欧美11—12娇小xxxx| 久久亚洲国产成人| 老司机一区二区| 久久精品一区二区三区不卡牛牛| 午夜欧美不卡精品aaaaa| 亚洲网友自拍| 亚洲一区二区三区四区中文| 国产精品99久久久久久久久久久久| 日韩视频不卡| 亚洲天堂视频在线观看| 亚洲一级影院| 欧美一区二区视频免费观看| 午夜精品福利一区二区蜜股av| 亚洲一区日韩在线| 亚洲自拍高清| 久久精品亚洲一区二区| 久久综合九色欧美综合狠狠| 欧美ed2k| 欧美午夜久久| 国产麻豆综合| 在线精品高清中文字幕| 亚洲精品在线免费| 亚洲自拍三区| 久久精品主播| 欧美成人一二三| 欧美视频在线观看免费网址| 国产精品中文字幕欧美| 狠久久av成人天堂| 日韩一本二本av| 欧美日韩午夜激情| 国产精品自拍视频| 亚洲激情另类| 亚洲欧美精品伊人久久| 久久久久久久久久看片| 欧美日韩国产综合视频在线观看 | 欧美日韩在线免费视频| 国产区精品在线观看| 亚洲电影在线免费观看| 亚洲色图综合久久| 久久久www成人免费无遮挡大片| 欧美不卡视频一区| 国产老肥熟一区二区三区| 在线观看视频一区| 亚洲欧美久久| 欧美精选一区| 国产一区二区视频在线观看| 一级成人国产| 免费视频一区| 国产一区二区三区免费不卡| 亚洲最黄网站| 欧美国产日韩精品| 国产一区日韩二区欧美三区| 一本色道久久综合亚洲精品不卡| 久久亚洲不卡| 国产一区二区精品久久99| 一本久久综合亚洲鲁鲁五月天| 欧美在线1区| 国产精品男gay被猛男狂揉视频| 亚洲黄页一区| 免费观看欧美在线视频的网站| 国产欧美日韩亚州综合| 一区二区三区不卡视频在线观看 | 国产欧美日韩综合一区在线播放| 91久久国产精品91久久性色| 久久成人国产| 国产日韩亚洲| 欧美伊人久久大香线蕉综合69| 欧美日韩www| 亚洲日本成人女熟在线观看| 久久亚洲精品一区二区| 狠狠色噜噜狠狠色综合久| 久久成人18免费观看| 国产精品日日摸夜夜摸av| 亚洲午夜精品17c| 欧美日韩一区在线| 一区二区不卡在线视频 午夜欧美不卡在 | 欧美体内she精视频在线观看| 亚洲乱码精品一二三四区日韩在线| 老司机免费视频一区二区| 伊人成年综合电影网| 久久人91精品久久久久久不卡| 国产日韩一区二区三区| 久久久精品一品道一区| 在线不卡中文字幕| 模特精品在线| 99pao成人国产永久免费视频| 欧美日韩国产欧| 亚洲一区二区三| 国产麻豆9l精品三级站| 久久精品一区二区三区不卡| 极品日韩av| 欧美精品aa| 亚洲一区二区三区中文字幕| 国产欧美激情| 麻豆91精品91久久久的内涵| 久久亚洲电影| av成人天堂| 国产亚洲一区在线| 欧美丰满少妇xxxbbb| 99re国产精品| 国产精品一二三| 老牛国产精品一区的观看方式| 日韩视频免费在线观看| 国产欧美精品日韩| 欧美高清在线播放| 亚洲一区欧美激情| 伊人久久亚洲美女图片| 欧美日韩精品一二三区| 久久av一区二区| 99re在线精品| 狠狠综合久久av一区二区小说 | 在线视频观看日韩| 欧美视频福利| 久久综合网色—综合色88| 亚洲深夜av| 在线精品观看| 国产农村妇女精品一二区| 欧美国产视频日韩| 欧美呦呦网站| 亚洲无毛电影| 亚洲精品国产精品乱码不99按摩| 国产视频亚洲精品| 欧美性片在线观看| 欧美阿v一级看视频| 欧美在线视频一区二区三区| 一本色道久久综合亚洲91| 国际精品欧美精品| 国产精品伊人日日| 国产精品成人在线| 欧美日韩播放| 欧美大片网址| 免费观看久久久4p| 久久久久久夜| 欧美一区成人| 亚洲欧美久久久| 中文国产成人精品久久一| 亚洲精品在线观看免费| 亚洲国产激情| 亚洲国产免费看| 在线精品一区二区| 黄色成人av网站| 国产亚洲免费的视频看| 国产精品五月天| 国产精品欧美久久| 国产精品户外野外| 国产精品国内视频| 国产精品嫩草影院av蜜臀| 国产精品久久二区| 国产精品一区一区| 国产偷久久久精品专区| 国产午夜精品一区二区三区欧美 | 欧美呦呦网站| 久久久久久久91| 久久夜色撩人精品| 美女脱光内衣内裤视频久久网站| 久久久噜噜噜久噜久久| 久久亚洲国产精品日日av夜夜| 久久嫩草精品久久久久| 久热这里只精品99re8久| 麻豆成人在线播放| 欧美伦理影院| 国产精品对白刺激久久久| 国产精品多人| 国外成人在线| 亚洲精品免费在线观看| 在线亚洲国产精品网站| 性一交一乱一区二区洋洋av| 久久精品亚洲精品| 欧美成人激情视频| 国产精品xvideos88| 国产一区二区三区四区hd| 亚洲高清视频在线观看| 亚洲九九爱视频| 亚洲综合欧美| 久热精品视频在线免费观看| 欧美区在线播放| 国产伦精品一区二区三区免费迷| 狠狠色丁香久久综合频道| 欧美国产激情| 国产精品卡一卡二| 经典三级久久| 亚洲性色视频| 免费永久网站黄欧美| 国产精品久久久久一区二区三区 | 久久亚洲欧美| 国产精品jizz在线观看美国 |