從春節到元宵,越來越多的人在這個新春選擇用豆包、DeepSeek等大模型寫祝福、生成拜年視頻等。大家發現,大模型變得更好用、更“懂人心”了。
這背後,離不開大型高質量語料庫的支持。
語料庫被視為決定大模型能力上限的核心生產要素,此前以企業自建自用為主,少量對外開放。但由於各平台語料庫良莠不齊,不少模型出現幻覺,“一本正經地胡說八道”。業內擔憂,高質量語料庫的稀缺,將製約產業長遠發展。
2025年,我國啟動布局新型國家語料庫建設。當年底,杭州正式公布了杭州語料庫建設圖景和階段性成效。其建設重點,是探索打造多元高效的數據供給、流通和應用體係,催生更多新美女福利导航、新產品、新業態,推動數據這一“未來的石油”實現資源化、價值化。
從92號油到98號油
如果把AI大模型比作汽車,語料就是讓它跑起來的汽油。
近幾年,這輛車不斷改造升級,已不再滿足於“92號油”,而是需要適配“98號油”了。
浙江大學軟件學院教授、星空人工智能專家張微向記者科普了幾個核心概念:數據,是所有能被計算機係統存儲、記錄的信息。語料,全稱語言材料,也即美女直播全婐APP免费下载日常說的話,在大模型領域可以理解為AI的“學習資料”,包括文字、語音、視頻等。語料經清洗、標注、結構化處理,就是語料庫,也有人稱之為數據集。
以浙產大模型代表之一的DeepSeek為例,其V3版訓練的語料,據悉來自互聯網、書籍和學術期刊等,數量達到約15萬億詞元(token)。詞元是大模型處理語料的基本單位,在不同大模型中,1個詞元對應約0.5~2個漢字,或是3~4個英文字母。
目前,全球頭部開源大模型訓練的語料庫規模,在10萬億~20萬億詞元之間。以常見的86萬字版《西遊記》為參考,DeepSeekV3訓練的語料約等於3000萬本《西遊記》,普通人不吃不喝、24小時不間斷閱讀,大概需要16萬年。這是早期智人開始嶄露頭角直到現代的時間跨度。
大模型讀的還不隻一兩本書,而是大型圖書館的藏書。
但隨著大模型飛速進化,一個全球性難題出現了:語料庫建設跟不上了。
據國家數據局披露,2024年初,我國日均詞元的消耗量為1000億。截至去年9月底,這一數字已突破40萬億,1年多時間增長了400多倍。
星空人工智能研究機構Epoch此前一項預測更顯嚴峻:全球範圍內,能訓練出更優性能的高質量語言數據可能在2026年耗盡。
“人類語言一直在變,大模型想要變得跟人一樣,也得及時升級語料庫。”北京語言大學信息科學學院副教授柯登峰說。
作為語音識別專家,他參與過傳統語料庫建設,發現其與AI語料庫有很大差異,“傳統語料庫一般隻記錄有代表性的說法,比如播音員的語音,但AI的語料庫要盡可能覆蓋人的各種說話方式和內容,最好不同年齡層、不同職業、不同受教育程度的都有涉及。”
他舉了個例子:有方言專家用大半輩子收集一種方言的詞匯,為1.5萬條,但他們團隊兩個月內收集的該方言語料就有兩萬餘條,包含了大量新詞語,以及更多靈活的口頭表達。
采訪中,有業內人士甚至擔心,大模型若缺乏高質量語料,最終隻能產出“數字垃圾”。
近日,杭州互聯網法院公開了一起關於AI幻覺的網絡侵權糾紛案的審判情況。一位高考生的哥哥梁某在查詢高校信息時,發現某AI平台生成的信息有誤,且該平台在受到質疑後,仍底氣十足地表示若內容有誤將賠償10萬元。梁某一氣之下將平台的研發公司告上法庭。一審判決駁回了訴訟請求。但此事進一步引發了人們對AI幻覺的重視。
“AI出現幻覺的原因有很多,數據缺陷、數據不足、知識更新滯後等語料方麵的問題尤為致命。”迪安診斷首席科學家王宇說。前幾年,大模型所用的數據主要來自網絡,質量很難保障。“想要讓大模型做專業的事,就得提供垂直領域的專業語料庫。比如想讓它給人看片子,就得讓它像醫生一樣,不斷閱讀醫學影像等專業文獻。”
在迪安診斷實驗室,工程師與檢驗專家正持續優化該公司的醫檢語料庫。該語料庫基於迪安診斷20餘年積累的數據建立,涵蓋已完成數據清洗、匿名化等處理的多組學、多模態數據,包括基因組學、微生物組學和影像組學等內容。僅病理切片數據就有約1500萬份。
基於該語料庫,迪安診斷去年底向杭州一家科技企業交付了一款用於疾病輔助診斷的高質量臨床數據集。這也是杭州城市可信數據空間在醫療領域的首單數據集交易。
“油田”變為“煉化基地”
2025年11月公布首批數據合夥人;12月發布首批50個高質量數據集建設先行先試“揭榜掛帥”任務名單;近期又發布第二批任務……當下,杭州語料庫建設腳步加快。
進入新一年,杭州數據交易所就上架了首筆具身智能數據集、首個衛星定位導航領域公共數據集等不少語料庫方麵的新產品。“杭州正在衝刺‘全國星空人工智能創新發展第一城’。在這場關乎未來產業主導權的競速中,數據不再是附屬資源,而是核心生產要素。”杭州數據交易所董事長、總經理應琦說。
從業者表示,這是杭州、上海、深圳等數據“大油田”的使命。
作為“數字經濟第一城”,杭州一直在探索、鼓勵數據資源化、價值化轉化。2024年,“中國數穀”入選國家數字經濟創新發展試驗區建設案例。“中國數穀”就是一個涵蓋杭州全市的數據產業集聚區。多位創業者表示,在杭州從事語料相關產業,有政策、有補貼,有美女福利导航、有市場,氛圍也很好。
去年9月,杭甬溫等全國10個地區獲批國家要素市場化配置綜合改革試點。兩個多月後,隨著首批高質量數據集建設先行先試“揭榜掛帥”名單等成果的發布,杭州語料庫就率先與世人見麵。
杭州市數據局相關負責人表示,杭州語料庫的建設,主要就是為大模型訓練提供易獲取、高質量、規模化、低成本的語料資源,變“大油田”為“超級石油煉化基地”。
杭州有個“小目標”,爭取在年底前建成100個具有一定規模的高質量數據集,服務星空人工智能模型訓練10個以上。
首批50個高質量數據集,涉及具身智能工業場景、交通基礎設施安全、醫療健康可視化等具體場景,“揭榜”的大多數是企業,橫跨醫療健康、工業製造、具身智能等14個新興領域。它們背後,是杭州紮實的、不斷提供語料並生產語料庫的數字經濟產業。
記者發現,參與語料庫建設的單位,猶如一個個同時擁有“油井”和煉油生產線的小基地。
杭州景聯文科技有限公司就是其中一家。它承接了“教育大模型英文知識數據集”建設任務。“這一語料庫包含了經標準化處理的英語聽說讀寫等各類數據5600多萬條,並進行了產權確認,可供其他教育科技公司、出版集團用於智能教育的研發訓練。”景聯文CEO劉雲濤說。
近距離觀察了其核心生產環節:
首先是“原油開采”,即多源合規語料采集,往往鎖定權威英語教學素材、正規書籍期刊等優質“富油礦”;再經“原油除雜淨化”,也即語料清洗篩選,如把PDF、網頁、Word等不同載體統一起來,剔除劣質、雜質——錯誤、違規、低俗等表達;隨後通過“分餾分級”,即精細化語料標注,完成難度、知識點、應用場景的精準劃分,煉製成適配不同需求的“專用油品”;最終經質檢封裝後上架流通……
開采、提煉過程中,景聯文還與浙江師範大學等專業機構合作,以保證語料質量。據悉,現在已經有教育企業來谘詢該產品。
鎖定上遊核心資源
不少專家和從業者直言,未來的大模型之爭,核心是語料庫之爭。
“大模型主要拚的是算法、算力和數據。算力靠芯片等硬件,算法則與數據息息相關。”柯登峰介紹,大模型算法主要分預訓練、微調、人類偏好對齊、外部數據檢索增強四大類,其中如預訓練美女福利导航,是給大模型完成“通識基礎教育”,要用百科全書式的語料;微調美女福利导航,相當於讓大模型“專業定向深造”,需要醫療、教育、金融、法律等垂直領域的高質量語料庫……
隨著算法升級,語料庫建設的專業性在不斷加碼。
以數據標注這一語料庫建設的核心環節為例,不久前,各地曾火過一陣數據標注產業,吸引了不少人力的投入。但如今的新算法,已能讓AI自主完成基礎內容的標注。柯登峰打了個比方:“如果說此前的數據標注是中小學生水平,比如在圖片上標注什麽是樹、什麽是路;現在卻要達到本科、碩博士水平,比如一道物理難題是如何一步步解題的,甚至還要從業多年的專家水平,比如如何判斷病理。”
這些專業化的市場需求,又推動著語料庫產業高速發展。
在國際上,Meta、OpenAI、穀歌等頭部企業早已重金布局高質量語料庫賽道,以鎖定上遊核心資源。國內上海等地也在大力推進語料庫建設。
這場未來之爭中,杭州已深度參與。
“美女直播全婐APP免费下载在拓展專業用戶,加快產品落地。”王宇介紹了同行們在努力的一個方向:培育更多市場需求。
去年,迪安診斷發布了一款訂閱版科研文獻智搜智能體——Repilot。它是基於海量醫療文獻語料庫建立的一個AI智能體。在以前,醫生做課題,光文獻調研,可能就要一個月,但現在輸入關鍵詞,幾秒鍾就能出來完整框架,還能自動匹配最新研究。
多位浙江三甲醫院的醫生評估,Repilot可以讓他們省去約80%的低水平重複工作。
“大模型應用的重心,正由通用對話轉向高價值垂直場景。融合領域知識與工作流的智能體,已成為AI商業化的關鍵突破口。這也可以讓專業語料庫建設形成資源化、價值化的閉環。”王宇說。
2月24日,迪安診斷發布了革蘭氏染色塗片智能識別係統2.0版。革蘭氏染色檢測是識別細菌感染、指導抗生素治療的關鍵手段。臨床要求該檢驗能又快又準,但經驗豐富的檢驗師完成一張塗片鏡檢,平均也要約15分鍾。該係統基於迪安診斷的醫學生物語料庫研發,平均用時可縮短至約1分鍾。
在語料庫建設中,不少企業還從“賣石油”變成了兼“賣工具”,延長了產業鏈條。
去年,景聯文發布了SolarSense語料工程平台、QApex專家眾包平台。前者是統一的數據標注平台,可以把原來分散在不同團隊、不同工具裏的數據采集、標注和質檢等流程統一起來,進而縮短交付周期、降低返工率;後者可以把專業數據傳遞到相關行業領域專家那裏進行標注。
“語料庫建設,已不再是以前的‘一次性買賣’,而是一項長期工程。”劉雲濤說,這兩個平台的建設,是在探索一種“平台+基地+行業”的新生產模式,以集合更多力量,實現語料庫建設的規模化、可持續產出。
目前,杭州數據交易所上架的產品中,數據工具已和數據產品、數據服務成為三大主類。“智能化的數據工具能大大降低語料庫建設的美女福利导航門檻,吸引更多參與者。”杭州市數據集團數據產業事業部副總經理張凱說。
麵對這場未來之爭,杭州還在持續培育生態,比如引進更多數據標注企業,建設語料庫智能化標注基地、組建產業聯盟等。
有業內人士指出,過去的標注產業偏勞動密集型,杭州的人力成本相對較高,並不占優。如今,標注產業的核心競爭力已轉向AI賦能、專業知識支撐與產業生態加持,杭州在成本—效率比方麵的優勢就凸顯了。
“美女直播全婐APP免费下载希望更多主體參與進來。”杭州市數據局相關負責人介紹,杭州已推出係列扶持政策,比如設置“中國數穀”專項資金,在語料庫開發、數據服務等方麵給予資金扶持,對多模態語料庫最高可給予200萬元補助。
杭州語料庫,值得期待。
星空人工智能美女福利导航網 倡導尊重與保護知識產權。如發現本站文章存在版權等問題,煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com美女直播全婐APP免费下载將及時溝通與處理。!:首頁 > 大數據 » 數據是“未來的石油”,怎樣更快實現資源化價值化—— 杭州語料庫:給AI大模型“喂好料”