人工智能作為新一輪科技革命和產業變革的重要驅動力量,正加速與各行各業深度融合。近日,國務院印發《關于深入實施“人工智能+”行動的意見》(以下簡稱《意見》),提出強化“人工智能+”行動基礎支撐能力,加強算力、算法和數據供給。這是我國搶抓新一輪科技革命和產業變革機遇、培育和發展新質生產力的重大戰略部署。而數據作為新型生產要素,其規模和質量直接決定了人工智能技術所能達到的高度和深度。破解當前高質量數據供給不足的瓶頸,是“人工智能+”行動落地見效的首要前提。因此,加快培育一個能夠實現數據價值發現、促進高效流通、保障合規利用的數據要素市場,是落實《意見》的關鍵舉措和賦能智能新時代、構筑國家競爭新優勢的戰略基石。
一、戰略契合:數據要素市場支撐“人工智能+”行動的內在邏輯
數據要素市場的發展與“人工智能+”行動的推進,并非兩條獨立的平行線,而是相互需求、彼此成就的共生關系。其內在邏輯體現在以下三個層面。
一方面,人工智能技術范式對高質量數據供給的內生需求。國家數據局局長劉烈宏提出,“‘人工智能+’到哪里,高質量數據集就建設到哪里”。本輪先進人工智能模型,特別是大語言模型的發展仍遵循著“縮放定律”(Scaling Law)這一基本規律,即模型的綜合能力與其訓練數據的規模、質量和多樣性直接相關。沒有海量、高質量的數據“投喂”,再先進的算法也只是無源之水。數據顯示,我國人工智能應用日均Token消耗量已從2024年初的1000億激增至2025年6月底的超過30萬億,在短短一年半時間內增長了超過300倍。這種近乎無限的需求正催生巨大的數據市場供給缺口??梢?,建立一個能夠高效匯聚、治理并流通高質量數據的要素市場,是滿足當前人工智能技術范式需求的必然選擇。
另一方面,數據要素與人工智能形成雙向賦能的“飛輪效應”。數據要素市場不僅是單向地為人工智能提供“燃料”,而是雙方進一步形成一種雙向賦能、相互促進、加速迭代的“飛輪效應”。一方面,高質量的數據要素是驅動人工智能應用性能躍升的關鍵。國家數據局數據顯示,在對數據質量要求極為嚴苛的醫療健康領域,通過引入人工智能輔助標注的醫學影像數據集,后續訓練的疾病診斷模型準確率可提升超過15%。另一方面,人工智能應用也反向激發數據價值。據有關機構預測,未來合成數據將取代真實數據成為AI模型所使用數據的主要來源,這不僅能有效彌補真實數據供給的缺口,更能為數據要素市場注入持續的、高質量的源頭活水。最終,當“數據要素+人工智能”這一強大組合的動能釋放到實體經濟中,將有效賦能千行百業,帶來顯著的生產力躍升,從而驅動形成飛輪效應,持續創造經濟價值。
二、現實審視:我國數據要素市場賦能人工智能發展的機遇與挑戰
在“人工智能+”的浪潮下,我國數據要素市場賦能人工智能已取得積極成效,在全球AI競賽中展現出強大勢能,產業、數據和場景優勢日益凸顯。
產業與市場活力持續釋放。我國數據要素市場和人工智能產業已形成相互促進的良好態勢。中國互聯網絡信息中心(CNNIC)數據顯示,2024年我國人工智能核心產業規模已突破7000億元人民幣;同時,數據產業規??焖賶汛?,據國家數據發展研究院測算,2024年全國數據產業規模達5.86萬億元,同比增長15.8%,專業數據產品產值規模占比超過30%,產品和服務形態不斷豐富。全國數據企業超40萬家,專業化經營主體不斷出現,產業吸納就業能力穩步提升,市場活力不斷增強,為“人工智能+”提供了堅實的產業基礎。
數據資源基礎不斷夯實。我國數據資源總量實現躍升。國家數據局數據顯示,2024年全國數據生產量達到41.06ZB,同比增長25%,增速較去年提高2.56個百分點;截至今年6月底,我國已經建設高質量數據集超過3.5萬個,總體量超過400PB。隨著人工智能快速發展,用于開發、訓練和推理的數據量同比增長40.95%,智能家居、智能網聯汽車等智能設備數據增速位居前列,分別為51.43%、29.28%,低空經濟和機器人數據生產量增速超過30%。值得一提的是,我國國內主流大模型的訓練數據中,中文數據占比已普遍超過60%,部分模型甚至高達80%,這為服務本土人工智能市場奠定了堅實基礎。
應用場景優勢深度拓展。我國超大規模市場和復雜多樣的社會經濟環境,為人工智能模型的訓練、迭代和優化提供了全球獨一無二的“試驗田”和“練兵場”。這種優勢正從消費端向產業端和社會治理端全面滲透,形成強大的“場景驅動”效應。在To C(消費)領域,我國擁有全球最大的網民和移動支付用戶群體,催生了電商、社交、短視頻等海量數據智能應用場景。在To B(產業)領域,我國作為全球唯一擁有聯合國產業分類中全部工業門類的國家,正加速“人工智能+新型工業化”進程。在智能制造領域,已建成超過萬家數字化車間和智能工廠;在自動駕駛領域,全國已開放智能網聯汽車測試道路超過3.2萬公里,測試里程累計超過1.2億公里,復雜的路況和海量的真實路測數據是訓練和優化自動駕駛算法模型的關鍵優勢。
然而,挑戰同樣不容忽視。當前數據要素市場供給側的短板與市場機制的不完善相互交織,形成了制約“人工智能+”行動向縱深發展的核心瓶頸。
一是高質量數據供給“量質齊缺”,模型源頭活水不足。從“量”的方面看,全球高質量中文語料占比嚴重偏低。中國工程院研究表明,全球通用的50億大模型數據訓練集里,中文語料占比僅為1.3%。這種結構性失衡,導致國內許多AI模型在發展初期不得不依賴英文語料或質量欠佳的翻譯數據,限制了其對中文世界的理解深度。從“質”的方面看,原始數據治理能力尚存短板,其中充斥著大量噪聲、冗余和偏見,需要經過復雜的清洗、標注和治理才能用于模型訓練。而我國在高端數據服務,特別是數據合成、合規審計、偏見檢測等領域的產業生態尚不健全,高質量數據供給的“加工能力”有待提升。
二是價格與權益體系亟待完善,市場機制仍需加強探索。從價格機制看,數據作為一種特殊的生產要素,其價值具有高度的場景依賴性、可復制性和邊際成本遞減等特征,傳統商品定價模型難以適用。當前,各地數據交易所雖在探索掛牌定價、協議轉讓、算法定價等多種模式,但仍缺乏一套被市場廣泛接受的、公允的價值評估和定價機制。比如,某企業的一份銷售數據,對自身而言可能僅用于復盤,價值有限;但對需要進行市場趨勢分析的AI模型訓練方而言則價值巨大。如何量化這種“場景溢價”并形成合理分成,是業界普遍面臨的難題。從權益體系看,數據產權與合規問題構成底層制約。數據產權“三權分置”的落地問題仍不明晰,特別是大模型訓練所涉及的海量數據,其版權授權鏈條復雜,企業獲取數據的合規成本和法律風險較高,亟需在制度層面予以突破,為數據要素的合規、高效流通提供清晰的“游戲規則”。
三是“數據孤島”與流通壁壘并存,要素價值難以釋放。大量高價值數據沉淀在不同政府部門、行業和大型企業內部,形成“數據孤島”和“數據煙囪”。由于權屬界定、安全顧慮、標準不一等原因,數據難以實現有效的跨域流通和融合共享。此外,行業數據的市場化配置水平尤為不足。以制造業為例,國際數據公司(IDC)統計顯示,目前制造業數據中結構化數據僅占約20%,大量蘊含工藝、流程知識的非結構化數據難以利用。更值得關注的是,工業數據交易規模占我國數據交易市場總規模的比重不足7%。這表明,能極大賦能實體經濟的行業場景數據,正由寶貴的“生產資料”淪為沉睡的“數字庫存”。
三、破局之路:數據要素市場有效賦能“人工智能+”行動發展的關鍵路徑
為應對挑戰、抓住機遇,必須多措并舉、精準發力,通過強化供給、完善機制、創新治理、優化生態,構建支撐“人工智能+”行動的高質量數據要素市場。
(一)強化優質數據供給,筑牢戰略資源儲備
為從源頭解決高質量數據不足的問題,應由國家層面統籌規劃,加快推動氣象、交通、醫療、科研等關鍵領域的公共數據,在確保安全的前提下,以統一標準、統一接口的方式有序向社會開放,打造一批具有全球競爭力的國家級和行業級人工智能公共訓練數據集。同時,需高度重視戰略語料資源的儲備與開發,一方面,探索開展建設全國性大模型“紅色語料庫”,筑牢意識形態安全屏障;另一方面,強化對海外高價值、高頻次、高可靠性戰略語料的收儲與市場化利用,增強我國在全球人工智能競爭中的核心優勢,為我國人工智能長遠發展筑牢戰略根基。
(二)優化數據定價模式,完善利益分配機制
科學的價值分配機制是激活數據要素市場供給動力的核心。需加快探索構建一個既能體現政府指導、又能發揮市場作用的價格體系。在路徑上,要理清公共數據的價值生成鏈條,即由政府授權的運營機構進行一級開發,形成標準化數據產品;再由市場主體進行二次開發,形成面向人工智能應用場景的精細化產品與服務。在定價上,將公共數據作為全社會數據定價之“錨”:在一級開發階段,可采取政府指導下的成本補償模式,覆蓋數據治理與運營成本,推動海量公共數據“入場”;在二級市場,鼓勵數據供需雙方根據數據在具體人工智能應用場景中創造的價值,通過市場化方式協商形成價格,或建立合理的收益分享模式,讓高質量數據的持有者能分享人工智能發展的紅利,從而正向激勵市場持續供給高價值數據。在分配上,探索建立公共數據授權運營的收益分配政策,將有償使用收益部分納入財政,用于反哺數據治理和公共服務,同時設置合理的分配原則,激勵各參與方的積極性。
(三)明晰數據產權結構,創新安全治理模式
為解決數據共享中“不敢、不愿、不能”的難題,必須在制度和技術上尋求突破。制度上,要加快落實“數據二十條”提出的數據資源持有權、數據加工使用權、數據產品經營權“三權分置”要求,讓數據在“可用不可見、可控不可得”的框架下安全流動,打消數據提供方的安全顧慮。技術上,探索運用數據可信憑證、深度偽造內容檢測、AI生成內容標識等技術,為進入模型訓練的數據打上“身份標簽”,確保其來源可溯、權屬清晰、授權明確。當模型生成內容引發爭議時,能夠反向追溯至源頭數據,為權益分配和責任界定提供技術依據。此外,需前瞻性布局人工智能時代的知識產權規則,積極探索如何界定訓練數據、AI模型及生成內容的版權歸屬與使用規范,建立公平的利益分配機制,為AI產業的長期健康發展提供制度保障。
(四)培育多元服務業態,構建協同產業生態
推動傳統數據服務向價值鏈高端升級,使其緊密契合大模型等人工智能技術的新需求。一方面,要提升數據處理技術的專業化與精細化水平。特別是數據標注服務,需從過去簡單的分類、拉框,向服務于大模型價值對齊的精細化、場景化標注邁進,重點覆蓋指令遵從、偏好排序、邏輯推理等復雜任務,為模型注入真正的“智能”。同時,要大力支持高質量數據合成技術的研發與應用,將其作為破解特定行業數據稀缺、隱私保護和數據孤島問題的關鍵手段,生成模型訓練急需的、真實世界難以獲取的邊緣場景數據,提升AI系統的魯棒性和安全性。另一方面,積極推動國家級人工智能應用基地建設,依托基地匯聚技術、人才和資本,促進數據服務商與AI應用企業的精準對接,并引導行業圍繞上述新型數據服務,加快制定相應的技術標準、服務流程與質量評估規范。最終形成一個覆蓋數據全生命周期的、多元化的服務產業生態,為“人工智能+”行動提供源源不斷的高品質“數據燃料”。(國家發展改革委價格監測中心副主任 王建冬)
評論