人工智能技術的突破性進展正深刻重塑全球產業(yè)格局,而高質量數據集作為人工智能模型訓練與應用的基石,已成為國家科技發(fā)展的核心要素。高質量數據集不僅是技術創(chuàng)新的“燃料”,更是推動超級人工智能、具身智能、自動駕駛等未來產業(yè)落地的關鍵引擎。
中國信息通信研究院副院長魏亮在“2025人民數據大會”發(fā)表主旨演講。人民網記者 翁奇羽攝
8月26日,中國信息通信研究院副院長魏亮在“2025人民數據大會”發(fā)表主旨演講時表示,在大模型為代表的人工智能技術發(fā)展過程中,數據是大模型智慧的來源,任何一個高性能大模型,都離不開高質量的數據集。多模態(tài)數據、具身智能數據、推理思維鏈數據和長視頻數據是下一步高質量數據集建設的重點。
隨著人工智能加速迭代,大模型如雨后春筍般不斷涌現(xiàn),大模型需要的數據集增速遠遠高于高質量數據集生產和生成的速度,高質量、高價值密度的數據集將撐起一個企業(yè)差異化競爭,成為企業(yè)人工智能業(yè)務發(fā)展的護城河。
“誰有高質量數據,就可以訓練出一個好用的垂類模型。當垂類大模型在生產中規(guī)模使用,會生成更多高質量數據再反饋到該模型中,從而實現(xiàn)‘數據飛輪’效應。”魏亮認為,高質量數據的供給有三個方面的措施,即數據技術、數據工程以及數據治理:
數據技術包含新一代標注技術與合成技術。當前,有高技術含量、高知識密度、高價值的應用,行業(yè)頂尖專家的高水平數據可能需要幾十美元甚至上百美元,成為新一代標注技術的方向。合成技術從最初用來解決流通中隱私問題,如今也在應對訓練集不足,包括用物理仿真、統(tǒng)計模型、機器學習等領域發(fā)揮更大作用。數據工程旨在提升模型數據集管理和效率,即能夠規(guī)模化、高效生成好用的數據集,圍繞管理體系、開發(fā)維護、質量控制、資源運行和合規(guī)可用五大要素搭建數據工程。數據治理即在控制數據過程中實現(xiàn)高質量和可靠,以及安全與合規(guī),倫理要求都需要在數據治理中得到體現(xiàn),從而使數據治理更好地服務數據集建設。
魏亮表示,高質量數據集的建設是提高人工智能性能的關鍵,也是推動“人工智能+”行動落地的保證。隨著“人工智能+”行動的發(fā)布,標志著人工智能進入一個數據驅動的新階段。要通過AI的數據技術、數據工程、數據治理,能夠共同推動高質量數據要素的高效能的供給。
來源:人民網 記者栗翹楚
評論