
(记者 杜峰)国家数据局发布的相关数据显示,截至2025年底,全国已建成的高质九游体育平台量数据集超过10万个,总体量超过890PB,这相当于中国国家图书馆数字资源总量的310倍。然而,数据的“丰裕”并不等同于价值的“释放”。从海量“原矿”到真正可用的“燃料”,仍然举步维艰,亟需找出一条破局之路。
数据,被誉为人工智能时代的“新石油”。何为高质量数据?国家数据局指导发布的《高质量数据集建设指引》指出,高质量数据是指经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型表现的数据的集合。“10万个数据集”这一数字固然振奋人心,但当前,海量数据仍处于“原矿”状态,缺乏初级加工和处理。这一困境的症结,主要体现在三个层面。
首先是标准之困。目前尚无全国统一的《高质量数据集质量评测规范》,缺乏一套覆盖分类、元数据、质量评价的国家级统一标准,各行业、地区对“高质量”的定义差异较大,导致数据集质量良莠不齐。清华大学法学院教授申卫星指出,衍生数据由原始数据经加工、建模、分析等形成,但“加工到何种程度可构成衍生数据”尚无统一标准,导致确权困难。
其次是成本之困。数据清洗是公认的高成本环节。根据Gartner九游体育平台的统计,数据科学家花费60%-80%的时间在数据清洗上,而糟糕的数据质量会导致企业决策错误的概率增加30%-50%。对于广大中小企业而言,高昂的数据清洗成本更是将其挡在了“人工智能+”大门之外。
第三是安全之困。数据的价值在于流通,但流通的前提是安全与合规。一方面,数据交易规则和监管机制不健全,导致数据滥用、数据泄露等风险;另一方面,数据分类分级、数据脱敏、数据加密等技术应用不足,难以满足数据全生命周期的安全管理需求。正如国家数据局局长刘烈宏所明确提出的,要破解数据“安全、合规、高效流通”的“不可能三角”难题。
在破解数据“炼油”难题的过程中,三大通信运营商正以其独特优势,成为这场变革的探路者和先行者。
中国电信以“数据运营”为核心驱动力,将海量数据与科技能力转化为赋能千行百业的核心能力。据中国电信总经理刘桂清介绍,中国电信正努力成为数据和基础大模型服务提供商,打造数据智能中台,汇集自有、开源和第三方数据,已汇集10万亿token通信行业数据和14个行业超350TB的行业数据,赋能模型训练和应用。自主研发的星辰大模型体系和智能体服务平台,正加快推进模型服务更加普惠。
中国移动依托梧桐大数据平台,公司已构建458个高质量数据集,存储高价值数据达2000PB,打造的“数联网”实现数据安全可信流通。数据标注方面,通过自主研发多模态标注工具与全流程质量管理体系,构建“采集-标注-管理”闭环,标注效率较传统模式提升300%,为20余个重点大模型项目提供核心支撑。
中国联通推出Universe生态开放平台,该平台由“数据底仓”“联通优选”“解决方案工厂”三大模块构成,以可信数据空间为基础,打通OT与IT数据语义壁垒,聚合连接、算力、服务、安全等原子能力及生态伙伴优质能力,构建可复制、可推广的行业解决方案模板库。与此同时,联通还构建了信息通信领域高质量数据集,总量达53.5TB,数据集质检合规率超过98%,涵盖网络运营、客户服务、电信反诈等六大领域。这些经过“精炼”的数据产品,正在成为AI大模型训练不可或缺的高质量“燃料”。
三大运营商的实践表明,数据“炼油”之难并非无解之题。通过标准化治理破解“方言”困局,通过可信技术缝合安全与流通的裂缝,通过数据运营赋能垂直场景的价值释放,运营商正在构建一条从“原矿”到“燃料”的完整产业链。
但破局不仅需要企业层面的探索,更呼唤制度层面的顶层设计。2026年被国家数据局定调为“数据价值释放年”,一系列制度安排正在加速落地。
在制度层面,国家数据局正加大数据产权制度宣贯力度,加快建立全国统一的数据产权登记制度,明确数据的“持有权、使用权、经营权”配置方案。这一制度设计旨在破解“不敢供数、不愿共享、难以定价”的困局,让数据真正“流动起来”。
在技术层面,隐私计算、区块链等技术正在成为破解“不可能三角”的关键工具。通过推广“数据可用不可见”的技术方案,在保障安全的前提下实现数据价值的合规流通。中国电信翼支付推出的“辰玑”数智金融系统,实现了从底层芯片、操作系统到上层业务应用的100%全栈国产化,采用云原生单元化分布式架构,支撑10万TPS高并发支付,这一自主可控的底层能力,为数据要素的安全高效流通提供了坚实基座。
在生态层面,国家正更大力度培育物流、金融、医疗、养老等高价值应用场景,支持数据流通服务平台、数据商等机构探索流通新模式,推动行业数据集在数据交易所挂牌交易。近日中国电信携手成都市国家数据标注基地正式启用数据标注技术研究中心,发布星海·可信数据空间与智云四川·AI超市两大平台,以全栈技术能力布局数据要素市场,为AI时代构筑一座坚实、安全、高效的“数据粮仓”。
站在“十五五”历史节点上,我们有理由相信,当制度供给与技术赋能形成合力,当运营商等市场主体持续深耕,数据“炼油”的难关终将被攻克。返回搜狐,查看更多

