2025-01-16
分享到
近日,国家发展改革委、国家数据局、财政部、人社部联合发布《关于促进数据标注产业高质量发展的实施意见》(以下简称《实施意见》),提出到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%。据悉,这是国家层面首次对数据标注这一新兴产业进行系统谋划。
数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业。简单来说,数据标注就是对未经处理过的语音、图片、文本、视频等数据进行加工处理,从而转变成机器可识别信息的过程。
对于普通人而言,数据标注相对陌生,但却是人工智能发展的关键环节。清华大学公共管理学院教授孟庆国表示,当前,全球主流基础大模型,中文语料仅占全部语料的1%,高质量中文数据成为制约我国基础大模型能力的瓶颈。训练一个领先的大模型,需要数百万甚至数千万条标注数据。数据供给质量决定了模型的基础能力。
数据标注也是充分释放数据要素价值的前提条件,是数据要素价值化的必选项。数据显示,2023年,我国数据资九游体育科技源32ZB(泽字节),保存数据仅有2.9%,数据留存率远低于发达国家水平。数据标注能为机器提供高质量的数据,赋能机器学习、深度学习等人工智能算法的训练,从而实现数据价值转化。
中国信通院副院长魏亮表示,新一代数据标注具备高技术含量、高知识密度和高价值应用的“三高”特性,不再是传统技术含量低、劳动密集型行业,正成为高质量数据供给的关键。近年来,我国数据标注产业规模持续扩大,预计2024年将达到120亿元。我国人工智能数据标注核心企业超过600家,产业链体系完善。
在需求端,《实施意见》促进释放公共数据标注需求,提出依法依规有序推动公共数据标注与开发利用,在现代农业、智能制造、信息服务等重点领域发掘公共数据标注需求等举措。同时,着力挖掘企业数据标注需求,提出加强交通、医疗、金融、科学、制造、农业等重点行业领域数据标注;围绕医疗健康、人力资源、数字贸易、自动驾驶、低空经济等场景,以业务创新拉动数据标注需求。
在供给端,《实施意见》强调加大创新力度。比如,依托国家重点研发计划、国家科技重大专项等,加强跨领域跨模态语义对齐、4D标注、大模型标注等数据标注领域的关键技术攻关应用。围绕数据标注关键环节,结合文本、图像、视频、语音等多模态数据标注需求,建立数据标注标准体系框架,制定数据标注技术、质量、能力等国家标准。培育建设数据标注领域重点实验室、技术创新中心等,加强基础研究和前沿技术探索。
《实施意见》着重培育繁荣的数据标注产业生态,提出培育一批数据标注龙头企业,推动数据标注企业规模化、标准化、集约化发展;鼓励和支持数据标注基地先行先试,打造一批科技水平高、资源集聚强、辐射带动广的典型样板。记者关注到,去年5月,国家数据局公布了首批7家全国数据标注试点基地名单,分别为四川成都、辽宁沈阳、安徽合肥、湖南长沙、海南海口、河北保定、山西大同。
值得一提的是,随着人工智能从通用领域向专业领域演进,数据标注对专业性、技术性的人才需求日益增长,数据标注产业也从劳动密集型,逐步向知识密集型转变,为大学生创造了数百万就业岗位。《实施意见》也要求加强标注人才队伍建设,提出制(修)定人工智能训练、数据标注相关职业国家职业标准,依托行业组织、院校、社会培训评价组织等开展数据标注相关职业技能等级认定等措施。
此外,《实施意见》强调,加大财税金融支持力度。落实研发费用加计扣除、高新技术企业税收优惠等政策。各地区各部门可结合实际,统筹安排数据产品和标注服务采购费用。充分利用各地发放的数据券、算法券和算力券等,降低数据标注企业成本。鼓励各类产业基金、专业投资机构加大数据标注产业投资力度,引导社会资本有序参与。