人工智能进入“深水区”,数据标注行业将迎来质变时刻

  随着人工智能技术从实验室走向产业化应用,作为AI模型“燃料”的数据标注行业正经历前所 未有的变革。从自动化标注工具的大规模普及,到专 业领域数据服务的精细化分工,这个曾经被视为劳动密集型产业正在向技术驱动型产业转型。  本周在深圳举行的“第六届全球人工智能数据服务峰会”上,业内专家指出,2026年数据标注行业的核心趋势已从“规模扩张”转向“质量提升”和“领域深化”。  “我们正见证着数据标注行业的‘双轨发展’,”峰会主持人、深度求索公司首 席数据官李明表示,“一方面是自动化标注工具在常见任务中的准确率已达92%,大大提升了效率;另一方面,在医疗、自动驾驶、科学发现等专 业领域,人工专家与AI协作的混合标注模式成为主流。”  据新发布的《2025-2026中国人工智能数据服务白皮书》显示,中国数据标注市场规模已达580亿元,同比增长28%,其中专 业领域数据服务占比从2024年的35%上升至52%。  生成式AI重塑数据供应链  生成式人工智能的爆发正在彻底改变数据标注行业的运作方式。新的合成数据生成技术能够创建高质量、多样化的标注数据,有效解决了实际数据收集中的隐私、成本和长尾问题。  “我们与国内顶 尖医院合作开发的医疗影像合成平台,能够生成数万种罕见病的标注影像,而这些数据在现实中几乎不可能大量获取,”深度求索医疗AI事业部负责人王倩在峰会专题讨论中介绍,“这使我们的肝脏肿瘤检测模型在罕见类型上的准确率提升了37%。”  在自动驾驶领域,极端天气和危险场景的合成数据已成为模型训练的关键。据行业报告,2025年全球自动驾驶领域使用的合成数据占比已达总训练数据的40%。  垂直领域案例深度落地  在智慧城市领域,杭州城市大脑项目最近实现了重大突破。通过部署新型多模态数据标注与融合系统,城市管理AI现在能够同时分析来自摄像头、传感器、无人机和社交媒体的数据,实现更精准的交通预测和应急响应。该系统在最近的寒潮天气中,成功预测了86%的道路结冰点,使预防性除冰效率提升两倍。  在制造业,广东一家精密仪器制造商引入了AI质检系统,该系统基于超过500万张专 业标注的缺陷图像训练,能够识别0.01毫米级别的产品瑕疵。实施六个月后,该公司质检效率提升300%,漏检率下降至0.002%,年节约成本超过2000万元。  教育科技领域,自适应学习平台“智学助手”通过分析学生与学习材料互动产生的数百万条行为数据,为每个学生生成个性化学习路径。该平台使用的精细标注学习行为数据,使AI能够准确识别学生的认知难点,推荐最有效的解释方式,试点班级的平均学习效率提升41%。  数据标注师的新角色  随着技术的进步,数据标注师的角色正在发生深刻变化。“简单重复的标注任务已大量被AI接管,现在的标注专家更像是‘AI培训师’和‘质量审计师’,”深度求索数据服务总监张薇表示,“他们需要深入理解特定领域的知识,指导AI模型学习复杂概念,并确保数据质量符合伦 理和法律要求。”  行业专家预测,到2027年,将有超过60%的数据标注工作聚焦于专 业领域知识注入、模型行为审计和伦 理对齐等高端任务。为此,深度求索近期启动了“数据专家培养计划”,旨在为行业输送兼具领域知识和AI理解能力的复合型人才。  人工智能的发展正推动数据标注行业进入全新的发展阶段。从“人工标注”到“人机协同”,再到“AI主导、人类监督”,这一基础却关键的行业正在经历质变。作为AI产业链的重要一环,数据标注的质量和创新将直接决定下一代人工智能应用的深度和广度。  深度求索公司将持续投入数据标注技术创新和行业生态建设,与合作伙伴共同推动人工智能在各行各业的深度落地,释放AI技术的最 大价值。

2026年人工智能产业观察:从“规模竞技”到“价值落地”的深度转型

  随着2026年的到来,全球人工智能产业正经历一场深刻的范式转变。行业焦点已从对通用大模型参数规模的狂热追求,转向追求在特定场景下可衡量、可部署、可盈利的价值落地。在这一年,智能体、垂类模型与实时数据共同构成了产业变革的核心三角,驱动人工智能从“炫技”走向“务实”,全方位重塑企业运营与行业竞争格局。  智能体崛起与垂类模型普及,产业进入“价值兑现”周期  2026年标志着企业人工智能应用从“实验探索”阶段全 面进入“价值运营”阶段。全球领 先的研究机构和企业观察显示,两大趋势尤为突出:  自主智能体成为核心生产力:人工智能的角色正从被动的“工具”转变为主动的“数字化劳动力”。这些智能体能够理解复杂指令,执行端到端的任务闭环。例如,普华永道的预测指出,企业正部署能够自动化处理复杂、高价值工作流的AI智能体,从需求预测到合规审查,无需人类持续监督。这种转变正在重塑组织架构,推动企业层级趋于扁平化,因为数据和洞察的获取变得高度民主化。  特定领域模型(DSLM)成为应用主流:通用大模型“一刀切”的模式正在被打破。高德纳(Gartner)预测,到2028年,企业中超过半数的生成式AI模型将属于针对特定行业或功能训练的垂类模型。在医疗、金融、制造等领域,基于专有数据精调的模型在准确性、合规性和成本效益上显著优于通用模型。这催生了一个繁荣的企业级AI解决方案生态,既有微软Azure AI、谷歌Vertex AI等巨头提供基础设施,也有DataRobot、HatchWorks AI等专注于自动化机器学习和快速原型开发的成熟服务商,满足不同规模企业的需求。  训练效率革 命与数据工程智能化,降低应用门槛  为支撑上述应用趋势,底层技术也在2026年取得关键进展,核心目标是降本增效与提升可靠性。  训练范式革新,成本与能耗双降:效率成为大模型研发的核心考量。京东探索研究院发表于《自然》合作期刊的研究,提出了一套通过模型蒸馏、数据治理等创新方法,平均可降低70%训练成本、提升30%推理效率的系统性方案。同时,加拿大滑铁卢大学研发的“SubTrack++”新方法,通过聚焦核心参数,能将大语言模型的预训练时间缩短一半,显著降低环境负担。这些突破使得中小型企业构建和定制专属AI模型成为可能。  数据工程向“智能工程”演进:数据工作的内涵正从简单的移动和清洗,转变为设计可供机器推理的智能数据系统。这体现在三个方面:  1、合成数据广泛应用:为应对数据隐私监管和高质量数据稀缺的挑战,能够模拟真实统计模式的合成数据成为AI训练的重要“新原材料”,其完 美平衡和可定制的特性,在特定场景下表现甚至优于真实数据。  2、RAG 2.0与知识图谱回归:为解决企业AI的“幻觉”与信任问题,检索增强生成(RAG)技术演进至2.0阶段,引入深度检索与验证层。同时,能够为业务知识提供结构化关系的知识图谱重新成为必需品,为智能体提供深入理解业务所需的上下文。  3、实时数据与自主治理成为标配:决策延迟意味着机会丧失,2026年实时数据处理成为企业默认能力。相应地,数据质量治理也迈向自动化,系统内置的“免疫系统”可自动检测并纠正异常,为自主运行的AI智能体提供可信基础。  治理、安全与人机协作成为关键  随着AI深度嵌入核心业务,挑战也日益凸显:  1、AI安全与治理刻不容缓:AI驱动的网络攻击(如超精准钓鱼软件和深度伪造)日趋频繁,防御必须同样依靠AI实现毫秒级响应。同时,企业AI治理正从纸质合规清单,转向实时监控AI行为、推理过程和风险评分的“运营化安全”体系。  2、人机协作定义未来工作范式:岗位转型而非大规模失业成为现实。重复性数据处理岗位面临调整,而“人机混合团队”成为新范式。员工角色正从数据标注员、操作员向AI监管员、训练师和伦 理师等战略岗位转变。未来的竞争力在于人类如何利用AI增强其在批判性思维、同理心和战略领导力方面的独特价值。  3、经济不确定性中的价值考验:市场对AI巨额投资能否产生实际回报存在分歧。乐观观点认为AI将持续推动生产率提升和盈利增长;谨慎观点则警示可能存在估值泡沫,核心在于AI资产能否快速产生可量化的投资 回报率(ROI)。应用能否形成可衡量的交易闭环,成为企业关注的焦点。  2026年,人工智能产业已越过山巅,开始深耕价值的沃土。专 业化、实时化、自动化与责任化是这一年的主题词。企业不再问“能用AI做什么”,而是问“AI应在哪些环节自主运行并创造价值”。那些能够将人工智能作为战略队友,并妥善处理其带来的治理、安全与文化挑战的组织,将在新一轮产业变革中建立起决定性的竞争优势。未来已来,它属于敏捷、务实且以人为本的实践者。

人工智能进入“深水区”,数据标注行业将迎来质变时刻

  随着人工智能技术从实验室走向产业化应用,作为AI模型“燃料”的数据标注行业正经历前所 未有的变革。从自动化标注工具的大规模普及,到专 业领域数据服务的精细化分工,这个曾经被视为劳动密集型产业正在向技术驱动型产业转型。  本周在深圳举行的“第六届全球人工智能数据服务峰会”上,业内专家指出,2026年数据标注行业的核心趋势已从“规模扩张”转向“质量提升”和“领域深化”。  “我们正见证着数据标注行业的‘双轨发展’,”峰会主持人、深度求索公司首 席数据官李明表示,“一方面是自动化标注工具在常见任务中的准确率已达92%,大大提升了效率;另一方面,在医疗、自动驾驶、科学发现等专 业领域,人工专家与AI协作的混合标注模式成为主流。”  据新发布的《2025-2026中国人工智能数据服务白皮书》显示,中国数据标注市场规模已达580亿元,同比增长28%,其中专 业领域数据服务占比从2024年的35%上升至52%。  生成式AI重塑数据供应链  生成式人工智能的爆发正在彻底改变数据标注行业的运作方式。新的合成数据生成技术能够创建高质量、多样化的标注数据,有效解决了实际数据收集中的隐私、成本和长尾问题。  “我们与国内顶 尖医院合作开发的医疗影像合成平台,能够生成数万种罕见病的标注影像,而这些数据在现实中几乎不可能大量获取,”深度求索医疗AI事业部负责人王倩在峰会专题讨论中介绍,“这使我们的肝脏肿瘤检测模型在罕见类型上的准确率提升了37%。”  在自动驾驶领域,极端天气和危险场景的合成数据已成为模型训练的关键。据行业报告,2025年全球自动驾驶领域使用的合成数据占比已达总训练数据的40%。  垂直领域案例深度落地  在智慧城市领域,杭州城市大脑项目最近实现了重大突破。通过部署新型多模态数据标注与融合系统,城市管理AI现在能够同时分析来自摄像头、传感器、无人机和社交媒体的数据,实现更精准的交通预测和应急响应。该系统在最近的寒潮天气中,成功预测了86%的道路结冰点,使预防性除冰效率提升两倍。  在制造业,广东一家精密仪器制造商引入了AI质检系统,该系统基于超过500万张专 业标注的缺陷图像训练,能够识别0.01毫米级别的产品瑕疵。实施六个月后,该公司质检效率提升300%,漏检率下降至0.002%,年节约成本超过2000万元。  教育科技领域,自适应学习平台“智学助手”通过分析学生与学习材料互动产生的数百万条行为数据,为每个学生生成个性化学习路径。该平台使用的精细标注学习行为数据,使AI能够准确识别学生的认知难点,推荐最有效的解释方式,试点班级的平均学习效率提升41%。  数据标注师的新角色  随着技术的进步,数据标注师的角色正在发生深刻变化。“简单重复的标注任务已大量被AI接管,现在的标注专家更像是‘AI培训师’和‘质量审计师’,”深度求索数据服务总监张薇表示,“他们需要深入理解特定领域的知识,指导AI模型学习复杂概念,并确保数据质量符合伦 理和法律要求。”  行业专家预测,到2027年,将有超过60%的数据标注工作聚焦于专 业领域知识注入、模型行为审计和伦 理对齐等高端任务。为此,深度求索近期启动了“数据专家培养计划”,旨在为行业输送兼具领域知识和AI理解能力的复合型人才。  人工智能的发展正推动数据标注行业进入全新的发展阶段。从“人工标注”到“人机协同”,再到“AI主导、人类监督”,这一基础却关键的行业正在经历质变。作为AI产业链的重要一环,数据标注的质量和创新将直接决定下一代人工智能应用的深度和广度。  深度求索公司将持续投入数据标注技术创新和行业生态建设,与合作伙伴共同推动人工智能在各行各业的深度落地,释放AI技术的最 大价值。

2026年人工智能产业观察:从“规模竞技”到“价值落地”的深度转型

  随着2026年的到来,全球人工智能产业正经历一场深刻的范式转变。行业焦点已从对通用大模型参数规模的狂热追求,转向追求在特定场景下可衡量、可部署、可盈利的价值落地。在这一年,智能体、垂类模型与实时数据共同构成了产业变革的核心三角,驱动人工智能从“炫技”走向“务实”,全方位重塑企业运营与行业竞争格局。  智能体崛起与垂类模型普及,产业进入“价值兑现”周期  2026年标志着企业人工智能应用从“实验探索”阶段全 面进入“价值运营”阶段。全球领 先的研究机构和企业观察显示,两大趋势尤为突出:  自主智能体成为核心生产力:人工智能的角色正从被动的“工具”转变为主动的“数字化劳动力”。这些智能体能够理解复杂指令,执行端到端的任务闭环。例如,普华永道的预测指出,企业正部署能够自动化处理复杂、高价值工作流的AI智能体,从需求预测到合规审查,无需人类持续监督。这种转变正在重塑组织架构,推动企业层级趋于扁平化,因为数据和洞察的获取变得高度民主化。  特定领域模型(DSLM)成为应用主流:通用大模型“一刀切”的模式正在被打破。高德纳(Gartner)预测,到2028年,企业中超过半数的生成式AI模型将属于针对特定行业或功能训练的垂类模型。在医疗、金融、制造等领域,基于专有数据精调的模型在准确性、合规性和成本效益上显著优于通用模型。这催生了一个繁荣的企业级AI解决方案生态,既有微软Azure AI、谷歌Vertex AI等巨头提供基础设施,也有DataRobot、HatchWorks AI等专注于自动化机器学习和快速原型开发的成熟服务商,满足不同规模企业的需求。  训练效率革 命与数据工程智能化,降低应用门槛  为支撑上述应用趋势,底层技术也在2026年取得关键进展,核心目标是降本增效与提升可靠性。  训练范式革新,成本与能耗双降:效率成为大模型研发的核心考量。京东探索研究院发表于《自然》合作期刊的研究,提出了一套通过模型蒸馏、数据治理等创新方法,平均可降低70%训练成本、提升30%推理效率的系统性方案。同时,加拿大滑铁卢大学研发的“SubTrack++”新方法,通过聚焦核心参数,能将大语言模型的预训练时间缩短一半,显著降低环境负担。这些突破使得中小型企业构建和定制专属AI模型成为可能。  数据工程向“智能工程”演进:数据工作的内涵正从简单的移动和清洗,转变为设计可供机器推理的智能数据系统。这体现在三个方面:  1、合成数据广泛应用:为应对数据隐私监管和高质量数据稀缺的挑战,能够模拟真实统计模式的合成数据成为AI训练的重要“新原材料”,其完 美平衡和可定制的特性,在特定场景下表现甚至优于真实数据。  2、RAG 2.0与知识图谱回归:为解决企业AI的“幻觉”与信任问题,检索增强生成(RAG)技术演进至2.0阶段,引入深度检索与验证层。同时,能够为业务知识提供结构化关系的知识图谱重新成为必需品,为智能体提供深入理解业务所需的上下文。  3、实时数据与自主治理成为标配:决策延迟意味着机会丧失,2026年实时数据处理成为企业默认能力。相应地,数据质量治理也迈向自动化,系统内置的“免疫系统”可自动检测并纠正异常,为自主运行的AI智能体提供可信基础。  治理、安全与人机协作成为关键  随着AI深度嵌入核心业务,挑战也日益凸显:  1、AI安全与治理刻不容缓:AI驱动的网络攻击(如超精准钓鱼软件和深度伪造)日趋频繁,防御必须同样依靠AI实现毫秒级响应。同时,企业AI治理正从纸质合规清单,转向实时监控AI行为、推理过程和风险评分的“运营化安全”体系。  2、人机协作定义未来工作范式:岗位转型而非大规模失业成为现实。重复性数据处理岗位面临调整,而“人机混合团队”成为新范式。员工角色正从数据标注员、操作员向AI监管员、训练师和伦 理师等战略岗位转变。未来的竞争力在于人类如何利用AI增强其在批判性思维、同理心和战略领导力方面的独特价值。  3、经济不确定性中的价值考验:市场对AI巨额投资能否产生实际回报存在分歧。乐观观点认为AI将持续推动生产率提升和盈利增长;谨慎观点则警示可能存在估值泡沫,核心在于AI资产能否快速产生可量化的投资 回报率(ROI)。应用能否形成可衡量的交易闭环,成为企业关注的焦点。  2026年,人工智能产业已越过山巅,开始深耕价值的沃土。专 业化、实时化、自动化与责任化是这一年的主题词。企业不再问“能用AI做什么”,而是问“AI应在哪些环节自主运行并创造价值”。那些能够将人工智能作为战略队友,并妥善处理其带来的治理、安全与文化挑战的组织,将在新一轮产业变革中建立起决定性的竞争优势。未来已来,它属于敏捷、务实且以人为本的实践者。

从模型智能到产业落地,AI与实体深度融合成主线

  2025年,中国人工智能领域的发展重 心从技术层比拼,全 面转向与实体经济的深度融合与应用落地。根据国家数据局等机构的报告,数据标注正借助大模型走向自主化,垂类模型在制造、医疗等领域规模化部署。与此同时,大模型训练因跨域混训技术的突破而降低成本与门槛,以“具身智能”为代表的AI新形态则开启了物理世界交互的新篇章。  一、数据标注:迈向“大模型驱动”的自主化智能服务  传统依赖密集人力的数据标注模式,在2025年被彻底重塑。核心驱动力是大模型与智能体技术的结合,实现了从“人工标注”向“自主标注服务”的范式转移。  国家数据局公布的数据标注优秀案例显示,北京数据向量科技有限公司已构建出“大模型驱动的数据自主标注智能服务”。该服务利用垂类智能体和检索增强生成(RAG)技术,为政府产业经济数据构建自动标注体系,将标注准确率提升至97%以上。一项原本需要30人数月完成的任务,现仅需5人辅助即可在2个月内完成,效率提升显著。  在农业等特定垂直领域,自动化标注方案同样取得突破。一项针对家禽养殖的AI研究显示,通过结合半监督模型、主动学习和“提示-检测”范式,开发的自动标注框架在鸡群检测中实现了99%以上的召回率,并将标注时间相比纯人工方式减少了超过80%。这为AI在样本稀缺、数据持续产生的场景中快速落地提供了可行路径。  二、大模型训练:“跨域混训”破解算力瓶颈,架构创新探索新路径  随着模型参数规模增长,算力成本与集群效能成为制约发展的关键。2025年,中国在训练基础设施和底层架构上均取得重要突破。  上海人工智能实验室于7月发布了“DeepLink超大规模跨域混训技术方案”,并成功完成多个落地项目。该方案支持跨越1500公里(如上海至济南)连接多个智算中心,协同训练千亿参数大模型,等效算力利用率可达单集群的95%以上。这项突破意味着全国分散、异构的算力资源得以高 效盘活,为业界提供了一种高灵活、低成本的获取大算力的新途径。  在算法层面,为追求更高的能效和不同任务能力,非Transformer架构的探索成为年度亮点。中国科学院自动化研究所于9月发布了基于“内生复杂性”的类脑脉冲大模型“瞬悉1.0”。该模型借鉴大脑神经元工作机制,在多项任务中仅需约主流模型2%的数据量即可达到媲美主流模型的性能,尤其在处理法律、医学等超长序列任务时展现出潜在效率优势,为大模型发展提供了全新的技术路线选择。  三、垂类小模型研发:深入工业场景,成为“人工智能+”落地主力  2025年,“通用大模型+行业小模型”的混合模式成为企业智能化的主流选择。垂类模型凭借更高的精准度、更低的部署成本和更好的数据安全性,在工业生产一线快速渗透。  在广西柳州公布的“人工智能+制造”典型案例中,基于视觉大模型的“铝板带材表面缺陷在线识别预警系统”已投入应用,可对生产带材进行全域实时监测与智能预警。广州的“天空地一张图智能平台”则融合多源数据,在公共安全、智慧矿山等领域将效率提升超40%。  垂类模型同样在服务领域深化应用。例如,广州某医院的生殖中心人工智能客服,通过AIGC与自然语言处理技术,实现了98.5%的问答准确率与24小时服务。柳州康云互联科技有限公司开发的“多模态生物信号处理检测模型”,已可通过手机进行多项健康监测,并进入共建实验室阶段。  四、前沿动态聚焦:智能体与具身智能引 领“AI伙伴时代”  行业共识认为,AI正从解决单一任务的“工具时代”迈向能够自主规划执行的“伙伴时代”。智能体(Agent)和具身智能(Embodied AI)是这一转变的核心载体。  根据《人工智能前沿技术趋势报告2025》,智能体正推动AI从“语言智能”向解决实际行业难题的“业务能手”转变。以智能体为核心的新型软件快速涌现,并开始重塑操作系统与人机交互模式。例如,广西汽车集团的“车易慧智能体管理平台”即致力于解决汽车行业的管理标准困境。  2025年,连接视觉、语言与动作的VLA模型成为年度技术亮点,推动机器人复杂技能突飞猛进。行业标志性事件是,优必选工业人形机器人Walker S2在2025年启动量产与交付,首 批数百台已投入汽车制造、智慧物流等一线,预期全年交付量超500台。同时,国内AI大模型公司也已开始采购人形机器人并进行整合开发,标志着“大脑”(AI模型)与“身体”(机器人本体)的融合进入实质商业阶段。  五、行业生态建设:倡导健康发展,数据治理成“必修课”  在技术狂飙突进的同时,产业生态的健康与可持续性受到空 前关注。  4月,中国人工智能产业发展联盟汇集产学研多方力量,发布《协力推进“人工智能+”行动促进产业健康发展的倡议》,明确提出提升创新能力、推动开源开放、尊重知识产权、守护数据安全等八项倡议,呼吁共同抵制恶意竞争和无序内卷。  随着AI应用深入,高质量数据成为核心瓶颈。广州市工信局指出,数据治理已从“选修课”变为“必修课”。DCMM(数据管理能力成熟度模型)作为国家标准的贯标工作急剧增长,2024年广州获得三级以上认证的单位数量全国第 一,反映出产业界正系统化构建数据管理能力,为AI赋能夯实基础。  2025年的中国人工智能产业画卷清晰地揭示,技术突破的价值最终由产业落地的深度与广度来定义。从虚拟世界的智能体到物理世界的机器人,从分散算力的整合到行业知识的注入,AI正在拆除技术与应用之间的壁垒。可以预见,2026年,这场以“深度融合”和“价值闭环”为核心特征的变革将继续深化,真正推动“人工智能+”成为千行百业转型升级的新质生产力。

《人工智能前沿技术趋势报告2025》发布

  当前,全球人工智能呈现多技术路径并进、加速融合创新的发展态势。智能算力、基础大模型、智能体、具身智能、AI for Science等各领域创新活跃,人工智能技术前沿走向广受各界关注。在12月7日举办的2025年大湾区科学论坛人工智能分论坛上,中国科学技术信息研究所发布《人工智能前沿技术趋势报告2025》,来自清华大学、北京航空航天大学、北京理工大学、北京邮电大学、西安交通大学等高校,中国科学院自动化所、北京智源人工智能研究院、上海人工智能实验室等科研机构,以及华为、科大讯飞等领军企业的专家参与了报告研究。报告回顾2025年全球人工智能前沿领域主要技术进步及亮点成效,并展望了未来技术走向及前沿发展趋势。  报告认为,2025年大模型复杂推理和多模态交互能力在全球各领 先团队的激烈比拼中不断推高,并在解决数学、编程等挑战性任务中展现前 所未有的高阶认知水平。伴随大模型智能涌现红利,幻觉问题仍在制约场景落地。2025年各领 先模型幻觉抑制取得明显成效,包括训练数据层面的源头抑制、模型层面的认知对齐以及系统层面的检索知识增强。未来将由增强向内生、由数字向物理不断创新方法,在不减弱模型创造力的同时,进一步提升人工智能可靠可信水平。  报告观察发现,相对于前两年大模型一枝独秀,2025年更多人工智能新形态开始走上创新前沿,接力创新。智能体推动人工智能从“语言智能”向解决行业难题的“业务能手”转变,空间智能将人工智能感知推理能力从一维语言、二维图像拓展到三维空间,具身智能大、小脑与本体协同进步,开始引 领人工智能从数字智能迈向更加广阔的物理实体智能。  报告分析认为,智能芯片持续创新迭代以及智能算力规模持续扩大正在为人工智能技术创新与产业化提供强力支撑。2025年智能算力在体系结构方面创新活跃,高速光互连、超节点等前沿技术加速十万卡以上大规模算力集群构建,算力网、空天算力的快速发展将继续拓展分布式协同计算新格局。  2025年,强化学习和数据生成技术在人工智能创新中变得越来越举足轻重。强化学习在大模型、智能体研发各环节发力,将人工智能自主学习和行为能力推上新高度;基于机理和物理规律的生成数据,在具身智能、AI for Science等领域的样本稀缺任务中加速模型算法进化成熟。  报告观察发现,2025年前瞻性探索研究也亮点纷呈。2025年通专融合的实现多路径并进探索,发掘现有能力向通用型人工智能不断迈进,成效显著。很多团队开始致力于重塑智能生成底层逻辑,神经符号混合智能、世界模型初见端倪,构建因果建模与通用推理引擎;经验学习为突破当前灾难性遗忘、泛化不足等能力瓶颈,探索持续自主学习新范式。  报告通过分析各前沿细分领域进展发现,2025年一系列关键趋势正引 领人工智能技术的突破与变革。  在智能算力领域,高带宽内存、新型芯片架构、制程工艺微缩和Chiplet等技术创新活跃,持续激发智能芯片算力潜能。除了芯片自身进步,模型与芯片更加深度的软硬协同,系统级优化有望持续驱动智能算力能效升级。异地异构算力资源协同计算迈出重要步伐,人工智能正在加速智能芯片设计、调度与运维全链条智能化。  在大模型领域,尽管预训练规模定律显现边际效益递减迹象,但后训练技术的快速崛起推动大模型能力进一步摸高。知识蒸馏、量化技术加速推理模型轻量化,拓展大模型落地空间。未来更高 效的多模态统一框架和训练算法将持续提升模型智能密度和认知水平,规模定律从预训练向多阶段拓展,进一步推高大模型技术路线的能力边界。  在智能体领域,思维链显著增强了智能体的推理与规划能力,以智能体为核心的新型软件快速涌现,多智能体架构和几项关键通信协议的突破性进展,打开工具使用和智能体协作空间,为智能体加速产品创新和生态构建奠定基础。展望未来,智能体将不断增强自学习与自进化能力,推动操作系统与人机交互模式变革,并从独立任务执行迈向大规模智能体互联网。  在具身智能领域,2025年机器人复杂运动技能和平衡控制能力突飞猛进,VLA视觉语言动作模型成为年度新亮点,打通感知到行动闭环,初步显现具身大模型雏形。未来,仿生感知的进步将进一步提升机器人精细操作和空间协作能力,空间智能的三维感知推理以及世界模型的因果机理能力正在搭建具身大脑核心,推动具身智能与真实世界交互,跨平台跨机体的通用具身基座大模型将加速具身智能规模化落地。  科学研究领域成为人工智能前沿技术释放潜力和迭代成熟的沃土,大模型已经拥有的生成、预测与推理能力正在广泛迁移到科学任务上,在多项复杂任务中达到了人类顶 尖专家水平,智能体加速跨科研工作流的智能化贯通,未来自主实验室将成为科研范式 变革的新形态,科学智能机理模型的发展成熟,也将进一步促进世界模型及通用人工智能研发进程。  当前全球人工智能技术创新机遇丰富,报告希望通过对前沿技术进展和发展趋势的分析,为社会各界提供观察启发。  来源:科情智库

数据标注产业迈向智能化升级,从“基础服务”转向“AI协同伙伴”

  海量数据经过标注这一关键环节,正成为驱动人工智能实际应用的质燃料。  今年以来,在《“人工智能+”行动意见》及《关于促进数据标注产业高质量发展的实施意见》等政策引 领下,数据标注产业迎来快速发展。数据显示,全国已建成的7个数据标注基地服务了超过160个大模型,带动相关产值超83亿元。  数据标注作为将数据“原油”炼成“汽油”的关键工艺,正从劳动密集型产业向知识密集型产业转变,从单纯的“数据处理环节”升级为“AI开发全流程协同伙伴”。01政策筑基:国家战略引 领产业高质量发展  国家层面已明确将数据标注纳入人工智能发展的重要支撑体系。2025年8月,国务院印发的《关于深入实施“人工智能+”行动的意见》明确提出支持发展数据标注技术。  这一政策与2024年末国家数据局等5部门印发的《关于促进数据标注产业高质量发展的实施意见》形成合力,为产业发展指明方向。  国家数据局数字科技和基础设施司副司长李建国表示,数据标注是人工智能高质量数据集建设的关键环节,“经过标注的高质量数据能有效提升垂类大模型的专 业领域性能,加速人工智能赋能千行百业”。  在“央地一体”政策体系支持下,安徽合肥、四川成都等7个城市已率先开展数据标注基地建设。截至2025年上半年,这些基地已建设数据集524个,服务大模型163个。02技术革新:智能化标注破解行业瓶颈  面对传统标注“单次交付达标率不足50%”的痛点,头部企业正通过技术创新构建智能化解决方案。  人机协同成为主流工作模式。企业通过人工智能对未标注的数据进行预标注,数据标注员更多承担关键决策角色,通过实时纠错并反馈给算法,促进其自我优化。  福州数据集团打造的“AI初标—专家校准—模型迭代”三级体系,将单日标注工作量从人工数日压缩至10分钟,重 点领域准确率突破95%。  蚂蚁酷爱科技的“思维链标注”技术使金融场景大模型Benchmark提升5%至10%,在支付风控场景中拦截60亿条日均违规信息。03业态升级:从基础服务到AI协同伙伴  随着生成式AI、工业互联网等技术加速渗透,数据标注行业正突破传统服务边界。  数据标注已成为“AI开发全流程协同伙伴”。行业新业态正从被动执行向主动赋能转变。  “标注+大模型微调”的联动模式逐渐普及。部分企业不再局限于提供标注数据,还能基于标注结果为客户提供模型调优建议,形成“数据-标注-模型”的闭环。  市场需求的“场景化”与“定制化”趋势愈发明显。消费级AI应用推动“轻量标注”需求激增,要求分钟级响应。  而工业领域的AI质检、能源行业的设备故障预测等场景,则对标注提出“专 业知识+数据理解”的双重要求。04生态构建:标准、安全与人才协同发力  产业生态建设方面,标准化工作、安全保障与人才培养成为关键着力点。  2025年10月,中原数据标注开发者大会发布了首份《中原数据标注行业标准》,并成立了开发者联盟。联盟将通过“需求池+技术池+资金池”三池联动,推动20万+标注订单与开发者资源精准对接。  数据安全技术正成为行业核心竞争力。阿里牵头制定的数字水印国标解决AIGC版权难题,区块链存证渗透率预计年内达30%。  面对复合型人才短缺问题,平台智能化培训系统可缩短标注人员培训时长30%。校企合作成为培育高水平人才的重要途径。05未来趋势:“三高”特征引 领发展方向  根据中国信通院发布的《数据标注产业发展研究报告(2025年)》,数据标注产业正呈现出高技术含量、高知识密度、高价值应用的“三高”特征。  精细化、定制化、智能化成为行业演进的主要路径。  精细化标注已从早期的简单框选或分类,跃升为决定AI模型认知边界的关键。在自动驾驶、医疗影像等领域,标注的精细度直接影响到模型的性能。  定制化则成为服务商的核心竞争力。根据不同场景、模型和流程的需求,灵活配置标注方案,正成为打通AI落地“最 后一公里”的关键。  未来,随着“三高”特征凸显,数据标注将深度融入AI算力网络建设,行业规模年均复合增长率将超过20%。  数据标注产业不再只是人工智能产业链的底层环节,而是上升为主动定义AI能力、塑造AI认知的战略性过程。  随着技术不断迭代,数据标注将从一个被动的、劳动密集的“打标”环节,转变为驱动AI创新、决定AI高度的核心前沿。它不仅是模型训练的燃料,更是构建可信、可靠、可用AI系统的质量基石与效率引擎。

数据标注产业乘风起航加速发展

  集数据、模型、工具、场景于一体的医学影像智能数据标注平台,基于海量高质量医学影像标注数据,利用先验知识、针对人体解剖结构对大模型进行知识增强,构建医学影像分割大模型,使大模型“更懂人体解剖结构”。  大模型与AI标注工具帮助电商平台文字生成标注、图上文案抠图、AI视频打标,商品素材生成效率较人工提升千倍,内容制作成本降低超30%,破解了电商行业商品识别效率低、仓储分拣自动化不足、个性化推荐精准度差等痛点……  在人工智能产业风起云涌之际,数据标注产业也乘风起航,不断加速创新发展。  数据标注产业进入快速发展期  数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业。培育壮大数据标注产业对于提升数据供给质量,推动人工智能创新发展具有重要支撑作用。  去年年末,国家发展改革委等部门发布《关于促进数据标注产业高质量发展的实施意见》,提出到2027年,数据标注产业专 业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%。  目前,我国已建成四川成都、辽宁沈阳、安徽合肥、湖南长沙、海南海口、河北保定和山西大同7个数据标注基地,7个数据标注基地数据标注总规模达到17282TB,形成医疗、工业、教育等行业的高质量数据集335个,赋能121个国产人工智能大模型研发,引进和培育标注企业223家,标注从业人员达5.8万人,带动数据标注行业相关产值超过83亿元。  日前在2025数据安全发展大会上发布的《2025高质量数据集研究报告》显示,随着人工智能、大模型技术迭代,我国数据标注产业产值已突破80亿元,高质量数据建设进入规模化、规范化发展新阶段。  数据标注产业赋能效应显现  近日,国家数据局发布了一批数据标注优秀案例集,从助力人工智能、低空经济等新兴产业加快发展,到推动油气勘探、矿山巡检智能化转型,再到赋能基层治理和信息无障碍建设,数据标注产业正加速赋能千行百业转型发展。  为解决传统标注精度低、效率低、成本高、复杂目标识别难等问题,无人机影像数据标注采用深度学习算法、3D点云等标注技术,有效提升无人机数据标注的准确性、一致性与可用性,目前已用于近20个低空经济场景,年均标注数据近1万条,标注效率提升90%,成本下降60%,有效推动低空数据产业高质量发展。  针对矿山行业数据标注标准缺失、多模态数据标注成本高、海量数据价值释放困难等困境,通过构建矿山行业知识标签体系、多模态数据生成算法与合规校验模型等,实现标注效率提升30%,跨模态语义一致性提升20%,高质量数据复用率提升50%,将行业人工智能应用研发周期由3个月缩短至3周,赋能矿山行业实现高质量发展。  通过对各级各类诉求渠道数据的归口化管理,引入“数据清洗车间”“因果森林”等技术,解决传统数据标注效率低、精准性差等问题。打造人机协同的训练体系,日均处理数据6万余条,标注准确率达90%以上,人力成本降低30%,提升了基层治理的效率。  智能数据标注成为产业发展未来方向  人工智能作为新一轮科技革 命和产业革 命的核心驱动力,具有强大的“头雁”效应,而高质量的数据集是人工智能发展的基石,数据标注则是构建高质量数据集的关键环节。  近年来,随着人工智能技术的飞速发展,数据标注的需求也在不断增长,从图像到文本,从语音到视频,数据标注的类型和任务划分日益多样化,对数据标注的质量和规模的要求也不断提升。与此同时,数据存量小产量低、数据集质量良莠不齐、缺乏主流高价值数据引 领、数据利用效率低等问题仍然存在。  日前,由清华大学数字政府与治理研究院联合江苏省数字化协会发布的《智能数据标注产业发展观察报告》(以下简称“报告”)指出,数据标注产业涵盖了从数据采集、标注到应用的全过程,数据标注是人工智能模型训练的基础,数据标注产业不仅关乎人工智能技术的进步,更对数字经济、产业升级乃至社会生活的智能化转型具有深远意义。  数据标注产业通过标准化的数据处理流程,将原始数据转换为可供机器学习的高质量训练数据,其核心参与者包括数据标注企业、专 业技术团队以及经过系统培训的标注人员,而人工智能技术的快速发展,让数据标注产业逐步从劳动密集型向技术密集型转型,人工标注与人工智能标注正在深度融合。  报告指出,随着人工智能技术的不断发展,智能标注将成为未来数据标注产业的重要发展方向。它不仅能够满足大模型数据标注的需求,还能为复杂的人工智能模型提供高质量的数据支持,推动人工智能技术在各个领域的广泛应用和深度发展。(记者苏德悦)来源:人民邮电报

专家标注:AI 时代的新就业风口,人人皆可化身机器 “导师”

  当外卖骑手、网约车司机成为零工经济的代表性职业,人们开始探寻:下一个能覆盖广泛人群的线上职业方向,将在数字浪潮中如何成型?曾长期隐匿于技术幕后的数据标注行业,正以“专家型标注”的全新定位走进公众视野,悄然开启一场人与人工智能协同共生的就业变革。  传统依赖“人海战术”的数据标注模式,已难以匹配AI大模型的发展需求,未来行业核心竞争力将聚焦于“专家智慧”。这意味着,数据标注不再是简单的重复劳动,而是专 业知识的精准输出——医疗领域需医生参与影像数据标注,法律领域需专 业人士梳理文书逻辑,教育领域需教师优化场景语料,专 业知识正成为AI训练过程中最关键的“稀缺燃料”。  在不少人印象中,数据标注仍停留在“用框选工具标出图像中的猫狗、车辆”的基础阶段。但随着AI大模型向医疗、法律、工业等垂直领域深度渗透,标注工作早已完成“质的升维”:  早期阶段:以拉框、分类为核心,依赖大量机械重复操作;  大模型阶段:需深度理解复杂场景、精准判断用户意图,甚至梳理并标注逻辑链条;  未来趋势:领域专家将基于专 业知识开展“深度标注”,更将参与到AI认知逻辑的设计环节。  AI的智能化程度越高,对人类知识输入的深度要求也随之提升。这种“教AI成长”的需求,正催生出更灵活、更具包容性的工作新形态——未来,只要具备专 业知识,任何人都有可能成为AI的“导师”。这种新形态的优势十分显著:地域限 制被彻底打破,偏远地区的医学专家也能为一线城市的医疗数据提供标注支持;时间安排更具弹性,专家可利用碎片化时间参与标注,将积累的专 业经验转化为额外收入;知识本身成为“可流通资产”,原本封闭的专 业经验,将转化为可反复复用的数字资源。在这种模式下,“知识工作者”与AI的关系不再是“相互替代”,而是“协同共生”。  专家标注的崛起并非偶然,而是两大不可逆行业趋势共同推动的结果:其一,AI大模型进入“场景落地关键期”。如今的AI已超越单纯的聊天互动功能,开始深度融入医疗诊断、法律风控、工业质检等严肃领域。这些领域对数据准确性、专 业性要求极高,容不得“非专 业标注”的误差,必须由具备领域知识的专 业人士把控标注质量;其二,数据标注技术自身实现“智能化升级”。自动化标注平台已能高 效完成拉框、分类等基础工作,将人类专家从繁琐的机械劳动中解放出来,使其可专注于复杂案例判断、边界问题界定等“高价值环节”——人机协同的标注模式,已具备大规模落地的技术条件。  与此同时,一场围绕数据生态的“基础设施建设”正在中国稳步推进。当高质量数据生态逐步完善,只要拥有专 业知识,普通人就能以“知识标注者”的身份加入AI训练网络。而这种“动员人类智慧构建人机协作体系”的能力,或许正是中国在AI时代确立竞争优势的关键——不仅要实现技术层面的领 先,更要让千万领域专家成为AI发展的“同行者”。  随着AI不断向通用智能靠近,其成长越来越依赖人类提供的深度、结构化知识输入。未来的AI竞争,不仅是算法先进性与算力规模的比拼,更是“能否聚集更多领域专家参与AI训练”的较量。这场人与机器共舞的长跑才刚刚起步,而属于“专家标注”的时代,正随着数据生态的完善与技术的迭代加速到来。

数据标注,从“劳动密集型”到“价值赋能型”:AI基石产业的升级之路

  曾被视为人工智能产业链最 底端的“数字蓝领”工作——数据标注,正伴随着大模型浪潮的席卷而发生根本性的身份蜕变。本文从近期密集出台的行业政策与市场动态入手,深入剖析数据标注产业如何从一种劳动密集型工序,逐步升级为赋能AI模型、驱动产业智能化的价值赋能型基石产业。一、角色的颠覆:从“体力活”到模型“定义者”  过去,数据标注常被外界简单理解为在图片上画框、在文本上分类的重复性劳动。然而,随着大模型成为技术核心,数据的角色发生了本质变化。  战略资源属性凸显:高质量、场景化的数据已不再是模型的“原料”,而是决定模型性能上限和落地能力的“战略资源”。一个在通用数据上表现优异的大模型,若没有经过特定行业精准数据的微调,在医疗诊断、法律咨询等专 业领域几乎无法实用。因此,数据标注的过程,实质上是在为模型注入行业知识和业务逻辑,它直接定义了模型的能力边界和认知水平。  价值链条前置与上移:数据标注团队不再被动接受任务,而是需要前置参与到模型的设计与规划阶段。他们需要与算法工程师、业务专家共同定义标注规则,理解何为“高质量”数据。这种从“后端执行”到“前端定义”的转变,标志着其价值在整个AI项目链条中的显著上移。二、技术的驱动:人机协同的“飞轮效应”  产业升级的根本动力来自于技术的迭代,尤其是AI开始反哺数据标注自身。  “飞轮效应”的形成:当前最 先进的标注模式是构建一个人机协同的闭环:首先使用初始数据训练一个初版模型,这个模型可以对新的海量数据进行预标注,然后由标注人员对预标注结果进行修正和审核。修正后的高质量数据又被反馈给模型,用于下一次训练,使其变得更聪明。如此循环,形成一个越转越快的效率与质量“飞轮”。  技术工具的具体应用:  自动化标注:利用已训练的模型对图像、文本进行自动分割、识别和分类,将人工从80%以上的简单、重复性工作中解放出来。  主动学习:模型能够自主识别出哪些是它“不确定”或“未曾见过”的边界案例、困难样本,并主动提请人工进行标注。这使得人力资源能够聚焦于最 具有挑战性、最能提升模型性能的关键数据上。  大模型即标注工具:涌现出基于大语言模型的标注工具,能够通过复杂的提示词工程,完成信息抽取、情感分析、内容摘要等任务,极大地提升了复杂认知任务的标注效率。三、产业的演进:政策引 领下的规范化与集群化  为适应这一趋势,国家和地方层面正通过政策和标准,积极引导产业走向健康、高  效的发展道路。  从“小、散、乱”到“规模化、标准化”:早期数据标注作坊林立,标准不一,质量参差。如今,国家数据标注专 业委员会的成立以及《数据标注产业人才岗位能力要求》等标准的发布,为产业建立了统一的“度量衡”。江苏省发布的《发展数据标注产业建设高质量数据集实施方案》更是一个明确信号,旨在通过打造产业基地、培育重 点企业、建设高质量数据集,实现产业的规模效应和品牌效应。  构建产业生态与公共底座:各地兴建的AI产业园和数据产业基地,其目的不再是简单地聚集劳动力,而是为了形成“技术攻关—数据支撑—场景落地”的闭环生态。例如,太仓的AI数据产业基地,旨在成为长三角地区AI产业的公共技术底座,为金融、自动驾驶、智能家居等多个领域的大模型提供“燃料”,从而赋能千行百业。四、未来的挑战:迈向高质量之路的关键瓶颈  产业升级的道路上,依然面临着诸多严峻的挑战。  复杂场景下的标准统一:在简单的“猫狗分类”上达成标准很容易,但在自动驾驶中如何统一标注“即将发生碰撞的风险”?在医疗AI中如何界定不同医生之间存在差异的病灶?这些复杂、主观性强的场景,其标注标准的制定与统一是世 界 级难题。  数据安全与隐私保护的紧箍咒:随着标注数据涉及越来越多的个人隐私、商业机密甚至国 家安全,如何在确保数据安全与合法合规的前提下进行高 效的标注和利用,是整个行业必须跨越的红线。联邦学习、隐私计算等技术与标注流程的结合将是重要方向。  高素质“AI训练师”的人才荒:产业升级最核心的瓶颈是人才。未来急需的不再是简单的标注员,而是懂算法、懂业务、能制定标注标准、能管理标注流程、能理解AI伦 理的复合型人才——“AI训练师”。建立相应的人才培养和认证体系,是产业可持续发展的重中之重。  对“数据伦 理”的重视:有偏见的数据会训练出有偏见的模型。如何在标注环节就识别和剔除数据中存在的性别、种族、地域等偏见,确保AI的公平公正,是价值赋能型数据产业必须承担的社会责任。  数据标注产业的这场自我革 命,清晰地印证了“水涨船高”的道理。当人工智能的“船只”攀升至大模型的新高度时,作为“水位”的数据,其价值、技术内涵和产业地位也必然随之提升。它正撕下“劳动密集型”的旧标签,以“价值赋能型”新战略产业的姿态,夯实整个人工智能时代最坚实的基石。

高质量数据建设成效显著 多行业迎来智能化变革新机遇

  随着数字经济深入发展,高质量数据要素已成为推动产业升级和科技创新的核心驱动力。近期,从医疗健康到能源电力,从金融服务到农业生产,多个领域的数据基础设施建设取得突破性进展,展现出巨大的应用价值和发展潜力。•数据赋能公共卫生,筑牢健康中国基石  在疾控领域,我国通过数据元件基础设施创新实践,成功破解了全国免疫规划中跨平台、跨层级数据交互难题。该系统将疫苗生产、流通和接种数据按"最小可用"原则解构为标准化单元,建立低延迟、高安全的数据通道,支持"一场景一授权"的精细管控,实现了疫苗数据的跨域安全流转,为构建"跨省共通、公众共享、跨域共治"的协同生态奠定坚实基础。•生物医学数据突破,AI驱动精准医疗跃进  国家生物信息中心建立的DNA甲基化数据集堪称典范,涵盖近300类人群复杂特征、包含超18万标准化样本。该数据集通过多源异构数据实时获取与标准化处理,有效支撑健康监测、疾病早诊、精准治疗等多场景AI模型训练。尤为突出的是,基于该数据集训练的模型在数据缺失情况下仍保持稳定性能,大幅降低医疗检测成本,展现了高质量数据在生命科学领域的巨大潜力。•能源电力智能化,数据飞轮效应显现  南方电网构建的负荷预测数据集规模超300TB,覆盖南方5省区60余个地市,通过"数据治理—数据增强—数据飞轮—赛马竞技"的方法 论体系,成功实现"机器代人"。该案例中,数据飞轮技术将日均增量超20GB的数据自动加工成新数据集,持续迭代训练AI模型,在极端天气、节假日等稀缺场景下的负荷预测准确率较传统模式提升3-5个百分点,体现了数据要素的持续增值特性。•跨行业数据融合,构建可信共享生态  上海探索的"区块链+隐私保护计算"数据基础设施,依托多层级跨链架构打造央地互联数据共享的可信空间,促进证券行业与政务数据双向赋能。这一创新不仅解决了数据孤岛问题,更建立了完善的监管机制,为金融科技创新提供了安全可靠的数据环境。•传统产业数字化转型,数据驱动效能提升  在建筑行业,中建集团构建的供应链高质量数据集整合100万供应商信息,形成10万条标注样本,推动供应商推荐准确度提升至84%。石油化工领域通过智能化数据清洗标注工具链,实现复杂表格识别准确率85.71%,支撑1600余个智能应用在线开发。农业领域则通过多模态数据集建设,支撑采摘及分级装备创制,节省劳动力10%以上。•生态保护与防灾减灾,数据精准赋能  无人机森林防火系统的成功应用尤为引人注目。通过构建多源多模态高质量数据集,该系统实现林火监测精度≥99%、定位误差<1m的卓 越性能,在2022年北京冬  奥 会核心赛区预警早期火情13次,实现防火"零失误",目前已部署全国20余省市,累计监测面积超100万亩。•海洋科学研究,数据提升国际话语权  全球海洋环境变化关键参数数据集的建立,打破了国外机构在海洋观测数据领域的垄断地位。研发的8套数据产品被IPCC等45份国际权威报告引用,显著提升了我国在海洋气候领域的国际影响力。发展前景广阔,数据要素价值持续释放  这些典型案例充分证明,高质量数据建设正在各个领域产生显著成效。随着技术的不断进步和应用场景的持续拓展,数据要素的价值释放才刚刚开始。未来,随着数据标准化体系的完善、数据安全技术的突破以及数据流通机制的健全,数据要素必将在更多领域发挥关键作用,为经济高质量发展注入强劲动力。  值得注意的是,数据基础设施建设不仅带来效率提升和成本降低,更催生了全新的商业模式和服务形态。从"数据飞轮"到"赛马机制",从"产学研协同"到"生态共建",创新机制正在不断涌现,推动数据要素价值呈指数级增长。在数字经济时代,高质量数据建设已成为提升国家竞争力的战略制高点,发展空间巨大,前景不可限量。  数据来源:国家数据局

5项大模型行业标准发布 将加速技术创新与应用落地

  近日,由中国信息通信研究院牵头研制的《大规模预训练模型技术和应用评估方法》5项行业标准获批发布。  该系列标准覆盖大模型的开发、管理、运营等多个阶段,主要包括模型开发、能力评估、应用成效、运营管理和可信要求5部分,为大模型技术和产品的研发测试及应用推广提供了重要参考。该系列标准的发布与实施,将进一步健全大模型标准体系,加速大模型技术创新与应用落地,为"人工智能﹢"行动的深入推进提供坚实支撑。  1《大规模预训练模型技术和应用评估方法第1部分:模型开发》规定了大模型在开发过程中的能力要求,旨在评估数据管理、模型训练、模型管理和模型部署四大维度的规范性与成熟度,涵盖数据获取与处理、训练方式与框架、版本回溯、模型微调与转换等关键能力。  2《大规模预训练模型技术和应用评估方法第2部分:模型能力》规定了大模型的技术和服务能力要求,旨在通过智能语义、视觉、语音及跨模态等多方面任务评估大模型的技术能力,以及大模型在服务稳定性、鲁棒性、响应时间、开放程度和并发性等方面的服务成熟度。  3《大规模预训练模型技术和应用评估方法第3部分:模型应用》规定了大模型在应用阶段的能力要求,旨在评估工程路径、运营能力、管理能力和服务能力等方面的成熟度,包括大模型的知识库管理、工具链完备性及应用服务的安全可靠性。  4《大规模预训练模型技术和应用评估方法第4部分:可信要求》规定了大模型全生命周期的可信能力要求,旨在评估技术层面的数据可信、算法模型可信、基础设施可信能力,以及业务层面的应用可控性和业务可信度。  5《大规模预训练模型技术和应用评估方法第5部分:模型运营》规定了大模型工程化落地和运营阶段的能力要求,旨在评估数据工程、模型调优、模型交付、服务运营以及平台资源管理调度等方面的能力。  据介绍,近年来,中国信息通信研究院积极践行标准引 领人工智能产业高质量发展的目标,深入开展大模型关键技术及产业应用研究工作,旨在通过建立一套科学、系统、全 面的大模型评估体系,有效引导大模型产业的健康有序发展,推动技术与应用的深度融合。(王彦涵记者何可)转自:中国产业经济信息网