2025年全球数据标注行业报告发布:AI自动化占比超75%,但人类标注员需求不降反增

  数据标注在推动数据资源汇聚、提升数据质量、盘活数据要素价值中发挥着作用。作为人工智能算法有效运行的环节,数据标注能够把需要机器识别和分辨的数据贴上标签,通过让计算机不断学习这些数据的特征,使其最终实现自主识别,从而让人工智能在各个领域发挥更大的作用。最 新发布的《2025全球数据标注与AI训练数据白皮书》显示,随着大模型和多模态AI的爆发式增长,数据标注行业规模突破180亿美元,其中AI自动化标注技术已承担超过75%的基础标注任务。然而,令人意外的是,全球数据标注员岗位数量相比2022年增长了35%,较2023年增长45%。驱动因素除自动驾驶、医疗影像等传统领域外,多模态大模型(如视频动作识别、3D点云标注)和具身智能需求成为新增长点。行业正呈现“AI替代与人力需求双增长”的独特现象。AI标注技术进入“精准化”时代,但仍依赖人类校验  报告指出,2025年的AI标注系统已能处理90%以上的结构化数据标注(如图像分类、语音转写),但在复杂场景——如医疗影像的病灶标注、法律合同的语义 解析、情感化交互数据标注等领域,AI的准确率仍不足85%,必须依赖人类专家复核。  “AI可以一天标注100万张图片,但它可能无法理解某张图片在特定文化背景下的隐含意义。”全球知名AI数据服务商Labelify的CTO张岩表示,“人类标注员正从‘标注工人’转变为‘AI训练师’,负责关键数据的质量把控。”  然而,简单图像分类、语音转写等低附加值任务正被AI预标注工具取代。行业调研显示,25年约有60%的基础标注需求由“AI+人工复核”完成,纯人工标注岗位减少30%,但复杂场景标注岗位需求反增200%。新兴需求爆发:具身智能、AI伴侣催生新型标注岗位  随着具身智能机器人、AI情感伴侣等技术的商业化,市场对“多模态交互数据”的标注需求激增。例如,训练家庭机器人理解人类手势、语调变化,或让AI伴侣识别用户的情绪波动,都需要大量精细化标注。这类任务报酬极高,但要求具备心理学、语言学等跨学科知识。  目前国内数据标注员总数超120万人,其中约7成为兼职或众包模式。河南、贵州等传统标注基地仍聚集大量全职人员;而新兴的“高精度标注师”通过跨境平台承接海外订单。“现在更缺能看懂医学CT片或理解法律条款的标注员。”北京某AI公司数据总监表示。记者发现,某招聘平台25年7月发布的标注岗位中,要求具备医疗、金融、小语种等专 业背景的占比达43%,较去年同期翻倍。  行业案例:  •日本某AI公司为开发“老年陪护机器人”,招募1000名标注员专门标注老年人含糊语音和微表情。  •中国初创企业“深维智能”开出年薪60万招聘“AI伦 理标注专家”,负责审核涉及道德争议的数据。政策动态:数据标注师纳入国家职业目录,认证体系启动  2025年7月,中国人力资源和社会保障部正式将“AI数据标注师”列为新职业,并推出职业技能等级认证。欧盟同期发布《AI数据质量法案》,要求所有用于公共领域的AI训练数据必须通过认证标注员审核。国内《数据要素X行动计划》也提出标注质量追溯要求。头部企业如Scale AI、百度众测已开始推行“标注员技能认证体系”,部分职业院校甚至开设“智能数据标注”专 业课程。  与此同时,元宇宙与空间计算兴起催生新业态。成都某工作室负责人告诉记者:“我们团队最近承接了某AR眼镜项目的3D环境标注,需在点云数据中标记上千种家居物品的交互属性,这类订单溢价率超过普通任务3倍。”未来展望:从“人力工厂”到“认知伙伴”  专家指出,数据标注行业正在分化:低端任务加速自动化,而高端标注向“AI训练协同者”演进。标注员未来可能直接参与提示词优化或模型反馈调优。专家预测,到2028年,基础标注将完全自动化,但全球至少需要500万名‘高阶标注员’来处理AI无法解决的‘长尾问题’。如何通过职业技能升级应对这场变革,将成为从业者与企业的共同课题。

数据标注产业跃迁:从“人力工厂”到“智能引擎”

  在数字经济蓬勃发展的当下,数据标注作为构建高质量数据集的关键环节,重要性日益凸显。  据相关报告显示,随着人工智能大模型技术的迭代,我国数据标注产业产值已突破80亿元,高质量数据建设步入规模化、规范化发展新阶段。  国家发展改革委等部门发布的《关于促进数据标注产业高质量发展的实施意见》(以下简称《意见》),为产业发展指明方向。这也推动了省级层面纷纷响应,积极布局数据标注产业。《中国经营报》记者注意到,国家数据局近期发布多个省市数据标注优秀案例,济宁市融发数字产业园《产教融合创新实践赋能数据标注人才培养》中就涉及了当地数据标注产业发展的探索创新。  济宁市融发数字产业园负责人刘朋接受记者采访时表示:“数据标注工作具有标准化、规模大、技术强、国际化的特点,随着人工智能的发展、应用场景的深入、通用大模型的普及商用,数据标注推进人工智能应用的作用越发突显。当前人工智能发展迅速,数据标注产业将对促进数字经济高质量发展具有重大意义。”“AI预标注+大模型协同”破解传统难题  传统的数据标注产业属于劳动密集型产业,面临着人工成本高、效率低、质量难以保证等难题。  济宁市数据标注产业通过采用“AI预标注+大模型协同”的创新模式,实现了技术的突破。  据介绍,济宁市融发数字产业园依托网易FreeAL框架研发智能预标注系统,并融合京东言犀大模型技术,成功实现80%基础数据的自动化处理。这一技术的应用,使得标注效率大幅提升,较以往提高50%,成本降低40%,有效推动了数据标注产业从劳动密集型向技术密集型的转型。  从技术层面来看,这种模式解决了过去数据标注精度低、效率低、复杂目标识别难等问题。刘朋告诉记者,“AI预标注+大模型协同”能够利用深度学习算法对自动驾驶、医疗影像等数据标注精度要求高的领域进行更精准的分析和标注。例如,网易有灵众包平台采用人机协同的方式,将标注任务分配给大量非专 业标注员,同时利用AI技术进行预标注和质检,确保标注结果的高质量。  官方信息显示,国家数据局目前已构建起医疗、工业、教育等行业的335个高质量数据集,数据标注总规模达到17282TB,赋能121个国产人工智能大模型研发,引进和培育标注企业223家,标注从业人员达5.8万。量化人才效能,填补专 业人才缺口  国家发展改革委等部门发布的《关于促进数据标注产业高质量发展的实施意见》提出:“要加强标注人才队伍建设。深化产学研融合,鼓励行业联盟、高校、科研院所与企业建立长期合作机制,加大数据标注实践项目、继续教育和公共实训基地建设合作力度。”  据了解,济宁市融发数字产业园以“双园融通·双境融合”模式为核心,推动产教融合,通过与济宁市内外20余家院校、80余家上下游企业构建起数据流通、加工、应用于一体的产学研合作体系,已培养3000余名标注人才。  刘朋表示,在融发数字产业园,学生在校学习2年理论知识后,进入产业园进行2年实践学习。产业园将企业项目拆解为教学模块,提供真实的企业数据标注项目,以企业真实项目数据为基础,将真实项目与实际作业场景引入教学,构建了“知识层—实训层—实战层—呈现层”的金字塔式能力成长路径。  多位产业园学员向记者表示,在学校学习时,更多是从理论层面了解人工智能的基础工作,在做项目时才知道数据标注要精确到每一个物体的类别、位置、运动方向和速度等诸多细节,而且数据标注规则会随着不同的应用场景和算法需求不断调整,不再是机械性的工作,而是需要深度理解业务需求、具备严谨逻辑思维和高度专注力的专 业任务,企业导师完全从实际项目出发,大大缩短了学生适应工作岗位的时间。从“基础服务商”到“数据价值孵化器”  根据山东省《关于加快人工智能赋能重 点领域高质量发展的推进方案》,明确到2027年,培育20个服务垂直行业的基础级人工智能大模型,打造50个以上可复制推广的标杆应用场景,推出100个以上融合示范典型案例。  在国家大力推动数字经济发展、培育数据标注产业的背景下,济宁相关产业从技术创新到产业升级的全 面价值跃迁的实践,也给数据标注产业发展带来借鉴。  2024年,我国开发或应用人工智能的企业数量同比增长36%,高质量数据集数量同比增长27.4%,有力支撑人工智能训练和应用。利用大模型的数据技术企业、数据应用企业同比分别增长57.21%、37.14%,数据标注正促进人工智能加速发展。  公开信息显示,济宁市先后出台《济宁市制造业数字赋能三年行动计划》《关于大力推动工业互联网建设三年行动计划》《关于深化改革创新促进数字经济高质量发展的若干意见》等文件,为数字经济等新兴产业的发展提供一系列优惠政策和专项资金支持,为数据标注产业的发展创造了良好的外部环境。  近年来,济宁市数据标注产业围绕无人驾驶、印刷质检、图形标注、标注工具研发等积极开展数据标注业务,在自动驾驶、医疗影像、生产加工、经营管理、教育培训等领域实现了数据标注的应用示范。  据刘朋介绍,产业园引入腾讯平台技术与上下游企业落地数据标注项目,未来规划形成“万人、千行、百校、多基地”的数据标注产业,上游通过整合实现数据的集中清洗与预处理,下游为自动驾驶、智慧医疗等领域提供高精度的数据标注服务,既为数据标注产业培育人才,又助力人工智能产业快速发展,逐步从传统“基础服务商”升级为“数据价值孵化器”。

2025年全球数据标注行业报告发布:AI自动化占比超75%,但人类标注员需求不降反增

  数据标注在推动数据资源汇聚、提升数据质量、盘活数据要素价值中发挥着作用。作为人工智能算法有效运行的环节,数据标注能够把需要机器识别和分辨的数据贴上标签,通过让计算机不断学习这些数据的特征,使其最终实现自主识别,从而让人工智能在各个领域发挥更大的作用。最 新发布的《2025全球数据标注与AI训练数据白皮书》显示,随着大模型和多模态AI的爆发式增长,数据标注行业规模突破180亿美元,其中AI自动化标注技术已承担超过75%的基础标注任务。然而,令人意外的是,全球数据标注员岗位数量相比2022年增长了35%,较2023年增长45%。驱动因素除自动驾驶、医疗影像等传统领域外,多模态大模型(如视频动作识别、3D点云标注)和具身智能需求成为新增长点。行业正呈现“AI替代与人力需求双增长”的独特现象。AI标注技术进入“精准化”时代,但仍依赖人类校验  报告指出,2025年的AI标注系统已能处理90%以上的结构化数据标注(如图像分类、语音转写),但在复杂场景——如医疗影像的病灶标注、法律合同的语义 解析、情感化交互数据标注等领域,AI的准确率仍不足85%,必须依赖人类专家复核。  “AI可以一天标注100万张图片,但它可能无法理解某张图片在特定文化背景下的隐含意义。”全球知名AI数据服务商Labelify的CTO张岩表示,“人类标注员正从‘标注工人’转变为‘AI训练师’,负责关键数据的质量把控。”  然而,简单图像分类、语音转写等低附加值任务正被AI预标注工具取代。行业调研显示,25年约有60%的基础标注需求由“AI+人工复核”完成,纯人工标注岗位减少30%,但复杂场景标注岗位需求反增200%。新兴需求爆发:具身智能、AI伴侣催生新型标注岗位  随着具身智能机器人、AI情感伴侣等技术的商业化,市场对“多模态交互数据”的标注需求激增。例如,训练家庭机器人理解人类手势、语调变化,或让AI伴侣识别用户的情绪波动,都需要大量精细化标注。这类任务报酬极高,但要求具备心理学、语言学等跨学科知识。  目前国内数据标注员总数超120万人,其中约7成为兼职或众包模式。河南、贵州等传统标注基地仍聚集大量全职人员;而新兴的“高精度标注师”通过跨境平台承接海外订单。“现在更缺能看懂医学CT片或理解法律条款的标注员。”北京某AI公司数据总监表示。记者发现,某招聘平台25年7月发布的标注岗位中,要求具备医疗、金融、小语种等专 业背景的占比达43%,较去年同期翻倍。  行业案例:  •日本某AI公司为开发“老年陪护机器人”,招募1000名标注员专门标注老年人含糊语音和微表情。  •中国初创企业“深维智能”开出年薪60万招聘“AI伦 理标注专家”,负责审核涉及道德争议的数据。政策动态:数据标注师纳入国家职业目录,认证体系启动  2025年7月,中国人力资源和社会保障部正式将“AI数据标注师”列为新职业,并推出职业技能等级认证。欧盟同期发布《AI数据质量法案》,要求所有用于公共领域的AI训练数据必须通过认证标注员审核。国内《数据要素X行动计划》也提出标注质量追溯要求。头部企业如Scale AI、百度众测已开始推行“标注员技能认证体系”,部分职业院校甚至开设“智能数据标注”专 业课程。  与此同时,元宇宙与空间计算兴起催生新业态。成都某工作室负责人告诉记者:“我们团队最近承接了某AR眼镜项目的3D环境标注,需在点云数据中标记上千种家居物品的交互属性,这类订单溢价率超过普通任务3倍。”未来展望:从“人力工厂”到“认知伙伴”  专家指出,数据标注行业正在分化:低端任务加速自动化,而高端标注向“AI训练协同者”演进。标注员未来可能直接参与提示词优化或模型反馈调优。专家预测,到2028年,基础标注将完全自动化,但全球至少需要500万名‘高阶标注员’来处理AI无法解决的‘长尾问题’。如何通过职业技能升级应对这场变革,将成为从业者与企业的共同课题。

数据标注产业跃迁:从“人力工厂”到“智能引擎”

  在数字经济蓬勃发展的当下,数据标注作为构建高质量数据集的关键环节,重要性日益凸显。  据相关报告显示,随着人工智能大模型技术的迭代,我国数据标注产业产值已突破80亿元,高质量数据建设步入规模化、规范化发展新阶段。  国家发展改革委等部门发布的《关于促进数据标注产业高质量发展的实施意见》(以下简称《意见》),为产业发展指明方向。这也推动了省级层面纷纷响应,积极布局数据标注产业。《中国经营报》记者注意到,国家数据局近期发布多个省市数据标注优秀案例,济宁市融发数字产业园《产教融合创新实践赋能数据标注人才培养》中就涉及了当地数据标注产业发展的探索创新。  济宁市融发数字产业园负责人刘朋接受记者采访时表示:“数据标注工作具有标准化、规模大、技术强、国际化的特点,随着人工智能的发展、应用场景的深入、通用大模型的普及商用,数据标注推进人工智能应用的作用越发突显。当前人工智能发展迅速,数据标注产业将对促进数字经济高质量发展具有重大意义。”“AI预标注+大模型协同”破解传统难题  传统的数据标注产业属于劳动密集型产业,面临着人工成本高、效率低、质量难以保证等难题。  济宁市数据标注产业通过采用“AI预标注+大模型协同”的创新模式,实现了技术的突破。  据介绍,济宁市融发数字产业园依托网易FreeAL框架研发智能预标注系统,并融合京东言犀大模型技术,成功实现80%基础数据的自动化处理。这一技术的应用,使得标注效率大幅提升,较以往提高50%,成本降低40%,有效推动了数据标注产业从劳动密集型向技术密集型的转型。  从技术层面来看,这种模式解决了过去数据标注精度低、效率低、复杂目标识别难等问题。刘朋告诉记者,“AI预标注+大模型协同”能够利用深度学习算法对自动驾驶、医疗影像等数据标注精度要求高的领域进行更精准的分析和标注。例如,网易有灵众包平台采用人机协同的方式,将标注任务分配给大量非专 业标注员,同时利用AI技术进行预标注和质检,确保标注结果的高质量。  官方信息显示,国家数据局目前已构建起医疗、工业、教育等行业的335个高质量数据集,数据标注总规模达到17282TB,赋能121个国产人工智能大模型研发,引进和培育标注企业223家,标注从业人员达5.8万。量化人才效能,填补专 业人才缺口  国家发展改革委等部门发布的《关于促进数据标注产业高质量发展的实施意见》提出:“要加强标注人才队伍建设。深化产学研融合,鼓励行业联盟、高校、科研院所与企业建立长期合作机制,加大数据标注实践项目、继续教育和公共实训基地建设合作力度。”  据了解,济宁市融发数字产业园以“双园融通·双境融合”模式为核心,推动产教融合,通过与济宁市内外20余家院校、80余家上下游企业构建起数据流通、加工、应用于一体的产学研合作体系,已培养3000余名标注人才。  刘朋表示,在融发数字产业园,学生在校学习2年理论知识后,进入产业园进行2年实践学习。产业园将企业项目拆解为教学模块,提供真实的企业数据标注项目,以企业真实项目数据为基础,将真实项目与实际作业场景引入教学,构建了“知识层—实训层—实战层—呈现层”的金字塔式能力成长路径。  多位产业园学员向记者表示,在学校学习时,更多是从理论层面了解人工智能的基础工作,在做项目时才知道数据标注要精确到每一个物体的类别、位置、运动方向和速度等诸多细节,而且数据标注规则会随着不同的应用场景和算法需求不断调整,不再是机械性的工作,而是需要深度理解业务需求、具备严谨逻辑思维和高度专注力的专 业任务,企业导师完全从实际项目出发,大大缩短了学生适应工作岗位的时间。从“基础服务商”到“数据价值孵化器”  根据山东省《关于加快人工智能赋能重 点领域高质量发展的推进方案》,明确到2027年,培育20个服务垂直行业的基础级人工智能大模型,打造50个以上可复制推广的标杆应用场景,推出100个以上融合示范典型案例。  在国家大力推动数字经济发展、培育数据标注产业的背景下,济宁相关产业从技术创新到产业升级的全 面价值跃迁的实践,也给数据标注产业发展带来借鉴。  2024年,我国开发或应用人工智能的企业数量同比增长36%,高质量数据集数量同比增长27.4%,有力支撑人工智能训练和应用。利用大模型的数据技术企业、数据应用企业同比分别增长57.21%、37.14%,数据标注正促进人工智能加速发展。  公开信息显示,济宁市先后出台《济宁市制造业数字赋能三年行动计划》《关于大力推动工业互联网建设三年行动计划》《关于深化改革创新促进数字经济高质量发展的若干意见》等文件,为数字经济等新兴产业的发展提供一系列优惠政策和专项资金支持,为数据标注产业的发展创造了良好的外部环境。  近年来,济宁市数据标注产业围绕无人驾驶、印刷质检、图形标注、标注工具研发等积极开展数据标注业务,在自动驾驶、医疗影像、生产加工、经营管理、教育培训等领域实现了数据标注的应用示范。  据刘朋介绍,产业园引入腾讯平台技术与上下游企业落地数据标注项目,未来规划形成“万人、千行、百校、多基地”的数据标注产业,上游通过整合实现数据的集中清洗与预处理,下游为自动驾驶、智慧医疗等领域提供高精度的数据标注服务,既为数据标注产业培育人才,又助力人工智能产业快速发展,逐步从传统“基础服务商”升级为“数据价值孵化器”。

从通用到垂类:大模型产业攻坚进行时

  6月16日,国家统计局发布数据显示,2025年5月,中国规模以上工业增加值同比增长5.8%,累计增速达6.3%——这一数据的深层意义,藏在高技术制造业的亮眼表现中。设备工器具购置投资显著增长,揭示了中国经济从传统要素驱动向技术驱动型增长的艰难转身。  麦肯锡预测,生成式AI将为全球经济贡献7万亿美元价值,中国占比近三分之一。然而中国企业AI部署进度滞后,核心瓶颈在于复合型人才断层:既懂行业痛点又掌握AI技术的“业务转译员”严重稀缺。当通用大模型在专 业场景中频频“失灵”,产业需求倒逼技术路径转向——垂类大模型成为破局关键。  从技术狂欢到产业落地垂直深潜的必然逻辑  6月12日在成都举办的大模型·全连接·新增长论坛上,中关村科金总裁喻友平断言:“2025年将迎来企业大模型应用元年,90%企业接入大模型技术。”他指出:“垂类大模型的价值不在于参数大小,而在于谁能吃透行业的‘苦活累活’。”  这一判断正被实践验证。中国备案和登记的生成式人工智能服务已超500个,但多数“叫好不叫座”。中关村科金选择了一条艰难但扎实的路径:基于服务2000余家头部企业的经验,在金融、制造、政务、汽车等十余个垂直领域构建行业智能体矩阵,将技术嵌入业务毛细血管。  大模型正逐渐成为企业智能化转型的核心基础设施,但通用型大模型在直接处理企业私有数据和特定领域知识方面仍存在显著局限性。中关村科金携手中信证券打造的智能投顾智能体,洞察最 新市场动态和数据,匹配理财产品与投资组合,为投顾生成专 业营销话术,同时满足证券金融业严格的数据输出格式与语言精确性要求,加速投顾服务;为中国长安四川分公司构建的差旅助手智能体,大幅提升员工填报信息效率和流程自动化效率,帮助集团财务工作效率提升20%;助力中国船舶集团建设的情报分析智能体,通过构建全球船舶情报监测体系,处理海量异构文档,研报和情报分析处理效率提升200%,知识查询速度提升数十倍。  行业Know-how垂类大模型的胜负手  今年以来,以DeepSeek、ChatGPT等为代表的大语言模型持续火爆,其强大的自然语言处理能力和广泛的应用场景加速了大模型技术在各行各业的快速落地。在金融领域,大模型被用于智能投顾、风险控制和客户服务;医疗行业则借助其进行辅助诊断、医学文献分析和药物研发;教育领域涌现出智能辅导、个性化学习等创新应用;而在制造业,大模型正助力产品设计优化和供应链管理。  此外,越来越多的企业开始将大模型技术与自身业务深度融合,推动产业智能化升级。政府部门也在积极探索大模型在政务服务、城市治理等方面的应用。随着技术不断成熟和算力成本下降,大模型正从科技巨头专属逐步向中小企业渗透,展现出巨大的商业价值和社会效益,标志着人工智能技术进入规模化应用的新阶段。  垂类大模型的竞争力,源自对行业“隐性知识”的消化能力。招联首 席研究员、上海金融与发展实验室副主任董希淼认为,金融业拥有庞大的用户群体,积累了海量数据,包括大量结构化数据和非结构化数据,是AI技术应用结合的优质场景。人工智能正在深刻地影响着金融业。  中关村科金为华福证券部署的智能质检系统,实现每日5万条会话全量质检,精准识别20余类违规点;多模态防伪模型将对抗样本攻击拦截率从92%提升至99%。这些成效背后,是对金融合规规则、话术黑话的深度编码。  在交通基建领域,宁夏交建交通科技研究院与中关村科金联合打造全国首 个交通基建垂类大模型“灵筑智工”,基于上万份行业规范、工程技术文档等高质量数据训练而成,行业推理准确性较通用大模型提升40%以上。基于该模型开发出的行业数据分析、行业知识问答、工程技术文档写作、智能生成核算报表、智能投标五个智能体,平均实现场景提效60%以上,开辟了传统基建企业智能化转型的新路径。  这些案例揭示共同规律:通用模型解决不了的,往往是行业积累十年的“硬骨头”,需要垂类大模型来解决。  深水区攻坚战平台+应用+服务破解大模型落地挑战  麦肯锡指出,全球范围内生成式AI对高科技行业影响最为显著。在中国,先进制造、电子与半导体、包装消费品、能源与银行将成为受冲击最 大的五大领域。目前,中国已在多行业实现大模型技术落地,展现出AI应用的广阔前景。  尽管前景广阔,大模型当前仍面临产业落地的硬约束:  价值落地难:企业核心诉求是清晰的“增收、降本、提效”,许多初期探索项目(如知识库、问答系统)的实际效果与预期存在差距,准确率下降等问题突出。  场景复杂度高:以智能外呼为例,看似简单的应用需同时满足理解灵活询问、内容精准性、快速响应、拟人化声音等严苛条件,目前尚无通用方案,需结合特定场景进行深度优化。  孤岛效应强:孤立部署的大模型系统难以深入业务流程,无法发挥最 大效益。大模型智能化应用必须与企业数字化基础设施紧密结合,通过智能化+数字化的方式实现大模型落地。  效果衰减明显:如果缺乏持续的服务、运营和迭代,大模型落地的效果会随场景叠加而衰减。  中关村科金的解题思路是“平台+应用+服务”的深度协同。  新发布的得助大模型平台3.0深度结合行业Know-How,集成超100个行业智能体和200余种AI组件,支持四种编排模式,快速构建各类型大模型应用和智能体,平台具备高自由度,支持国内外主流算力平台、自由搭配主流基础模型,是国内首 批接入MCP协议的平台之一。新升级的得助智能音视频平台3.0深度融合大模型能力,在智能安全、交互增强、内容赋能、智能决策四大维度全 面增强。  喻友平强调,To B垂类大模型应用才是技术赋能千行百业、实现产业智能化升级的关键路径。公司选择了一条“苦活累活”之路,坚信“比较难走的路才是康庄大道”。  垂类大模型正以其行业洞察和场景适应能力,破解通用大模型在行业应用中的“水土不服”问题,真正成为了赋能企业、驱动新质生产力发展的“加速器”。随着更多类似解决方案的涌现和成熟,大模型技术将在更广泛的行业领域落地生根,释放出巨大的经济价值和社会效益。  (作者  胡群)

沉睡的数据变黄金?圣宝“一企一策”小模型,激活你的企业增长新引擎!

  数据是新时代的石油,但你的数据还在“睡大觉”?告别数据孤岛与成本中心,拥抱资产化浪潮!圣宝“一企一策”小模型,为企业量身定制数据掘金蓝图,解锁增长无限可能!  数据资产化:不再是选择题,而是生存发展必答题!  政策东风已至(数据要素市场化改革),技术基石成熟(AI/大数据)。企业数据,正从“沉睡的成本负担”华丽转身为“驱动增长的核燃料”。为何非“化”不可?  1.价值爆发:精准洞察,驱动创新!  客户要什么,你就造什么!深度挖掘客户数据,精准捕捉需求,打造爆款产品与服务,告别“闭门造车”。  告别“拍脑袋”,拥抱“数据决策”!实时数据支撑,提升决策效率与准确性,快人一步抢占市场先机。  2.真金白银:财务增色,融资加分!  数据也能“上户口”!客户数据、运营数据等评估入账,优化财务报表,提升企业“身价”。  融资更轻松!优质数据资产是金融机构眼中的“香饽饽”,助你拓宽渠道、降低融资成本。  直接变现!数据交易、数据服务,开辟全新盈利增长点。  3.效率革 命:运营提效,协同升级!  告别“脏乱差”,数据“活”起来!标准化治理,打通数据孤岛,让数据真正可用、好用。  部门协作“丝滑”无阻!统一数据底座,降低沟通成本,提升跨部门协作效率。  资源精准投放!数据驱动资源配置,降本增效,杜绝浪费。  4.风险护盾:合规无忧,稳健前行!  筑牢安全防线!建立完善的数据安全管理体系,防范泄露与滥用风险。  5.竞争壁垒:构筑护城河,赢在未来!  独一 无二的“数据金矿”!高质量、独特性数据资产,是竞争对手难以复制的核心壁垒。  个性化服务,提升黏性!基于数据提供差异化体验,增强客户忠诚度与市场竞争力。  抢占政企合作先机!优质数据资产是数字化转型浪潮中的硬通货。圣宝“一企一策”小模型:你的专属数据增长加速器!  千企千面,怎能“一刀切”?圣宝深度定制,为你量体裁衣:  深入骨髓的“企业体检”:专 业团队深入沟通(从一线到高管),精准把握业务、痛点、目标。  传统制造?聚焦数据整合平台,优化生产、降库存!  互联网电商?专注客户画像与精准营销!  内通外联的“数据智脑”:融合企业内部数据与权威外部资源(行业库、市场数据),协同驱动。  直击痛点的“转型良方”:专治“不敢转、不会转、不能转”!  怕风险?分阶段规划,降低投入压力。  缺人才技术?提供专 业支持与方案,打造你的数智化团队。  数据差、系统旧?数据清洗治理+系统升级/替换,扫清障碍。  赋能企业,轻装转型,让数据真正成为驱动增长的澎湃新引擎!还在让宝贵的数据资源“沉睡”吗?让圣宝“一企一策”小模型,为您的企业量身定制增长蓝图,激活数据价值,赢在数字时代!

工信部部署“人工智能+制造”行动 推动AI智能体深度赋能产业核心环节

  央广网北京7月13日消息(记者奕延)据中 央广播电视总台经济之声《环球新财讯》报道当前,AI智能体(AI Agent)成为人工智能领域的热词,国内外科技巨头、初创企业纷纷加快布局。国际知名信息技术研究和咨询公司Gartner将AI智能体列为2025年十大战略性技术趋势之一。  “AI智能体”是什么?  那么,什么是AI智能体?它与炙手可热的大模型有何关联与区别?益普索中国电子科技研究院董事总经理周啓群借助中国传统文化中的“道法术器”概念进行阐释:“我们通常所说的AI智能体,是一个中间体;大模型则是一种算法。智能体基于大模型构建,是将其能力落地到具体应用场景的中间件。用中国文化来比喻:人工智能是‘道’,大模型是‘法’,而智能体则居于‘术’与‘器’之间,是实现具体功能的载体。”  市场蓬勃,应用广泛  目前,AI智能体已渗透至电信、制造、金融、政务、能源、互联网等行业。据市场咨询公司MarketsandMarkets预测,全球AI智能体市场将从2024年的51亿美元增长到2030年的471亿美元,年复合增长率达44.8%。全球范围内,谷歌、亚马逊、OpenAI等国际巨头已推出相关产品;国内科技企业如百度、阿里、字节跳动、智谱AI等也在快速迭代其AI智能体产品与解决方案。  政策驱动:加速融合应用  强有力的政策支持正为AI智能体发展注入新动能。7月11日,工业和信息化部发布《信息化和工业化融合2025年工作要点》,明确提出“提升智能化水平”的核心任务。要点要求:编制制造业企业人工智能应用指南,加强人工智能技术在工业领域的深度融合应用。实施“人工智能+制造”行动,支持企业在重 点场景应用通用大模型、行业大模型和智能体。  周啓群对此评价道:“政策‘指挥棒’的引导恰逢其时,是对人工智能技术价值与应用方向的明确判定与有力推动。当前人工智能技术正面临全 面突破的机遇期,但‘最 后一公里’的应用落地仍存在显著挑战。如果各行业能够突破智能体场景化应用的关键瓶颈,中国在这一技术领域的整体格局将实现质的飞跃。”  变革悄然发生,追求“无感”体验  事实上,AI智能体正逐步应用于各行各业,驱动生产力提升和企业运营管理模式的变革。德勤预测,到2025年,将有25%的企业部署生成式AI驱动的智能代理,到2027年,这一比例将升至50%。  AI智能体的快速发展带来了哪些深层次改变?周啓群着重强调了用户体验的至高境界:“智能体的最 高境界在于提供一种在使用中自然流畅、近乎‘无感’的人工智能辅助体验。今天,当你与一个智能体交互时,如果仍需预设心理预期,或明显感觉到‘我在和机器人对话’,那就说明交互还不够丝滑,也就是大家常说的‘AI味太重’或‘不像人话’。当交互体验接近人际交流的自然感,才意味着接触到了优秀的智能体。”  “类比驾驶场景,如果仍需频繁手动操作触屏或按键,就不是理想的智能体。优秀的智能体应能通过语音指令,甚至感知乘客状态(如上车后),自动完成设定和调整。其背后的车机系统本身就是一个出色的智能体。未来,这种‘无感’的智能体体验将渗透到更多生活场景之中。”来源:央广网

圣宝"一企一策"小模型如何成为企业增长新引擎?——圣宝智慧数据安全防护效能监测模型

  当标准化解决方案遇上千企千面的发展需求  圣宝选择用AI为每个企业"量体裁衣"为什么头部企业都在布局专属小模型?  ▫️30天快速部署:无需漫长开发周期,敏捷响应市场变化  ▫️0.5%误差率决策:基于企业真实数据训练的精准预测模型  ▫️5倍人效提升:自动化处理80%重复性经营决策什么样的企业适合布局专属小模型?流程僵化:人工处理复杂流程易出错且耗时(如合同审核、设备报修、档案归纳与借阅、入职资料审核等)。隐性成本高:人力与时间消耗大,但难以量化优化效果。资源冲突:多部门协作中资源分配不透明,易产生瓶颈(如跨团队排期、共享设备使用冲突)。业务流程固定且复杂:标准化流程多、环节冗长(如审批、合规、供应链调度),需严格遵循规则但效率低下。无直接创收:职能偏向内部支持(如行政、风控、运维),成本中心属性强,需通过降本增效间接提升企业竞争力。资源协调性强:跨部门协作频繁,需动态整合人力、数据、设备等资源,依赖高 效调度与响应。定制化案例圣宝智慧数据安全防护效能监测模型企业类型:新型互联网电子信息公司企业痛点:1、业务特性使得对人效管理上缺失2、内部人员因疏忽或恶意泄露数据的事件频发3、缺乏对数据流动的实时监控,难以及时阻断异常外发行为(如通过邮件或U盘泄露)定制方案特点:1、24小时精准把控人效,让业务营收测算、人力合理分配不再成为难题2、数据流向全流程掌握,将数据牢牢锁定在企业内部3、后台数据可视化,让事件追溯不再成为难题。应用成效:1、人效提升15%,实现人员的合理调配,节省人力成本20%。2、阻断4次数据外泄,保障数据安全,提升企业信誉度。3、事件回溯,优化管理手段,增强企业核心凝聚力。  当数字化转型进入深水区,企业竞争已演变为数据决策效能的比拼。圣宝"一企一脑"战略,通过可定义、可进化、可溯源的专属AI模型,为企业装上适配自身基因的智能操作系统。这不仅是技术升级,更是构建核心竞争力的战略选择——让每个决策都有数据支撑,每个流程都有智能护航,每次危机都有系统预警。在不确定性成为新常态的时代,专属智能体就是企业最可靠的数字合伙人。抢占先机,布局未来,让精准决策力成为您最锋利的增长之刃。

AI Agent来了!数据标注行业迎来效率革 命,从“人海战术”到“人机协同”,这些机会不容错过

  数据标注行业的“三宗罪”  在AI蓬勃发展的时代,数据标注作为其基石,重要性不言而喻。但目前这个行业却深陷困境,犹如一座摇摇欲坠的大厦,面临着效率、质量和价值三重危机。  效率之困:蜗牛式前行  某头部标注公司,拥有先进的设备和大量专 业标注员,然而日均处理图像仅8000张。在自动驾驶领域,标注员每天工作时间长,日薪却仅120元,工作积极性不高,导致标注效率低下。如此低的效率,难以满足AI快速发展对大量标注数据的需求,严重拖慢了AI前进的步伐。  质量之殇:错误的代价  在医疗标注领域,某项目的错误率竟然高达15%。这些错误数据进入模型训练环节,导致模型无法准确学习医疗图像中的特征和规律,最终造成误诊率上升。为了修正错误,重新进行数据标注和模型训练,耗费了大量时间和资金,成本增加了230万。这不仅给患者带来潜在风险,也让企业承受了巨大的经济损失。  价值之痛:利润的寒冬  数据标注单价从2017年的0.5元/框,一路狂跌至2023年的0.04元/框。这背后是市场竞争激烈、技术门槛低等因素导致的。企业利润空间被严重压缩,为了生存,只能不断削减成本,这又进一步影响了标注质量和效率,形成恶性循环。  AI Agent:数据标注的“智能副驾驶”  AI Agent是什么?它能做什么?  在迷雾重重的数据标注困境中,AI Agent宛如一道曙光,照亮了前行的道路。  那AI Agent究竟是什么呢?  简单来说,AI Agent(人工智能代理)是一种结合了大模型、规划能力和工具调用的智能体。它可不只是个简单的程序,而是具备强大的分析问题能力,还能像一位训练有素的员工一样自主执行任务。  以Manus为例,它就像是一个不知疲倦的“数字员工”。Manus能够自动解压文件,将那些繁杂的压缩包快速整理成可用的数据格式;它还能分析简历,从众多简历中精准提取关键信息,并生成详细的报告。在处理大量简历时,Manus能在短时间内完成人工需要数小时甚至数天才能完成的工作,大大提高了效率。  AI Agent的核心能力更是令人惊叹:  自动化执行  它可以轻松替代那些重复性极高的操作,比如文件整理,将杂乱无章的文件按照设定的规则分类存放;  还有格式转换,把不同格式的数据文件转换为统一格式,方便后续处理。  在数据标注项目中,这些重复性工作占据了标注员大量的时间和精力,而AI Agent的出现,将标注员从这些繁琐的工作中解放出来。  复杂任务拆解  当面对复杂的标注需求时,AI Agent能够像一位经验丰富的项目经理,将其拆解为多个详细的步骤流程。  在图像标注中,它会先分析图像的特征,确定需要标注的区域,然后制定标注的顺序和方法,让整个标注过程更加有序高 效。  智能决策  AI Agent还能通过对标注数据的实时反馈,不断优化标注策略。  在文本标注中,它会根据之前标注的数据,分析哪些关键词容易被误标,哪些标注规则需要调整,从而提高标注的准确性。  自主决策  通过强大的大语言模型(LLM),AI Agent可以自动生成标注规则。  在医疗影像标注中,它能够自动识别病灶区域,为标注员提供准确的标注参考,大大减少了人工判断的误差。  多模态交互  支持文本、图像、语音等多种数据形式的混合输入,这使得它能够轻松处理复杂的标注场景。  在视频标注中,它可以同时分析视频中的图像和语音信息,准确标注出关键事件和对话内容。  持续进化  根据标注结果,AI Agent能够自动优化策略。  在某金融文本标注项目中,通过不断学习和优化,其准确率周环比提升了4.2%,效果十分显著。  应用场景探讨  标注流程自动化:从“人工标注”到“智能质检”  在标注流程中,AI Agent就像一位神通广大的魔法师,将繁琐的人工操作转化为高 效的智能流程。  自动化预处理  原始数据往往杂乱无章,包含大量噪声和无效信息。AI Agent可自动清洗原始数据,如去重,将重复的数据删除,减少存储空间和标注工作量;进行格式标准化,把不同格式的数据统一为标注系统可识别的格式。  微软的Agent Instruct更是厉害,它能自动生成高质量合成数据,有效缓解标注数据短缺问题,为标注工作提供了充足的“原料”。  实时质检  人工质检不仅效率低,而且容易出现漏检和误检。AI Agent通过先进的算法,能够实时检测标注错误,如在图像标注中,检测边界框是否偏移,标签是否与物体错配等。  实验表明,其准确率较人工提升30%以上,让标注质量得到了可靠保障。  智能复核  AI Agent还能模拟专家标注逻辑,对标注结果进行智能复核。  它能快速对比不同标注员的结果,发现其中的差异并进行分析,质检效率提升400%,大大缩短了标注周期。  智能标注流水线  在图像标注中,SAM算法实现图像分割,效率提升300%,能够快速将图像中的不同物体分割出来,为标注提供基础;根据标注员的技能矩阵,如擅长的标注领域、标注速度、准确率等,自动匹配任务,任务完成率提升27%,充分发挥每个标注员的优势。  标注工具智能化:低门槛赋能一线人员  对于一线标注人员来说,复杂的标注工具往往是一大挑战。AI Agent的出现,让标注工具变得简单易用。  动态优化标注策略  AI Agent能根据模型训练反馈,自动调整标注优先级。  在自动驾驶场景中,极端天气下的图像数据对于模型训练至关重要,但获取和标注这类数据难度较大。AI Agent会优先标注这类数据,确保模型能够学习到各种复杂情况下的特征,提高模型的泛化能力。  数据合规性升级:从“人工排查”到“风险预警”  在数据安全和合规要求日益严格的今天,数据合规性是数据标注中不容忽视的问题。AI Agent为数据合规性提供了有力保障。  自动清洗  能够快速识别重复/无效数据,清洗效率提升80%,减少了数据存储和处理的负担,也避免了无效数据对标注和模型训练的干扰。  敏感数据过滤  在处理包含人脸、车牌等隐私信息的数据时,AI Agent可自动识别这些敏感信息,并触发脱敏处理,如对人脸进行模糊处理,对车牌号码进行部分遮挡,避免合规风险。  标注过程可追溯  通过区块链技术,AI Agent可以记录数据来源和标注操作的每一个细节,满足《数据标注合规指南》的审计要求。一旦出现数据问题,可以快速追溯到问题的源头,确保数据的安全性和合规性。  合规检查  自动按照相关标准进行脱敏处理,完全符合GDPR等国际标准,让数据在全球范围内的流通更加安全可靠。  复杂场景处理  在一些复杂的标注场景中,AI Agent同样表现出色。  跨模态标注  在视频标注中,需要同时处理图像和语音信息。  AI Agent能够自动关联视频中的语音文字和图像时序,实现跨模态标注,效率提升600%。它可以准确标注出视频中人物说话的时间点和对应的图像内容,为视频分析提供全 面的数据支持。  逻辑推理标注  在法律文书标注中,AI Agent能够自动提取关键条款,准确率达92%。它可以理解法律文书中的复杂逻辑,准确标注出重要的法律条款和关键信息,为法律研究和案件分析提供高 效的帮助。  AI Agent重构行业价值链条  降本增效的三重路径  AI Agent的出现,为数据标注行业带来了降本增效的新契机,主要体现在人力、时间和技术成本三个方面。  人力成本  在人力成本方面,传统的数据标注主要依赖大量的人工操作,人力成本占据了总成本的很大一部分。  以某大型标注项目为例,原本单框标注成本高达0.04元,在引入AI Agent后,许多重复性、规律性的标注工作被自动化完成,单框标注成本大幅降至0.015元,降低了约62.5%。这不仅减轻了企业的经济负担,还提高了标注的效率和准确性。  时间成本  时间成本上,传统标注项目交付周期往往较长。  比如一个涉及自动驾驶场景的图像标注项目,在未使用AI Agent之前,由于需要人工逐一处理大量图像,交付周期长达28天。而采用AI Agent后,通过自动化预处理、实时质检和智能复核等功能,项目交付周期大幅缩短至7天,缩短了75%,能够更快地满足客户对数据的需求。  技术成本  技术成本上,以往企业需要投入大量资金研发标注工具,以满足不同项目的需求。  有了AI Agent,许多标注工具的功能可以通过其智能化实现,企业减少了约50%的标注工具研发投入。例如,现在有一些零代码标注工具的出现,让企业无需花费大量时间和资源开发复杂的标注软件,降低了技术门槛和研发成本,当然这类工具还比较初级。  从业者转型路线图  从“操作工”到“策略师”  当AI Agent逐渐接管那些重复、繁琐的劳动后,标注师不能再局限于单纯的“操作工”角色,而需要向更高价值的“策略师”方向转型。  在设计标注规则方面,标注师要像制定游戏规则的裁判一样,清晰地定义AI Agent的执行逻辑。在医疗图像标注中,标注师需要根据医学知识和临床经验,明确病灶的判定标准,如病灶的形状、大小、密度等特征,让AI Agent能够准确地识别和标注病灶。  优化人机协作也是标注师的重要任务。标注师要通过不断地反馈和训练,让AI Agent更好地理解任务需求,提升其任务拆解能力。在文本标注项目中,标注师可以根据AI Agent的标注结果,分析其在理解语义、识别关键词等方面的不足,然后针对性地调整训练数据和标注规则,使AI Agent的标注能力不断提升。  深耕垂直领域,构建专 业壁垒  虽然AI Agent在通用型标注任务中表现出色,但在一些垂直领域,人类的专 业经验仍然不可或缺。  在法律标注领域,合同条款往往蕴含着复杂的法律意义和逻辑关系。标注师需要结合法律知识,准确理解合同条款的意图,判断条款的性质和效力,如判断某一条款是否为免责条款、是否符合法律法规的要求等。这些工作需要对法律条文有深入的理解和实践经验,AI Agent难以完全替代。  工业质检也是如此。不同行业的产品缺陷判定标准各异,且与行业标准、产线实际情况密切相关。在电子芯片质检中,标注师需要熟悉芯片的制造工艺和质量标准,能够准确识别芯片表面的微小瑕疵、电路短路等问题。这些工作需要融合行业标准与产线实际,利用人类的专 业知识和经验进行判断。  拥抱“AI+合规”新需求  随着国内首部《数据标注合规指南》的编制,数据合规性成为行业发展的重要关注点,从业者可以在这一领域发挥重要作用。  在合规流程设计方面,标注师可以制定数据脱敏、权限管理的最佳实践。在处理包含个人信息的数据时,标注师要明确数据脱敏的方法和程度,如对姓名、身份证号等敏感信息进行加密或模糊处理;同时,要合理设置标注员的权限,确保只有经过授权的人员才能访问和处理敏感数据。  伦 理审查也是标注师的重要职责。标注师要确保AI Agent的决策符合行业伦 理规范,避免出现数据泄露、算法歧视等问题。在人脸识别标注项目中,标注师要审查AI Agent的标注过程是否侵犯了个人隐私,是否存在对特定人群的歧视性标注,保障数据标注的公正性和合法性。  技术实现与行业案例  关键技术栈  模型层:GPT-4微调+领域知识图谱  在模型层,GPT-4作为当前先进的大语言模型,具备强大的语言理解和生成能力。通过对其进行微调,可以使其更好地适应数据标注领域的特定任务。  例如,在医疗数据标注中,将医学领域的专 业知识融入到GPT-4的微调过程中,使其能够准确理解医学术语和语义,从而生成更准确的标注规则和指导。  领域知识图谱则为模型提供了结构化的领域知识。  以金融领域为例,知识图谱中包含了各种金融实体,如股票、债券、基金等,以及它们之间的关系,如所属行业、发行机构、交易时间等。通过将这些知识与GPT-4相结合,模型能够在标注金融文本时,利用知识图谱中的信息进行推理和判断,提高标注的准确性和一致性。  工具层:自动化标注平台+智能质检系统  自动化标注平台是实现数据标注自动化的核心工具。  以云测数据的自动化标注平台为例,它利用先进的图像识别、自然语言处理等技术,能够自动对图像、文本等数据进行标注。在图像标注中,平台可以自动识别图像中的物体,并根据预设的规则进行标注,大大提高了标注效率。  智能质检系统则是保障标注质量的关键。  以DataCanvas的智能质检系统为例,它通过实时监测标注数据,利用机器学习算法和质量评估指标,能够快速发现标注中的错误和偏差,并及时进行纠正。在文本标注中,系统可以通过分析标注文本的语义、语法等特征,判断标注是否准确,从而提高标注质量。  数据层:向量数据库+动态标注规则引擎  向量数据库用于存储和管理标注数据,它能够高 效地处理大规模的向量数据,提供快速的检索和匹配功能。  在视频标注中,将视频中的关键帧提取出来,并转换为向量形式存储在向量数据库中。当需要进行标注时,可以通过向量检索快速找到相似的关键帧,为标注提供参考。  动态标注规则引擎则根据模型训练反馈和实时数据变化,自动调整标注规则。  在自动驾驶数据标注中,随着自动驾驶技术的不断发展和新场景的出现,标注规则需要不断更新。动态标注规则引擎可以根据模型在实际运行中遇到的问题和反馈,自动调整标注规则,确保标注数据的时效性和准确性。  标杆企业实践  标贝科技:Agent对话功能实现批量任务操作,效率提升400%  标贝科技在其AI数据平台中引入了Agent对话功能,为数据标注项目管理带来了全新的体验。  以往,用户在处理数据标注任务时,常常受到传统平台界面设计繁复、操作流程冗长的困扰。特别是在面对大规模、高并发的标注项目时,基于表单或菜单的查询方式难以满足快速、精准获取信息的需求。  而Agent对话功能的出现,彻底打破了这一瓶颈。用户只需在对话框中输入复杂的查询指令,如“查询任务ID为XXX的标注进度,并筛选出标注准确率低于80%的作业”,Agent系统便能迅速理解用户意图,自动执行相应的查询操作,并将结果以直观、清晰的方式呈现出来。这种对话式的交互方式,不仅简化了操作流程,还大大提高了查询效率。  更令人惊喜的是,Agent系统还集成了强大的批量作业操作能力。  当发现一批作业存在质量问题时,用户只需勾选有问题的任务,点击“批量驳回”指令,Agent系统便会自动将符合条件的作业全部驳回至重新标注流程。同样,当确认一批作业无误后,用户也能通过类似的方式将其批量释放至下一阶段。这一功能解决了以往需要逐条处理作业的繁琐问题,极大地提高了数据标注项目的整体处理速度。据统计,引入Agent对话功能后,标贝科技的数据标注项目效率提升了400%,有效加速了项目交付进程。  海天瑞声:为智谱AI提供金融领域数据,模型推理准确率提升18%  海天瑞声作为数据标注行业的领军企业,一直致力于为客户提供高质量的数据服务。在与智谱AI的合作中,海天瑞声为其提供了金融领域的数据,助力智谱AI提升模型性能。  在数据标注过程中,海天瑞声充分发挥其在数据处理和标注方面的专 业优势,结合金融领域的特点和需求,制定了严格的标注规则和流程。通过对金融文本、图像等数据的精准标注,为智谱AI的模型训练提供了丰富、准确的数据支持。  经过实际验证,使用海天瑞声提供的数据进行训练后,智谱AI的模型在金融领域的推理准确率提升了18%。这一显著的提升,不仅体现了海天瑞声数据标注的高质量和专 业性,也为智谱AI在金融领域的应用和发展奠定了坚实的基础。  百度智能云:自动驾驶标注项目通过AI Agent实现99.2%的标注一致性  百度智能云在自动驾驶标注项目中引入了AI Agent技术,取得了令人瞩目的成果。自动驾驶领域的数据标注任务复杂且要求极高,传统的标注方式难以保证标注的一致性和准确性。  百度智能云的AI Agent通过对自动驾驶场景中的图像、视频等数据进行深入分析,利用先进的算法和模型,能够自动生成标注结果。同时,AI Agent还能实时学习和适应不同的标注需求和场景变化,不断优化标注策略。  在实际项目中,百度智能云的AI Agent实现了99.2%的标注一致性,大大提高了标注质量和效率。这一成果不仅为自动驾驶技术的研发提供了可靠的数据支持,也为行业内其他企业提供了宝贵的经验和借鉴。  未来趋势与行业机遇  标注众包平台升级:智能调度,高 效协作  随着AI Agent技术的不断发展,标注众包平台将迎来全 面升级。以往,众包平台在任务分配和管理上往往依赖人工干预,效率低下且容易出现分配不均的情况。而AI Agent的引入,将实现任务的自动分配和智能调度。  AI Agent可以根据标注员的技能水平、工作进度、历史标注质量等多 维度数据,精准匹配最适合的任务。在一个包含多种类型数据标注的项目中,AI Agent能够分析每个标注员的擅长领域,将图像标注任务分配给擅长图像处理的标注员,将文本标注任务分配给语言能力较强的标注员,确保任务能够高 效、高质量地完成。  同时,AI Agent还能实现薪酬的自动结算。它可以实时跟踪标注员的工作进度和完成质量,按照预设的薪酬标准进行自动结算,避免了人工结算可能出现的错误和纠纷。这不仅提高了结算效率,还增强了标注员的工作积极性和满意度。  这种智能调度和高 效协作的模式,将极大地提升众包平台的撮合效率,降低管理成本,为数据标注行业的发展注入新的活力。  合成数据服务爆发:虚拟数据,无限可能  在数据标注领域,合成数据的重要性日益凸显。AI Agent将成为合成数据服务爆发的关键驱动力。  通过AI Agent,我们可以生成高度仿真的合成数据,这些数据在质量和多样性上都能满足AI模型训练的需求。在医疗领域,获取罕见病例的影像数据往往非常困难,而且涉及患者隐私问题。利用AI Agent,我们可以根据已有的医学知识和数据,生成虚拟的罕见病例影像数据,这些数据不仅具有真实病例的特征,还能有效保护患者隐私。  合成数据的优势不仅在于获取的便利性,还在于其成本优势。与传统的数据采集和标注相比,合成数据的生成成本大幅降低。这使得企业能够以更低的成本获取大量高质量的数据,满足AI模型训练对数据量的需求。  随着AI Agent技术的不断进步,合成数据服务将在各个领域得到广泛应用,为数据标注行业开辟新的市场空间。  标注即服务(LaaS):云端赋能,灵活定制  标注即服务(LaaS)是一种新兴的服务模式,它将数据标注服务以云端的形式提供给企业,企业只需按标注量付费,无需自建标注团队。  在这种模式下,AI Agent发挥着核心作用。它可以根据企业的具体需求,自动配置标注流程和工具,实现标注服务的快速部署。某小型电商企业想要对其商品图片进行标注,以用于商品推荐系统的训练。通过LaaS平台,企业只需上传图片,AI Agent就能自动识别图片中的商品,并按照预设的标注规则进行标注,整个过程高 效快捷。  LaaS模式的出现,为企业提供了更加灵活、便捷的标注解决方案。企业无需投入大量资金和资源建设标注团队,只需根据自身业务需求,按需购买标注服务,大大降低了企业的运营成本和技术门槛。  AI原生标注:智能驱动,全程自动化  AI原生标注是数据标注领域的未来发展方向,它通过大模型生成标注规则,实现“标注-训练-优化”全流程自动化。  在AI原生标注中,大模型根据对大量未标注数据的分析,自动生成标注规则。这些规则能够适应不同的数据类型和标注任务,具有高度的灵活性和准确性。在图像标注中,大模型可以自动识别图像中的物体,并根据物体的特征和上下文信息,生成准确的标注框和标签。  同时,AI原生标注还能根据模型训练的反馈,实时优化标注规则。当模型在训练过程中发现某些标注数据存在偏差时,AI Agent会自动调整标注规则,对后续的标注数据进行修正,确保标注数据的质量和一致性。  这种全流程自动化的标注方式,将极大地提高标注效率和质量,为AI模型的训练提供更加可靠的数据支持。  价值网络构建:数据运营,多元增值  随着AI Agent技术的应用,数据标注公司将逐渐转型为AI数据资产运营商,构建起更加完善的价值网络。  除了传统的数据标注服务,数据标注公司还将利用AI Agent提供数据治理、增值分析等多元服务。在数据治理方面,AI Agent可以对企业的数据资产进行全 面梳理和管理,确保数据的质量、安全和合规性。在增值分析方面,AI Agent可以对标注数据进行深度挖掘,发现数据中的潜在价值,为企业提供决策支持和业务优化建议。  某金融机构在进行风险评估时,数据标注公司利用AI Agent对金融交易数据进行标注和分析,不仅能够识别出潜在的风险点,还能通过数据分析为金融机构提供风险管理策略和投资建议,实现了数据的增值服务。  通过构建价值网络,数据标注公司将从单纯的标注服务提供商转变为AI数据资产运营专家,为企业创造更大的价值。  AI Agent不是数据标注行业的“终结者”,而是产业升级的“催化剂”。  据麦肯锡预测,到2025年,AI驱动的数据标注市场规模将突破200亿元。从业者需抓住技术变革机遇,从“数据民工”转型为“数据工程师”,共同构筑AI时代的核心竞争力。  真正的智能标注,是让人类专注于创意,让机器处理重复劳动。

这一职业爆火!如何抓住AI发展中的就业机遇?

人工智能的快速发展,带动相关领域人才需求大幅增长。招聘平台数据显示,今年2月份,算法工程师、机器学习、深度学习等岗位招聘量同比大幅增加,其中数据标注岗位招聘需求同比增长超50%。目前,人工智能训练师主要从事标注类工作。随着市场需求激增,这个职业吸引了很多跨界求职者涌入,也带火了相关的职业培训。 在深圳的一家AI训练师的培训机构,前来上课的学员来自各行各业。 据培训机构的负责人介绍,目前人工智能训练师主要从事标注类工作,可以细分为文本标注、图像标注、语音标注等类型,薪资在每月6000元到19000元不等。这两年,他们的培训业务已经从北京,拓展到了深圳、杭州和成都,但这还远远不能满足市场的需求,毕业的学员往往刚一上传简历,就被企业一抢而光。 某人工智能训练师培训机构校长刘美芳告诉记者:比如9点开放简历,我们同学一个小时之内可以接收到10多个回复,很多HR(人力资源部门)主动向他们打招呼,都不需要去投递。 某招聘平台数据显示,今年春节后至今,数据标注类岗位招聘职位数量同比增长达56%。业内人士表示,随着大语言模型的快速发展,以及涉及的领域越来越多,人工智能训练师的需求还会继续增加。人工智能训练师:数字时代的“教练”人工智能训练师到底是如何工作的?服务于专 业领域的大模型发展,对训练师提出了哪些要求呢? 在深圳南山的一家专门研发客服类大模型的科技公司内,人工智能训练师黄培慧正在和他的同事,对大模型展示的效果进行演练。 黄培慧表示,大模型之所以能够准确回答顾客的提问,是因为前期已经给大模型输入了1000多条相似的问句。对他们来说,筛选顾客向客服人员提问的过程,就是做“标注”,而这些“问句”,就是“数据”,也叫“语料”。 除了这类面向公众服务的大模型,越来越多服务于专 业领域的人工智能大模型发展也十分迅速。在广州市中山大学附属第六医院,病理科主任黄艳正在指导一家医疗类大模型的研发人员,对数字病理切片进行标注,为病理大模型提供训练数据。 作为专 业度极高的垂类模型,医疗类大模型对数据的标注要求非常严格,为了确保数据的安全和准确,这类大模型的训练必须由医生等专 业人士进行把关。 某医疗大模型研发科技公司副总裁孙其功表示,此类工作一般都需要高年资的医学类专家来指点,或者是亲自上手来进行数据的标注,标错了有可能会产生误诊或漏诊的情况。 此外,为了减少“AI幻觉”,也就是大模型生成的内容与真实数据不符、偏离用户指令的现象发生,各垂类大模型都在构建由相关领域专家参与的多层次标注验证机制,将他们的知识和经验转化为关键训练参数,以提高大模型的准确性。市场急缺哪方面AI人才?高薪之下,越来越多求职者希望投身人工智能行业。智联招聘数据显示,2月份,AI领域求职人数同比增幅达200%以上。当前企业最青睐哪类AI人才?猎聘近日发布的《2025AI技术人才供需洞察报告》显示,去年2月至今年1月间,在猎聘平台上招聘的AI职位中,约47%要求硕博学历。由于人工智能自2019年才被正式纳入本科专 业目录,目前AI领域多数从业者来自其他相关专 业。从猎聘数据看,人数最多的前四个专 业分别是计算机科学与技术、软件工程、电子信息以及机械工程。“企业主要看是否具备相关专 业能力。”猎聘大数据研究院相关负责人介绍,算法是人工智能的核心,涉及复杂的数学、统计学、计算机科学等领域的知识;深度学习则涉及复杂的神经网络模型和算法优化,从业者在掌握线性代数、概率论、统计学等知识的同时,还需具备编程技能。多家平台数据显示,今年以来,AI人才持续保持供不应求的态势。未来随着AI技术加快应用,还需要哪些人才?除了当前市场紧缺的算法工程师、大模型工程师、机器学习工程师等,从全产业链看,AI领域在基础层、技术层、应用层都存在人才缺口。比如高性能计算工程师、芯片架构师等,也是企业竞相争夺的对象。中国科学院自动化研究所研究员王亮表示,由于人工智能涉及多领域,所需人才也覆盖多种类型——既有致力于前沿算法与核心理论创新的基础研究型人才,也有将理论与算法模型开发相结合、形成可落地产品的技术开发型人才,还包括既懂人工智能技术又懂所在行业业务的应用复合型人才。此外,AI训练师、数据标注工程师、AI伦 理与安全专家等数据治理和支撑人才也变得越来越重要。“目前最急需的还是基础研究型人才和应用复合型人才,一方面解决高端AI芯片国产化率不足和算法原创性不足问题,另一方面推动AI加速赋能各领域各行业。”王亮认为。据麦肯锡报告预测,到2030年,中国对AI专 业人才的需求预计将达600万人,而人才缺口可能高达400万人。如何捕捉AI发展中的就业机遇?面对AI带来的新岗位需求,普通人如何适应产业变化,提高就业的稳定性和竞争力?教育,无疑是其中关键一环。新一轮科技浪潮下,中国高校也迎来史上最 大规模专 业调整。短短几年间,已有超500所高校开设人工智能专 业或成立专门学院,考生的报考热度持续升高。2025年清华大学、中国人民大学等高校招生计划里均包含人工智能专 业。“人才数量提升的同时,优化培养结构、提升质量显得更为关键。”王亮认为,未来不同层次和领域的AI人才需求会更加细分,高校在专 业设置和课程设计上应更加注重人才的差异化培养。2024年,南开大学全 面启动“人工智能赋能人才培养行动计划”,打造了130余门人工智能系列课程群。“人工智能需要多学科交叉融合发展,这就要求高校超前布局、主动调整,在加强基础学科、新兴学科、交叉学科建设中,形成学科集群,为推动人工智能人才培养提供坚实基础。”南开大学校长陈雨露说。为培养更多实用型、复合型和紧缺型人工智能应用人才,教育部近日印发通知,部署各地各高校面向企事业单位和行业协会征集一批“人工智能应用”领域供需对接就业育人项目。“行业从业者也需要保持持续学习的习惯。”王亮表示,从人工智能相关专 业毕业生的反馈来看,职业发展过程中,除了技术能力外,设计思维、跨学科协作、自主学习能力的培养同样至关重要。在科大讯飞董事长刘庆峰看来,AI技能应成为未来公民必备能力,需加强AI新职业的规划与管理及相关技能培训,尤其要为低收入和就业困难群体提供免费培训机会。“年轻人无论从事哪个专 业,都可以每周花点时间,关注全球AI技术在各行各业的发展,这是未来最 大的机会源泉。”宇树科技创始人王兴兴说。(综合来源:央视财经、新华社、央广网等)来源: 工人日报

圣宝科技:抢滩AI“新蓝海” 积蓄发展新动能

    3月4日,走进位于伊滨智慧岛TOP企业港的洛阳圣宝网络科技有限公司办公区内,数十名数据标注师正紧盯屏幕,手指在鼠标和键盘之间快速切换。  他们的任务看似简单,却需要极大的耐心与专注——有人在一帧帧视频里勾勒车辆轮廓,有人用精确的标签标注语音文本,还有人不断调整图像边界,确保人工智能“看懂”这个世界。  这些重复而精细的工作,如同给AI搭建一座座认知的“积木”,让它能够更准确地理解世界,让AI得以在自动驾驶、语音助手、智能客服等领域日益成熟。  深耕AI,从数据标注到大模型研发  洛阳圣宝网络科技有限公司自2016年起便涉足AI领域,最初专注于大模型的数据标注服务。随着人工智能技术的不断演进,公司逐步深入大模型研发,并于2021年推出国内首 款自研“大模型”,为智能技术的落地应用奠定了坚实基础。在此基础上,公司继续拓展,开发出多个“小模型”产品,专注于垂直领域的智能应用,为不同产业提供定制化的AI解决方案。  “AI大模型主要包括建模和数据标注两个核心环节。大模型建立了逻辑框架,但要让其真正具备实用价值,还需要通过数据标注进行训练,让AI能够更精准地理解和响应用户需求。”该公司负责人刘轶飞表示,“数据标注和AI训练师的工作对于大模型的实用性和应用效果至关重要。”  “小模型”定制个性化解决方案  相较于Deepseek、ChatGPT、百度“文心一言”等通用大模型,该公司提出了“小模型”概念,即垂直领域大模型。这些“小模型”针对特定行业,如自动驾驶、智慧零售、智能客服等,提供更具针对性、个性化的解决方案。  “例如在京东电商平台上,我们研发的AI可用于店铺入驻审核、商品上架管理、合规检测和打假等多个环节,能大幅提升运营效率。”刘轶飞说,“我们还与国内多家知名车企合作,为其提供AI训练服务,助力智能驾驶技术的迭代升级。”目前,该公司已经与京东、百度、广汽、蔚来等企业合作,为其提供大模型的数据标注和训练服务。  智慧化建设赋能伊滨未来  AI的应用不仅停留在软件层面,硬件的结合同样重要。目前,洛阳圣宝网络科技有限公司正与国内某高校合作,探索AI与机器人技术的深度融合,推动智能机械在工业、农业等领域的落地应用。  “AI的真正价值在于赋能各个行业,推动社会整体效率的提升。”谈及未来发展前景,刘轶飞表示,AI不仅能在制造、金融、教育等传统行业发挥作用,也在智慧农业、智慧城市等领域发展潜力巨大。智慧采摘机器人能够在农田中精准识别成熟果实并进行自动采摘,而工业机器人则可借助AI技术提高生产线的自动化程度。  “技术创新的关键在于快速行动和及时反馈。虽然试错难以避免,但不去尝试,就可能错失未来发展的窗口期。我们将充分发扬敢想、敢试精神,深耕垂直领域,赋能本地AI生态体系建设,共创伊滨美好未来。”刘轶飞说。

DeepSeek爆火三问①丨何谓AI:AI究竟是怎么来的?

  大众日报  关于人工智能的最早标准是“图灵测试”,即一个人若分不清楚与自己对话的是人还是机器,那么这台对话机器人就被判定为人工智能。  当前,人工智能发展主要依赖三大基石——数据、算力和算法。打个形象的比喻,如同大厨炒菜,数据是原料,算法是工序,算力就是炒菜的功力。  这是一次突袭,也是一次争锋。  春节期间,DeepSeek风暴席卷全球。这场风暴不亚于2022年美国OpenAI公司推出ChatGPT时掀起的那场AI浪潮。  当ChatGPT、DeepSeek横空出世,当人工智能走进人们的生活,AI的革 命性突破似乎已经打开人类面向未来的窗户。  推开这面窗户,是生机盎然的鲜花草坪,亦或是满目疮痍的废墟之地?  面对AI的奔涌而来,人类社会向左还是向右?  未来已来,有许多问题需要回答。  对很多人来说,AI还稍显陌生。我们的第 一个问题就是何谓AI——AI究竟是怎么来的?  就如同我们如今习以为常的微信、支付宝,几乎所有的行业大咖都预言,不久的将来,人工智能将渗透到人类生活的方方面面。  那么,人工智能究竟是什么?我们可从字面意思来理解,也就是通过人的力量而产生的智能。  2016年,围棋人工智能AlphaGo(“阿尔法狗”)与世界围棋冠 军李世石进行了五盘比赛,AlphaGo最终以4:1取胜。2017年,AlphaGo又以3:0完胜当时的世界围棋第 一人柯洁,让人们惊呼“狼来了”。  “阿尔法狗”可以说是昙花一现,不过,那也是人工智能第 一次引发国人的广泛关注。之后,人工智能都未能引起太大的波澜。  其实,“人工智能”这一概念早在1956年就已诞生,当时是由麦卡锡、明斯基、罗切斯特和香农等为首的一批美国年轻科学家提出。  关于它的最早标准是“图灵测试”,即一个人若分不清楚与自己对话的是人还是机器,那么这台对话机器人就被判定为人工智能。  受限于一系列技术突破的限 制,关于人工智能的应用一直未能渗透到人们的生活。  直到近些年,随着机器学习、视觉识别、语音技术的突飞猛进,人工智能才迎来了“涌现”时刻——通俗地说,就是当数据、参数量积累到一定程度后迎来了爆发。  以ChatGPT、DeepSeek为例,与“阿尔法狗”不同的是,他们是一种生成式人工智能大模型。这里有两个关键词:  其一,生成式。打个比方,如果你的家里有小爱音箱的话,你问它现在几点了,它只会告诉你现在几点了。生成式人工智能会进一步告诉你现在该干啥了,它有相对独立的思考。正如DeepSeek的名字,生成式能带来一种深度的探索。  其二,通用。如果说“阿尔法狗”只会下围棋的话,DeepSeek、ChatGPT可以做很多事情——分析股票走势、点评一篇文章,写一篇小学生作文等等。你能想到的,或许它都可以做到。也就是说它更通用,应用的领域范围更广。  如此来看,未来的人工智能将会越来越多地渗透到人们的生活,给人们带来新的体验。  当然,它对人类的考验也是存在的。  讲完了概念,我们再聊聊人工智能的发展内核。  当前,人工智能发展主要依赖三大基石——数据、算力和算法。  打个形象的比喻,如同大厨炒菜,数据是原料,算法是工序,算力就是炒菜的功力。  随着大数据时代的到来,各行各业甚至每个人都可以被数字进行量化——汽车制造的尺寸、人脸数据、年龄、职业、收入、开的什么牌子汽车、住多大的房子等等——所有的东西都可以被数据化。这些数据经过标注、筛选等等一系列动作,就变成了有价值的生产元素,也就是人工智能最基础的养料。通过不断地喂养训练学习这些数据,人工智能便有了自己的知识储备。  算法是什么?算法是人工智能研究的主要部分,其设计目的就是教会机器如何学习。打个比方,如果你经常阅览体育新闻,平台就会强化你的这一兴趣爱好,给你持续不断地推送体育新闻。如此,你就不知不觉地掉入到了“信息茧房”里。  至于算力,简单说,算力是指传输、存储、处理信息数据的能力。摩尔定律指出,芯片算力以每18个月增加一倍的速度快速前进,但是随着人工智能技术的飞速发展,算力供给跟不上需求的节奏,如今便有了“算力焦虑”的问题。正如大厨一直想着吃老本,不学习新厨艺,就满足不了食客的胃口了。  从某种意义上来说,算力是人工智能的核心,因为它牵涉到芯片的问题。面对国外的打压,我国的芯片产业亟待突围,光刻机以及GPU芯片等等,都面临不小的挑战。  因此,突破算力上的封锁围堵,中国人工智能的发展才会迎来更加光明的未来。  不过,AI的尽头究竟是什么?  英伟达创始人黄仁勋说道:“AI的尽头是是光伏和储能,不要光想着算力,如果只想着计算机,需要烧掉14个地球的能源。”  明白这个问题,其实我们对人工智能也会有更加理性的认识。  当前,随着DeepSeek、ChatGPT的争锋相对,一场人工智能的国际竞赛也摆上了台面。  特朗普重返白 宫隔天,选在AI领域宣布投资重头戏:由日本软银集团、OpenAI和美国科技巨头甲骨文三家企业投资5000亿美元,打造名为“星际之门”的项目,用在美国建设支持AI发展的基础设施,这被舆 论拿来与1980年代的“星球大战”计划相提并论。  中国的人工智能到底谁能代表?DeepSeek和它的创始人梁文锋已然登上了舞台。  之前曾有文章指出,百度的李彦宏可以,因为他曾与马斯克、吴恩达、黄仁勋等共同被《时代》周刊评为“全球AI领 袖”。  其实,在ChatGPT横空出世以后,百度的“文心一言”,华为的盘古大模型,腾讯的通义大模型,以及清华系领衔的ChatGLM-6B也走进了视野。现如今,我们还看到了豆包、kimi等日益走进手机。  这个春节假期,我们看到,DeepSeek另辟蹊径杀了出来。DeepSeek只用了600万美元及低功能晶片,就实现ChatGPT创始 者美国AI龙头公司OpenAI投入不下10亿美元及采用高端晶才做出的AI大模型成果,震撼全球科技圈。  有媒体称这是中国的“百模大战”。也正因如此,当前,有专家认为,人工智能发展已经面临“奇点时刻”。  所谓奇点时刻,原本是一个数学概念,后被引申到经济学和人工智能领域,放在经济学领域,奇点是一个关键时间点,越过这个时间点后经济会持续增长,且增长速度会加快。  所谓人工智能奇点指的是人工智能引发人类社会剧变的关键时刻。  通俗地来看,可以做两种解读。其一,人工智能在社会经济生活当中深度融合、广泛应用,也就是人工智能的渗透。其二,人工智能真正拥有自主意识,能够给人类的经济社会进行宏观指导。  如今,人工智能的战车已经开始狂飙,世界大国也开始了新一轮的角逐。  跨过奇点,我们会看到什么?请看下回分解。  (大众新闻记者张浩报道)

数据标注为AI发展加工“优质原料”

  来源:澎湃新闻·澎湃号·政务  随着人工智能迅猛发展,高质量训练数据短缺逐渐成为制约行业进步的一大瓶颈,而数据标注产业可为人工智能创新发展提供强大动力。国家发展改革委、国家数据局、财政部、人力资源和社会保障部四部门日前联合印发的《关于促进数据标注产业高质量发展的实施意见》(以下简称《实施意见》),提出到2027年的发展目标:数据标注产业智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%。  我国数据标注产业现状如何?数据标注产业高质量发展还需要跨过哪些“门槛”?针对这些问题,记者进行了采访。  原始数据变为可用资源  “通俗地说,训练人工智能大模型的过程就像老师教学生识字。”华南理工大学计算机科学与工程学院副院长张通形象地解释道,数据标注就是给数据“贴标签”或者“做记号”,需要专 业人员向大模型阐释各个数据的标签及需执行的相应任务。他们“教导”大模型参与训练的数据是什么,给图像、语音、文本等各种数据“贴标签”。高质量的数据标注,有助于机器精准理解、快速学习、训练,显著提升大模型的准确性和泛化能力。  在训练ChatGPT时,美国开放人工智能研究中心(OpenAI)就投入了大量资源用于数据标注。为确保标注任务高质量完成,使ChatGPT能更好地理解人类指令,保障大模型的准确性与可靠性,OpenAI聘请了众多“老师”。这些“老师”涵盖一般数据标注人员和专 业人士,还包括博士级别的专家。  数据标注是人工智能发展的核心基石之一。“数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业,其核心任务是对原始数据进行加工,使之成为可用于训练人工智能大模型的优质原料。”张通介绍,数据标注作为训练大模型至关重要的一环,直接影响机器学习模型的性能,对支撑人工智能能力水平提升有重要作用。  在张通看来,未经处理的原始数据只是潜在资源,而经过标注处理后沉淀的数据,才能在市场上进行有效交易和流通,从而充分释放数据要素价值。培育壮大数据标注产业,对于提升数据供给质量、推动人工智能创新发展不可或缺。  业内人士认为,随着人工智能技术不断成熟、应用领域持续拓展,数据标注行业将迎来更广阔市场空间,尤其是在低空经济、智慧城市、自动驾驶、智慧医疗等新兴科技领域展现出巨大潜力。  产业步入快速发展阶段  全球数据标注市场目前正处于迅速增长期。近年来,我国数据标注产业已进入快速发展阶段,产业链条不断完善,技术创新成果逐步实现市场化应用。据测算,2023年我国数据标注产业规模已达800亿元左右。  四川成都、辽宁沈阳、安徽合肥、湖南长沙等7个承担数据标注基地建设任务的城市,在大模型标注、自动化标注等领域取得重要突破。长沙信息产业园作为长沙数据标注基地之一,已吸引智能网联汽车、数据标注、网络安全等1万余家各类数字企业入驻,成功打造了人工智能创新中心算力服务平台。  广东积极推进数据标注训练试点和基地建设,为大模型训练提供坚实数据支撑。2023年9月,广东省公共数据标注训练试点正式启动。在广东省公共数据标注基地(清远),百度、燕湖科技、好思达等一批在自动驾驶、政务公共标注领域表现突出的企业已率先入驻。凭借龙头企业的带动作用和数字经济产业的集聚效应,清远的数据标注产业蓬勃发展。  “我们以数字经济产业为核心,与数字经济产业龙头企业紧密合作,致力于打造国家 级数据标注产业集聚区和产教融合示范区。”广东省公共数据标注基地(清远)负责人李艳康介绍,落户在此的百度智能云(清远)人工智能基础数据产业基地已累计引进孵化数据标注企业5家,培育专 业数据标注师超300人。未来,基地将持续培育孵化更多优秀数据标注企业,推动清远数据服务产业不断壮大发展。  复合型人才缺口仍然较大  《实施意见》的出台,将进一步提升数据供给质量,有效解决制约人工智能产业发展的高质量数据短缺问题。  值得注意的是,随着人工智能应用的不断深化,对数据标注的需求也愈发细分化和专 业化。2024年7月,张通团队和广州华银康医疗集团股份有限公司在人工智能与数字经济广东省实验室(广州)共建AI病理研究中心,着手研发人工智能病理大模型,让人工智能模型能像专 业医生一样看病问诊。在其中的数据预处理环节,中心特别聘请了3位的主任级医师进行数据标注。  “医疗、材料等专 业领域,涉及到专 业对象和术语结合的标注过程,只有专 业从业人员才能胜任标注工作。而且,标注任务极其耗时、耗力、耗资源。整个标注工作并非一蹴而就,而是需要在实际应用场景中优化、持续迭代,促使模型智能化水平不断升级。”张通说,当前我国数据标注行业人才缺口仍然较大,亟待培养复合型数据标注人才,这是我国数据标注产业高质量发展必须跨过的“门槛”。  《实施意见》对加强标注人才队伍建设作出部署。以人才项目计划和科技项目等为抓手,培育和引进高端专 业人才;制(修)定人工智能训练、数据标注相关职业国家职业标准;支持数据标注领域职业资格与职业技能等级衔接互认……一项项举措,将为数据标注产业高质量发展提供支撑。  完善的产业生态建设对数据标注行业发展同样重要。《实施意见》提出,畅通数据采集、标注、人工智能应用产业链,推动数据标注产业上下游协同发展;支持数据标注龙头企业和第三方机构等建设数据标注开源平台,助力中小企业发展;培育一批人力资源、供需对接、国际合作、法律审计等服务数据标注的第三方机构,完善数据标注产业生态。  “未来数据标注行业的发展,也可考虑‘以人工智能促人工智能’的思路,即让已经完成学习的人工智能反哺数据标注工作,提高 效率。这是值得深入探讨且具价值的研究方向。”张通认为,数据标注行业的发展有望加速推动数字经济与实体经济深度融合,加快形成新质生产力。  原标题:《数据标注为AI发展加工“优质原料”》