AI语料争夺战打响,上市公司竞逐“数据黄金”

摘要:所谓AI语料,是指用于训练人工智能算法和模型的文本、语音、图像或其他形式的数据集合。

2025年开年,DeepSeek的横空出世再次点燃全球AI竞赛。当公众为国产开源大模型的惊艳表现欢呼时,产业界正将目光投向更上游的隐秘战场——AI语料库。这场静默的“数字石油”争夺战,正在重构人工智能产业的底层竞争逻辑。

图片1

大模型迭代背后的隐秘战场

DeepSeek-R1在数学、代码和推理任务上可与OpenAI o1媲美,并且预训练费用只有557.6万美元,不到OpenAI GPT-4o模型训练成本的十分之一。这些突破的背后,是高质量AI语料库的持续扩容。

所谓AI语料,是指用于训练人工智能算法和模型的文本、语音、图像或其他形式的数据集合。AI语料作为训练人工智能算法和模型的核心资源,其重要性随着技术发展与行业渗透持续提升。求思咨询数据显示,2023年我国AI语料市场规模达68.7亿元,预计到2025年将突破100亿元大关,增长至109亿元,年复合增长率超过25%。

上市企业争相布局

面对如此广阔的市场前景,众多上市公司也纷纷加快布局,力求在人工智能产业链上游抢占战略制高点。

在文本语料领域,中文在线集团股份有限公司依托20余年文化数字产业积累,构建起涵盖文学、教育、科技等多类型的高质量语料库;中国科技出版传媒股份有限公司、中国出版传媒股份有限公司等出版龙头则将专业学术资源转化为AI语料,服务于科研、教育等领域的AI应用。

图片2

在视频语料赛道,浙江华策影视股份有限公司凭借影视剧制作优势积累海量原始素材库,为AI在视频领域的应用提供了丰富资源;中广天择传媒股份有限公司的“淘剧淘”平台汇聚了优质电视剧版权,并出售大模型客户,为大模型训练提供深度数据支持。

除文化传媒行业外,其他行业巨头也布局AI语料领域。浙江核新同花顺网络信息股份有限公司、上海钢联电子商务股份有限公司等在金融和大宗商品领域的语料库建设,推动金融科技的快速发展。

北京值得买科技股份有限公司、汇纳科技股份有限公司等公司则通过消费语料库,助力AI更好地理解和满足消费者需求。中远海运科技股份有限公司在航运领域的语料库布局,将有助于提高航运效率和安全性。这些上市公司的超前布局,有望在这一领域构建起强大的竞争优势。

图片3

同时,政策层面的支持也为行业发展注入强劲动能。2024年12月份,国家印发《关于促进数据产业高质量发展的指导意见》,明确提出支持企业面向人工智能应用创新,开发高质量数据集,大力发展“数据即服务”“知识即服务”“模型即服务”等新业态。

2025年2月19日,国家数据局召开高质量数据集建设工作启动会,明确指出要扎实做好高质量数据集建设工作,加快推动形成一批标志性成果,以此赋能行业高质量发展。

在政策红利与市场需求的双重推动下,AI语料的价值正经历全面重估。未来,掌握高质量AI语料的企业,将真正掌控智能时代的“数字命脉”。

编辑/刘晓茹
本平台发布/转载的内容仅用于信息分享,不代表我司对外的任何意见、建议或保证,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至info@tonews.cn,我们将第一时间核实、处理。同时,欢迎各方媒体、机构转载和引用,但要严格注明来源:今日商讯。

您可能感兴趣的文章