摘要:所謂AI語(yǔ)料,是指用于訓(xùn)練人工智能算法和模型的文本、語(yǔ)音、圖像或其他形式的數(shù)據(jù)集合。
2025年開(kāi)年,DeepSeek的橫空出世再次點(diǎn)燃全球AI競(jìng)賽。當(dāng)公眾為國(guó)產(chǎn)開(kāi)源大模型的驚艷表現(xiàn)歡呼時(shí),產(chǎn)業(yè)界正將目光投向更上游的隱秘戰(zhàn)場(chǎng)——AI語(yǔ)料庫(kù)。這場(chǎng)靜默的“數(shù)字石油”爭(zhēng)奪戰(zhàn),正在重構(gòu)人工智能產(chǎn)業(yè)的底層競(jìng)爭(zhēng)邏輯。
大模型迭代背后的隱秘戰(zhàn)場(chǎng)
DeepSeek-R1在數(shù)學(xué)、代碼和推理任務(wù)上可與OpenAI o1媲美,并且預(yù)訓(xùn)練費(fèi)用只有557.6萬(wàn)美元,不到OpenAI GPT-4o模型訓(xùn)練成本的十分之一。這些突破的背后,是高質(zhì)量AI語(yǔ)料庫(kù)的持續(xù)擴(kuò)容。
所謂AI語(yǔ)料,是指用于訓(xùn)練人工智能算法和模型的文本、語(yǔ)音、圖像或其他形式的數(shù)據(jù)集合。AI語(yǔ)料作為訓(xùn)練人工智能算法和模型的核心資源,其重要性隨著技術(shù)發(fā)展與行業(yè)滲透持續(xù)提升。求思咨詢數(shù)據(jù)顯示,2023年我國(guó)AI語(yǔ)料市場(chǎng)規(guī)模達(dá)68.7億元,預(yù)計(jì)到2025年將突破100億元大關(guān),增長(zhǎng)至109億元,年復(fù)合增長(zhǎng)率超過(guò)25%。
上市企業(yè)爭(zhēng)相布局
面對(duì)如此廣闊的市場(chǎng)前景,眾多上市公司也紛紛加快布局,力求在人工智能產(chǎn)業(yè)鏈上游搶占戰(zhàn)略制高點(diǎn)。
在文本語(yǔ)料領(lǐng)域,中文在線集團(tuán)股份有限公司依托20余年文化數(shù)字產(chǎn)業(yè)積累,構(gòu)建起涵蓋文學(xué)、教育、科技等多類型的高質(zhì)量語(yǔ)料庫(kù);中國(guó)科技出版?zhèn)髅焦煞萦邢薰尽⒅袊?guó)出版?zhèn)髅焦煞萦邢薰镜瘸霭纨堫^則將專業(yè)學(xué)術(shù)資源轉(zhuǎn)化為AI語(yǔ)料,服務(wù)于科研、教育等領(lǐng)域的AI應(yīng)用。
在視頻語(yǔ)料賽道,浙江華策影視股份有限公司憑借影視劇制作優(yōu)勢(shì)積累海量原始素材庫(kù),為AI在視頻領(lǐng)域的應(yīng)用提供了豐富資源;中廣天擇傳媒股份有限公司的“淘劇淘”平臺(tái)匯聚了優(yōu)質(zhì)電視劇版權(quán),并出售大模型客戶,為大模型訓(xùn)練提供深度數(shù)據(jù)支持。
除文化傳媒行業(yè)外,其他行業(yè)巨頭也布局AI語(yǔ)料領(lǐng)域。浙江核新同花順網(wǎng)絡(luò)信息股份有限公司、上海鋼聯(lián)電子商務(wù)股份有限公司等在金融和大宗商品領(lǐng)域的語(yǔ)料庫(kù)建設(shè),推動(dòng)金融科技的快速發(fā)展。
北京值得買(mǎi)科技股份有限公司、匯納科技股份有限公司等公司則通過(guò)消費(fèi)語(yǔ)料庫(kù),助力AI更好地理解和滿足消費(fèi)者需求。中遠(yuǎn)海運(yùn)科技股份有限公司在航運(yùn)領(lǐng)域的語(yǔ)料庫(kù)布局,將有助于提高航運(yùn)效率和安全性。這些上市公司的超前布局,有望在這一領(lǐng)域構(gòu)建起強(qiáng)大的競(jìng)爭(zhēng)優(yōu)勢(shì)。
同時(shí),政策層面的支持也為行業(yè)發(fā)展注入強(qiáng)勁動(dòng)能。2024年12月份,國(guó)家印發(fā)《關(guān)于促進(jìn)數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見(jiàn)》,明確提出支持企業(yè)面向人工智能應(yīng)用創(chuàng)新,開(kāi)發(fā)高質(zhì)量數(shù)據(jù)集,大力發(fā)展“數(shù)據(jù)即服務(wù)”“知識(shí)即服務(wù)”“模型即服務(wù)”等新業(yè)態(tài)。
2025年2月19日,國(guó)家數(shù)據(jù)局召開(kāi)高質(zhì)量數(shù)據(jù)集建設(shè)工作啟動(dòng)會(huì),明確指出要扎實(shí)做好高質(zhì)量數(shù)據(jù)集建設(shè)工作,加快推動(dòng)形成一批標(biāo)志性成果,以此賦能行業(yè)高質(zhì)量發(fā)展。
在政策紅利與市場(chǎng)需求的雙重推動(dòng)下,AI語(yǔ)料的價(jià)值正經(jīng)歷全面重估。未來(lái),掌握高質(zhì)量AI語(yǔ)料的企業(yè),將真正掌控智能時(shí)代的“數(shù)字命脈”。
編輯/劉曉茹