摘要:數(shù)據(jù)加工包含數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、數(shù)據(jù)審核等,本質(zhì)上是提升數(shù)據(jù)資源質(zhì)量的過(guò)程,數(shù)據(jù)資源的質(zhì)量越高其價(jià)值越大。由于非結(jié)構(gòu)化數(shù)據(jù)占比越來(lái)越大,對(duì)于數(shù)據(jù)標(biāo)注行業(yè)的需求穩(wěn)定提升,已經(jīng)形成一個(gè)穩(wěn)定成長(zhǎng)的行業(yè),市場(chǎng)標(biāo)注行業(yè)市場(chǎng)規(guī)模不斷擴(kuò)大,圖像類(lèi)和語(yǔ)音類(lèi)需求占比超八成。2022年中國(guó)數(shù)據(jù)標(biāo)注行業(yè)市場(chǎng)規(guī)模約為51億元。
一、定義及分類(lèi)
數(shù)據(jù)標(biāo)注是指借助特定軟件標(biāo)注工具以人工的方式將圖片、語(yǔ)音、文本、視頻等數(shù)據(jù)內(nèi)容打上特征標(biāo)簽,使計(jì)算機(jī)通過(guò)大量學(xué)習(xí)這些帶有特征標(biāo)簽的數(shù)據(jù),最終具備自主識(shí)別特征的一種行為。數(shù)據(jù)標(biāo)注技術(shù)作為提供訓(xùn)練數(shù)據(jù)的必經(jīng)環(huán)節(jié),促進(jìn)了人工智能的快速發(fā)展。常見(jiàn)的數(shù)據(jù)標(biāo)注按照數(shù)據(jù)類(lèi)型可以分為圖像標(biāo)注、文本標(biāo)注及語(yǔ)音標(biāo)注。
二、商業(yè)模式
1、眾包模式
現(xiàn)在數(shù)據(jù)標(biāo)注通常采取眾包的模式,眾包模式的優(yōu)點(diǎn)就是成本較低響應(yīng)較快。這種式適用較簡(jiǎn)單的項(xiàng)目如點(diǎn)點(diǎn)拉框等項(xiàng)目。發(fā)布者往往將任務(wù)詳細(xì)介紹和題目一同發(fā)送到平臺(tái)上供廣大數(shù)據(jù)標(biāo)注兼職人員作答。但眾包模式有一個(gè)很明顯的問(wèn)題就是質(zhì)量較難把控,每個(gè)人對(duì)規(guī)則的理解不盡相同且不可避免的會(huì)有一部分對(duì)任務(wù)亂答一通,影響項(xiàng)目質(zhì)量。為此各平臺(tái)也會(huì)使用一些方式減少問(wèn)題的產(chǎn)生提高項(xiàng)目質(zhì)量。比如增加改判環(huán)節(jié)一道題在答完之后會(huì)由他人進(jìn)行改判如若判錯(cuò)則不獲得任務(wù)報(bào)酬,此外為防止錯(cuò)判維護(hù)答題人員利益還會(huì)設(shè)置申訴環(huán)節(jié)使答題人員對(duì)有疑問(wèn)的題目進(jìn)行申訴。設(shè)置標(biāo)注人員級(jí)別,標(biāo)注人員任務(wù)正確率較高答題數(shù)較多則能慢慢提高等級(jí)解鎖更多任務(wù)獲得更多的任務(wù)報(bào)酬且有機(jī)會(huì)進(jìn)入改判環(huán)節(jié)成為改判員。
2、外包模式
外包模式與眾包模式相對(duì)是將任務(wù)外包給專(zhuān)門(mén)的數(shù)據(jù)標(biāo)注公司和團(tuán)隊(duì),在項(xiàng)目一開(kāi)始會(huì)對(duì)項(xiàng)目整體進(jìn)行評(píng)估然后針對(duì)項(xiàng)目整體進(jìn)行報(bào)價(jià)由數(shù)據(jù)標(biāo)注公司自行安排培訓(xùn)安排人手,只需要保證在項(xiàng)目截止日期前保質(zhì)保量交付數(shù)據(jù)即可。這種模式的優(yōu)勢(shì)就是數(shù)據(jù)質(zhì)量和項(xiàng)目周期有保證。但是響應(yīng)速度較慢成本較高,因?yàn)橐婚_(kāi)始需要安排競(jìng)標(biāo)且平臺(tái)需要安排專(zhuān)門(mén)的項(xiàng)目人員進(jìn)行項(xiàng)目對(duì)接和項(xiàng)目跟進(jìn)?,F(xiàn)如今國(guó)內(nèi)專(zhuān)門(mén)做數(shù)據(jù)標(biāo)注的團(tuán)隊(duì)較多,但是大多數(shù)只是以工作室和幾十人的小團(tuán)隊(duì)為主且業(yè)務(wù)類(lèi)型集中在簡(jiǎn)單的拉框圖像標(biāo)注上。也有一些的較大型的公司如貴州的夢(mèng)動(dòng)科技已經(jīng)形成產(chǎn)業(yè)化帶動(dòng)了當(dāng)?shù)氐陌l(fā)展。又或者是“點(diǎn)我科技”他們自建有平臺(tái)可以自研工具同時(shí)擔(dān)任著數(shù)據(jù)標(biāo)注平臺(tái)和數(shù)據(jù)標(biāo)注公司兩種角色。
三、行業(yè)政策
隨著數(shù)據(jù)要素市場(chǎng)不斷壯大,數(shù)據(jù)要素市場(chǎng)的各個(gè)參與主體都投入到市場(chǎng)運(yùn)作中。政府作為數(shù)據(jù)要素市場(chǎng)的管理者,將發(fā)揮政策扶持和積極引導(dǎo)作用,推動(dòng)公共數(shù)據(jù)擴(kuò)大開(kāi)放,構(gòu)建數(shù)據(jù)開(kāi)放平臺(tái)。相關(guān)政策文件的密集出臺(tái)推動(dòng)我國(guó)數(shù)據(jù)產(chǎn)業(yè)迅速發(fā)展,技術(shù)不斷進(jìn)步,基礎(chǔ)設(shè)施不斷完善,融合應(yīng)用不斷深入。2024年1月國(guó)家數(shù)據(jù)局等17部門(mén)發(fā)布《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024-2026年)》中指出:《行動(dòng)計(jì)劃》選取工業(yè)制造、現(xiàn)代農(nóng)業(yè)、商貿(mào)流通、交通運(yùn)輸、金融服務(wù)、科技創(chuàng)新、文化旅游、醫(yī)療健康、應(yīng)急管理、氣象服務(wù)、城市治理、綠色低碳等12個(gè)行業(yè)和領(lǐng)域,推動(dòng)發(fā)揮數(shù)據(jù)要素乘數(shù)效應(yīng),釋放數(shù)據(jù)要素價(jià)值。
四、行業(yè)壁壘
1、技術(shù)能力壁壘
隨著大模型時(shí)代的到來(lái),數(shù)據(jù)標(biāo)注行業(yè)對(duì)技術(shù)能力的要求越來(lái)越高。企業(yè)需要具備強(qiáng)大的數(shù)據(jù)處理能力,包括數(shù)據(jù)閉環(huán)工具鏈的智能化水平、對(duì)大模型/AI算法的理解、數(shù)據(jù)工程化能力以及基礎(chǔ)設(shè)施建設(shè)等。這些技術(shù)能力的缺乏會(huì)限制企業(yè)的發(fā)展,尤其是在自動(dòng)化標(biāo)注和處理復(fù)雜數(shù)據(jù)集方面。
2、場(chǎng)景資源壁壘
數(shù)據(jù)標(biāo)注服務(wù)需要緊密結(jié)合具體的應(yīng)用場(chǎng)景,這意味著企業(yè)必須擁有高質(zhì)量的場(chǎng)景數(shù)據(jù)和相應(yīng)的領(lǐng)域?qū)<一蛏疃扔脩?hù)。這些資源的獲取和維護(hù)需要大量的時(shí)間和成本投入,對(duì)于新進(jìn)入者來(lái)說(shuō),缺乏這些資源會(huì)成為進(jìn)入市場(chǎng)的障礙。
3、行業(yè)經(jīng)驗(yàn)壁壘
數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展需要積累豐富的行業(yè)經(jīng)驗(yàn),這包括對(duì)客戶(hù)需求的深刻理解、數(shù)據(jù)標(biāo)注流程的優(yōu)化以及與客戶(hù)的長(zhǎng)期合作關(guān)系建立。新進(jìn)入者缺乏這些經(jīng)驗(yàn),難以快速適應(yīng)市場(chǎng)變化和客戶(hù)需求,從而在競(jìng)爭(zhēng)中處于不利地位。
五、產(chǎn)業(yè)鏈
數(shù)據(jù)標(biāo)注位于產(chǎn)業(yè)鏈中游,是AI商業(yè)化應(yīng)用中重要的一環(huán)。行業(yè)的上游為數(shù)據(jù)源與數(shù)據(jù)產(chǎn)能,多元數(shù)據(jù)包括個(gè)人數(shù)據(jù)、企業(yè)數(shù)據(jù)、政府?dāng)?shù)據(jù)等,產(chǎn)能醫(yī)院供應(yīng)方包括標(biāo)注自愿提供方和硬件資源供應(yīng)商。中游為數(shù)據(jù)標(biāo)注廠商,包括AI基礎(chǔ)數(shù)據(jù)服務(wù)商,如海天瑞聲等。下游則是人工智能的應(yīng)用,涉及智慧政務(wù)、金融、工業(yè)、自動(dòng)駕駛等領(lǐng)域。其中,處于中游的AI基礎(chǔ)數(shù)據(jù)服務(wù)商主要進(jìn)行數(shù)據(jù)的采集與標(biāo)注,面向AI的數(shù)據(jù)治理平臺(tái)服務(wù)商則使用數(shù)據(jù)治理的各組件管治多源異構(gòu)數(shù)據(jù),使其形成數(shù)據(jù)資產(chǎn),提高數(shù)據(jù)質(zhì)量。二者處理后的數(shù)據(jù)可直接提供給下游用于AI訓(xùn)練,從而加速AI落地。
六、行業(yè)現(xiàn)狀
數(shù)據(jù)加工包含數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、數(shù)據(jù)審核等,本質(zhì)上是提升數(shù)據(jù)資源質(zhì)量的過(guò)程,數(shù)據(jù)資源的質(zhì)量越高其價(jià)值越大。具體分環(huán)節(jié)看:企業(yè)標(biāo)配的能力,基本在數(shù)據(jù)收集存儲(chǔ)環(huán)節(jié)就已經(jīng)完成;數(shù)據(jù)標(biāo)注:由于非結(jié)構(gòu)化數(shù)據(jù)占比越來(lái)越大,對(duì)于數(shù)據(jù)標(biāo)注行業(yè)的需求穩(wěn)定提升,已經(jīng)形成一個(gè)穩(wěn)定成長(zhǎng)的行業(yè),市場(chǎng)標(biāo)注行業(yè)市場(chǎng)規(guī)模不斷擴(kuò)大,圖像類(lèi)和語(yǔ)音類(lèi)需求占比超八成。2022年中國(guó)數(shù)據(jù)標(biāo)注行業(yè)市場(chǎng)規(guī)模約為51億元。
七、發(fā)展因素
1、有利因素
(1)人工智能技術(shù)的飛速發(fā)展
隨著人工智能(AI)技術(shù)的不斷進(jìn)步,尤其是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等領(lǐng)域的應(yīng)用日益廣泛,對(duì)高質(zhì)量、專(zhuān)業(yè)化的數(shù)據(jù)標(biāo)注需求急劇增加。數(shù)據(jù)標(biāo)注作為AI技術(shù)發(fā)展的基礎(chǔ),其市場(chǎng)需求隨之增長(zhǎng)。例如,圖像和視頻標(biāo)注的復(fù)合年增長(zhǎng)率接近17%,預(yù)計(jì)到2024年數(shù)據(jù)標(biāo)注市場(chǎng)的價(jià)值將達(dá)到486億美元。
(2)大模型時(shí)代的來(lái)臨
大模型(如GPT-3等)的開(kāi)發(fā)和應(yīng)用需要大量的高質(zhì)量數(shù)據(jù)作為訓(xùn)練基礎(chǔ)。數(shù)據(jù)標(biāo)注服務(wù)貫穿大模型的全生命周期,上下游合作關(guān)系更為緊密,這為數(shù)據(jù)標(biāo)注行業(yè)帶來(lái)了新的增長(zhǎng)點(diǎn)。大模型范式的涌入使得自動(dòng)化標(biāo)注效率進(jìn)一步提升,同時(shí)也對(duì)標(biāo)注人才提出了更高的要求,如高學(xué)歷多領(lǐng)域成為硬指標(biāo)。
(3)政策支持和市場(chǎng)需求
中國(guó)政府對(duì)人工智能產(chǎn)業(yè)的大力支持,以及各行各業(yè)對(duì)智能化轉(zhuǎn)型的需求,為數(shù)據(jù)標(biāo)注行業(yè)提供了廣闊的市場(chǎng)空間。例如,智能駕駛、醫(yī)療健康、金融科技等領(lǐng)域?qū)?shù)據(jù)標(biāo)注的需求不斷增長(zhǎng),推動(dòng)了行業(yè)的擴(kuò)張。此外,合成數(shù)據(jù)作為新興賽道,其增速最高,為數(shù)據(jù)標(biāo)注行業(yè)帶來(lái)了新的增長(zhǎng)動(dòng)力。例如《數(shù)據(jù)經(jīng)濟(jì)促進(jìn)共同富裕實(shí)施方案》、《深入實(shí)施“東數(shù)西算”工程加快構(gòu)建全國(guó)一體化算力網(wǎng)的實(shí)施意見(jiàn)》、《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024-2026年)》等政策。
2、不利因素
(1)行業(yè)洗牌與競(jìng)爭(zhēng)加劇
隨著市場(chǎng)規(guī)模的擴(kuò)大,更多的參與者進(jìn)入數(shù)據(jù)標(biāo)注行業(yè),導(dǎo)致市場(chǎng)競(jìng)爭(zhēng)日益激烈。由于行業(yè)準(zhǔn)入門(mén)檻相對(duì)較低,許多中小規(guī)模的數(shù)據(jù)服務(wù)供應(yīng)商涌現(xiàn),這導(dǎo)致市場(chǎng)飽和,使得中小型供應(yīng)商面臨嚴(yán)峻的生存壓力。同時(shí),行業(yè)內(nèi)部會(huì)出現(xiàn)一波“洗牌期”,那些無(wú)法適應(yīng)市場(chǎng)變化、提升技術(shù)水平和服務(wù)質(zhì)量的企業(yè)會(huì)被淘汰。
(2)技術(shù)門(mén)檻提升與人力成本增加
隨著AI企業(yè)對(duì)數(shù)據(jù)標(biāo)注的需求變得更加高質(zhì)量、精細(xì)化和定制化,數(shù)據(jù)標(biāo)注行業(yè)的技術(shù)門(mén)檻也在提高。這要求數(shù)據(jù)服務(wù)供應(yīng)商具備更強(qiáng)的技術(shù)實(shí)力和精細(xì)化管理能力。同時(shí),人力成本的上升也對(duì)數(shù)據(jù)標(biāo)注企業(yè)構(gòu)成了壓力,尤其是在勞動(dòng)力密集型的標(biāo)注任務(wù)中,成本控制成為企業(yè)需要重點(diǎn)關(guān)注的問(wèn)題。
(3)數(shù)據(jù)安全與隱私保護(hù)問(wèn)題
數(shù)據(jù)標(biāo)注涉及大量敏感信息的處理,如何確保數(shù)據(jù)的安全性和隱私保護(hù)成為行業(yè)的一個(gè)重要挑戰(zhàn)。在眾包、轉(zhuǎn)包模式下,數(shù)據(jù)的安全性難以得到充分保障,存在數(shù)據(jù)泄露的風(fēng)險(xiǎn)。此外,對(duì)于金融機(jī)構(gòu)和政府部門(mén)等特殊行業(yè)的需求方來(lái)說(shuō),數(shù)據(jù)的安全性尤為重要,數(shù)據(jù)標(biāo)注企業(yè)需要建立完善的數(shù)據(jù)安全防護(hù)機(jī)制,以避免潛在的法律風(fēng)險(xiǎn)和信譽(yù)損失。
八、競(jìng)爭(zhēng)格局
AI行業(yè)的蓬勃發(fā)展,對(duì)數(shù)據(jù)的需求呈井噴式增長(zhǎng),數(shù)據(jù)標(biāo)注行業(yè)是伴隨著AI的興起而產(chǎn)生的一個(gè)新興行業(yè)。目前,我國(guó)國(guó)內(nèi)市場(chǎng)越來(lái)越多的互聯(lián)網(wǎng)巨頭公司開(kāi)始組建自己的數(shù)據(jù)標(biāo)注平臺(tái),京東(京東眾智)、百度(百度眾測(cè))都已經(jīng)擁有自己的標(biāo)注平臺(tái)和工具。頭部公司之外,國(guó)內(nèi)近年興起眾多數(shù)據(jù)標(biāo)注公司,如龍貓數(shù)據(jù)、Testin云測(cè)、倍賽BasicFinder、數(shù)據(jù)堂等,這些公司僅次于第一梯隊(duì),都具有相當(dāng)?shù)囊?guī)模。
海天瑞聲是我國(guó)領(lǐng)先的訓(xùn)練數(shù)據(jù)專(zhuān)業(yè)提供商。自2005年成立以來(lái),公司致力于為AI產(chǎn)業(yè)鏈上的各類(lèi)機(jī)構(gòu)提供算法模型開(kāi)發(fā)訓(xùn)練所需的專(zhuān)業(yè)數(shù)據(jù)集。公司所提供的訓(xùn)練數(shù)據(jù)覆蓋智能語(yǔ)音(語(yǔ)音識(shí)別、語(yǔ)音合成等)、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言等多個(gè)核心領(lǐng)域,全面服務(wù)于人機(jī)交互、智能駕駛、智能家居、智慧城市等多種創(chuàng)新應(yīng)用場(chǎng)景。2023年上半年公司收入為0.74億元。
九、發(fā)展趨勢(shì)
置信度分?jǐn)?shù)最高的片段用于對(duì)標(biāo)簽的初始化,呈現(xiàn)給標(biāo)注者。標(biāo)注者可以從機(jī)器生成的多個(gè)候選標(biāo)簽中為當(dāng)前片段選擇合適的標(biāo)簽,或者對(duì)機(jī)器未覆蓋到的對(duì)象添加分割段。AI輔助標(biāo)注技術(shù)的應(yīng)用,能夠極大地降低人力成本并使標(biāo)注速度大幅提升。目前,已經(jīng)有一些數(shù)據(jù)標(biāo)注公司開(kāi)發(fā)了相應(yīng)的半自動(dòng)化工具,但是從標(biāo)注比例來(lái)看,機(jī)器標(biāo)注占30%左右,而人工標(biāo)注占比達(dá)到70%左右。因此,數(shù)據(jù)標(biāo)注工具的發(fā)展趨勢(shì)是開(kāi)發(fā)以人工標(biāo)注為主機(jī)器標(biāo)注為輔的半自動(dòng)化標(biāo)注工具,同時(shí)減少人工標(biāo)注的比例,并逐步提高機(jī)器標(biāo)注的占比。
智研咨詢(xún)倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán),對(duì)有明確來(lái)源的內(nèi)容注明出處。如發(fā)現(xiàn)本站文章存在版權(quán)、稿酬或其它問(wèn)題,煩請(qǐng)聯(lián)系我們,我們將及時(shí)與您溝通處理。聯(lián)系方式:gaojian@chyxx.com、010-60343812。
2024年中國(guó)數(shù)據(jù)標(biāo)注行業(yè)發(fā)展現(xiàn)狀及趨勢(shì)研判:數(shù)據(jù)標(biāo)注發(fā)展?jié)摿薮?,?xì)化數(shù)據(jù)標(biāo)注成為行業(yè)未來(lái)發(fā)展趨勢(shì)[圖]
數(shù)據(jù)標(biāo)注是指借助特定軟件標(biāo)注工具以人工的方式將圖片、語(yǔ)音、文本、視頻等數(shù)據(jù)內(nèi)容打上特征標(biāo)簽,使計(jì)算機(jī)通過(guò)大量學(xué)習(xí)這些帶有特征標(biāo)簽的數(shù)據(jù),最終具備自主識(shí)別特征的一種行為。數(shù)據(jù)標(biāo)注技術(shù)作為提供訓(xùn)練數(shù)據(jù)的必經(jīng)環(huán)節(jié),促進(jìn)了人工智能的快速發(fā)展。常見(jiàn)的數(shù)據(jù)標(biāo)注按照數(shù)據(jù)類(lèi)型可以分為圖像標(biāo)注、文本標(biāo)注及語(yǔ)音標(biāo)注。
預(yù)見(jiàn)2022:中國(guó)數(shù)據(jù)標(biāo)注與審核行業(yè)產(chǎn)業(yè)鏈全景、發(fā)展歷程、市場(chǎng)規(guī)模、競(jìng)爭(zhēng)格局及發(fā)展趨勢(shì)分析[圖]
2015-2021年,我國(guó)數(shù)據(jù)標(biāo)注與審核行業(yè)市場(chǎng)規(guī)模保持穩(wěn)步增長(zhǎng)態(tài)勢(shì),2021年達(dá)到44.40億元。2015年以來(lái),我國(guó)AI行業(yè)尚處在啟動(dòng)期,預(yù)計(jì)在之后的幾年里,伴隨AI戰(zhàn)略被更多企業(yè)認(rèn)同,更多資金和資源的投入,以及各項(xiàng)技術(shù)的實(shí)際應(yīng)用落地,我國(guó)數(shù)據(jù)標(biāo)注與審核行業(yè)將延續(xù)高速增長(zhǎng)態(tài)勢(shì)。