2024年中國AI基礎數(shù)據(jù)服務調查報告
AI|調查報告
核心摘要:
近幾年來,Transformer等預訓練模型在語言邏輯和生成等領域表現(xiàn)出色,Scaling在大模型背后。 Law(規(guī)模法則)進一步揭示了模型性能與信息量、算率之間的關系,加強了數(shù)據(jù)在AI性能提升中的關鍵作用。AI基礎數(shù)據(jù)服務是AI產業(yè)發(fā)展的重要支撐,可以加速高質量數(shù)據(jù)的獲取和標注,促進AI算法的創(chuàng)新和持續(xù)優(yōu)化?;趯χ袊鳤I基礎數(shù)據(jù)服務市場供需兩側企業(yè)的調查,如數(shù)據(jù)服務專業(yè)制造商、云制造商、大型R&D制造商和智能駕駛R&D制造商,結合艾瑞對中國人工智能市場整體和AI基礎數(shù)據(jù)服務業(yè)發(fā)展的判斷,艾瑞計算2023年中國AI基礎數(shù)據(jù)服務市場規(guī)模為45億元。預計到2028年,中國AI基礎數(shù)據(jù)服務市場將達到170億元,未來五年復合增長率為30.4%。
AI產業(yè)的整體進步
多模式、長文本、大模式微型化已成為研究內容的熱點。
近幾年來,公眾已經(jīng)看到了GPT。、在自然語言理解和生成方面,BERT等大語言模型具有優(yōu)異的能力。與單一模式的大模式相比,多模式的大模式可以提供更自然的人機交互模式,具有更全面、更準確的思維能力,在不同的場景下表現(xiàn)出更高的魯棒性,從而賦能更豐富、更全面的AI應用。所以,多模態(tài)技術已經(jīng)成為許多大型模型制造商研發(fā)的重點。此外,隨著長文本處理能力的提高,大模型在理解和生成復雜文檔方面表現(xiàn)更好,可以更好地支持多主題、多步推理任務;通過知識蒸餾、模型修剪、混合精度訓練等技術,大模型可以微型化,降低了計算資源的需求,提高了推理效率,使大模型在資源有限的設備中高效運行,提高了響應速度和客戶體驗,保證了用戶的數(shù)據(jù)隱私。聚焦國內AI商業(yè)市場,大模型商業(yè)化進程加快,API市場競爭激烈,價格戰(zhàn)頻發(fā),但也反映了供應商之間能力同質化的問題,迫切需要打破。另一方面,中央國有企業(yè)憑借良好的數(shù)字化基礎、豐富的數(shù)據(jù)和需求場景以及相對充足的科技投資預算,成為目前國內大型項目建設的主力軍,推動了中國AI行業(yè)大型項目的商業(yè)化。
構建AI的三個要素是數(shù)據(jù)、算法和算率。
從理論到應用,數(shù)據(jù)、算法、計算能力的協(xié)同促進了現(xiàn)代AI技術的飛躍
在人工智能領域,數(shù)據(jù)、算法和計算率是構建AI系統(tǒng)的三個核心要素,三者的協(xié)同使得現(xiàn)代AI技術從理論到應用都有了飛躍。大量優(yōu)質數(shù)據(jù)不僅可以提高當前模型的準確性,而且可以促進模型的優(yōu)化和創(chuàng)新,是信息AI的基礎。以ImageNet數(shù)據(jù)為例,該數(shù)據(jù)和相關競爭促進了計算機視覺算法的快速發(fā)展。2017年是競爭的最后一年,7年內物體分類冠軍的準確率從71.8%上升到97.3%。近幾年來,Transformer等預訓練模型在語言邏輯和生成等領域表現(xiàn)出色,Scaling在大模型背后。 Law(規(guī)模法則)進一步揭示了模型性能與信息量、算率之間的關系,加強了數(shù)據(jù)在AI性能提升中的關鍵作用。
AI基礎數(shù)據(jù)服務是AI產業(yè)發(fā)展的關鍵支撐。
加快高質量數(shù)據(jù)的獲取和標記,促進AI算法的創(chuàng)新和持續(xù)優(yōu)化
根據(jù)AI基礎數(shù)據(jù)服務制造商LXT對322家具有AI項目經(jīng)驗的美國公司的調查,培訓數(shù)據(jù)的資金投入占這些企業(yè)AI整體建設投入的15%,61%的企業(yè)認為未來2-5年對數(shù)據(jù)的需求會增加,62%的企業(yè)認為數(shù)據(jù)質量比信息更重要。在AI建設中,LXT的調查結果揭示了公司對高質量數(shù)據(jù)的迫切需求。鑒于AI基礎數(shù)據(jù)服務制造商在高效提供優(yōu)質數(shù)據(jù)方面的專業(yè)能力,AI基礎數(shù)據(jù)服務已經(jīng)成為AIR&D企業(yè)的重要合作伙伴,AI基礎數(shù)據(jù)服務已經(jīng)成為推動AI產業(yè)發(fā)展的關鍵支撐。
AI基礎數(shù)據(jù)服務制造商及主要產品服務介紹
三大產品服務:標準數(shù)據(jù)集、定制數(shù)據(jù)、配套設備和工具服務等。
AI基礎數(shù)據(jù)服務制造商是一家專注于為各個行業(yè)的AI算法培訓和優(yōu)化提供基礎數(shù)據(jù)產品服務的公司。通過提供標準數(shù)據(jù)集、定制數(shù)據(jù)和配套設備工具服務,這些企業(yè)支持AI技術在互聯(lián)網(wǎng)、大模型、智能駕駛等領域的發(fā)展。根據(jù)內容格式,數(shù)據(jù)可以分為文本、圖像、視頻、語音等類型。核心生產過程主要包括方案策劃、數(shù)據(jù)收集、數(shù)據(jù)清理、數(shù)據(jù)標注、數(shù)據(jù)質量檢驗五個重要環(huán)節(jié)。標準數(shù)據(jù)集是數(shù)據(jù)服務制造商開發(fā)的數(shù)據(jù)集,可以多次銷售;定制數(shù)據(jù)是根據(jù)客戶需求制作特定數(shù)據(jù),數(shù)據(jù)的知識產權歸客戶所有;配套設備服務包括標注工具、培訓平臺、AI模型評估等軟硬件工具服務,用于滿足不同層次的客戶需求,如高效標注數(shù)據(jù)、培訓數(shù)據(jù)標注、AI能力評估等。,幫助和延伸數(shù)據(jù)服務制造商的相關業(yè)務。

典型服務場景-通用大模型(1/2)
信息量大,層次多樣,標注方式和質量評價標準也更加復雜多變。
從理論到實踐,算法模型的應用依賴于大量的訓練數(shù)據(jù)。訓練數(shù)據(jù)越多,越完整,質量越高,模型推理的結果就越可靠。傳統(tǒng)AI泛指Transformer架構出現(xiàn)之前的AI架構,其參數(shù)一般較小,而大型架構則以Transformer為代表。ChatGPT自2022年11月推出以來,ChatGPT作為應用大模型架構的代表,在AI乃至社會經(jīng)濟領域掀起了大模型研究與應用的熱潮。與傳統(tǒng)的AI類似,大型模型仍然需要大量的高質量數(shù)據(jù),但它們需要更多的信息,更多的數(shù)據(jù)維度,更復雜的標記方法和質量判斷標準。
典型服務場景-通用大模型(2/2)
為了提高通用性,大型訓練數(shù)據(jù)的投入會逐漸向圖像、視頻等多模態(tài)數(shù)據(jù)傾斜,需要更多的采購數(shù)據(jù)來支持。
縱觀行業(yè)開源和閉源大模型的能力特點,結合艾瑞對大模型R&D企業(yè)的研究,雖然目前主流大模型的應用還是比較注重文本輸入和文本輸出的能力,但是圖像、視頻、語音等多模態(tài)數(shù)據(jù)的應用越來越普遍。艾瑞預測,未來幾年,大模型培訓信息中多模態(tài)數(shù)據(jù)的比例將繼續(xù)增加。根據(jù)艾瑞對一些通用大型模型和綜合AI制造商的調查,目前大型模型的培訓數(shù)據(jù)主要來自可以公開獲取的數(shù)據(jù),如公開數(shù)據(jù)和網(wǎng)絡爬蟲數(shù)據(jù),其次是采購數(shù)據(jù)。綜合AI廠商與大型初創(chuàng)企業(yè)相比,憑借現(xiàn)有的互聯(lián)網(wǎng)應用和AI業(yè)務積累,具有獨特的數(shù)據(jù)優(yōu)勢。公開數(shù)據(jù)和爬蟲數(shù)據(jù)已經(jīng)廣泛應用于模型通用能力建設中,未來這兩種數(shù)據(jù)的整體提升空間相對有限,Epoch 在2024年6月更新的論文中,AI等機構的研究人員表示,大語言模型將在2026-2032年之間耗盡所有公開的文本數(shù)據(jù)。艾瑞預測,大型R&D廠商將采用更多的采購數(shù)據(jù)來提高模型的通用性;但在垂直場景優(yōu)化和行業(yè)客戶拓展方面,公開數(shù)據(jù)和爬蟲數(shù)據(jù)仍有很大的提升空間,大型R&D廠商將更多地利用客戶端的合作數(shù)據(jù),增強模型處理行業(yè)特定領域或單位特定問題的能力。
典型的服務場景-大模型評估
公開評價標準與商業(yè)評價服務共創(chuàng)大模型評價生態(tài)評價
伴隨著大型模型技術的快速迭代和在許多領域的廣泛應用,相關評估需求同步增長。對于模型R&D企業(yè)來說,評價是發(fā)現(xiàn)模型在功能、性能、安全性和可靠性方面的優(yōu)缺點的關鍵步驟,可以橫向與其他企業(yè)的模型進行比較,從而有針對性地優(yōu)化模型,提高其性能和穩(wěn)定性;對于模型應用企業(yè)來說,評價是選擇和項目驗收的重要工具。企業(yè)可以通過專業(yè)的評價服務,評價模型的實際應用適用性,確保所選模型符合要求。并且保證定制模型項目的交付質量。與傳統(tǒng)AI相比,大型模型的應用空間更廣,評價本身也更加復雜多樣,市場對專業(yè)評價服務的需求潛力無限。與傳統(tǒng)AI相比,大型模型的應用空間更廣,評價本身也更加復雜多樣,市場對專業(yè)評價服務的需求潛力無限。公開評價標準和商業(yè)評價服務的發(fā)展將為大型評價提供重要支持,促進技術和行業(yè)的健康發(fā)展。


典型的服務場景-智能駕駛
AI基礎數(shù)據(jù)服務與AI算法研發(fā)相互促進,共同推動自動駕駛的實現(xiàn)
智能駕駛的自動化水平在模型和端到端技術的加持下不斷提高,相關功能已經(jīng)成為部分消費者購車時的重要參考標準。攝像機和激光雷達是目前高級智能駕駛系統(tǒng)中的兩個核心傳感器,除了個別廠商致力于純視覺路線。攝像頭主要捕捉二維圖像,分辨率高,色彩細節(jié)豐富;激光雷達可以通過發(fā)射和接收激光脈沖來準確測量物體的距離、尺寸和位置關系,并且受到光照等自然條件的影響較小。攝像機、激光雷達等各種傳感器各有優(yōu)勢,相互補充,數(shù)據(jù)標注需要對來自不同傳感器的數(shù)據(jù)標簽進行對齊和交叉驗證。AI基礎數(shù)據(jù)服務是支持AI算法研發(fā)的基石,如智能駕駛和大模型,AI算法大大提高了智能駕駛R&D領域數(shù)據(jù)標注的效率和質量,為數(shù)據(jù)服務業(yè)的發(fā)展注入了新的活力。數(shù)據(jù)和AI相互支持,相互促進,共同推動自動駕駛的實現(xiàn)。
AI基礎數(shù)據(jù)服務產業(yè)圖譜中國
多源數(shù)據(jù),人力資源服務,IT設施 → 數(shù)據(jù)服務 → AI算法研發(fā)廠家
AI基礎數(shù)據(jù)服務行業(yè)的中游是數(shù)據(jù)標簽等數(shù)據(jù)服務的供應商,包括專業(yè)制造商和云制造商,其中后者主要支持內部算法研發(fā)和云業(yè)務客戶需求。上游提供原材料數(shù)據(jù)、人力資源支持和IT基礎設施,其中人力資源服務供應商主要包括兩類廠商:垂直做數(shù)據(jù)標注的廠商和綜合IT廠商。目前,人力支持一般采用遠程在線服務,即云BPO。以下游為數(shù)據(jù)服務的需求方,包括投資AI算法研發(fā)的大型、智能駕駛等各個行業(yè)的廠商。

中國AI基礎數(shù)據(jù)服務市場規(guī)模
2023年,中國AI基礎數(shù)據(jù)服務市場規(guī)模為45億元,未來復合增長率為30.4%。
基于對中國AI基礎數(shù)據(jù)服務市場供需兩側企業(yè)的調查,如數(shù)據(jù)服務專業(yè)制造商、云制造商、大型R&D制造商和智能駕駛R&D制造商,結合艾瑞對中國人工智能市場整體和AI基礎數(shù)據(jù)服務業(yè)發(fā)展的判斷,艾瑞計算2023年中國AI基礎數(shù)據(jù)服務市場規(guī)模為45億元。在需求方面,隨著AI算法研發(fā)從面向特定任務領域的小模型向具有更強通用性和泛化能力的大模型轉變,數(shù)據(jù)服務需求公司將產生大量高質量、多模式的數(shù)據(jù)需求。同時,隨著AI技術的大規(guī)模商業(yè)落地,如大型模型在通用和垂直場景中的應用擴展和智能駕駛,良好的商業(yè)收入將進一步促進需求方對數(shù)據(jù)的投入。在供給方面,隨著數(shù)據(jù)要素等相關扶持政策的不斷深化,服務提供商將加快數(shù)據(jù)庫的獲取和數(shù)據(jù)集的制作。隨著數(shù)據(jù)工程設計、數(shù)據(jù)標準規(guī)范、標注方式的不斷完善,人才生態(tài)和服務軟件平臺的自動化和系統(tǒng)化也在不斷完善,加強了供給側的供給能力和服務水平。艾瑞預計,到2028年,中國AI基礎數(shù)據(jù)服務市場規(guī)模將達到170億元,未來五年復合增長率將達到30.4%。
AI基礎數(shù)據(jù)服務商的市場結構分析
自建團隊和品牌數(shù)據(jù)服務提供商主導市場,中小服務提供商市場份額大幅下降
在2020年中國AI數(shù)據(jù)服務業(yè)研究中,艾瑞將繼續(xù)劃分供應商。本報告將供應商分為三類:需求商自建團隊、品牌數(shù)據(jù)服務提供商和中小數(shù)據(jù)服務提供商。其中,擁有AI數(shù)據(jù)外部服務的云廠商最為特殊,由于其集團內部AI算法研發(fā)所需的數(shù)據(jù)服務,可能由四個團隊承擔:云服務業(yè)務線、算法研發(fā)業(yè)務線內部標注團隊、外部品牌和中小數(shù)據(jù)服務提供商。在艾瑞對供應商的市場份額統(tǒng)計中,云服務業(yè)務線的內部支持計入需求方自建團隊的市場;由于云服務制造商具有較大的市場影響力和相對完善的服務軟件平臺,云服務線對外部制造商的數(shù)據(jù)服務被納入品牌數(shù)據(jù)服務商的市場。
與4年的市場份額相比,中小數(shù)據(jù)服務提供商的整體市場份額下降了約41%,需求方自建團隊上升了36%,品牌數(shù)據(jù)服務提供商上升了5%。:傳統(tǒng)AI數(shù)據(jù)標注市場競爭激烈,而大型、智能駕駛等新興項目需要較強的綜合服務能力,疊加疫情沖擊,更多的中小數(shù)據(jù)服務提供商已經(jīng)退出市場;在模型、智能駕駛等新興AI算法和相應的標注方式快速迭代階段,為了追求更高的開發(fā)效率,保證信息安全,更多的需求者通過自建團隊來滿足數(shù)據(jù)服務的需求;未來,隨著品牌數(shù)據(jù)服務提供商數(shù)據(jù)版權的豐富、專業(yè)能力的提高和標注方式的完善,品牌數(shù)據(jù)服務提供商將承擔更多的數(shù)據(jù)服務需求。
根據(jù)艾瑞的調查統(tǒng)計,2023年中國AI數(shù)據(jù)服務業(yè)的CR4(前四大公司的市場份額)為22.0%,市場仍然比較分散。2023年中國AI基礎數(shù)據(jù)服務市場的集中度明顯提高,與2019年14.3%的CR4相比。展望未來,隨著AI技術的發(fā)展,如大型模型,對數(shù)據(jù)服務的需求越來越大和復雜,這對服務企業(yè)的綜合能力提出了更高的要求。沒有自動化軟件平臺或平臺能力弱、資源整合能力有限的廠商,將面臨生存空間不斷被擠壓的困境;高質量的數(shù)據(jù)擁有豐富的版權、強大的運營管理能力和深刻的行業(yè)理解頭部數(shù)據(jù)服務制造商有望繼續(xù)增加市場份額。
廠商的競爭要素和未來發(fā)展戰(zhàn)略
自動化平臺,深刻的行業(yè)理解,前瞻性的技術和數(shù)據(jù)布局,將有助于知名企業(yè)贏得市場領先地位
在行業(yè)集中度不斷提高的過程中,積極應用前沿算法、積累優(yōu)質數(shù)據(jù)版權的AI基礎數(shù)據(jù)服務廠商,基于自動化平臺不斷加強項目運營和資源整合能力,深刻理解行業(yè)需求,將在殘酷競爭的市場中脫穎而出,贏得市場領先水平。


AI數(shù)據(jù)服務業(yè)面臨的挑戰(zhàn)和機遇
由于需求量大,需求復雜,行業(yè)面臨著人力短缺、項目難管理等挑戰(zhàn)。
AI數(shù)據(jù)服務行業(yè)面臨諸多挑戰(zhàn),包括數(shù)據(jù)標注工程師門檻提高、項目管理復雜性增加、項目規(guī)模大、高質量數(shù)據(jù)難以獲取、信息安全問題等。,因為大模型對數(shù)據(jù)集的要求更加復雜,對優(yōu)質數(shù)據(jù)的需求增加,需求者對數(shù)據(jù)安全和核心技術的重視。盡管面臨挑戰(zhàn),行業(yè)也迎來了新的機遇。AI技術的不斷發(fā)展,如大型模型,帶來了高數(shù)據(jù)需求,促進了AI基礎數(shù)據(jù)服務市場的增長,高質量的數(shù)據(jù)集成成為供應商的核心競爭優(yōu)勢。此外,對多模態(tài)數(shù)據(jù)集的需求也會增加。數(shù)據(jù)服務軟件平臺憑借精細的流水分工和日益精確的AI算法,在行業(yè)內的價值不斷提升。平臺可以幫助服務提供商更好地滿足需求者的高質量數(shù)據(jù)需求,應對人力和項目管理的挑戰(zhàn)。


本文來自微信微信官方賬號“艾瑞咨詢”(ID:iresearch-),作者:艾小妹,36氪經(jīng)授權發(fā)布。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




