根據(jù)《2024-2029年中國一體化大數(shù)據(jù)中心市場深度分析及發(fā)展趨勢研究預(yù)測報告》分析,在人工智能領(lǐng)域,數(shù)據(jù)、算法和算力是構(gòu)建AI系統(tǒng)的三大核心要素,三者的協(xié)同使現(xiàn)代AI技術(shù)實現(xiàn)了從理論到應(yīng)用的飛躍。數(shù)據(jù)是Al的基礎(chǔ),大量高質(zhì)量的數(shù)據(jù)不僅能夠提高現(xiàn)有模型的準確率,還能促進模型的優(yōu)化和創(chuàng)新。以ImageNet數(shù)據(jù)集為例,該數(shù)據(jù)集及相關(guān)挑戰(zhàn)賽推動了計算機視覺算法的快速發(fā)展,2017年是挑戰(zhàn)賽的最后一年,物體分類冠軍的準確率在7年時間里從71.8%上升到97.3%。近年來,Transformer等預(yù)訓(xùn)練大模型在語言理解及生成等領(lǐng)域表現(xiàn)出色,大模型背后的Scaling Law(規(guī)模定律)進一步揭示了模型性能與數(shù)據(jù)量、算力之間的關(guān)系,強化了數(shù)據(jù)在提升AI表現(xiàn)中的關(guān)鍵作用。
根據(jù)AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商LXT對322家有AI項目經(jīng)驗的美國企業(yè)的調(diào)研,訓(xùn)練數(shù)據(jù)的資金投入占這些企業(yè)的Al整體建設(shè)投入的15%,61%的企業(yè)認為未來2到5年對數(shù)據(jù)的需求量將會增加,62%的企業(yè)認為數(shù)據(jù)質(zhì)量比數(shù)據(jù)量更為重要。LXT的調(diào)研結(jié)果揭示了企業(yè)在Al建設(shè)過程中對高質(zhì)量數(shù)據(jù)的迫切需求。鑒于AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商在高效提供高質(zhì)量數(shù)據(jù)集方面的專業(yè)能力,它們已成為AI研發(fā)企業(yè)的重要合作伙伴,AI基礎(chǔ)數(shù)據(jù)服務(wù)已是推動AI產(chǎn)業(yè)發(fā)展的關(guān)鍵支撐。
AI基礎(chǔ)數(shù)據(jù)服務(wù)廠商是專注于為各行業(yè)的AI算法訓(xùn)練與調(diào)優(yōu)提供基礎(chǔ)數(shù)據(jù)產(chǎn)品服務(wù)的公司。這些公司通過提供標準數(shù)據(jù)集、定制數(shù)據(jù)集和配套產(chǎn)品工具服務(wù),支持互聯(lián)網(wǎng)、大模型、智能駕駛等各領(lǐng)域的AI技術(shù)發(fā)展。數(shù)據(jù)集按內(nèi)容格式可分為文本、圖像、視頻、語音等類型,核心生產(chǎn)流程主要包括方案設(shè)計、數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標注和數(shù)據(jù)質(zhì)檢等五個關(guān)鍵環(huán)節(jié)。標準數(shù)據(jù)集是由數(shù)據(jù)服務(wù)廠商研發(fā)并可多次銷售的數(shù)據(jù)集;定制數(shù)據(jù)集是依據(jù)客戶需求制作特定數(shù)據(jù)集,數(shù)據(jù)的知識產(chǎn)權(quán)歸客戶所有;配套產(chǎn)品工具服務(wù)包括標注工具、實訓(xùn)平臺及A1模型評測等軟硬件工具服務(wù),用于滿足高效標注數(shù)據(jù)、培訓(xùn)數(shù)據(jù)標注、評估A1能力效果等不同層次的客戶需求,輔助和延展數(shù)據(jù)服務(wù)廠商的相關(guān)業(yè)務(wù)。
算法模型從理論到實踐的應(yīng)用過程依賴于大量的訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)越多、越完整、質(zhì)量越高,模型推理的結(jié)果就越可靠。在本報告的討論中,傳統(tǒng)Al泛指Transformer架構(gòu)出現(xiàn)之前的Al架構(gòu),參數(shù)量通常相對較小,大模型架構(gòu)則以Transformer為代表。作為應(yīng)用大模型架構(gòu)的代表,ChatGPT在2022年11月上線以來,掀起了AI乃至社會經(jīng)濟各領(lǐng)域?qū)Υ竽P偷难杏懪c應(yīng)用的熱潮。與傳統(tǒng)Al相似,大模型依然需要大量優(yōu)質(zhì)數(shù)據(jù),但其所需數(shù)據(jù)量更大,數(shù)據(jù)維度更加多元,標注方式及質(zhì)量評判標準也更為復(fù)雜多樣。
縱觀業(yè)界開源及閉源大模型的能力特性,結(jié)合艾瑞對大模型研發(fā)企業(yè)的調(diào)研,雖然當下主流大模型應(yīng)用仍相對側(cè)重文本輸入、文本輸出的能力,但對圖像、視頻、語音等多模態(tài)數(shù)據(jù)的使用已越來越普遍,艾瑞預(yù)計大模型訓(xùn)練數(shù)據(jù)中多模態(tài)數(shù)據(jù)的占比將在未來數(shù)年持續(xù)提升。根據(jù)艾瑞對部分通用大模型及綜合型AI廠商的調(diào)研,目前大模型的訓(xùn)練數(shù)據(jù)主要來源于公開數(shù)據(jù)、網(wǎng)絡(luò)爬蟲數(shù)據(jù)等可公開獲取的數(shù)據(jù),其次是采購數(shù)據(jù)。相比大模型初創(chuàng)企業(yè),綜合型AI廠商憑借現(xiàn)有的互聯(lián)網(wǎng)應(yīng)用和A業(yè)務(wù)積累,具備獨特的數(shù)據(jù)優(yōu)勢。在模型的通用能力建設(shè)方面,公開數(shù)據(jù)和爬蟲數(shù)據(jù)已被廣泛利用,未來這兩類數(shù)據(jù)在整體上的提升空間相對有限,EpochAI等機構(gòu)的研究人員于2024年6月更新的論文中表示,大語言模型將在大約2026至2032年之間耗盡所有公開的文本數(shù)據(jù)。艾瑞預(yù)計,大模型研發(fā)廠商將通過更多的采購數(shù)據(jù)來提升模型的通用能力;而在垂直場景優(yōu)化及行業(yè)客戶的拓展中,公開數(shù)據(jù)和爬蟲數(shù)據(jù)仍有較大的獲取提升空間,大模型研發(fā)廠商也將更多地利用客戶側(cè)的合作數(shù)據(jù),增強模型解決行業(yè)特定領(lǐng)域或企業(yè)特定問題的能力。
隨著大模型技術(shù)的快速迭代及其在眾多領(lǐng)域的廣泛應(yīng)用,相關(guān)評測需求同步增長。對于模型研發(fā)企業(yè),評測是發(fā)現(xiàn)模型在功能、性能、安全性和可靠性等方面優(yōu)劣勢的關(guān)鍵步驟,并可與其他企業(yè)的模型橫向?qū)Ρ龋M而針對性地優(yōu)化模型,提高其表現(xiàn)和穩(wěn)定性;對模型應(yīng)用企業(yè)而言,評測是選型和項目驗收的重要工具,通過專業(yè)評測服務(wù),企業(yè)能夠評估模型的實際應(yīng)用適用性,確保所選模型滿足需求,并保障定制類模型項目的交付質(zhì)量。相較傳統(tǒng)AI,大模型的應(yīng)用空間更廣,評測本身也更加復(fù)雜和多樣化,市場對專業(yè)評測服務(wù)的需求潛力巨大。公開評測基準和商業(yè)化評測服務(wù)的發(fā)展,將為大模型評測提供重要支撐,促進技術(shù)與產(chǎn)業(yè)的健康發(fā)展。
在大模型和端到端技術(shù)的加持下,智能駕駛的自動化程度不斷提升,相關(guān)功能已成為部分消費者購車時的重要考慮因素。除個別廠商專注于純視覺路線外,當下高級別的智能駕駛系統(tǒng)中,攝像頭和激光雷達是兩大核心傳感器。攝像頭主要捕捉二維圖像,具有高分辨率和豐富的色彩細節(jié);激光雷達則通過發(fā)射和接收激光脈沖生成高精度的三維點云數(shù)據(jù),能夠精確測量物體的距離、尺寸和相對位置,受光照等環(huán)境條件影響較小。攝像頭和激光雷達等各類傳感器各具優(yōu)勢,互為補充,數(shù)據(jù)標注需對來自不同傳感器的數(shù)據(jù)標簽對齊和交叉驗證工作。AI基礎(chǔ)數(shù)據(jù)服務(wù)是支撐智能駕駛、大模型等AI算法研發(fā)的基石,而AI算法也大幅提升了智駕研發(fā)領(lǐng)域數(shù)據(jù)標注的效率和效果,為數(shù)據(jù)服務(wù)行業(yè)的發(fā)展注入了新的活力。數(shù)據(jù)與AI彼此支撐、相互促進,共同推動著自動駕駛的實現(xiàn)。
AI基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)的中游即數(shù)據(jù)標注等數(shù)據(jù)服務(wù)的供應(yīng)商,包括專業(yè)廠商及云廠商兩類,其中后者以支持內(nèi)部算法研發(fā)及云業(yè)務(wù)客戶需求為主。上游提供原料數(shù)據(jù)、人力資源支持及IT基礎(chǔ)設(shè)施,其中人力資源服務(wù)供應(yīng)商主要包括垂直做數(shù)據(jù)標注的廠商和綜合IT類廠商兩類,目前業(yè)界通常采用遠程線上服務(wù)即云BPO的模式進行人力支持。下游為數(shù)據(jù)服務(wù)的需求方,包括大模型、智能駕駛等各行業(yè)各領(lǐng)域投入AI算法研發(fā)的廠商。
圖表:AI基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)鏈圖譜
基于對數(shù)據(jù)服務(wù)專業(yè)廠商、云廠商、大模型研發(fā)廠商、智能駕駛研發(fā)廠商等中國AI基礎(chǔ)數(shù)據(jù)服務(wù)市場的供需兩側(cè)企業(yè)調(diào)研,結(jié)合艾瑞對中國人工智能市場整體及AI基礎(chǔ)數(shù)據(jù)服務(wù)市場的發(fā)展判斷,艾瑞推算2023年中國AI基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模為45億元。在需求側(cè),隨著AI算法研發(fā)從面向特定任務(wù)領(lǐng)域的小模型向具備更強通用泛化能力的大模型過渡,數(shù)據(jù)服務(wù)需求企業(yè)將產(chǎn)生大量高質(zhì)量、多模態(tài)的數(shù)據(jù)需求。同時,隨著大模型在通用及垂直場景中的應(yīng)用拓展和智能駕駛等AI技術(shù)的規(guī)模化商業(yè)落地,良好的商業(yè)回報將進一步推動需求側(cè)加大對基礎(chǔ)數(shù)據(jù)的投入。在供給側(cè),隨著數(shù)據(jù)要素等相關(guān)支持政策的持續(xù)深化,服務(wù)商將加快數(shù)據(jù)源的獲取及數(shù)據(jù)集的制作。數(shù)據(jù)工程技術(shù)、數(shù)據(jù)標準規(guī)范、標注方法等日益成熟,人才生態(tài)及服務(wù)軟件平臺的自動化、流程化也在不斷完善,供給側(cè)的供應(yīng)能力和服務(wù)質(zhì)量得以加強。綜合供需兩側(cè)的情況,艾瑞預(yù)計到2028年,中國AI基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模將達170億元,未來五年的復(fù)合增長率為30.4%。
圖表:2022-2028年中國AI基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模