《2024-2029年中國人工智能生成內(nèi)容(AIGC)行業(yè)投資潛力及發(fā)展前景分析報告》AIGC(Al-Generated Content)本質(zhì)上是一種內(nèi)容生產(chǎn)方式,即人工智能自動生產(chǎn)內(nèi)容,是基于深度學(xué)習(xí)技術(shù),輸入數(shù)據(jù)后由人工各能通過尋找規(guī)律并適當(dāng)泛化從而生成內(nèi)容的一種方式。過往的內(nèi)容創(chuàng)作生態(tài)主要經(jīng)歷了PGC、UGC到AIUGC的幾個階段,但始終難以平衡創(chuàng)作效率、創(chuàng)作成本及內(nèi)容質(zhì)量三者之間的關(guān)系,而AIGC可以實現(xiàn)專業(yè)創(chuàng)作者和個體自由地發(fā)揮創(chuàng)意,降低內(nèi)容生產(chǎn)的門檻,帶來大量內(nèi)容供給。此外,對于仍處于摸索階段的元宇宙世界,AIGC技術(shù)的發(fā)展也帶來了解決元宇宙內(nèi)容創(chuàng)造問題的解決可能,可實現(xiàn)為元宇宙世界構(gòu)建基石的關(guān)鍵作用。
AI的發(fā)展經(jīng)歷了從決策式AI到生成式AI的過程。在2010年之前,AI以決策式AI為主導(dǎo),決策式Al學(xué)習(xí)數(shù)據(jù)中的條件概率分布,底層邏輯是AI提取樣本特征信息,與數(shù)據(jù)庫中的特征數(shù)據(jù)進(jìn)行匹配,最后對樣本進(jìn)行歸類,主要針對對樣本的識別和分析。2011年之后隨著深度機(jī)器學(xué)習(xí)算法以及大規(guī)模預(yù)訓(xùn)練模型的出現(xiàn),AI開始邁入生成式AI時代,生成式AI的特征是可以根據(jù)已有的數(shù)據(jù)進(jìn)行總結(jié)歸納,自動生成新的內(nèi)容,在決策式A決策、感知能力的基礎(chǔ)上開始具備學(xué)習(xí)、執(zhí)行、社會協(xié)作等方面的能力。當(dāng)下人工智能在生成(Generation)和通用(General)兩條主線上不斷發(fā)展。
在圖像生成領(lǐng)域內(nèi),CNN類架構(gòu)是一個重要的里程碑,尤其擅長圖像分類和目標(biāo)檢測任務(wù),但由于難以生成高分辨率任務(wù)、難以捕捉圖像全局結(jié)構(gòu)和語義信息。近年來,Transformer類架構(gòu)在圖像生成領(lǐng)域也開始逐漸被應(yīng)用,在自然語言處理領(lǐng)域的機(jī)器翻譯任務(wù)中,Transformer已經(jīng)成為了一種主流的模型架構(gòu)。在圖像生成領(lǐng)域,Transformer類架構(gòu)可以有效地捕捉圖像的全局結(jié)構(gòu)和語義信息,同時也可以生成高分辨率、逼真的圖像,多模態(tài)架構(gòu)逐漸成為了圖像生成領(lǐng)域的研究熱點。多模態(tài)架構(gòu)可以建立統(tǒng)一的、跨場景/任務(wù)的模型,將不同類型的數(shù)據(jù)(如圖像、文本、音頻等)融合起來,極大地拓展了人工智能認(rèn)知并理解世界的能力邊界。多模態(tài)學(xué)習(xí)在不同模態(tài)間搭建了橋梁,使得基礎(chǔ)模型通過遷移學(xué)習(xí)和規(guī)模涌現(xiàn)達(dá)到能力躍遷成為可能,極大加速了通用模型的演進(jìn)。
AIGC現(xiàn)有產(chǎn)業(yè)鏈由數(shù)據(jù)供給、模型開發(fā)與定制、應(yīng)用與分發(fā)構(gòu)成。目前來看,模型層為關(guān)鍵因素之一;其次,應(yīng)用層發(fā)展空間巨大。上游數(shù)據(jù)供給由收集大量原始數(shù)據(jù)對其進(jìn)行預(yù)處理,以便提供給模型訓(xùn)練,投資確定性強(qiáng)。在中游,使用注釋數(shù)據(jù)開發(fā)和訓(xùn)練AI模型以生成內(nèi)容,在垂直細(xì)分領(lǐng)域進(jìn)行二次開發(fā),來適應(yīng)定制化需求;下游協(xié)助用戶使用模型和算法生成內(nèi)容,例如:文本、圖像、視頻等?;诓煌膬r值創(chuàng)造邏輯,將生成的內(nèi)容分發(fā)到各種渠道。
我們認(rèn)為,短周期內(nèi)通用類大模型市場熱度較高,長周期內(nèi)多種模型組合是未來發(fā)展方向。根據(jù)模型體量,AIGC模型可分為大模型、小模型、微模型。大模型參數(shù)量大,算力強(qiáng),具備通用類問題處理能力。小模型多專注于垂類領(lǐng)域,往往在垂直場景具備充足的數(shù)據(jù)以及問題處理能力。微模型更加個性化,由用戶個人數(shù)據(jù)訓(xùn)練而成。大模型和小模型具備不同的優(yōu)勢,分別通過壓縮技術(shù)以及教師模型進(jìn)行整合來提高問題處理能力,能夠?qū)崿F(xiàn)1+1大于2的效果,可能是未來模型層的發(fā)展方向。
我們認(rèn)為,Al以基礎(chǔ)設(shè)施層、框架及模型層、應(yīng)用層為主要的領(lǐng)域,分別對于產(chǎn)業(yè)鏈的上游、中游、下游?;A(chǔ)設(shè)施層的核心是提供算力,包含CPU、GPU等服務(wù)器設(shè)施。模型層以AI模型產(chǎn)品為主,投入周期較長,存在一定的技術(shù)壁壘。應(yīng)用層是AI產(chǎn)業(yè)鏈的下游,直接對接客戶以及用戶,主要包含面向C端的消費(fèi)級終端以及面向B端的行業(yè)解決方案,應(yīng)用層本身進(jìn)入壁壘較低,同時中國具備廣闊的AI應(yīng)用層落地場景,因此我們認(rèn)為應(yīng)用層存在較多機(jī)會。
在目前的市場下,AI已經(jīng)具備生成文本、音頻、圖像、視頻的能力?;A(chǔ)的生成式AI以文本模態(tài)為主要特征,音頻、圖像、視頻等模態(tài)市場熱度較高。文生圖像以CLIP為主要訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,其中文本和圖像通過編碼器進(jìn)行分解,分解后進(jìn)行映射,完成訓(xùn)練,文生音頻具備相似的訓(xùn)練模式。隨著大模型多模態(tài)能力升級,文生視頻快速發(fā)展。繼文生圖能力融入各個大模型之后,文生視頻成為大模型多模態(tài)應(yīng)用的新趨勢。近期多家廠商發(fā)布相關(guān)產(chǎn)品或更新,大幅提升文生視頻效果。
模型層以高研發(fā)壁壘以及高運(yùn)行成本為主要特點,一方面從數(shù)據(jù)基礎(chǔ)和訓(xùn)練成本來看,模型層的研發(fā)均需要體量較大的數(shù)據(jù)以及充足的算力來完成,另一方面從運(yùn)行成本來看,模型層的運(yùn)行需要較強(qiáng)算力的支持。應(yīng)用層本身目前的運(yùn)維成本較低,同時適合對底層算法能力有著不同期望的企業(yè)。大廠存在數(shù)據(jù)和資金兩方面的基礎(chǔ),在模型層具備優(yōu)勢。應(yīng)用層目前受惠于行業(yè)普遍較低的模型APl調(diào)用價格,運(yùn)行成本目前還較低,適合初創(chuàng)企業(yè)。
隨著大模型技術(shù)的成熟,規(guī)模增大,大模型為Al Agent提供強(qiáng)大能力。Agent+大模型將有望構(gòu)建具備自主思考、決策和執(zhí)行能力的智能體,進(jìn)一步提升大模型的應(yīng)用能力。在人工智能領(lǐng)域,Al Agent視為能夠使用傳感器感知周圍環(huán)境、做出決策并使用執(zhí)行器做出響應(yīng)的人工實體。對比Al與人類的交互模式,Al Agent較目前廣泛使用的Copilot模式更加的獨(dú)立,能夠自主調(diào)用資源完成任務(wù),人類在其中起到督促和評估的作用。Al Agent具有更廣泛的應(yīng)用范圍可處理多個任務(wù),并在不同領(lǐng)域中執(zhí)行各種功能;具有更自然和靈活的交互方式,能夠理解復(fù)雜的自然語言指令,與用戶進(jìn)行更智能對話。
?