智能文字識(shí)別是AI領(lǐng)域的一個(gè)重要分支,該技術(shù)融合了智能圖像處理、基于深度學(xué)習(xí)的復(fù)雜場(chǎng)景文字識(shí)別、自然語(yǔ)言處理(NLP)等多項(xiàng)AI技術(shù),算法涉及機(jī)器學(xué)習(xí)與深度學(xué)習(xí)。
智能文字識(shí)別是 AI 領(lǐng)域的一個(gè)重要分支,該技術(shù)融合了智能圖像處理、基于深度學(xué)習(xí)的復(fù)雜場(chǎng)景文字識(shí)別、自然語(yǔ)言處理(NLP)等多項(xiàng) AI 技術(shù),算法涉及機(jī)器學(xué)習(xí)與深度學(xué)習(xí)。
1)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)
機(jī)器學(xué)習(xí)是 AI 的一種底層算法,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集。機(jī)器學(xué)習(xí)的算法是建立在一個(gè)樣本數(shù)據(jù)集上,在沒(méi)有明確編程指示下,依靠模式和推理做出預(yù)測(cè)或決策的數(shù)學(xué)模型,且可隨著數(shù)據(jù)量的增加不斷改進(jìn)算法性能。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)方法系列的一部分,利用多層神經(jīng)網(wǎng)絡(luò)從大量數(shù)據(jù)中進(jìn)行學(xué)習(xí)。機(jī)器學(xué)習(xí)在處理問(wèn)題時(shí),需要先人工進(jìn)行特征提取,然后根據(jù)提取后的特征進(jìn)行分類問(wèn)題求解;深度學(xué)習(xí)將特征提取與分類問(wèn)題求解匯總在一個(gè)神經(jīng)網(wǎng)絡(luò)模型中,只需一次輸入即可得到最終的輸出結(jié)果,無(wú)需手工獲取特征,所以能解決更為復(fù)雜的問(wèn)題,且由數(shù)據(jù)驅(qū)動(dòng),有效數(shù)據(jù)量越大,模型的表現(xiàn)越好。
隨著深度學(xué)習(xí)出現(xiàn),AI 算法瓶頸逐步被突破。機(jī)器從海量數(shù)據(jù)庫(kù)自行歸納物體特征,按照該特征規(guī)律識(shí)別物體,圖文識(shí)別的精準(zhǔn)度得到極大提升。
2)自然語(yǔ)言處理技術(shù)
自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱為“NLP”)技術(shù)是AI的一個(gè)子領(lǐng)域,用于分析、理解和生產(chǎn)自然語(yǔ)言,NLP技術(shù)實(shí)現(xiàn)機(jī)器與人溝通的大前提,決定了機(jī)器對(duì)語(yǔ)言的理解能力。機(jī)器學(xué)習(xí)與深度學(xué)習(xí)大大推動(dòng)了NLP技術(shù)的發(fā)展,使其具備可表達(dá)性、可訓(xùn)練性以及可泛化性。
3)結(jié)合深度學(xué)習(xí)、NLP的智能文字識(shí)別技術(shù)
將圖像中的文字轉(zhuǎn)變?yōu)闄C(jī)器可讀可處理的字符信息,是機(jī)器與現(xiàn)實(shí)世界進(jìn)行視覺(jué)交互的重要基礎(chǔ),催生了光學(xué)字符識(shí)別(Optical Character Recognition,簡(jiǎn)稱為“OCR”)技術(shù)。根據(jù)中國(guó)信息通信研究院、中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟與騰訊集團(tuán)聯(lián)合發(fā)布的《智能文字識(shí)別(OCR)能力測(cè)評(píng)與應(yīng)用白皮書》,早期的OCR技術(shù)可追溯到1870年,電報(bào)技術(shù)和為盲人設(shè)計(jì)的閱讀設(shè)備的出現(xiàn)標(biāo)志著OCR技術(shù)的誕生。從2000年開始,在線服務(wù)成為OCR的主要業(yè)務(wù)形態(tài)之一,這一階段OCR技術(shù)僅在比較規(guī)整的印刷體文檔識(shí)別上性能良好。2014年以來(lái),隨著深度學(xué)習(xí)技術(shù)在OCR領(lǐng)域的應(yīng)用,加上海量訓(xùn)練數(shù)據(jù)的積累,OCR取得了飛躍性發(fā)展,適用范圍明顯擴(kuò)大。2017年以來(lái),OCR技術(shù)越來(lái)越多的和自然語(yǔ)言處理技術(shù)相融合,形成了智能文字識(shí)別技術(shù),增強(qiáng)了對(duì)內(nèi)容的“理解”能力,通過(guò)語(yǔ)義信息的關(guān)聯(lián),復(fù)雜場(chǎng)景下的文字識(shí)別能力得到增強(qiáng)。與此同時(shí),隨著圖像處理等技術(shù)的發(fā)展,能夠?qū)⑴で突兊奈淖謭D像進(jìn)行矯正,也能夠改善OCR性能。OCR通過(guò)圖像文字的識(shí)別實(shí)現(xiàn)信息錄入,有兩大核心優(yōu)勢(shì),一是提高效率,相比傳統(tǒng)的人工方式,顯著提升信息錄入效率;二是降低成本,通過(guò)機(jī)器代替人工,可大幅降低人力成本的開銷。因此OCR技術(shù)具有較高的實(shí)際應(yīng)用價(jià)值,是AI應(yīng)用中商業(yè)推廣落地較快的領(lǐng)域,是AI領(lǐng)域的重要分支。
《中國(guó)禁止出口限制出口技術(shù)目錄》已將“印刷體漢字識(shí)別技術(shù)、程序結(jié)構(gòu)、主要算法和源程序、具有交互和自學(xué)習(xí)功能的脫機(jī)手寫漢字識(shí)別系統(tǒng)及方法、漢字識(shí)別的特征抽取方法和實(shí)現(xiàn)文本切分技術(shù)的源程序”等納入限制出口的信息處理技術(shù)范圍。為落實(shí)國(guó)務(wù)院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》,科技部啟動(dòng)了實(shí)施科技創(chuàng)新2030“新一代人工智能”重大項(xiàng)目,并提出2020年度第一批項(xiàng)目申報(bào)指南,其中“復(fù)雜版面手寫圖文識(shí)別及理解關(guān)鍵技術(shù)研究”被列入“新一代人工智能共性關(guān)鍵技術(shù)”。
傳統(tǒng)OCR技術(shù)針對(duì)特定場(chǎng)景的文字圖像進(jìn)行建模,受限于手工設(shè)計(jì)特征的單一表達(dá)能力和復(fù)雜的處理流程,一旦跳出當(dāng)前場(chǎng)景,遇到復(fù)雜場(chǎng)景,模型就會(huì)失效。而基于深度學(xué)習(xí)、NLP的智能文字識(shí)別技術(shù)可解決傳統(tǒng)OCR的缺點(diǎn),靈活應(yīng)對(duì)自然場(chǎng)景下多形態(tài)文本以及手寫文本。
二、行業(yè)概況
相比傳統(tǒng)簡(jiǎn)單文字識(shí)別,智能文字識(shí)別技術(shù)融合圖像處理、OCR、深度學(xué)習(xí)、NLP等AI技術(shù),具備更多認(rèn)知與理解能力,可適應(yīng)多語(yǔ)言、多版式、多樣式等復(fù)雜場(chǎng)景,識(shí)別準(zhǔn)確率大大提升,同時(shí)可基于理解能力進(jìn)一步開發(fā)文檔解析、分類、對(duì)比、審核等功能,是個(gè)人文檔資產(chǎn)管理與企業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵。
從個(gè)人用戶角度,用戶對(duì)個(gè)人文檔資產(chǎn)管理數(shù)字化意識(shí)和需求不斷增強(qiáng),合同、名片、發(fā)票、筆記等非結(jié)構(gòu)化的紙質(zhì)文檔通過(guò)智能文字識(shí)別技術(shù)數(shù)字化后,用戶可隨時(shí)隨地在手機(jī)、電腦等多終端進(jìn)行查詢、管理及分享,解決了紙質(zhì)文檔不易存儲(chǔ)、分類、查詢或提取關(guān)鍵信息等痛點(diǎn),滿足個(gè)人的辦公、求職、學(xué)習(xí)等不同場(chǎng)景的需求。
從企業(yè)客戶角度,企業(yè)數(shù)字化轉(zhuǎn)型是將數(shù)字技術(shù)進(jìn)行商業(yè)化落地,從根本上對(duì)業(yè)務(wù)流程進(jìn)行優(yōu)化,智能文字識(shí)別技術(shù)可將企業(yè)運(yùn)營(yíng)過(guò)程中產(chǎn)生的大量非結(jié)構(gòu)化、非標(biāo)準(zhǔn)化的文檔數(shù)據(jù)進(jìn)行提取、存儲(chǔ)、轉(zhuǎn)化、解析,為企業(yè)客戶節(jié)省人力成本,提升運(yùn)營(yíng)效率,解決了眾多行業(yè)存在的人工操作效率低、業(yè)務(wù)處理流程長(zhǎng),將迎來(lái)巨大發(fā)展空間。根據(jù)Grand View Research報(bào)告,全球智能文字識(shí)別服務(wù)市場(chǎng)規(guī)模2022年達(dá)106.5億美元,預(yù)計(jì)2022-2027年復(fù)合年均增長(zhǎng)率約16.7%。
從下游行業(yè)應(yīng)用來(lái)看,金融、物流運(yùn)輸?shù)氖袌?chǎng)規(guī)模是占比最高的兩個(gè)細(xì)分行業(yè),且增速也最快,主要由于金融、物流運(yùn)輸企業(yè)在業(yè)務(wù)流程方面的基礎(chǔ)信息化建設(shè)程度、投入意愿相對(duì)其他行業(yè)來(lái)說(shuō)相對(duì)較高,在證照、單據(jù)、表格等文檔的智能錄入、分類、比對(duì)、審核方面進(jìn)行降本增效具有較大需求,為智能文字識(shí)別技術(shù)的商業(yè)化快速落地帶來(lái)基礎(chǔ)。
分國(guó)別來(lái)看,2022年,亞太區(qū)智能文字識(shí)別服務(wù)市場(chǎng)規(guī)模占全球比重約為22.7%,2022-2027年復(fù)合年均增長(zhǎng)率預(yù)計(jì)為全球最高水平,達(dá)19.4%。亞太區(qū)的高速增長(zhǎng)原因主要為:1)中國(guó)、印度等部分國(guó)家經(jīng)濟(jì)的高速增長(zhǎng),經(jīng)濟(jì)活動(dòng)的增長(zhǎng)一定程度帶來(lái)文檔數(shù)據(jù)與信息量的增長(zhǎng),政府、企業(yè)對(duì)經(jīng)濟(jì)活動(dòng)中產(chǎn)生的文檔進(jìn)行電子化存儲(chǔ)、數(shù)據(jù)提取、分析挖掘具有巨大需求;2)亞太區(qū)域互聯(lián)網(wǎng)、智能手機(jī)的高速發(fā)展推動(dòng)數(shù)據(jù)量爆發(fā)式增長(zhǎng),智能文字識(shí)別作為數(shù)字資產(chǎn)管理的關(guān)鍵技術(shù),擁有巨大發(fā)展前景;3)亞太區(qū)近年來(lái)對(duì)于AI技術(shù)研發(fā)、產(chǎn)業(yè)智能升級(jí)的重視,促使智能文字識(shí)別技術(shù)持續(xù)提升,以及推動(dòng)企業(yè)對(duì)于此服務(wù)的投入。相比北美、歐洲等發(fā)達(dá)國(guó)家和地區(qū),亞太區(qū)智能文字識(shí)別行業(yè)尚處于發(fā)展初期,處于高速發(fā)展時(shí)期。根據(jù)相關(guān)數(shù)據(jù),2022年,中國(guó)智能文字識(shí)別服務(wù)市場(chǎng)規(guī)模為人民幣50.4億元,預(yù)計(jì)2027年市場(chǎng)規(guī)模將達(dá)人民幣168.9億元,復(fù)合年均增長(zhǎng)率達(dá)27.3%,遠(yuǎn)超全球市場(chǎng)總增速。
【版權(quán)及免責(zé)聲明】凡注明"轉(zhuǎn)載來(lái)源"的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多的信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。中研網(wǎng)倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán),如發(fā)現(xiàn)本站文章存在內(nèi)容、版權(quán)或其它問(wèn)題,煩請(qǐng)聯(lián)系。
聯(lián)系方式:jsb@chinairn.com、0755-23619058,我們將及時(shí)溝通與處理。