
本篇大家整理的是來自上海交通大學人工智能研究院副院長、華東師范大學特聘教授,國家杰出青年基金獲得者馬利莊主題為《基于大數據的人臉識別技術進展與展望》的精彩演講。馬院長參與了騰訊優圖人臉識別、微眾銀行刷臉驗證、商湯3D人體姿態估計等項目,具有豐富的理論和實踐經驗。
馬利莊
上海交通大學人工智能研究院副院長、華東師范大學特聘教授,國家杰出青年基金獲得者
以下內容根據速記進行整理,經過馬利莊本人校對。
我匯報提綱包括七個內容。首先回顧一下過去十幾年發生的事情。一個是數字化時代興起,它催生了互聯網,這是我們時代的主流大趨勢。許多的產業,像數字媒體業,數字相機,VR/AR的技術興起。當然我們也知道伴隨著一些行業的衰落,像膠卷等一些傳統的行業。早的時候,我們計算機還有很多的硬盤拷貝等等,這些現在都沒有了。就是因為數字化的時代催生了互聯網的時代。
我們剛才看到動動三維這個創意設計,里面也把一些創意工作放在網上去了,數字化,利用圖形圖像技術來展現。互聯網時代催生了大數據。我們知道有眾多的新媒體產生,如微信,幾乎每個人都在使用,平均花2個小時到3個小時,都是數據的使用者,同時也是產生者,自然形成了社交大數據。微信不僅是社交的工具,也是一個工作的工具;同時成為了一個游戲,這是個深刻改變了人們生活形態的互聯網時代。同樣,有一些產業衰落。我們看到街頭的小商店,小商品市場不景氣。我印象最深刻的是義烏的小商品市場,現在日子很不好過。
互聯網以及伴隨產生的大數據催生了人工智能時代!人工智能有三個要素:
一個是大數據,有大數據作為原料;
第二個是計算能力,主要是GPU與CPU等;
最后是核心的算法,深度學習/卷積神經網絡算法。
我1992年在浙大人工智能研究所做博士后,當時跟何志均先生,潘云鶴教授是人工智能研究所的所長,那時就研究人工智能,但三起三落,人工智能的發展是螺旋式演進的。當時人工智能的發展為什么非常曲折和起伏,原因主要是缺少一個大數據的原料,缺少大量的算力,同時缺少深度學習等卷積神經網絡新算法。當時計算能力限制,算法處理不了現在大量復雜的數據或者大數據。像人臉識別的深度學習算法,需要要標注數據,我們與騰訊的優圖人臉項目中,用了近百萬級別的人臉標注。在當時九十年代,這是難以想象的規模。
當時有軟盤,只有1兆多,現在一幅超高清的圖像都是幾兆數據,甚至更高。我們做AI+醫療的研究,分析腫瘤的病理切片。一張圖片有上百兆數據,包括深度學習時涉及的相關參數,算法實現過程顯示內存很可能不夠。
人工智能時代催生智能手機,智能安防,智能社區,智能語音與機器人等。在座的各位比較幸運,因為人工智能時代中長久興旺的是軟件行業,創意創新。智能創意不可能被AI替代。但目標明確,規則清晰的行業就非常可能被AI替代。
9億的微信用戶,每天有10多億的圖像和視頻數據傳輸。阿里巴巴改寫了商業版圖,伴隨大數據,人工智能興起。在座的可能在股市中投資,過去幾年,NVDIA和AMD的股價漲了十倍,重要的因素是AI對計算能力的需求大幅增長,當然另外的原因是比特幣和區塊鏈的熱潮中,大量挖礦對算力的海量需求。
互聯網的極速發展,自然匯聚了可視媒體大數據。這些信息的增長改變了我們的生活方式,例如社交網絡中的微信。當然也有挑戰,大數據體量已經超越了現有的硬件處理條件,比如說存儲空間,和計算資源的不足。我們認為該領域的科學問題包括:數據的高效表達,智能的處理以及結構化,深度學習與感知理論,基于視覺感知的失真度量,不確定環境下的任務感知與理解等。
現在有理論研究證明深度學習模型合適條件下可以收斂到全局最優解。這是目前為止深度學習中最新的一個理論成果。我們在座各位要重視。以前我們調侃各種深度學習模型重要的是調參數,有人運氣好,會調出好的結果,但現在有理論依據和保障。
技術的突破源于需求。城市大數據,有很多交通、環境的感知數據等。金融大數據,阿里、騰訊、百度都有積極的介入,希望提升運用效率和結構效率。互聯網金融中,還有所謂的萬物互聯;徐教授也講了,不光是視覺,聽覺,還有嗅覺,味覺等等相關的感知數據。將人、路由器,服務器,業務系統等等作為研究對象,以網絡地圖的方式實現網絡空間態勢感知,服務于網絡攻防戰。這就是斯諾登揭示的棱鏡項目。
回到主題,智慧城市以人為中心,我們人工智能是要保障個體的信息安全,提高人的生活質量,讓生活更美好。2010年世博會,上海提出城市讓生活更美好,非常符合我們智慧城市的總體目標。個體信息安全就涉及到身份的認證和門禁、監控等。所以人臉識別和行為姿態識別是關鍵技術。
現在講一個比較形象的術語就是刷臉技術。很多人都知道,早幾年的時候,我們跟騰訊合作研發微眾銀行的刷臉技術,微眾銀行只需一個總部即可,不像工商銀行一樣有幾萬的分支機構。它只要一個總部,其業務都可以通過遠程核身和身份認證可以實現。當時總理親歷了刷臉技術過程。刷臉驗證,出租司機獲得了3.5萬元的貸款。這是微眾銀行的第一筆互聯網銀行的放貸業務。
互聯網人臉識別技術跟傳統銀行不同。銀行里面我們知道有“三親”原則。這是互聯網金融這塊必須考慮的問題,親見申請人本人,親核申請人身份證原件,親見申請人本人簽字。我們可以通過遠程核身技術做到。
傳統的方法是人工成本高。剛才講的刷臉技術用于銀行中的互聯網金融,刷臉準確率99.9%還是不夠。生物識別技術有很多種,我們要融合多元特征,例如臉部表情、聲音或聲紋,還有人臉的特征,提高身份遠程核身的可靠性和準確率。人臉識別是最為自然的交互技術,現在可以做到非常高的精度。我們知道讓你按一個手印,可能你感覺像罪犯,因為身體的接觸,很多人比較忌諱。目前人臉識別技術有門檻。我們跟騰訊優圖合作來,在LFW數據集上可以達到99.65%和99.8%。
人臉識別技術挑戰與難點,主要是圖像的采集質量;其次是光照環境和姿態。因為識別分為主動式和被動式;金融支付里面是人會主動配合采集設備,圖像質量和人臉姿態好。這種情形,識別率可以達到99%。但很多時候,人臉會在不同的光照條件下,產生大的差異,比如說昨天晚上我們部分智能創意與數字藝術的專委會人員合影的時候,背影強光,人臉拍出來就很暗,姿態也各異等等。還有年齡跨度問題等。身份證有效期有15年或20年。還有院士說豬臉的識別,豬臉狀態是短暫的,或者快速變化的,因為生長周期一般只有半年,其識別率會大大下降。我們知道蠟像,外形幾乎跟你做的一模一樣。當然蠟像缺乏臉部表情,讓他對話就露餡了。我們捕捉臉部表情的微變化這個就可以防御有人用它來欺騙攻擊系統。
目前我們的研究方向包括深度學習技術,基于人臉物理性質的推理和人臉語義或表情的推理;人臉監測,特征跟蹤,跨年齡的人臉識別,以及三維人臉識別。我們重點攻克三維人臉識別。一張正面的照片,可以生成一張逼真的三維人臉。
活體檢測可以真正提高我們這個識別系統的安全性。有的公司號稱是采用人臉識別技術,其實用一張大照片就能通過驗證。這說明他們沒有采用活體檢測,也沒有用三維光照變化的信息,以及綜合人臉表情、聲紋來辨別真假。
下面我講講互聯網金融視頻監控中取得的進展。
大的框架,我們看看人臉識別上面。這是我們跟騰訊的優圖組一起合作,基于騰訊云平臺和相關的人臉識別技術。2014年的時候,在FDDB數據集上人臉檢測達到了世界第一,人臉識別率在LFW數據集上刷新世界紀錄99.65%。采用的主要是標注大量的人臉圖片與非人臉圖片的數據(近百萬級別)。這在20年以前是難以想象的。騰訊優圖有很多的實習生,認真的標注。我們采用VIOLA-Jones瀑布流框架的算法優化。
大規模小人臉的檢測方面。這張照片里面人臉數目上千。計算機視覺算法可以識別超860個人臉。以前的方法是無法想象的。一般的人能夠識別到兩百多個,已經非常很難。主要是用的這個DSFD人臉檢驗算法,包括了特征增強模塊、分層錨點漸進式LOSS的算法。
根據人臉識別的身份認證。我們用百萬級人臉數據庫訓練,多個數百層深度學習模型集成。目前有一個權威數據集MegaFace,我們項目組取得了83.29%的準確率,位列榜首。我們提出了新的光線活體提高識別方法的安全性。大家知道安全性非常重要,真正用于安全監控以及公安系統的時候,不光是識別人臉模型,還要考慮防偽和防攻擊。我們這次進博會刷臉系統應用,每天差不多30萬人進出場館。我們知道6位的金融密碼,其實試一百萬次就一定有你正確的密碼。30萬人中,臉長得非常像的概率是很大的,特別是有些雙胞胎,很難識別。我們要用到多生物特征技巧,達到安全、簡便、高速、通用等要求。
安防監控里面,我們需要找到不同攝像頭里的同一個人物。我們以前出了事情后期檢驗,看問題在哪;現在要同步進行。該任務下一個路徑到哪一個地方等等。人的姿態會有很大差異,同一個人的姿態變化也很多。人體重識別方面,我們在三個主流數據上獲得第一。主要方法是通過了多任務交替訓練,基于分塊的金字塔模型。
我們與商湯也是開展了這方面的合作,跟騰訊的合作已經七年多。人體跟蹤方面,追蹤視頻中行人并對其運動軌跡做出預判。項目組的人體跟蹤技術,在權威測評MOT challenge上取得了兩項記錄。采用的技術方法,包括基于圖匹配模型的目標關聯算法,基于有效動態差分的運動相似度計算算法,以及基于行人再識別技術的特征相似度模型等。還有其他的應用,基于深度學習的人臉識別技術,以及顏值測算,可用于社交娛樂。
我們前年的時候,用了1300臺服務器,每天1億人臉計算平臺。還有天天P圖,人臉美化等分析技術。
我們跟商湯合作開展3D人體姿態估計。通過單張圖片,估計人體的姿態模型。基于二維圖像序列估計3D人體姿態是非常實用的。在最大的人體姿態數據集Human3.6M上,我們取得三項指標第一。這個成果還在保密階段,主要是對人體的快速估計。還有像素級別的語義分割,GTAV和SYNTHIA數據集作為源數據集,Cityscape作為目標數據集,相關的指標Mean IoU提高10個百分點。還有一個是預測RGB圖片上每個像素對應位置的深度值。該項研究非常重要。我們在座的肯定有很多搞創意設計,會涉及到二維三維的。我想做個革命性預測,因為有了深度相機以后,基于很好的三維重構技術將來每個普通的人都可以生成三維的場景;普通人拍一段視頻就能生成三維的,自然形成海量的三維動畫視頻數據,這是未來大發展方向。
我很簡單的講一下視覺無損壓縮技術。基于人類的視覺特性,對圖像進行極限程度的壓縮。只要人的視覺感受不出差別,我們對其做一個最大程度的壓縮,非常實用。我們在2014年的時候,就處理了1200億張圖片的壓縮。這個例子中,左邊是3M,右邊是700多K,但是肉眼分辨不出哪一個是原始圖像。還有相關研究如自動上色和風格化。中國傳統文化中有所謂的面像學。相由心生,從大數據的概念,從面部特征包括耳垂,眼眉間距等,找出相關的統計規律。人臉配準和識別可以用于望診。我們跟上海兒童醫學研究院做一個兒童罕見遺傳基因缺損癥研究項目。例如唐氏綜合癥,我詫異的是什么呢?兩個兒童得了某種基因缺損癥,他們沒有任何血緣關系,但是臉部的共同特征非常明顯。我做基因檢測,有將近兩千多種的基因缺損癥,這個太費錢費時。我用照片篩選一下,判斷一下你的某一個基因可能是缺損的,那么再去做對應的DNA檢測。
中醫四診望聞問切,是辨證論治,可采用典型的專家系統方法。比較重要的應用需求就是眼底黃斑病變的AI算法。到了一定年齡以后,人眼普遍會有一定的問題。信息社會,人的視覺消耗太大了。每天手機屏幕那么小,我們在眼底黃斑定位上取得了一個比賽的第一。肺病診斷方面的重大應用需求。現在非常明確的事實,通過AI+醫療智能化算法判別的準確率,比專家級醫生提高10多個百分點。我是比較樂觀的,計算機AI算法一定會超過專家醫生的水平,高精尖的醫生永遠需要,但工作強度大大降低。
大數據和強大的算力使得深度學習技術有了用武之地。國家對人工智能的期望非常大,我們的壓力也很大,到底有多少人工智能的產業能夠落地。我想計算機視覺有很多落地的重大應用,也包括部分自然語言處理方面的技術。
人工智能重大需求,一個是純的互聯網銀行;第二個是智能安防與公共安全。智慧城市中的異常檢測,復雜的場景下的身份認證和行為識別等需要研究。還有一個是新的獲取手段,包括深度數碼相機。剛才講的智能動畫創作,大眾化的創意設計,人工智能+AR/VR。創意設計是我們這個大會的主題之一,這塊將有大的進展。總之人工智能不變的是挑戰和機遇。