騰訊優圖：自適應缺陷數據，業務場景下的神經網絡訓練方法--星空人工智能美女福利导航網

深度學習的成功建立在大量的幹淨數據和深度模型基礎上，但是在現實場景中數據和模型往往不會特別理想，比如數據裏存在很多標簽噪音，或者考慮到模型的推理速度，神經網絡的層數不夠深等。特別是對於業務場景，數據往往存在很多缺陷，因此讓模型能夠自適應的從缺陷數據裏學習是業務成功的保障。

近幾年，騰訊優圖不斷迭代數據和模型缺陷情況下神經網絡的有效訓練方法，相關美女福利导航已經在眾多業務場景上（行人重識別，內容審核等）落地。本文是騰訊優圖實驗室高級研究員Louis，在騰訊優圖和騰訊雲大學、AICUG、AI科技評論聯合主辦的「優Tech沙龍」的分享整理。

定義帶噪學習目標

現實數據中存在的標簽噪音（label noise）根據Feature可以分成兩種：Feature independent noise和 Feature dependent noise。Feature independent noise是與特征無關的，比如將一隻狗的圖片誤標記成汽車，狗和汽車沒有什麽相似特征，所以屬於這類。Feature independent noise是與特征有關的，比如說狗和狼具有很多相似特征屬性，標注人員可能把狗誤標記成狼，那就屬於這類。其實現實場景更多存在都是feature dependent noise。

噪音普遍存在，所以美女直播全婐APP免费下载需要訓練神經網絡進行帶噪學習，並且要能實現比較好的性能。那麽noise label learning的目標是，loss function，使得在noisy labels下訓練得到的解，在性能上接近在clean labels下訓練得到的解。

各有千秋：主要帶噪學習方法分析

關於帶噪學習，近些年有一些重要論文。AAAI 2017年發表的這篇研究（Robust Loss Functions under Label Noise for Deep Neural Networks, AAAI2017）說明，MAE以均等分配的方式處理各個sample，而CE（cross entropy）會向識別困難的sample傾斜。因此，針對noisy labels，MAE比CE更加魯棒，不容易讓模型過擬合到label noise上。

當然，CE也有自身優勢。2018年的這篇文章（Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels, NeurlPS 2018）是接著前麵一篇文章往下做的。這篇文章指出，MAE雖然比CE在noisy label更加魯棒，但是CE的準確度更高，擬合也更快。

那麽，如何結合CE和MAE的優勢呢？這篇文章（Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels, NeurlPS 2018 ）提出這樣一個loss function，也就叫做GCE loss（Generalized Cross Entropy loss）。它如何結合二者的優勢？這裏q是一個0到1之間的超參數，當q趨近於0的時候，這個Lq就退化成了一個CE loss，當 q趨近於1時，Lq就退化成了MAE loss。所以在真實場景中，隻要對q進行調整，就會讓這個loss在一些noise label數據下有很好的表現。

還有的論文是基於信息論設計的loss function，Deterministic information loss。它的Motivation是想尋找一個信息測度（information measure）I。假設在I下任意存在兩個分類器f、f’，如果在噪音數據集下，通過I, f比f’表現得更好，那麽在幹淨數據集下，f比f’表現得也好，也就是說它在噪音數據集和幹淨數據集上滿足一致性。如果在噪音數據集下它表現得好，那通過這個一致性，那麽在幹淨數據集下表現得也一定很好。

把時間往前推進一下，講一些目前正在審稿中的文章，關於Peer loss。美女直播全婐APP免费下载構造的時候它等於兩個loss的加權，α是權重係數，衡量l1和l2的大小關係，Xi和Y ?是樣本和對應的label。

為什麽peer loss可以很好地解決noisy labels問題？為了方便，這裏先把l1、l2都定義成CE loss，那麽在第一項，它表現的像positive learning，因為它就是一個傳統的CE function，而在第二項，它像 negative learning，也就是在標記錯的時候，比如把狗標成汽車，如果用positive learning進行學習的話那就出現問題了，它是隨機從一個label中進行抽取，希望讓模型學到它不是一個鳥，狗不是一個鳥，它的語義關係首先是成立的，是正確的，這樣一來，第二項對模型也能起到一個積極的導向作用。

更加有意思的是，單獨訓練第一項和單獨訓練第二項都不可能使模型達到理論上的最優，因為模型存在noisy labels。但是美女直播全婐APP免费下载證明了它們兩項聯合訓練，在統計上是可以讓模型達到最優。

美女直播全婐APP免费下载提出了一個主要定理，α是權重項，美女直播全婐APP免费下载證明了存在一個最優的α，用peer loss在noisy labels下進行優化，它得出的神經網絡的解等價於用l1在clean labels下進行優化，可以把l1理解成CE loss。所以美女直播全婐APP免费下载理論證明了peer loss的最優性。

看一下peer loss在數據集下的表現，這裏使用的數據集是CIFAR-10，然後美女直播全婐APP免费下载讓CIFAR-10數據集裏麵有40%的uniform noise或者說symmetric noise。圖中的藍色代表clean label分布，橘黃色代表noisy label分布。通過peer loss優化後，神經網絡可以把兩類比較完美地區分開，而且中間間隔很大，所以說證明了peer loss不僅在理論上成立，在實際上其實效果也不錯。

再看一下數值的實驗結果。美女直播全婐APP免费下载在MNIST、Fashion MNIST、CIFAR-10上進行了實驗，可以看到MNIST和Fashion MNIST上，用peer loss優化的結果超過了一些其他的結果，包括DMI的結果三四十個點，這是非常大的進步。在CIFAR-10上也超過將近5個點，四個多點左右這樣的一個結果。而且，美女直播全婐APP免费下载發現peer loss尤其對Sparse,High這種noise type表現得特別明顯。

以上講的方法主要是設計loss function的思路，讓網絡能夠抵抗noisy labels。但其實還有很多其他方法，比如samples selection和label correction，這兩個方法是通過選擇樣本和對樣本進行糾正來進行帶噪學習訓練。

這篇發表在2018年NeurlPS的文章（Co-teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels, NeurlPS 2018）是關於Co-teaching。它的基本假設是認為noisy labels的loss要比clean labels的要大，於是它並行地訓練了兩個神經網絡A和B，在每一個Mini-batch訓練的過程中，每一個神經網絡把它認為loss比較小的樣本，送給它其另外一個網絡，這樣不斷進行迭代訓練。

接下來介紹騰訊優圖在2019年底發表的一篇文章，解決一類特殊的label noise。這類label noise不是人為標注產生的，而是在訓練中產生的。比如說有這樣一批沒有標記的樣本，然後通過一個聚類算法得到inliers和outliers，outliers是聚類算法中認為這一點是孤立點或者是噪音點，它沒法歸到聚類算法的ID裏麵，就叫做outliers，inliers是聚類算法對這些樣本進行聚類後得到一個個id，但每一個id裏麵可能存在noise，比如說對於id1裏麵有一個三角，這個三角更應該是id3裏麵的樣本。它是在模型的聚類過程中產生，所以說這是一類特殊的noise type。

騰訊優圖提出了一個框架，叫Asymmetric Co-teaching。因為聚類中存在inlier和outliers，這兩個不同源，所以用非對稱的思想去解決noise label的問題。

具體來說，首先有很多 Target Data，經過模型聚類得到Inliers和Outliers。然後通過k近鄰將outiers進行label。下麵一步是比較關鍵的，和Co-teaching一樣，美女直播全婐APP免费下载也並行訓練兩個神經網絡C和M，但是美女直播全婐APP免费下载往C和M送到的樣本是非同源的，一個Inlier一個outliers。然後C和M互相發送他們認為loss比較小的樣本進行迭代訓練。每次訓練之後，再進行聚類。不斷重複這種迭代過程，最後美女直播全婐APP免费下载發現outliers越來越少，Inlier也是越來越多，Inlier每個ID的noise也是越來越少。

可以看一下Asymmetric Co-teaching的結果，美女直播全婐APP免费下载主要是在行人重識別這個問題上衡量方法的有效性，也就是ReID。可以看美女直播全婐APP免费下载這個clustering-based的方法在Market和Duke數據集中有不錯的表現，比之前的一些方法也多了五六個點。

總結一下，關於noisy label learning前麵主要介紹了六個方法，我把它們歸為了Feature independent noise和Feature dependent noise。但是值得注意的是，並不是一個方法去解決Feature independent noise就無法解決Feature dependent noise，隻是說一個方法它更適用於解決哪個問題，然後標線框的這兩個是美女直播全婐APP免费下载的工作。

多模型協作，提升網絡表達能力

關於協作學習其實學術界沒有統一的定義，一般來講隻要是多個模型互相協作，去解決一個或者多個任務，那就可以把這種學習範式叫做協作學習。

按照任務分，協作學習可以分成兩個：一個是解決多個任務，有dual learning和cooperative learning；一個是多個模型一起協作解決一個任務。因為dual learning和cooperative learning主要是解決自然語言處理的問題，自然語言處理涉及到比如說中文翻譯成英文，英文翻譯成中文，這是多個任務。美女直播全婐APP免费下载這裏主要是講CV方麵，所以說美女直播全婐APP免费下载主要講解決一個任務，接下來會介紹co-training、deep mutual learning、filter grafting和DGD這幾個工作。

關於 Co-training的這篇文章（Combining labeled and unlabeled data with co-training, ACM 1998）非常古老，是1998年的，但是它的引用量已經好幾千，它其實是解決了半監督的問題。

接下來介紹2018年的這篇文章，發表在CVPR，這篇叫做deep mutual learning。它的思想極其簡單，美女直播全婐APP免费下载都知道蒸餾的時候teacher是fixed，然後對於學生進行監督，這篇文章的思想就是在蒸餾的過程中老師並不保持fixed，也進行迭代的訓練操作，也就是說老師教學生，學生也教老師。

時間再拉近一點，這是今年騰訊優圖中稿CVPR2020年的一篇文章，叫做Filter Grafting。這篇文章的motivation是什麽呢？美女直播全婐APP免费下载知道訓練好的神經網絡存在很多冗餘或者說無效的filter，比如說l1 norm很低，那Pruning就是想把這些filter給移除掉來加速網絡的推理能力。那麽美女直播全婐APP免费下载想，如果美女直播全婐APP免费下载不把這些無效的filter移除掉，而是通過其他網絡的幫助來激活這些無效的filter，讓它們重新變得有價值起來，那是不是可以進一步提高網絡的表達能力？

這篇文章有一個重要的發現是什麽呢？美女直播全婐APP免费下载發現訓練的神經網絡如果在初始化的時候都采用隨機初始化，那麽在訓練完之後，無效filter的位置是統計無關的。所以美女直播全婐APP免费下载可以並行訓練多個網絡，在訓練的過程中，每個網絡接受上一個網絡的部分weight （美女直播全婐APP免费下载將這種方式叫做grafting），因為每個網絡無效filter的位置是統計無關的。所以其他網絡有效filter的weight可以填補到自己網絡裏的無效filter當中。多個網絡之間互相進行這種操作，結束訓練之後每個神經網絡都會有更好的特征表達，而且測試的時候準確率性能也會更好。

可以看一下這個結果，對於在CIFAR-10、CIFAR-100上進行的實驗，與mutual learning、傳統的distillation、還有RePr相比較，Filter Grafting效果還是不錯的，對於一些大網絡，特別是對於CIFAR-100有兩個點的提升。

Grafting是可以有效提高無效filter，但是可能有效filter的信息量會減少。美女直播全婐APP免费下载在做grafting加權的時候，比如說M1和M2進行加權，M1的layer1加到M2的layer1上麵，雖然填補了M2中無效filter的空虛，但是M2有效filter可能也會受到影響。因為M1它本身也有無效filter，它直接加到M2上，M2的有效filter的信息量可能會減少，

這篇還在審稿中的文章（DGD: Densifying the Knowledge of Neural Networks with Filter Grafting and Knowledge Distillation (under review)）是關於星空的新發現，就是傳統的蒸餾可以解決有效filter信息量可能減少這個問題，這是這篇文章的貢獻。美女直播全婐APP免费下载提出了DGD的training framework。

DGD在訓練的過程中，並行訓練多個teacher和多個student。多個teacher對student進行蒸餾，而student之間進行grafting。最後訓練的結果是每一個student的valid filter和invalid filter都會有信息量的提升。

看一下DGD framework的結果。美女直播全婐APP免费下载對比了傳統的filter grafting，還有knowledge distillation，發現比grafting，distillation都有不錯的提升，比如在CIFAR-100上，各個網絡基本都會比baseline提升兩到三個點。

朝下一個難題前進，提升真實業務場景下的準確率

前麵講的是noise label learning和collaborative leaning，那麽基於這兩個可以做什麽呢？

第一個是設計一些feature dependent noise的loss形式。因為我認為現在對於noisy label learning領域，feature independent noise可能解決得差不多了，準確率都很高了，接下來一個主要的點就是設計一些loss方式來解決feature dependent問題。而且，這個問題是真實的業務場景、真實的數據集上的noise type形式。

第二個是，美女直播全婐APP免费下载知道grafting的motivation是來自於pruning，那麽美女直播全婐APP免费下载是否可以用grafting的一些思想去指導神經網絡來進行更有效的pruning，這是一些未來大家有興趣可以探索的一個點。

Q&A

Q: 您提到的那些噪聲是不是其實都是已知的，假設如果現在有一批數據，標注是否正確其實美女直播全婐APP免费下载無法知道，那這種情況有什麽好的解決辦法嗎？

A:剛才我講的這些文章中很多是假設知道noise rate這個prior knowledge，但真實場景其實美女直播全婐APP免费下载不知道noise rate是多大，我覺得一個好的解決方法是用一些design loss的方式，建議大家可以先用一些像peer loss或者DMI loss先進行一些嚐試，因為這些是更貼近實際的。

Q：在grafting的場景裏麵，如何去判斷有效或者無效的filter？

A：美女直播全婐APP免费下载想解決的是減少無效filter，那麽首先要定義什麽是無效filter。傳統的定義方法是通過L1 Norm進行定義，其實美女直播全婐APP免费下载覺得通過L1 Norm進行定義並不完美，不是L1 Norm比較小，filter就不好, L1 Norm比較大，filter信息量就很多。比如對於一個神經網絡來說，如果一個filter如果都是全1的話，這是沒有任何信息量，因為它沒有diversity，但是L1 Norm也很大。所以這篇文章其實並不是通過L1 Norm的手段去定義無效filter，美女直播全婐APP免费下载是通過信息量去定義哪些是無效的filter，哪些是無效的layer。

Q：Grafting和ensemble有什麽區別？

A：Ensemble其實訓練的是多個模型，測試的時候也是多個模型。但是grafting的優勢是美女直播全婐APP免费下载訓練的就是多個模型，但是測試的時候隻用一個模型。也就是說訓練的時候這些模型進行grafting，訓練之後美女直播全婐APP免费下载隨機抽取任何一個網絡進行測試都是有比較好的提升的。所以測試的時候隻用一個模型，它比ensemble更加高效，inference time更少。

繼續閱讀：

星空人工智能美女福利导航網倡導尊重與保護知識產權。如發現本站文章存在版權等問題，煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com美女直播全婐APP免费下载將及時溝通與處理。！：首頁 > 大數據 » 騰訊優圖：自適應缺陷數據，業務場景下的神經網絡訓練方法

相關推薦