友快網

導航選單

過半作者是華人!Google Research全新影象表徵模型ALIGN霸榜ImageNet

神經網路實際上就是在學習一種表示,在CV領域,良好的視覺和視覺語言(vision and vision-language)表徵對於解決計算機視覺問題(影象檢索、影象分類、影片理解)至關重要,並且可以幫助人們解決日常生活中的難題。

例如,一個好的視覺語言匹配模型可以幫助使用者透過文字描述或影象輸入找到最相關的影象,還可以幫助像 Google Lens 這樣的裝置找到更細粒度的影象資訊。

為了學習這樣的表示,當前最先進的視覺和視覺語言模型嚴重依賴於需要專家知識和廣泛標籤的訓練資料集。

對於視覺相關的應用場景來說,視覺表示主要是在具有顯式類標籤的大規模資料集上學習的,如 ImageNet、 OpenImages 和 JFT-300M等。

對於視覺語言的應用來說,常用的預訓練資料集,如Conceptual Captions和Visual Genome Dense Captions,都需要大量的資料收集和清理工作,這限制了資料集的大小,從而阻礙了訓練模型的規模。

相比之下,自然語言處理的模型在 GLUE 和 SuperGLUE 基準測試中,他們達到sota效能是透過對原始文字進行大規模的預訓練而不使用人工標籤。

在 ICML 2021會議上,Google Research發表了Scaling up visual and vision-language representation learning with noisy text supervision一文,建議利用公開的影象替代文字資料(如果影象未能在使用者螢幕上顯示,則在網頁上顯示替代影象的書面文字)來彌補這一差距,以訓練更大、最先進的視覺和視覺-語言模型。

為了達到這個目的,我們利用了一個超過10億個影象和文字對的噪聲資料集,在概念標題資料集中沒有昂貴的過濾或後處理步驟就獲得了這個資料集。實驗結果表明,我們的語料庫規模可以彌補噪聲資料的不足,從而實現了 SotA 表示,並且在轉換到 ImageNet 和 VTAB 等分類任務時表現出了很好的效能。對齊的視覺和語言表示還在 Flickr30K 和 MS-COCO 基準上設定新的 SotA 結果,即使與更復雜的交叉關注模型相比也是如此,並支援零鏡頭影象分類和複雜文字和文字 + 影象查詢的交叉模式搜尋。

圖文資料集中的 alt-text 通常是關於影象的描述,但資料集可能包括噪音,例如一些描述文字可能部分或全部與其配對影象無關。

例如第二張圖中就包括部分與影象無關的描述,如日期、縮圖等等。

Google的研究工作主要遵循構建Conceptual Captions資料集的方法來獲得原始的英語描述文字資料,即影象和alt-text的pairs。

雖然Conceptual Captions資料集被大量的過濾和後處理清理過了,但是論文中的工作透過放寬資料清洗的措施來擴大資料集,這種方法來擴充套件視覺和視覺語言表徵學習。

最後獲得了一個更大但噪音也更大的資料集,共包含 18億個 影象-文字對。

ALIGN: A Large-scale ImaGe and Noisy-Text Embedding

為了便於建立更大的模型,模型框架採用了一個簡單的雙編碼器結構用來學習影象和文字對的視覺和語言表示的align表示。

影象和文字編碼器是透過對比學習來訓練,即歸一化的softmax。

這種對比損失將匹配的影象-文字對的embedding儘可能貼近,同時將那些不匹配的影象-文字對(在同一batch中)儘可能分開。

大規模資料集使我們能夠訓練擁有更多引數的模型,甚至可以從零開始訓練和EffecientNet-L2和BERT-large那麼大的模型。學到的視覺表徵可以用於下游的視覺和視覺語言任務。

所得到的表示可以用於純視覺或視覺語言任務上的遷移學習,無需任何微調,ALIGN 就能夠跨模態搜尋影象到文字、文字到影象,甚至聯合搜尋影象 + 文字的query。

上述例子就展示了ALIGN的這種能力。

Evaluating Retrieval and Representation

評估檢索和表示學習的時候, ALIGN 模型與 BERT-Large 和 EfficientNet-L2共同作為文字和影象編碼器,能夠在多個影象文字檢索任務(Flickr30K 和 MS-COCO) ZeroShot任務和微調中都取得了sota效能。

ALIGN 也是一個強大的影象表示模型。在固定住特徵以後,ALIGN 略優於 CLIP,並在 ImageNet 上獲得85。5% 的 SotA 結果。透過微調,ALIGN 比大多數通用模型(如 BiT 和 ViT)獲得了更高的準確性,只比 Meta Pseudo Labels 差,但後者需要 ImageNet 訓練和大規模未標記資料之間進行更深入的互動。

在Zero-Shot影象分類上,影象分類問題將每個類別視為獨立的 id,人們必須透過每個類別至少拍攝幾張標記資料來訓練分類層次。但類名實際上也是自然語言短語,因此可以很自然而然地擴充套件 ALIGN 影象分類的圖文檢索能力,而不需要任何訓練資料。

在 ImageNet 驗證資料集上,ALIGN 實現了76。4% 的 top-1 Zero-shot 準確率,並且在不同的 ImageNet 變體中表現出很強的魯棒性,這與同時期的工作 CLIP 很像,都使用了文字提示來訓練。

為了能夠說明影象檢索的實際效果,論文中還構建了一個簡單的影象檢索系統,該系統使用 ALIGN 訓練的embedding,並展示了一億6000萬張影象池中少數文字查詢的top1個文字到影象的檢索結果。

ALIGN 可以檢索給出場景詳細描述的精確影象,或者細粒度或例項級的概念,如地標和藝術品。

這些示例表明,ALIGN 模型可以使影象和文字具有相似的語義,並且 ALIGN 可以概括為新的複雜概念。

多模態(影象 + 文字)影象搜尋查詢單詞向量的一個令人驚訝的特性是,單詞類比通常可以用向量演算法解決。一個常見的例子,“ king-man + woman = queen”。影象和文字嵌入之間的這種線性關係也出現在 ALIGN 中。

具體來說,給定一個查詢影象和一個文字字串,將它們的 ALIGN embedding相加到一起,並使用餘弦距離檢索相關影象。

這些例子不僅說明了 ALIGN 嵌入跨視覺域和語言域的組合性,而且表明了使用多模態查詢進行搜尋的可行性。例如,人們現在可以尋找“澳大利亞”或“馬達加斯加”大熊貓的等價物,或者把一雙黑鞋變成看起來一模一樣的米色鞋子。此外,還可以透過在嵌入空間中執行減法來刪除場景中的物件/屬性。

在社會影響方面,雖然這項工作從方法論的角度來看,以簡單的資料收集方法顯示了令人滿意的結果,但在實踐中負責任地使用該模型之前,還需要對資料和由此產生的模型進行進一步分析。例如,應當考慮是否有可能利用備選案文中的有害文字資料來加強這種危害。關於公平性,可能需要努力平衡資料,以防止從網路資料加強定型觀念。應該對敏感的宗教或文化物品進行額外的測試和訓練,以瞭解並減輕可能貼錯標籤的資料帶來的影響。

還應該進一步分析,以確保人類的人口分佈和相關的文化物品,如衣服、食物和藝術品,不會造成曲解的模型效能。如果這些模型將在生產環境中使用,則需要進行分析和平衡。

綜上所述,Google Research提出了一種利用大規模圖文資料進行視覺和視覺語言表徵學習的簡單方法,模型 ALIGN 能夠進行跨模態檢索,並且明顯優於 SotA 模型。在純視覺的下游任務中,ALIGN 也可以與使用大規模標記資料進行訓練的 SotA 模型相比,或者優於 SotA 模型。

本文的一二作者分別是Chao Jia和Yinfei Yang兩位華人,而他們分別的研究方向分別為CV和NLP,可見 神經網路讓NLP和CV的界限也更加模糊了,萬物皆可embedding。

參考資料:

https://ai。googleblog。com/2021/05/align-scaling-up-visual-and-vision。html?m=1

開啟App看更多精彩內容

上一篇:雄心壯志還是好高騖遠?韓國雙座隱身機曝光!單座機整明白了嗎?
下一篇:期待朱婷張常寧迴歸,世錦賽爭創佳績