引數減半、與CLIP一樣好,視覺Transformer畫素入手實現影象文字統一機器之心編譯編輯:袁銘懌CLIPPO 是一種統一的模型,用單個編碼器和對比損失來執行影象、文字和多模態任務,優於傳統的 NLP 基線和之前基於畫素的掩碼語言模型...