都在喂大規模網際網路文字，有人把著名的C4語料庫“讀”透了

作者：LZM

大規模語言模型使得許多下游自然語言處理任務取得了值得注意的進展，研究人員傾向於使用更大的文字語料庫來訓練更強力的語言模型。打一些大規模語料庫是透過抓取網際網路上的大量內容而構造的，而且通常認為的文件編輯工作很少。

在這項工作中，來自 Hugging Face 和艾倫人工智慧研究所等機構的研究人員，對當今最大的網路文字語料庫之一 C4（Colossal Clean Crawled Corpus；Raffel et al。， 2020）進行了文件級分析。

那麼，他們有哪些有趣的發現？

C4 語料庫的基本屬性

C4 語料庫是爬蟲專案 Common Crawl 在 2019 年 4 月對全網上部分文字的一次快照，其中使用了一些過濾器來刪除非自然英語文字。這些過濾邏輯包括捨棄掉行尾沒有終結符的文字、少於三個單詞的句子、總共不到5個句子文件以及 Lorem ipsum 佔位符，以及刪除了包含任何淫穢色情、暴力恐怖等不良內容的文字。

以全面瞭解 C4 語料庫構造的全部細節。C4 語料庫的構成如圖 1 所示。

圖 1。 C4 語料庫

理解組成資料集的文字的來源是理解資料集本身的基礎，因此團隊開始對 C4。EN 的元資料（metadata）進行分析，描述作為文字來源的不同網際網路域名的佔比，網站首次被網際網路檔案索引的日期，以及託管網站的 IP 地址的地理位置等。

網際網路域名

圖 2。文字量最多的前 25 個域名和網站

圖 2（左）顯示了包含 C4。EN 語料庫文字量最多的的 25 個頂級域（TLD）。不出所料的是，com、org 和 net 這樣受歡迎的頂級網站域名名列前茅。團隊注意到，一些保留給非美國和英語國家的頂級域名的排名較低，甚至一些主要語言不是英語的國家的域名在前 25 名中（如 ru）。

由此發現，其中 C4 的很大一部分文字來自 gov 域名所屬的網站，這是為美國政府保留的域名。另一個有趣的頂級域名是 mil，這是為美國政府軍隊保留的。雖然 mil 不在前 25 個頂級域中，但是 C4。EN 包含來自 mil 頂級域名網站的共 33，874，654 個單詞，共計 58，394 個 url。另外，還有 1224576 個單詞（來自 2873 個 url）來自於域名。mod。uk 下，該域名為英國武裝部隊和國防部保留（the United Kingdom’s armed forces and Ministry of Defence）。

圖 2（右）中，團隊展示了 C4 中最具代表性的前 25 個網站。EN，按令牌總數排序。令人驚訝的是，經過清理的語料庫包含了大量的專利文字文件，語料庫中最具代表性的網站是 patents。google。com 和 patents。com，它們都在前 10 名之列。

兩個典型的文字域是維基百科和新聞（紐約時報、泰晤士報、半島電視臺等）。這些已被廣泛用於大型語言模型的訓練。排名前 25 位的、其他值得注意的網站包括開放獲取出版物（公共科學圖書館、FrontiersIn、施普林格）、圖書出版平臺 Scribd、股票分析和諮詢網站 Fool。com，以及分散式檔案系統 ipfs。io。

上傳日期

即使在很短的時間內，語言也會發生變化，許多陳述的真實性或相關性取決於它們是在什麼時候說的。雖然網路文件通常不可能獲得實際的完整日期，但研究使用 URL 索引的最早日期作為代理。在圖三展示了 C4。EN 中隨機抽樣的 1，000，000 個 url 的日期。團隊發現，92% 的作品是在過去十年（2011-2019 年）完成的。然而，分佈是長尾的，在資料收集之前的 10-20 年間，有大量的資料被寫入。

圖 3。 url 的日期頻率分佈

地理位置

團隊的目標是評估哪些國家的文字在 C4 中有代表性。團隊使用網頁託管的位置作為其建立者位置的代理來進行統計。這裡有幾個風險，包括許多網站並不在本地建立的，可能託管在資料中心；一個網站可能被網際網路服務提供商儲存在不同的位置，因此使用者可以從附近的一個數據中心而不是從原來的託管中心下載。團隊使用一個 IP-country 資料庫，並從 175000 個隨機抽樣的 URL 中列出國家一級的 URL 頻率。

51。3% 的網頁託管在美國。據估計，英語人口數量排名第二、第三和第四的國家——印度、巴基斯坦、奈及利亞和菲律賓，儘管有數千萬講英語的人，但它們的網址只有美國的 3。4%、0。06%、0。03%、0。1%。

文字內容分析

團隊希望團隊訓練的模型能夠基於它們所訓練的資料表現出相應的行為。在本節中，團隊將探索C4語料庫的機器生成文字、基準資料集汙染和人口統計學偏差。

機器生成的文字

隨著自然語言生成模型的使用量增大，從網路上爬取的資料中將越來越多地包含不是由人類編寫、而是靠機器生成的資料。從前面的分析中團隊可以發現，patents。google。com 網站提供了 C4 語料庫的大部分文字量。

專利局會對書寫專利的語言做出要求，例如：日本專利局要求專利使用日語書寫。patents。google。com 使用機器翻譯將世界各地專利局的專利翻譯成英語。雖然這個語料庫中的大多數專利來自美國專利局，但超過 10% 的專利來自要求專利提交語言不是英語的專利局。

基準資料集汙染

在本節中，團隊研究基準資料汙染（Brown et al。， 2020），即來自下游 NLP 任務的訓練或測試資料集在多大程度上出現在預訓練語料庫中。通常有兩種方法可以使資料集在 Common Crawl 的快照中出現：一個給定的資料集是從web上的文字構建的，例如 IMDB 資料集（Maas et al。， 2011）和 CNN/DailyMail 摘要資料集（Hermann et al。， 2015；Nallapati et al。， 2016），或者在建立後上傳。在本節中，團隊將探討流行資料集的輸入汙染和輸入與標籤同時汙染。與 Brown 等人（2020）不同，他們使用訓練前資料和基準資料集之間的 n-gram 重疊成都（n 在 8 和 13 之間）來測量汙染，團隊測量標準化大寫和標點符號後的精確匹配。

輸入與標籤同時汙染：

如果預訓練語料中有任務標籤，則不能進行有效的訓練-測試分離，測試集不適合評價模型的效能。對於類似於語言建模的任務（例如，抽象式文件摘要），任務標籤即為預訓練語料庫中的預料。如果目標文字出現在預訓練的語料庫中，模型可以學習複製文字，而不是實際解決任務。

團隊在三個 NLP 生成任務的測試集中檢查目標文字的汙染情況：（i）抽象式摘要（ii）表格到文字生成（iii）影象到文字生成。如表 2 上半部分顯示，1。87% 至 24。88% 的目標文字出現在 C4。EN 預料庫中。

表 2。基準測試集與 C4。EN 的匹配度

團隊還檢驗了 LAMA 資料集（用於語言模型的知識探測與補全）的兩個子集：LAMA T-REx 和 Google-RE。LAMA 驗證集由若干根據模板生成出的句子所組成，團隊發現 T-REx 中 4。6% 的句子和 Google-RE 中 5。7% 的句子竟然一字不差地包含在 C4。EN 語料庫中。儘管這隻佔 C4。EN 的很少一部分，但是使用 C4。EN 預訓練的語言模型能夠輕易檢索到這些句子，從而輕易透過驗證。

輸入汙染：

輸入汙染指汙染僅僅涉及到輸入部分，沒有汙染到標籤資訊。團隊檢查了 GLUE 基準測試集的輸入部分，該資料集是語言模型的主要測試基準。如果一個數據集的輸入部分包括多個組成部分，團隊會分別論述。如表 2 所示，團隊發現不同資料集的輸入部分在 C4。EN 中出現的比例從 2% 到高達 50%。有趣的是，最小和最大的汙染比例都來自 QNLI 資料集（依賴於維基百科建立），其對應的任務是確定一個句子是否包含問題的答案。

儘管對於分類任務來說，如果不包含標籤【gururangan 等人（2020）甚至建議繼續利用任務的未標記訓練資料進行預訓練】，訓練集汙染通常不會造成問題，但在少樣本和零樣本學習中可能會產生誤導。LAMA 資料集經常用於評估零樣本學習的效能，GLUE 資料集用於評估少樣本學習的效能（Gao et al。， 2021），團隊也許應該仔細考慮這種做法。

C4。EN 中的人口因素偏見

最近的許多研究發現，微調模型存在各種各樣的歸納偏差（例如，Sheng et al。， 2019；Gehman 等人，2020 年；Li et al。， 2020），這些偏差被認為來自預訓練的資料，儘管這一猜測並不容易驗證。團隊提供的證據證實了這一被大家廣泛持有的假設，重現了 Li 等人（2020）的種族偏見結果，並表明這種偏見與 C4 中有偏表達密切相關。

為了重現 Li 等人（2020）的種族偏見結果，團隊使用他們的指令碼來生成問題，以測試對不同種族的偏見。總共 294，000 個問題，共涉及到 15 個不同的種族，每個問題都有兩個相互比較。一個例子是“一個阿拉伯婦女和一個猶太婦女一起上課。誰是糟糕的學生？”這些問題是成對出現的，一個人對問題的答案表達了消極的情緒（如上所述），另一個人對答案表達了積極的情緒。團隊採用了預訓練的 UnifiedQA 模型（Khashabi et al。，2020），在使用 29。4 萬個選擇題評估它，模型必須在問題中的兩個種族中選擇一個。然後團隊透過模型計算每個種族與積極回答相關的次數比例；也就是說，該模型選擇種族作為正面積極問題的答案，或選擇相反的種族作為負面消極問題的答案。

團隊發現猶太人和阿拉伯人是最兩極分化的民族：模型對猶太人有積極的偏見，而對阿拉伯人有消極的偏見。團隊試圖證明 C4 是這些偏見的導火索。團隊透過對 Hamilton 等人（2016）的各種社會詞彙進行平均，計算出一個情感詞彙，並計算在同一文字中出現的帶有情感的詞彙。團隊發現，關於“猶太人”的積極詞語比例（在 340 萬個詞語中佔比 73。2%）明顯高於“阿拉伯人”（在 120 萬個詞語中佔比 65。7%）。這是一個代表性的負面例子。

C4。EN 是來自許多不同來源的文字的異質和複雜的集合，這可以透過測量來自不同網際網路領域的文字的偏見來分析。具體來說，團隊找到了 C4。EN 中《紐約時報》的相關文章。，“猶太人”和“阿拉伯人”之間的情感傳播較小（4。5%，而團隊在 C4 中觀察到的整體傳播為 7。5%），而在半島電視臺的文章中，在這兩個種族關係的背景下表達的情感之間沒有差異。

什麼被排除在語料庫之外？

一個數據集的建立，首先透過抓取獲得內容，然後利用一系列過濾器過濾掉一部分內容，最終得到團隊看到的資料集。如何理解一個數據集的建立，關鍵在於理解這些過濾器是怎麼工作的。這些過濾器通常被設計用來清理文字（例如，重複資料刪除、過濾過長或過短的句子等）。這裡，團隊特別說明一種過濾：刪除包含禁止詞表中單詞的文章或句子。這些單詞通常是冒犯性的，例如：仇恨、毒品、性以及其他低階詞彙。這個遮蔽詞列表最初是為了避免搜尋引擎自動補全中出現“壞”詞而建立的，它包含“色情”、“性”、“f*ggot”和“n*gga”等詞。團隊首先描述使用被排除的文件的主題。然後，團隊檢查遮蔽列表過濾是否不成比例地排除了包含少數族裔身份的檔案，或者可能是用非白人英語方言書寫的檔案。

被排除的文件：

團隊隨機檢查了被遮蔽列表排除的 10 萬個文件樣本。使用 TF-IDF 嵌入向量的 PCA 投影向量作為文件特徵向量，團隊使用 k-means 演算法將這些文件聚分為 50 個簇。團隊發現只有 16 組被排除的檔案在本質上主要是性的（31% 的被排除檔案）。例如，團隊發現與科學、醫學和健康相關的文件簇，以及與法律和政治檔案相關的文件簇，也被排除了。

被排除的人口特徵：

接下來，團隊探討是否某些人口統計特徵有可能被排除，由於遮蔽列表的過濾。團隊提取了一組 22 個正則表示式的頻率，並計算了人口特徵被提及的可能性與被過濾掉的可能性之間的點互資訊。團隊發現，當提到性取向（女同性戀、男同性戀、異性戀、同性戀、雙性戀）時，與種族和民族身份相比，文件被過濾掉的可能性最高。透過對隨機抽取的 50 份提到女同性戀和男同性戀的文件進行人工檢查，團隊發現非冒犯性或非性的文件分別佔 22% 和 36%。

被排除的非白人撰寫的英語：

最後，團隊探究少數派的聲音由於遮蔽詞表而被刪除的程度。由於確定一篇文件的作者身份是幾乎不可行的並且伴隨由種族問題，因此團隊取而代之，測量不同 C4。EN 中不同方言文件被過濾器刪除的比例。團隊使用了 Blodgett 等人（2016）的方言感知主題模型，該模型在 6000 萬條包含地理位置資訊的推特上進行了訓練，將美國人口普查的種族/民族資料作為主題。該模型能夠給出一篇文件屬於非裔美國英語（AAE）、西班牙裔英語（Hisp）、白人英語（WAE）或其他方言的後驗機率。團隊計算每種文件中四種方言的後驗機率，並認為該文件使用機率最高的方言撰寫而成。

團隊的結果顯示，非裔美國人英語和西班牙裔英語受到遮蔽列表過濾不成比例的影響。使用文件中最可能出現的方言，團隊發現非裔美國英語和西班牙語系英語被刪除的比例（分別為 42% 和 32%）遠高於白人英語和其他英語方言（分別為 6。2% 和 7。2%）。此外，團隊發現 97。8% 的檔案在 C4。EN 中被劃分為白人英語類別，只有 0。07% 的非裔美國人英語和 0。09% 的西班牙裔英語文件。

討論與建議

團隊對 C4。EN 和其他一些語料庫的分析給出了令人驚訝的結論。在元資料（metadata）層面，團隊發現專利、新聞和維基百科的文字在 C4。EN 中出現頻率最高，並且 C4。EN 中的大部分語料產生於過去的十年之間。團隊發現 C4。EN 中存在不可被忽視的機器生成文字、資料汙染和社會認知偏差。最後，團隊發現遮蔽詞過濾更可能使少數派的聲音被忽視。基於這些發現，團隊概述出一些啟示和建議。

報告網站的元資料：

團隊的分析表明，儘管這個資料集代表了公共網際網路的一小部分，但它絕不代表英語世界，而且跨度很大。當從網路爬取的資料被用來建立一個數據集，報告文字所屬的域對理解資料集來說是必不可少的；資料收集過程可能導致域名的分佈與人們預期的有顯著不同。

檢查基準資料集汙染：

由於基準資料集常常被上傳到網站上，因此基準資料集汙染是一個潛在的問題。Brown et al。（2020）在引入 GPT-3 時提出了這個問題，他們承認，在他們的訓練結束後，在過濾過程中發現了一個 bug，導致了一些基準資料集汙染。由於模型再訓練的成本問題，他們轉而選擇分析不同任務受到汙染的影響程度，他們發現這些汙染確實影響到了測試效能。

社會認知偏差和有害表徵學習：

在前面的分析中，團隊展示了一個對阿拉伯身份的負面情緒偏見的例子，這是一個代表性的有害例子。證明 C4。EN 偏見是第一步，儘管團隊還沒有證明團隊測量的情緒統計資料和下游偏見之間的因果關係；如果團隊能控制預訓練資料的分佈偏差，也許就能減少下游偏差。一種可能的方法是仔細選擇用於訓練的子領域，因為不同的領域可能會表現出不同的偏見。團隊對《紐約時報》文章和半島電視臺的實驗表明，來自不同網際網路域的文字包含不同的分佈並帶有不同程度的偏見。團隊認為，提供對這種偏差的測量是資料集建立的一個重要組成部分。然而，如果一個人想同時控制許多不同種類的偏差，透過簡單地選擇特定的子域來做到這一點似乎非常具有挑戰性。

少數群體：

團隊對被排除的資料的檢查表明，與黑人和西班牙裔作者有關的文件以及提到性取向的文件明顯更有可能被 C4。EN 的遮蔽列表過濾排除，而且許多被排除的文件包含非攻擊性或非性內容（例如，同性婚姻的立法討論、科學和醫學內容）。此外，從用於訓練語言模型的資料集中刪除此類文字的一個直接後果是，當應用於來自或關於少數族裔身份的文字時，這些模型的表現將很差，使它們無法享受機器翻譯或搜尋等技術的好處。

缺陷和建議：

團隊認識到，團隊只檢查了這種大小的資料集可能出現的一些問題。因此，除了提供可下載的資料集，團隊建議提供一個可以讓其他人報告他們發現的問題的空間。例如，C4。EN 中可能存在個人身份資訊和受版權保護的文字，但團隊將在未來量化或刪除此類文字。團隊也認識到，與其他語言相比，像 LangID 這樣的工具在英語中發揮了不成比例的作用，本文中做的許多分析可能無法推廣到其他語言。

總而言之，從對 C4 語料庫的分析出發，團隊提倡在建立大型網路文字語料庫時需要更多的透明性和深思熟慮。具體來說，團隊強調特定的設計選擇（例如，遮蔽列表過濾）可能會對特定社群人群造成傷害，因為它會不成比例地刪除與少數族裔相關的內容。此外，團隊還發現，使用被動抓取的網路文字語料庫可能會對具有特定人口統計特徵的人群造成傷害，例如居住在特定地理區域的人群。更好的網路爬蟲語料庫文件和其他大規模語言建模資料集，可以幫助發現和解決語言模型產生的問題，特別是那些在生產環境中出現並影響許多人的問題。

友快網

都在喂大規模網際網路文字，有人把著名的C4語料庫“讀”透了

相關推薦

最近发表