友快網

導航選單

谷歌聯合團隊論文:什麼決定了AI資料集們的生命週期?

本文

約4015字

,建議閱讀

8分鐘

本文介紹

了圍繞不同機器學習任務的AI資料集相關研究結

論。

資料集構成了機器學習研究的支柱。作為訓練和測試機器學習模型的資源,它們深深融入機器學習研究人員的工作實踐中。

其中,

基準資料集協助圍繞共同研究問題的研究學者,併為他們提供穩定的衡量標準

。基準測試的改進表現被認為是集體進步的關鍵訊號。因此,這種表現受到個別研究人員的追捧,並用來對他們的貢獻進行評估和排名。

此外,基準資料集與“現實世界”任務的緊密結合,對於其是否能夠準確衡量集體科學進步,以及關注其是否合乎法律、合乎道德安全和能否有效部署模型等方面的研究具有重要意義。

鑑於基準資料集在社會和 MLR 科學組織中的核心作用,近年來它們也成為批判性調查的核心物件。儘管對基準資料集的關注越來越多,但令人驚訝的是,很少有人關注整個領域的資料集的使用和重用模式。

由加州大學洛杉磯分校和谷歌研究院聯合發表的最新論文 Reduced, Reused and Recycled: The Life of aDataset in Machine Learning Research,則深入研究了這些動態,在 Papers With Code(PWC)語料庫中研究資料集使用模式在機器學習子社群和時間(2015-2020 年)之間有何不同

(“資料實戰派”後臺回覆“3R”獲取論文下載地址)

更具體地說,本文研究圍繞不同機器學習任務(例如,情感分析和麵部識別)從以下三個研究問題進行分析:

研究問題 1(RQ1)

:機器學習任務社群在特定資料集上的集中程度如何?隨著時間的推移,這種情況是否發生了變化?

研究問題 2(RQ2)

:機器學習研究人員從其他任務借用資料集,而不是使用為該任務明確建立的資料集的頻率如何?

研究問題 3(RQ3)

:哪些機構負責“流通”中的主要 ML 基準?

1。資料來源

本文主要資料來源是 Papers With Code (PWC),這是一個由 Facebook AI Research 的研究人員建立的機器學習論文、資料集和評估表的開源儲存庫。

該研究主要關注“資料集”檔案,以及使用這些資料集的論文。檔案中的每個資料集都與元資料相關聯。本文在網站上找到了 4,384 個數據集,找到與這些資料集相關聯的 60,647 篇論文。

因為本文對資料集在任務社群內和跨任務社群內使用的動態感興趣,所以對前兩個研究問題(RQ1 和 RQ2)的分析任務,僅限於發表在帶有任務註釋的論文中的資料集用法。本文將最初設計資料集的任務稱為“原始任務”。將使用資料集的論文任務稱為“目標任務”。例如,ImageNet 最初被引入作為物件識別和物件定位(原始任務)的基準,現在也經常用作影象生成(目標任務)等的基準。

分析 RQ1 和 RQ2 和資料集:為了最大限度地減少跨父任務和子任務的資料集使用的重複計算,本文選擇專門關注 PWC 中的父任務。在這些分析中使用的結果度量(基尼係數、採用比例和創作比例)在小樣本中會存在偏差,因此本文僅使用超過 34 篇論文的中位數大小的父任務。因為父任務通常更大且更廣泛,所以往往被認為是連貫的任務社群。表 1 顯示了每個分析中使用的資料的描述性統計。

分析 RQ1 探索了任務中資料集的使用,它包括論文中引入的資料集以及未引入的資料集(例如,在網站或競賽中引入的資料集)。分析RQ2探討了源任務和目標任務之間的資料集傳輸。因為本文只能確定在論文中引入的資料集的原始任務(表 1),因此該資料集通常較小。

分析 RQ3 的資料集:為了研究廣泛使用的資料集在機構間的分佈,本文將所有介紹資料集的論文連結到 Microsoft Academic Graph (MAG)中。對資料集的使用情況進行了分析,其中最後一個作者將資料集的隸屬關係在 MAG 中進行了註釋(見表 1)。

與此同時,該研究再次施加限制,即用法必須與資料集共享標記任務,再次發現它對結果的影響最小。

2。方法與發現

RQ1:任務社群集中在資料集上

為了衡量任務社群在某些資料集上的集中程度,本文計算每個任務中觀察到的資料集使用分佈的基尼係數(Gini)。Gini 是頻率分佈離散度的連續度量。社會科學中經常使用它來研究不平等。Gini 的分值通常在 0 和 1 之間變化,0 表示任務中的論文以相等的比例使用所有資料集,1 表示在所有使用資料集的論文中僅使用單個數據集。Gini 計算如公式(1)所示。

其中,xi 表示任務中所有 n 個數據集中資料集i被使用的次數。

因為 Gini 在小樣本中可能存在偏差,本文使用樣本校正的 Gini:,以及排除少於 10 篇論文的任務。

迴歸模型 1:除了描述性統計之外,本文還建立了一個迴歸模型,用來評估觀察到的 Gini 逐年趨勢在多大程度上可歸因於混雜變數,例如任務大小、任務年齡或其他特定於當年(2015-2020 年)的任務特徵。

本文感興趣的

預測因子

有以下幾個:

1)年份(Year),因為本文對集中程度隨時間變化的趨勢十分感興趣;

2)計算機視覺、自然語言處理、方法學(CV,NLP,Methods),三個虛擬變數,指示任務是否屬於PWC中的計算機視覺、自然語言處理或方法學類別。

為了吸引額外的變化,本文還設定了以下幾個

控制協變數

1)當年該任務使用資料集/介紹論文數量的任務大小(Task size);

2)任務年齡(Task age),因為較年輕的任務可能具有較高的Gini;

3)每個任務的隨機截距(Random intercepts for each task),因為本文對時間進行了重複觀察。

本文使用 beta 迴歸對 Gini 進行建模,因為 beta 分佈非常靈活,且介於 0-1 之間,和 Cini 分佈比較相似。對於 Gini 為 0 的偶然任務年,本文使用平滑變換來處理。本文使用具有以下互動作用的模型:

該模型是從一組具有雙向和三向互動作用的巢狀模型中選擇的,因為它具有最低的赤池資訊準則(AIC)和貝葉斯資訊準則(BIC)。

模型 1 發現隨著時間的推移,完整資料集的任務社群集中度在不斷增加。2015 年到 2020 年,預測 Gini 略微增加了 0。113。(見圖 2 頂部綠色,表 2)。

這一趨勢在這一時期的基尼係數總體分佈中也很明顯(圖 2 底部)。到 2020 年,一項任務的基尼係數中位數為 0。60。與完整樣本相比,CV 和 Methods 任務之間沒有統計學上的顯著差異(圖 2 頂部,圖 3),但模型 1 表明 NLP 任務社群的濃度增加減弱(圖 2 頂部橙色)。這是唯一與本文的模型規格有所不同的結果;雖然 NLP 任務的集中度增加率始終顯著低於資料集的其餘部分,但這種變化的符號和斜率在不同模型之間確實有所不同。

圖 2

表 2

圖 3

RQ2:資料集的採用率和建立率隨時間的變化

本文建立了兩個比例來更好地理解結果,分別是資料集使用模式的比例(Adoption Proportion)和任務中的建立的比例(Creation Proportion):

聚合描述性分析:首先計算 133 個父任務中的每一個任務聚合在所有年份的比例,並按“計算機視覺”、“自然語言處理”和“方法論”這三個類別將任務進行子集化。

迴歸模型2A&2B:因為本文選擇將結果表述為離散事件的分數,所以邏輯迴歸是這些資料在理論上最合適的模型。本文使用混合效應邏輯迴歸對這些結果進行建模,並使用與迴歸模型 1 相同的預測變數。

結果發現,圖 4 的第一行顯示完整樣本和子類別的採用比例差異較大。在完整樣本中,超過一半的任務社群至少有 57。8% 的時間在使用採用的資料集。然而,這個數字在 PWC 的三個子類別中差異很大。在超過一半的計算機視覺社群中,研究學者採用了至少 71。9% 的來自不同任務的資料集。在方法論社群任務中的等效統計資料為 74。1%。但是一半的自然語言處理社群採用資料集的時間不到 27。4%。

在圖 4 的底行顯示了一個大體反轉的趨勢。在超過一半的任務社群中,62。5% 的資料集是專門為該任務建立的。在計算機視覺和方法任務中,其中位數分別為 53。3% 和 52。6%。在超過一半的 NLP 社群中,76。0% 的資料集是專門為該任務建立的。

圖 4

由於缺乏資料(結果未顯示),本文無法以任何一種方式(迴歸模型 2A 和 2B)恢復採用或建立比例趨勢的令人信服的證據。

RQ3:隨著時間的推移,引入資料集的機構的集中度

為了研究使用更大的資料集的論文,隨著時間的推移跨機構和資料集的基尼係數不均的趨勢,本文計算了每年資料集和機構資料集使用情況的基尼係數 Gs。

總的來說,本文發現只有少數精英機構引入的資料集被廣泛使用(圖 5 左)。事實上,截至 2021 年 6 月,PWC 中被使用的資料集中超過 50%,均來源於 12 家機構。此外,透過基尼係數衡量的精英機構引入的資料集,其集中度近年來已增加到 0。80 以上(圖 5 右紅色)。這種趨勢在 PWC 中資料集的基尼濃度中也更普遍地觀察到(圖 5 右黑色)。

圖 5

3。總結與展望

本文有以下幾點發現:

1)任務社群高度集中在數量有限的資料集上,並且這種集中度隨著時間的推移而增加

2)這些社群內用於基準測試的資料集的很大一部分最初是為不同的任務開發的。

3)全球資料集使用的不平等越來越嚴重,50% 以上正在被使用資料集來源於由十二個精英機構(主要是西方機構)引入的資料集。

4)在 NLP 社群中,集中在少數資料集上的更廣泛趨勢有所緩和,新資料集以更高的速度建立,而外部資料集的使用率更低。

可能的解釋是:NLP 任務社群往往比其他任務社群更大,較大的 NLP 社群可能更加連貫,因此比其他任務社群以更高的速率生成和使用自己的資料集;另一種可能性是 NLP 資料集更容易管理,因為資料更容易訪問、更容易標記或更小。這個難題的解決超出了此次研究的範圍,但 NLP 資料集的獨特性質為未來的工作提供了一個有趣的方向。

同時,本文還有

兩個更廣泛的發現

首先對特定基準進行一定程度的研究,對於建立基準的有效性和作為基準獲得社群一致性是必要且有益的進步。

其次,大規模資料集的管理不僅在資源方面成本高昂,而且一些獨特或特權資料可能只有少數精英學術和企業機構才能訪問(例如,匿名醫療記錄、自動駕駛汽車日誌)。

瓜分6666元現金紅包!領取8%+理財券,每日限額3000份!

上一篇:00後小將連續犯錯被換下場,李春江迎面一頓怒斥
下一篇:西蒙斯時隔611天拿到兩雙,籃網與杜蘭特太需要他了