友快網

導航選單

5300億引數,微軟英偉達推最大單體AI語言模型,560臺DGX A100訓練

智東西10月12日報道,微軟與NVIDIA今日公佈由DeepSpeed和Megatron訓練出的Megatron-Turing自然語言生成模型(MT-NLG)。

這是迄今最大、最強大的AI單體Transformer語言模型,作為微軟Turing-NLG 17B和NVIDIA Megatron-LM模型的繼承者,MT-NLG模型包括5300億個引數,引數數量比OpenAI GPT-3的3倍還多。

其訓練在560臺NVIDIA DGX A100伺服器上進行。在閱讀理解、常識推理、自然語言推理和詞義消歧等一系列自然語言任務中,MT-NLG均實現了超高準確性。

““我們今天獲得的質量和結果是在解開AI在自然語言中全部承諾道路上邁出的一大步。”NVIDIA加速計算產品管理和營銷高階總監Paresh Kharya、微軟圖靈團隊專案經理Ali Alvi在一篇部落格文章中寫道,“DeepSpeed的創新和Megatron-LM有利於現有和未來的AI模型開發和使大型AI模型更低成本、更快的訓練。”

01。訓練大量語言模型的兩大主要挑戰

近年來,基於Transformer的自然語言處理(NLP)語言模型在大規模計算、大型資料集以及訓練這些模型的高階演算法和軟體的推動下取得了快速進展。

具有大量引數、更多資料和更長訓練時間的語言模型,會獲得更豐富、更細緻的語言理解能力,包括能提煉書籍要點、自動生成對話、機器翻譯、語義搜尋、自動補全程式碼程式設計等。

在最先進的NLP模型中,引數的數量以指數速度增長是不足為奇的。

▲NLP模型引數規模增長趨勢

然而,訓練這些模型具有挑戰性,原因有二:

1)即使是最大的GPU,也不可能在記憶體中匹配這些模型的引數。

2)如果不特別注意最佳化演算法、軟體和硬體堆疊,那麼所需的大量計算操作可能會導致不切實際的長訓練時間。

透過緊密合作,NVIDIA與微軟將最先進的GPU加速訓練基礎設施與先進的分散式學習軟體堆疊相結合,實現了前所未有的訓練效率。

他們用數千億token構建了高質量的自然語言訓練語料庫,並聯合開發了訓練配方,提高了最佳化效率和穩定性。基於Transformer的105層MT-NLG在一些零樣本或少樣本設定方面改進了此前最先進的模型,並進一步提升了模型規模和質量。

02。破解大模型挑戰,將大算力與先進軟體結合

MT-NLG模型由NVIDIA A100張量核心GPU和HDR InfiniBand網路驅動。NVIDIA Selene、微軟Azure NDv4等先進超算叢集有足夠的計算能力,可在合理的時間框架內訓練模型與數萬億引數。而要發揮這些超級計算機的全部潛力,需要實現跨越數千個GPU的並行性,在記憶體和計算上都是高效和可擴充套件的。

單獨而言,現有的並行策略(好如資料、流水線或張量Tensor切片)在記憶體和計算效率方面存在權衡,不能用於這種規模的模型訓練。

1)資料並行實現了良好的計算效率,但它複製模型狀態,不能利用聚合的分散式記憶體。

2)張量切片需要GPU之間的大量通訊,當高頻寬NVLink不可用時,這限制了超過單節點的計算效率。

3)流水線並行可以有效地跨節點擴充套件。然而,為了計算效率高,它需要大的單次訓練用的樣本數(batch size)、粗粒度並行和完美的負載平衡,這幾乎是不可能的。

透過將NVIDIA Megatron-LM和微軟DeepSpeed結合,研究團隊建了一個高效、可擴充套件的3D並行系統,能夠將資料、流水線和基於張量切片的並行性結合在一起,以應對這些挑戰。

結合張量切片和流水線並行,研究團隊可以在它們最有效的區域內進行操作。更具體來說,該系統使用Megatron-LM的張量切片在節點內擴充套件模型,並使用DeepSpeed的流水線並行性在節點之間擴充套件模型。

例如,對於5300億引數的模型,每個模型replica跨越280個NVIDIA A100 GPU,在一個節點中有8路張量切片和35路跨節點的流水線並行性。然後研究團隊使用DeepSpeed的資料並行性進一步擴充套件到數千個GPU。

MT-NLG模型訓練是在基於NVIDIA DGX Superpod架構搭建的Selene超級計算機上以混合精度完成的,該超算由560臺DGX A100伺服器提供支援,並以完整的胖樹(Fat-tree)配置與HDR InfiniBand聯網。

每個DGX A100有8個NVIDIA A100 80GB GPU,透過NVLink和NVSwitch完全連線。微軟Azure NDv4雲超級計算機也使用了類似的參考架構。

研究團隊考慮了在Selene上的280、350和420 DGX A100伺服器上的5300億引數模型的端到端吞吐量,觀察到迭代時間分別為60。1、50。2和44。4秒。每個GPU分別對應126、121和113 TFLOPS。

03。基於The Pile構建訓練資料集

研究團隊使用了transformer解碼器的架構,它是一個由5300億引數組成的基於從左到右生成的transformer語言模型,層數、隱藏維度和注意力頭分別為105、20480和128。

他們採用8路張量和35路流水線並行。序列長度為2048,全域性batch size為1920。在最初的120億個訓練token中,研究團隊將batch size從32開始逐步增加32,直到達到最後的1920個。團隊在訓練中使用了10億token來預熱學習率。

他們主要是基於開源AI研究機構EleutherAI建立的The Pile資料集建立了MT-NLP訓練資料集。與所有AI模型一樣,MT-NLP必須透過輸一系列案例來“訓練”資料點之間的語法、句法規則等模式。

Pile覆蓋了學術資源(如Arxiv、PubMed)、社群(StackExchange、維基百科)、程式碼庫(Github)等,微軟和英偉達表示他們對這些資源進行了管理,並結合了大型網頁集合Common Crawl的過濾快照。為了多樣化訓練,他們還收集了RealNews和CC-Stories資料集。

在構建訓練資料集時,文件重複資料刪除是必要的,因為相同的內容可能出現在不同資料集的多個文件中。因此微軟和英偉達在文件級使用模糊重複資料刪除過程,使用最小雜湊LSH計算稀疏文件圖和其中的連線元件,以識別重複文件。

然後,當從每個連線元件中的重複文件中選擇一個代表性文件時,他們使用基於資料集質量的優先順序順序,最後用基於n-gram的過濾將下游任務資料從訓練資料集中去除,以避免汙染。

最後,研究團隊得到了15個數據集,總共包含3390億token。在訓練過程中,他們選擇根據圖2中給出的可變取樣權值將資料集混合成異構batch,重點是高質量的資料集。其訓練模型使用2700億token。

▲用於訓練MT-NLG的資料集。前11行來自Pile資料集,後面是CC快照、RealNews和CC Stories資料集。

04。在多項任務展示出更強準確性

最近在語言模型方面的研究表明,一個強大的預訓練模型通常可以在大量的NLP任務中有競爭力地執行,而無需進行微調。

為了理解擴充套件語言模型如何增強其零樣本或少樣本學習能力,研究團隊評估了MT-NLG,並證明了它在多個類別的NLP任務中建立了新的頂級結果。為確保評估的全面性,他們選擇了5個領域的8個任務:

1)在文字預測任務LAMBADA中,該模型預測給定段落的最後一個單詞。

2)在RACE-h和BoolQ閱讀理解任務中,模型根據給定的段落生成問題的答案。

3)在PiQA、HellaSwag和Winogrande的常識推理任務中,每個任務都需要一些超越語言統計模式的常識知識來解決。

4)對於自然語言推理,兩個硬基準測試ANLI-R2和HANS針對過去模型的典型失敗案例。

5)詞義消歧任務WiC從上下文評估多義理解。

為了鼓勵可復現,研究團隊基於開源專案lm-evaluation-harness建立了評估設定,並根據任務進行了適當的更改,使其設定與之前的工作更緊密地一致。他們在沒有搜尋最佳樣本數量的情況下,在零樣本、小樣本和少樣本的設定下評估MT-NLG。下表顯示了準確性度量的結果。

經比較,MT-NLG在大多數任務的零樣本、小樣本和少樣本評估中均表現出更快的學習能力。

除了報告基準任務的彙總指標,研究團隊還定性地分析了模型輸出,並觀察到即使符號嚴重混淆,模型仍可以從上下文推理出基本的數學運算,雖然還不是非常準確,但該模型似乎超越了算術的記憶。

研究團隊還展示了來自HANS任務的示例,其中他們將包含簡單語法結構的任務作為問題提出,並提示模型給出答案。儘管結構很簡單,但現有的自然語言推理(NLI)模型在處理此類輸入時常常遇到困難。經過微調的模型經常從NLI資料集中的系統性偏差中發現某些句法結構和隱含關係之間的虛假關聯。MT-NLG在沒有微調的情況下在這種情況下表現得很有競爭力。

05。大模型的憂患:偏見、高成本與高能耗

雖然大模型正在推動語言生成的發展,但它們也存在從其訓練資料中獲取刻板印象和偏見的問題。微軟和NVIDIA稱他們“致力於解決這個問題”,並鼓勵“繼續進行研究,以幫助量化模型的偏差。”

微軟和NVIDIA表示在生產中使用Megatron-Turing“必須確保採取適當的措施,以減輕和最小化對使用者的潛在傷害”,所有工作應遵循微軟負責任的AI原則。

除了潛在偏見外,大模型的成本高昂問題為研究設定了門檻。以擁有1750億引數的OpenAI GPT-3模型為例,其訓練資料集規模高達45TB,足以填滿90個500GB的硬碟。

一位訊息人士稱,2017年至2019年期間,AI訓練成本下降了為原來的1/100,但總數仍超過大多數初創公司的計算預算。這種不平等傾向於那些能夠獲得大量資源的公司,而犧牲了小企業家的利益,鞏固了在位者的優勢。

例如,OpenAI的GPT-3在訓練期間估計需要每秒3。1423^23次浮點運算(FLOPS)。假設OpenAI在NVIDIA V100 GPU上保留了28 TFLOPS(每秒28萬億次浮點運算),V100單次訓練就需要花費460萬美元。一臺擁有15TFLOPS算力的NVIDIA RTX 8000 GPU要便宜得多,但完成這項訓練需要665年。

微軟和英偉達稱在訓練MT-NLP時,他們觀察到每臺GPU運算速度有113-126TFLOPS。其成本可能高達數百萬美元。

另據Synced的一份報告估計,華盛頓大學研究人員開發的假新聞檢測模型的訓練費用為2。5萬美元,谷歌花了大約6912美元來訓練語言模型BERT,以提高谷歌搜尋結果的質量。

在處理TB或PB規模的資料集時,儲存成本也會迅速增加。舉個極端的例子,據CrowdStorage稱,特斯拉自動駕駛團隊積累的資料集——1。5PB的影片片段——在微軟Azure儲存3個月需要花費超過6。75萬美元。

AI模型訓練對環境的影響也受到關注。2020年6月,馬薩諸塞大學阿默斯特學院的研究人員釋出了一份報告估計,訓練和搜尋一個特定模型所需能耗涉及約62。6萬磅的二氧化碳排放,幾乎相當於美國汽車平均生命週期排放量的5倍。

好在FLOPs和基本機器學習操作的成本在過去幾年一直在下降。OpenAI在2020年的一項調查發現,自2012年以來,訓練一個模型在流行的基準ImageNet上對影象進行分類時達到同樣的效能所需的計算量每16個月就減少了為原來的1/2。其他最近研究表明,大型語言模型並不總是比小型模型更復雜,這取決於用來訓練它們的技術。

06。結語:大算力+大模型的優勢正日益顯現

當前AI發展速度遠遠超過了摩爾定律,超大規模AI模型帶來的效能優勢愈發顯現出來,新一代GPU的更快互連速度帶來了計算能力的提升,同時軟體創新正在將這兩種趨勢結合起來,進一步推動最佳化和效率提升。

在這股熱潮中,將NVIDIA Selene或微軟Azure NDv4這樣的超級計算機與NVIDIA Megatron-LM和微軟DeepSpeed的軟體突破結合而訓練出的大模型MT-NLG,是一個相當好的例子。而微軟和NVIDIA展現出的技術思路,有望推動大模型訓練在更快的同時,成本變得更低。

“我們期待MT-NLG將如何塑造明天的產品,並激勵社群進一步推動自然語言處理(NLP)的邊界。這段旅程很長,還遠遠沒有完成,但我們對未來的可能性和前景感到興奮。”NVIDIA加速計算產品管理和營銷高階總監Paresh Kharya和微軟圖靈團隊專案經理Ali Alvi在部落格中寫道。

不過,大模型是否是AI語言模型發展正確的道路,仍是一個懸而未決的問題。美國康奈爾大學的自然語言處理研究員和資料科學家Maria Antoniak表示,儘管今天一些最好的基準測試效能評分來自大型資料集和模型,但將大量資料投入模型的回報是不確定的,大模型表現很好的一些任務是非常結構化的,這些任務能否引導我們真正理解語言還有待探討。

炒股開戶享福利,入金抽188元紅包,100%中獎!

開啟App看更多精彩內容

上一篇:怪才宰相王安石:誤食魚餌
下一篇:身家超C羅15倍,擁有2000輛超跑,踢球=玩票