ALBERT

[Paper-NLP] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

ALBERT 在 2017 年 Transformer 的誕生,突破了 RNN、LSTM、GRU … 等在計算上的限制,也帶來新的觀點,爾後再 2018 年底 Google 發表了 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 開啟了通往偉大到航道的路線,也帶起了 pre-training model 的各種應用,不用再辛苦的從頭開始訓練,為了資料問題所苦惱。在 BERT 之後,湧出各種基於 BERT 的架構下進行優化改進,例如: GPT-2、XLNet、RoBERTa、ERNIE … 等這些耳熟能詳的模型,而這次將是為大家介紹也是基於 BERT 的架構下 Google 在 2019 年推出的輕量化版本的 BERT,ALBERT: A Lite BERT for Self-supervised Learning of Language Representations。 Introduction 如前言所述,在 BERT 後的時代透過大量的資料進行自監督(self-supervised1)的訓練,提高模型參數與更深層的結構,讓模型取得更好的表現,但也因為硬體上的限制,要訓練參數量大的模型就可能需要做到平行化處理以及記憶體內存的管控,但這樣的方式並沒有解決成本上的問題。基於這樣的情況,作者提出了下列問題: Is haveing better NLP models as easy as hvaing larger models? 也因為這個問題的討論,造就了 A Lite BERT(ALBERT) 的模型架構出來。