Chinese word segmentation (CWS) NLP 領域在近年的突破性發展,各項研究應用與相關論文不斷的推層出新,對於如何讓機器能更了解文章、句子所表達的內容,進而解決各項在 NLP 領域上的問題,在 OpenAI 近期推出的 GPT-3 已經將 NLP 研究推向高峰,但當中還是有一些 NLP 的相關議題是比較少被拿來討論的,尤其是對於中文的處理,大部分的 NLP 都還是環繞在英文為主,畢竟大部分的新方法都是由歐美的學者所提出。
字詞的斷詞方法一直都是 NLP 相關任務的重點,尤其是目前為主流的 pretrain model 研究發展走向,好的斷詞可讓機器理解整句話所要表達的意思也可以推論語句的結構,反之不好的斷詞可能會讓機器理解錯誤也連帶影響後續的下游任務表現。
在本次要節錄的論文是由香儂科技(Shannon AI) 發表在ACL上的一篇論文,主要是探討基於深度學習的中文 NLP 任務中對於中文字斷詞的處理方式,是要以詞(word-base) 還是字(char-base) 的處理方式比較。
Introduction Word-base 的處理方式有幾項缺點:
由於字詞的組合過多,且有些詞出現的頻濾可能相當低,所以容易造成資料過於稀疏的狀況,所以無法避免 out-of-vocabulary(OOV) 的問題產生,進而限制了模型的學習能力,根據 Zipf’s law 其表示詞的出現的頻率與語料中的排名成反比。
在論文中以 Chinese Treebank dataset(CTB) 為例,使用 Jieba 作為斷詞的處理方式,最終總共有 615,194 個字詞,當中包含了 50,266 個不重複詞,而在其中又只有 24,458 個字詞只出現過一次,佔比 48.7%,對於整體字詞來說佔了 4% 。如果將字詞出現的次數提高到4 次以下來觀察,就佔了詞的 77.4%,佔整體字詞約 10.1%。其統計結果如下圖:
Image credit: Paper 由統計結果可以得知 word base 的處理在資料上是非常稀疏的。