Teacher forcing

Transformer Part 1 - Seq2Seq

一開始接觸 Attention Is All You Need 這篇論文是從 Kaggle Reading Group 這個 channel 開始,非常推薦可以跟著一起讀!! 主持人 Rachael Atman 本身是 Kaggle 的 Data Scientist,她的導讀我覺得是流暢的,但她自己本身有說過並非是 NLP 領域的專家,所以在 kaggle reading group 裡閱讀的論文也有可能是她完全沒接觸過的,整個 channel 帶給你的就是一個啟發,讓你覺得有人跟你一起閱讀的感覺,然後過程中也些人會在 channel 的 chat room 提出一些看法或是連結,Rachael 本身也會提出自己的見解,可以多方面參考。 在跟完整個 Attention Is All You Need 的影片後,還是有太多細節是不清楚的,因為自己本身也不是這個領域的,所以開始追論文中所提到的一些關鍵名詞,就開始從 $seq2seq \rightarrow attention \rightarrow self-attention$。這中間 有太多知識需要記錄下來,所以將論文的內容分成三部曲,來記錄閱讀下來的點點滴滴: Part 1: Sequence to sequence model 起源 Part 2: Attention 與 Self-attention 的理解 Part 3: Transformer 的架構探討與深入理解 要談論 Attention Is All You Need 這篇 paper 就必須從 seq2seq 講起,seq2seq 全名為 Sequence to Sequence[1],是一個 Encoder - Decoder 架構的模型,在 2014 年被提出,被廣泛的應用於 Machine Translation, Text Summarization, Conversational Modeling, Image Captioning, and more.