重要な論文は20〜25本くらいです。 それらを実装すれば、現代のLLMのアルファの約90%を獲得したと言えます。 それ以外は飾りです。 そのリストが欲しいのか?もう見ないで... トップ26の必読論文(+5のボーナスリソース) LLMおよびトランスフォーマーのマスタリング用 このリストはトランスフォーマーの基礎を橋渡しします 推論、MoE、エージェントシフトを含みます おすすめ読書順 1. 注意こそがすべて(Vaswani et al., 2017) > オリジナルのトランスフォーマー論文。自己注意をカバーしています。 > マルチヘッドアテンションとエンコーダ-デコーダ構造 >(ほとんどの現代のLLMはデコーダのみですが) 2. イラストレイテッド・トランスフォーマー(ジェイ・アラマー、2018年) > 理解のための素晴らしい直感構築ツール 実装に入る前に注意とテンソルフローを> 3. BERT:深層双方向トランスフォーマーの事前学習(Devlinら、2018年) > エンコーダ側の基礎、マスクされた言語モデリング、 現代の建築を形作る>と表現学習 4. 言語モデルはフーショット学習者(GPT-3)(Brownら、2020年) > 実在の文脈内学習の確立...