2024年度C&C賞受賞者
グループB
![]() アシシュ・ヴァスワニ 氏 CEO, Essemtial AI |
![]() ノーム・シェイザー 氏 VP, Gemini Technical Co-Lead, Google Deepmind |
![]() ニキ・パルマ 氏 Research scientist, essential AI, Google |
![]() ヤコブ・ウスコライト 氏 Inceptive |
![]() ライオン・オーウェン・ジョーンズ 氏 CTO, Sakana AI |
![]() エイダン・ゴメス 氏 CEO, Cohere |
![]() ルカシュ・カイザー 氏 Member of Technical Staff, OpenAI |
![]() イリア・ポロスキン 氏 NEAR Protocol |
業績記
生成AIの基盤となる深層学習モデルTransformerの先駆的研究
業績説明
近年、AI (Artificial Intelligence)技術は目覚ましい進化を遂げ、産業分野のみならず、社会に深く浸透しつつあります。特に、生成AIの登場は、創造性を身に付けたAIとして世界中に衝撃を与えました。2000年代に入り、第3次AIブームが到来します。機械学習が実用化され、さらに、深層学習(deep learning)が登場、CNN (Convolutional Neural Network)やRNN (Recurrent Neural Network)などのモデルを使って、画像認識、自然言語処理、音声認識など多くの分野でAIの性能が向上しました。2017年、それまでのニューラルネットワークを刷新する革新的なモデルTransformerが発表され、既存モデルを大きく上回る性能を達成しました。Transformerなくして現在のAIの発展はなかったといわれています。
AIの世界に起きた画期的な出来事から、8年もの月日がたち、関わった人たちの記憶はおぼろげになっており、正確ではないかもしれませんが、おおよそこのようなことがありました。物語は、2012年、Googleが組織したユーザーと直接対話できるモジュールを開発するチームに、Jakob Uszkoreitが参加したことから始まります。チームはRNNを使用して、この対話ツールを構築しました。しかし、RNNは長い文章をうまく解析できないという壁にぶつかり、RNNの改良であるLSTM (Long Short Term Memory)にも限界がありました。2014年に、機械翻訳にattentionを導入した論文が発表されました。Uszkoreitとその同僚たちは、以前のプロジェクトにおいてattentionを使用するアプローチを試み、有望な結果を得ました。その後、Transformer TeamがTransformerにattention機構を組み込み、不必要な要素を取り除いて簡素化しました。これが「Attention is All You Need」という論文のタイトルにつながり、ジョーンズ氏によって提案されました。ある日、Uszkoreitは、Illia PolosukhinとGoogleのカフェでランチをし、self-attention機構について話ました。Ashish Vaswaniを誘い、3人で設計書「Transformers: Iterative Self-Attention and Processing for Various Tasks」を作成しました。そして、Niki ParmarとLlion Jonesがメンバーに加わりました。Transformerの研究は、Google Brainの研究者を引きつけ、Lukasz Kaiserと彼の下でインターンをしていたAidan Gomezがチームに加わりました。Transformer Teamは、文章を別の言語に翻訳するself-attentionモデルの構築に取りかかりました。Self-attention機構は入力データで重要な部分に焦点を当てる技術で、効果的に学習や推論を行えます。また、離れた要素間の関係性も効果的に学習でき、長文や複雑な文脈の理解が向上します。入力シーケンスを並列処理できるため、計算効率が大幅に向上し、大規模データセットでの学習が可能となるなど特徴があります。Transformerは優れた性能を見せ、当時の最良のモデルと同等以上となりましたが、そこで停滞しました。2017年のある日、KaiserとVaswaniがself-attentionについて熱い議論をしているところに、Noam Shazeerが通りがかります。Shazeerは彼らの話が有望だと感じ、チームに加わりました。Shazeerはチームが作成したコードを書き直し、システムのレベルを上げました。チームの目標は、2017年のAnnual Conference on Neural Information Processing System (NeurIPS)での発表となりました。5月19日の締め切りに間に合わせるため、8人は2017年2月から寝る暇も惜しんで働き、締め切り直前に論文を送信しました。論文では、2種類のTransformerモデルを評価しています。12時間学習させた基本モデル(base model)は競合モデルを上回る性能を見せ、3.5日間学習させた高性能版「Big」は既存モデルの記録を決定的に上回るスコアを示していました。当時のベストプラクティスであった遅いリカレント接続を使用せず、"attention"だけを使用するモデルを立ち上げることに、チームの意見は一致していました。論文には、著者8人の貢献度は同じで、著者順序はランダムと記されています。論文は大きな話題を呼び、12月6日のNeurIPSのポスターセッションには、研究者が詰めかけました。論文引用数は、2024年8月に13万6千件を超える驚異的な数字となっています。8人は、論文の最後に、attentionベースのモデルを画像、音声、動画などの処理に拡張する可能性を述べています。
論文発表後、Transformer技術を利用したAIが次々と発表されました。Transformerは高速で高性能であることに加え、学習データが大規模になればなるほど、精度が格段に向上するという特徴があり、AIモデルにおける規模の競争も引き起こしました。OpenAI社は、2018年に大規模言語モデルGPT (Generative pre-trained transformer)の初期タイプを発表し、その後、バージョンアップを続けています。2022年に登場されたChatGPTは、人間のように対話できるAIとして、公開から3か月足らずでユーザー数1億人を突破し、ビジネス、仕事、教育、医療、生活など様々な分野で革新をもたらすと話題になる一方、倫理的な課題も議論となりました。その他、画像生成システムDALL-E、音声認識モデルWhisperを発表しています。Googleは、2018年に自然言語処理モデルBERT (Bidirectional Encoder Representations from Transformers)を発表して以降、画像認識に特化したViT (VisionTransformer)、2023年には生成型人工知能チャットボットGemini (旧称Bard)を発表しました。
AIの歴史を変えたTransformerを発表した8人は、すでにGoogleを去りました。7人は起業し、1社を除き、Transformer技術を土台にした事業を行っています。
Transformerは、自然言語処理で当時の最先端技術RNNやLSTMの限界を突破しただけでなく、マルチモーダルAIにおいて、様々なデータのシームレスな統合を可能にし、AIシステムの能力を大幅に向上させました。深層学習は2010年頃からAIによる革新を引き起こしましたが、Transformerはそれまでのニューラルネットワークを刷新したという意味で、第2の革新と言え、現在のTransformerを基盤技術とした生成AIの波及と社会へのインパクトは大きく、C&C賞にふさわしいと考えます。