目次
日本語LLMを巡る動向
2023年を振り返った時に「生成AI元年」と称されるかもしれない。とりわけ言語系の生成AIについてはそう言えそうだ。2022年にOpenAI社がChatGPTをリリースした後、生成AIは大きなインパクトを持つ技術として急速に普及が進んだ。日本では国産の日本語LLM(Large Language Models)への注目が高まっている。研究機関や大学及び多数の日本企業が日本語LLMの発表を行ったり、開発を進める方針を公開している。企業では、スタートアップから大手企業まで多彩な顔ぶれとなっている。
政府は国内での生成AI開発を促進する方針である。経済産業省は、計算基盤を構築する国内企業を支援する方針を定め、現在までにさくらインターネット、ソフトバンクへの補助金支給が発表された。経団連(日本経済団体連合会)も、2023年6月に発表した「AI活用によるSociety 5.0 for SDGsの実現に向けて」で、「最先端のAIを独自に開発する能力を具備することは不可欠である」と提言している(※1)。
日本語LLMの意義
日本語LLMはまずなんといっても、日本語での精度の高さが期待される。しかし、日本語LLMの意義は「日本語である」ことだけにはとどまらない。そのほかの要点として、安全保障上の重要性、技術育成とイノベーションの促進、カスタマイズによる企業変革への貢献が考えられる。
(1)日本語での精度の高さ
LLMは、巨大なデータを用いAI技術によって学習を行った言語モデルである。ChatGPT、Bard(開発元:米国Google)、Llama 2(開発元:米国Meta)、StableLM(開発元:英国 Stability AI)など欧米企業が開発するLLMの学習データは英語が主体となっている。結果として、生成AIの性能には、利用言語が英語である場合と日本語である場合に差が出ることが指摘されている。開発が進んでいる日本語LLMは、日本語のデータを中心に学習させているため、日本語での精度が高まると見込まれる。文化的な背景や細かなニュアンスなども含めて日本語を操る高品質な生成AIができれば、産業や社会に大きく貢献するだろう。
(2)安全保障上の重要性
日本のデジタル技術活用においては、メガクラウドを始めとして既に外資大手企業への依存度が高い。政府が進める計算資源の国内育成及び国産LLMの利用拡大は、海外への依存度を下げ国富の流出を防ぐという意味で経済安全保障上の重要性を持つ。東京工業大学 学術国際情報センターの横田理央教授は「海外の一部の巨大企業に依存する形になれば、経済安全保障、教育、文化の観点からも大きな不利益となる」と指摘する。
さらに、経済の枠を超えた安全保障の意味を持つことも指摘できる。生成AIがフェイクニュース作成、サイバー攻撃、犯罪情報収集などに悪用されることが懸念されるためである。情報通信研究機構(NICT)の鳥澤健太郎フェローも「生成AIを使ってマルウェアを生成したり、偽情報を蔓延させたりすることは起こりえる。現行の大手ベンダーのサービスは悪質なプロンプトに対応しないようコントロールされているが、すでにガードレールのない怪しい生成AIが出現しているのが実情だ。日本に対して友好的ではない考えを持って技術が悪用された場合などにどう対応すべきかを考えると、国内でLLMを開発し技術を持つことの重要性は高い」という。
(3)技術育成とイノベーションの促進
生成AIはインターネットやスマートフォンの発明と同等に社会や経済を変革させるといわれる。そのような技術に関して、自国で高レベルの技術を保持すること、急速に進む技術の進化を成長や課題解決に役立てる好機として捉える能力を持つことが重要である。特に勃興期である2023年時点においては、この潮流にキャッチアップしていくことは必須であろう。
生成AIは言語(テキスト)に限らず、画像、プログラミングコードなど様々なデータの生成が可能で、マルチモーダル化(様々な種類のデータを扱えるようになること)が進むことが予想される。東京工業大学の横田教授は「今年は言語モデルが流行っているが、これからはマルチモーダルな学習が盛んになるだろう。この分野の進展の早さを考えると、現在競っている日本語LLMの技術は、数年後には陳腐化することが予想される。真の成果物は日本語LLM自体ではなく、この先爆発的に進化するディープラーニングの基盤技術をどこまで高められるかである」と厳しい目を向ける。「日本語」という点のみに囚われると本質を見失うことになりそうだ。
(4)カスタマイズによる企業変革への貢献
日本語LLMの主要なプレイヤーによれば、ユーザ企業からは企業個別にカスタマイズしたいという引き合いが非常に多いという。既存のLLMをそのまま利用するだけではなく、企業固有のデータを投入する複雑性の高い活用方法が求められている。
具体的には、ベンダーが開発した日本語LLMに対して、追加学習やファインチューニングといった技術を用いて、企業内のデータを学習させることが考えられる。業務の自動化・最適化、インサイトの抽出、顧客サポートの強化、パーソナライズしたサービス提供など、幅広い活用領域が想定できる。最も独自性が高いケースでは、自社オリジナルのLLMを作り上げることも可能となる。構築や運用が高額になるだろうが、ベンダーからは「企業や組織のありようが反映され、業務を代替できる生成AIによって、劇的なコスト削減や生産性の向上が実現できるとすれば、たとえ億単位の金額であっても高いとは言えないはずだ」という自信を持った見解も聞かれた。
各社の業務領域の専門知識を学習させるという方向性もあり、医療、金融、法務など各業界・業務の専門性が高いLLMも今後登場してくるだろう。企業個別のニーズに対応したLLMの活用は、企業の業務形態やビジネスを大きく変える可能性を秘めている。
今後の日本の生成AIの方向性
日本の生成AIの方向性は、国家的な戦略分野として投資を推進し、国内での技術力強化を重点的に進め、リスクに対応する能力や体制を具備するという施策を不可分の取り組みとして推し進めることと考える。
生成AIが社会にパラダイムシフトをもたらす汎用的な技術ならば、国家的な戦略分野と位置付けられるべきであろう。政府は計算資源とデータへの支援を表明しているが、民間の産業育成、大学や研究機関での人材育成などを含めた多方面への投資が期待される。
技術の面では、日本は海外に後れを取っているとはいえ、生成AIの開発を行う上での強みもある。国内のAI研究開発の歴史は長く、技術的な基盤もある。学習データの面では、著作権法で、情報解析のためであれば、基本的に著作物を自由に利用することができると定められており(※2)、AIの開発を活性化させるという見方ができる。
もちろん、生成 AI の開発や利用を促進するためには、リスクには適切な対応を行う必要がある。生成AIの技術力や応用力を高めることで、生成AIを使ったサイバー攻撃やフェイクニュース拡散などの事態が起きた際に、官民の協力によって適切に対応し管理するといった場面も想定できる。リスクへの備えという「守り」と投資などの「攻め」は相反するものではなく、統合的に進めていくべき方向性といえるだろう。
(全文はPDFダウンロードでご覧ください)