生成AI、音声・画像・文字で学習
 Googleが新基盤提供

<<Return to Trends List

Source: Nikkei Online, 2023年12月7日 0:00

新たな基盤技術「ジェミニ」の開発構想を説明する米グーグルの
スンダー・ピチャイCEO(5月、米カリフォルニア州)=配信画面

【シリコンバレー=奥平和行】米グーグルが生成AI(人工知能)を活用したサービスの基盤となる技術を刷新し、6日に提供を始める。膨大な量の文章に加えて画像や音声を読み込ませて開発し、複雑な処理を可能にする。文章を主体とするChat(チャット)GPTのサービス開始から1年を迎え、「複合型」が新たな競争軸として浮上してきた。

「私たちは人間が世界を理解し交流する過程を基にした次世代のAIを作ろうとしてきた。今回、その理想に一歩近づくことができた」。グーグルのAI開発部門で副社長を務めるイーライ・コリンズ氏は6日までに取材に応じ、新たな技術についてこう説明した。

米オープンAIのチャットGPTやグーグルのBard(バード)といった生成AIを活用したサービスは大規模言語モデルなどと呼ぶ技術を基盤にしている。グーグルは従来、文章で学習させたPaLM2を基盤技術として利用していたが、6日から画像や動画、音声なども活用して開発したGemini(ジェミニ)に順次切り替える。


ジェミニを活用することで、図表やグラフを含む数学の問題を解き、子供の回答が誤っていたら間違いを指摘して正しい解き方を教える「家庭教師」のような使い方が可能になるという。絵を描いている様子を撮影すると、音声で「実況中継」できるようにする構想なども示した。

ジェミニは高い処理能力を売り物にした上位版に加え、幅広い用途に使える普及版、スマートフォンに搭載した半導体で扱える軽量版を用意する。まずバードに普及版を組み込み、6日から米国や日本などの170カ国・地域で使えるようにする。当初は英語のみの対応だが、ほかの言語でも使えるようにしていく。

13日には同社のクラウドコンピューティングサービスを通じた普及版の外部提供を始め、企業が自社のサービスに組み込めるようにする。軽量版はグーグルのスマートフォンの最上位機種で活用し、録音アプリの要約機能などを高める。一方、上位版はバードへの組み込み、外部提供がともに2024年からとなる。


グーグルは4月、グループ内のAI研究部門を統合し、ジェミニの開発を急いできた。背景にあるのはオープンAIや、同社と資本・業務提携する米マイクロソフトなどとの競争激化だ。グーグルは長年にわたりAIの研究に取り組んできたが、生成AIの実用化ではオープンAI・マイクロソフト連合が先行した。

ジェミニについてグーグルのスンダー・ピチャイ最高経営責任者(CEO)は「業界で普及している32個の性能評価指標のうち30で既存の最高水準の結果を上回っている」と主張した。同社は6日、ジェミニとオープンAIの最新基盤技術の詳細な比較表も公表し、対抗心をあらわにした。

ただ、マルチモーダルと呼ぶ複合型で追い上げるグーグルがオープンAI・マイクロソフト連合との差をどこまで縮められるかには不透明な面もある。オープンAIのサム・アルトマンCEOは9月、画像や音声などへの対応を強化する方向性を示した。米アマゾン・ウェブ・サービスなども画像などへの対応強化を課題に挙げる。

精巧な画像や音声の生成が容易になり、犯罪に悪用されるリスクが高まるのも懸念材料だ。生成AIの関連市場は30年に23年比5倍の2000億ドル(約29兆円)になるとの見通しがある。技術の進化は市場拡大の追い風となる一方、社会の失望を招けば規制強化などによるイノベーション(技術革新)の減速が現実のものとなりかねない。


<<Return to PageTop