ChatGPTを2倍高速に 
米OpenAI、ヒトの反応速度で会話

<<Return to Trends List

Source: Nikkei Online, 2024年5月14日 5:18更新

新AI「GPT-4o」を発表するオープンAIのミラ・ムラティCTO=オープンAI提供

【シリコンバレー=渡辺直樹】対話型AI(人工知能)「Chat(チャット)GPT」を手がける米新興企業のオープンAIは13日、新型AI「GPT-4o(フォーオー)」を開発したと発表した。従来に比べて処理スピードを2倍に高速化した一方、運用コストを半減した。声で話しかけると、ヒトと同じ反応速度で会話ができる。

弱点だった反応の遅延を克服し、AIの活用がさらに広がりそうだ。生成AIはオープンAI以外の各社も改良を重ねており、技術競争が激しくなっている。

開発した「GPT-4o」はチャットGPTを動かす基盤となる技術で、刷新は 2023年11月に発表した現行の「GPT-4ターボ」以来となる。「o」は「すべての」を意味する「omni」の頭文字から取った。

新しい AIは日本語を含む 50の言語に対応し、文字、画像、音声をすべて認識する。リアルタイム翻訳のほか、スマートフォンのカメラを使って人の顔の表情を読み取ったり、グラフを読み取ったりすることもできる。


AIの音声への反応速度は速い場合は232ミリ秒(1ミリ秒は1000分の1秒)、平均で320ミリ秒と、ヒトが実際に会話する時と同じレベルを実現したという。ヒトの感情を読み取り、ジョークも通じる。より自然な会話が可能になったとしている。

同日開いたウェブ発表会のデモでは、開発者がチャットGPTに音声で、子供を寝かしつける場面を想定し、それにふさわしい物語の読み聞かせを依頼した。声のトーンを劇画調とし、歌いながら読ませるといった操作を披露した。

ミラ・ムラティ最高技術責任者(CTO)は発表会で「これまで(AI)モデルの知能を高めることに注力してきたが、使いやすさで大きな前進を遂げた」と強調した。

新技術の搭載後もチャットGPTの基本料金は変わらない。テキストや画像向けの一部機能のみ無料で使える。音声を使用した機能は月20ドルの有料課金利用者や法人向けには先行して、数週間以内に使えるようにする。データ運用の負荷を避けるため、利用回数にはプランに応じて制限がある。

生成AIは米グーグルの「Gemini(ジェミニ)1.5Pro」、米スタートアップのアンソロピックが開発した「Claude(クロード)3」、米メタの「Llama(ラマ)3」などでも新技術の投入が相次いでいる。

発表会でチャットGPTと声でやりとりするデモを披露する開発者=オープンAI提供

オープンAIは高精細の動画をつくる生成AI「Sora(ソラ)」も開発している。AIが処理できる情報量や種類を増やしており、処理速度を速めてさらに使い勝手をよくすることで、1億人以上が利用するチャットGPTのサービスでさらに地歩を固める。

チャットGPTは「アプリケーション・プログラミング・インターフェース(API)」と呼ばれる仕組みに対応している。異なるシステム間でデータをやり取りできるため、外部企業もオープンAIの新しい音声会話の仕組みを自社ソフトに取り入れ、新しいサービスを開発することにつなげることができる。


<<Return to PageTop