東京エレクトロンデバイス株式会社

Microsoft Azureコラム

2026/01/26

Writer: 手戸 蒼唯(てど あおい)

【Azure】GPT-4o Realtime APIとは?リアルタイム音声対話を実現する機能を徹底解説

音声アシスタントやリアルタイム翻訳など、即時性が求められるアプリケーション開発において、AIの応答速度は重要な要素です。Azure OpenAI Serviceが提供する「GPT-4o Realtime API」は、こうしたニーズに応えるため、低遅延での音声入出力を可能にするAPIです。 このAPIは、ユーザーとAIモデル間の自然でスムーズな音声対話を目的に設計されており、より人間らしいインタラクションを実現します。


本記事では、このGPT-4o Realtime APIの概要から、サポートされるモデル、WebRTCやWebSocketを用いた具体的な利用方法、セッション構成のポイント、そして活用シナリオに至るまで、技術的な詳細を解説します。

GPT-4o Realtime APIとは?

GPT-4o Realtime APIとは、Azure OpenAI Service上で利用できる、低遅延の「音声入力、音声出力」対話を実現するためのAPIです。

このAPIは、ユーザーとAIモデル間の自然な音声対話を目的に設計されています。そのため、音声アシスタントやリアルタイム翻訳といった、即時性が求められるアプリケーションでの利用に特に適しています。


Realtime APIの特徴を理解するために、まずはその基盤となるGPT-4oについて見てみましょう。


GPT-4o Realtime APIの基盤モデルGPT-4oの概要

GPT-4oとは、OpenAIによって開発されたマルチモーダルなLLM(大規模言語モデル)です。

単一のモデルで、テキスト、音声、画像、ビデオといった複数のモーダリティ(情報の種類)を横断して、統合的に処理する能力を備えています。


従来のマルチモーダルLLMでは、以下の3つの異なるモデルが連携するパイプライン方式が採用されていました。


  • 入力されたモーダリティをテキストに変換するモデル
  • テキストを解釈して応答を生成するLLM
  • 生成されたテキストを指定した形式に変換するモデル


一方GPT-4oでは、異なるモーダリティ間であっても、入力から出力までを単一のニューラルネットワークで完結させています。


GPT-4oの詳細は、こちらの記事をご覧ください。

OpenAI GPT-4oとは?マルチモーダル対応の最新AIを徹底解説


GPT-4o Realtime APIにおける音声入力処理の流れ

GPT-4o Realtime APIでは、ユーザーが話した音声をリアルタイムで送信し、AIがそれに応答するまでの一連の処理を、専用のWebSocket接続を通じて継続的に行います。

以下は、音声入力からAIの応答生成までの基本的な流れを示した図です。


2_音声応答のイメージ画像.webp

音声応答のイメージ画像 (参考:Microsoft)


この図に示されているように、クライアント側は音声をチャンク(小さな断片)ごとに送信し、話し終わったタイミングでサーバーにコミット信号を送ります。サーバーはそれを受けて音声処理を行い、AI応答を生成します。


具体的には、以下のような処理を行っています。


  1. まずクライアント側でユーザーの音声を小さな断片に分割し、`input_audio_buffer.append`(=音声チャンクの送信)として順次サーバーへ送ります。
  2. ユーザーが話し終えると、`input_audio_buffer.commit`(=音声の送信完了をサーバーに通知)を通じて、音声の区切りが確定されます。
  3. サーバーはこれを受けて `input_audio_buffer.committed`(=受信と処理の完了通知)を返し、その後、`conversation.item.created`(=AIによる応答生成の完了)という形で結果をクライアントに返します。


この仕組みにより、ユーザーは話すたびにリアルタイムで応答を得ることができ、まるで人と会話しているような対話体験が実現されます。

また、上記のような図の処理だけでなく、以下のような柔軟な操作も可能です。


  • 送信済みの発話を一部だけ残す(`truncate`)
  • 送信済みの発話を削除する(`delete`)
  • 話し始め・話し終わりを自動検出する(`speech_started` / `speech_stopped`)


これにより、ユーザーが「今のは取り消したい」「途中まででいい」など、実際の会話に近い柔軟なやり取りが可能になります。


GPT-4o Realtime APIの主な特徴

GPT-4o Realtime APIは、基盤となるGPT-4oの能力を引き出し、リアルタイム対話アプリケーションを構築するための機能を提供しています。主な特徴は以下の3点です。


1. 低遅延でのリアルタイム対話

GPT-4o Realtime APIの最大の特徴は、人間同士の会話に匹敵する応答速度です。最短で232ミリ秒という応答時間を実現しており、AIとの自然な対話が可能です。

前述したように、GPT-4oが単一のアーキテクチャを採用したことで、音声認識、思考、音声合成の各処理に要する遅延の低減を可能にしています。


2. 独自のストリーミングアーキテクチャ

GPT-4o Realtime APIは、WebSocketやWebRTCといった技術を用いて、クライアントとサーバー間で持続的な接続を確立しています。一回ごとにリクエストを送受信する従来のAPIとは異なり、音声データやプロンプトを、双方向にリアルタイムでストリーミングできます。


具体的な処理の流れは以下の通りです。

1. クライアントは、マイクから入力された音声を小さな塊(チャンク)にして継続的にサーバーへ送信します。

2. サーバー側は、応答のテキストや音声を断片(デルタ)として順次生成します。

3. サーバー側は、応答を出力すべきタイミングで、生成した応答を出力します。


この仕組みにより、AIはユーザーの発話の途中からでも応答生成を開始できるため、遅延がさらに小さくなります。

また、ユーザーがAIの発話を遮って話し始める「割り込み処理」にも対応できるため、より自然な対話フローが実現可能です。


3. 非言語的コミュニケーション

GPT-4o Realtime APIは「音声入力、音声出力」の対話形式に最適化されています(テキストによる入出力も可能です)。

音声データをテキスト化せずに直接処理できるため、従来のマルチモーダルLLMでは失われていた、声のトーンや感情といった豊かなニュアンスを理解できます。


GPT-4o Realtime APIの料金

以下は、GPT-4o Realtime APIをAzure OpenAI Serviceから利用する際の料金です。


項目

テキスト入力

テキスト出力

キャッシュされた入力

オーディオ入力

オーディオ出力

GPT-4o-Realtime(Global)

$5

$20

$2.50

$40

$80

GPT-4o-Mini-Realtime(Global)

$0.60

$2.40

$0.30

$10

$20

※2025年7月時点、Globalデプロイメントの価格です。RegionalおよびData Zonesデプロイメントでは料金が異なりますので、価格の詳細や最新情報はこちらからご確認ください。


GPT-4o Realtime APIの利用手順

Azure OpenAI Service上でGPT-4o Realtime APIを利用するための手順をステップ別に説明します。


1. Azure OpenAIリソースの作成

まず、Azureポータルにアクセスします。必要な情報を入力してAzure OpenAI Serviceのリソースを作成しましょう。

3_リソースの作成.webp

リソースの作成


2. Azure OpenAI Serviceにアクセス

リソースの作成が完了したら、リソースの管理ウィンドウに移動し、「Explore Azure AI Foundry portal」をクリックしてAzure OpenAI Serviceにアクセスします。

4_Azure OpenAI Serviceにアクセス.webp

Azure OpenAI Serviceにアクセス


3. GPT-4o Realtime APIにアクセス

Azure OpenAI Serviceのサイドバーから「モデルカタログ」を選択し、「GPT-4o Realtime API」を検索します。

5_GPT-4o Realtime APIにアクセス.webp

GPT-4o Realtime APIにアクセス


4. モデルのデプロイ

モデルの詳細情報ページから「このモデルを使用する」をクリックすることで、モデルのデプロイが可能です。デプロイ後に発行されるAPIキーとエンドポイントを確認しましょう。

6_モデルのデプロイ.webp

モデルのデプロイ


上記のステップで、アプリケーションからGPT-4o Realtime APIを呼び出して利用することが可能になります。


GPT-4o Realtime APIの活用デモ

このセクションでは、GPT-4o Realtime APIを活用した音声対話のデモを行います。

利用手順のステップに沿って、モデルのデプロイを行います。


Azure OpenAI Serviceのサイドバーから「オーディオプレイグラウンド」を選択します。

これは、GUI上でAIモデルの動作を確認できる機能です。プログラム上でマイク・スピーカーの接続や、音声データの処理を行う必要がないため、迅速にデモを行うことが可能です。

7_GPT-4o Realtime APIの活用デモ.webp

GPT-4o Realtime APIの活用デモ


各種パラメータを設定したうえで実際に音声を入力すると、AIとのリアルタイム音声対話が可能でした。遅延はほとんど感じられず、人間同士の会話と変わらない自然なやりとりができます。


GPT-4o Realtime APIの使い方のコツ

ここでは、GPT-4o Realtime APIを効率的に利用するためのポイントをいくつかご紹介します。


プロンプトエンジニアリング

AIの基本的な振る舞いを定義するシステムプロンプトの設計は、対話の質を大きく左右します。以下は、主なプロンプトエンジニアリングの例です。


  • 人格(ペルソナ)の設定:AIにどのような役割を担わせるかを明確に指示することで適切な応答を期待できます。たとえば、カスタマーサポートであれば「共感的に振る舞うアシスタント」、リアルタイム翻訳者であれば「簡潔かつ正確に翻訳する通訳者」といった具体的な人格を設定します。


  • 音声表現の指示:システムプロンプト内で音声の表現方法や話し方について具体的に指示することで、より表現力豊かな応答を生成させることが可能です。


パラメーターの調整

APIのパラメーターを調整することで、パフォーマンスを最適化することができます。調整可能なパラメーターは以下の通りです。


  • しきい値:音声として検出する音量のしきい値
  • プレフィックス パディング (ミリ秒) :音声が認識される前にストリームに含めるオーディオの継続時間
  • 無音期間 (ミリ秒):会話が終了したと判断するまでの無音時間
  • 最大応答 :モデルの応答のトークン制限
  • 温度:モデルの応答がプロンプトにどの程度忠実に従うか


音声対話においては、特にしきい値と無音期間の調整が重要です。以下の表は、しきい値と無音期間を調整した場合の影響を示しています。

パラメータ

値を大きくした場合の影響

値を小さくした場合の影響

しきい値

利点: ノイズに強くなる

欠点: 小さな声を聞き逃す可能性がある

利点: 小さな声も検知する

欠点: ノイズを誤検知する可能性がある

無音期間

利点: 話者の自然な間を許容する

欠点: 応答が遅れる可能性がある

利点: 応答は早くなる

欠点: 短い間でも発話が途切れたと判断される可能性がある


GPT-4o Realtime APIの活用シーン

GPT-4o Realtime APIの自然な対話能力は、これまでのAIでは実用が難しかったシーンへの活用が期待できます。以下では、具体的な活用シーンの例をご紹介します。


コンタクトセンター

顧客からの問い合わせに対応するコンタクトセンターは、GPT-4o Realtime APIの利用に適した活用シーンの一つです。

遅延や合成音声の違和感などから、AIによる代替の難しい事例でしたが、GPT-4o Realtime APIの低遅延性と割り込み対応により、顧客は人間と話しているような自然な対話ができます。  

また、 顧客の声のトーンから怒りや不満を認識し、それに応じた共感的な対応や、人間のオペレーターへのスムーズな引き継ぎが可能です。


リアルタイム翻訳

GPT-4o Realtime APIの低遅延性を活かした事例として、リアルタイム翻訳が挙げられます。

国際的なオンライン会議で、各参加者が自国語で話すと、他の参加者にはほぼ同時にそれぞれの言語に翻訳された音声が聞こえる、といった活用が可能になります。


GPT-4o Realtime APIは英語以外の言語でも高性能で、低遅延であるため、実用的なリアルタイム通訳として機能することが期待されています。


GPT-4o Realtime APIの注意点

GPT-4o Realtime APIは有用ですが、導入にあたっていくつかの注意点を理解しておく必要があります。以下は主な注意点です。


現在はプレビュー版として提供

GPT-4o Realtime APIは、現在パブリックプレビュー段階にあります。本番環境での利用は慎重に検討しましょう。  

APIの機能、APIのパラメータ、料金体系などが、今後変更される可能性があります。継続的に公式ドキュメントの更新情報を確認することが重要です。


データプライバシーとセキュリティ

GPT-4o Realtime API提供元のAzure OpenAI Serviceは、データの保護に関してプライバシーポリシーを掲げています。以下は、Azure OpenAI Serviceのデータ取り扱いポリシーの一部です。

  • データの非利用:ユーザーが送信したプロンプトや応答などのデータが、モデル改善のために利用されたり、他のユーザーに漏洩しません。  
  • 悪用監視:ユーザーデータへのアクセスは、規約違反の疑いがある場合に限定され、厳格なプライバシー保護措置のもとで実行されます。


これらのポリシーは、企業が安心して機密情報を扱うための基盤となりますが、自社のセキュリティ要件と照らし合わせ、内容を十分に理解しておきましょう。

また、サービスのセキュリティに慢心せず、ユーザー側も機密事項を入力しないように注意しましょう。


まとめ

本記事では、GPT-4o Realtime APIの概要、特徴、料金体系、利用手順、活用シーン、注意点などについて詳しく解説しました。GPT-4o Realtime APIは、Azure OpenAI Service上で利用可能なリアルタイム音声対話APIであり、即時性が求められるアプリケーションに最適です。


このAPIは、低遅延性、独自のストリーミングアーキテクチャ、非言語的コミュニケーションへの対応といった特徴を持ち、コンタクトセンターやリアルタイム翻訳などの分野での活用が期待されています。一方で、現在はプレビュー版であるため、本番環境での利用には注意が必要です。ぜひ本記事を参考に、ぜひGPT-4o Realtime APIの導入をご検討ください。


東京エレクトロンデバイスは、Azure OpenAI ServiceをはじめとするAzure AIソリューションの企業導入をサポートしています。

無料相談も受け付けておりますので、お気軽にご相談ください。

▶︎お問い合わせはこちら

CONTACT
お問い合わせ

Microsoft AzureおよびAI・IoTに関する
お問い合わせはこちらから

東京エレクトロンデバイス株式会社

Copyright © Tokyo Electron Device LTD. All Rights Reserved.
当ウェブサイトでは、サイトの利便性向上のためにクッキーを利用しています。サイトの閲覧を続行されるには、クッキーの使用にご同意いただきますようお願いします。詳細はこちら