GPT-OSSとは？セキュリティ重視のAI活用を実現するセルフホスト型LLMを解説

GPT-OSSとは？

GPT-OSSは、OpenAIが2025年8月に公開した大規模言語モデル（LLM）で、オープンウェイトとして提供されています。このモデルには、`gpt-oss-120b`（120億パラメータ）と`gpt-oss-20b`（20億パラメータ）の2つのバリエーションがあります。

オープンウェイトとは、モデルの性能を決定づけるパラメータがオープンソースとして公開されていることを意味します。これにより、開発者や企業は、自社で管理するインフラストラクチャ上でモデルを直接実行し、自由にカスタマイズすることが可能です。

オープンウェイトモデルは、データの機密性、セキュリティ、運用の継続性を重視する企業にとって、大きな価値を提供します。ライセンスには、商用利用可能なApache 2.0が採用されており、幅広い用途での活用が期待されています。

GPT-OSSの主な特徴

GPT-OSSは、単にオープンソース化されただけでなく、効率性と透明性を追求した技術的特徴を備えています。以下に、GPT-OSSの主な特徴を挙げます。

従来の推論モデルに匹敵する性能

GPT-OSSはローカル環境で実行可能なモデルでありながら、各種ベンチマークでOpenAI o3やOpenAI o4-miniといった従来の推論モデルに匹敵する性能を達成しています。

以下のグラフは、Codeforces（競技コーディング）、AIME（米国数学オリンピック予選）のベンチマークを示したものです。

GPT-OSSの性能評価.png
GPT-OSSの性能評価　（参考：OpenAI）

Codeforcesベンチマークでは、ツールを利用した場合で比較すると、gpt-oss-120bが2622、gpt-oss-20bが2516という性能を示しており、OpenAI o3の2706やOpenAI o4-miniの2719といった性能に匹敵していることが分かります。

AIMEベンチマークでは、gpt-oss-120bが97.9、gpt-oss-20bが98.7という性能を示しており、OpenAI o3-miniの86.5やOpenAI o3の98.7といった性能を凌駕していることが分かります。

Mixture-of-Experts（MoE）アーキテクチャ

GPT-OSSは、MoE（専門家混合）と呼ばれるアーキテクチャを採用しています。これは、モデル内部に多数の小さな専門家ネットワークを持ち、入力に応じて最適なサブセットのみを起動させる仕組みです。

gpt-oss-120b：総パラメータ数は1170億ですが、トークンあたりの有効パラメータ数は約51億です。
gpt-oss-20b：総パラメータ数は210億ですが、トークンあたりの有効パラメータ数は約36億です。

この設計により、同規模の稠密なモデルと比較して、計算コストとメモリ使用量を削減しつつ、高い性能を維持することが可能になります。

Chain-of-Thought（CoT）による推論の透明性

このモデルは、最終的な回答を導き出すまでの思考プロセスを段階的に出力（Chain-of-Thought）するように設計されています。

開発者はこの思考プロセスにアクセスできるため、モデルがどのように結論に至ったかを確認できます。この透明性は、デバッグの容易化、モデルへの信頼性向上、そして金融や医療といった規制の厳しい業界でのコンプライアンス要件を満たす上で特に重要です。

高度なツール利用（エージェント能力）

Webブラウザでの検索やPythonコードの実行といった外部ツールを利用する能力を備えています。この機能は、複雑なマルチステップのタスクを自律的に実行するAIエージェントを構築するための基盤となります。

高効率な量子化（MXFP4）

モデルの重みはMXFP4という4ビット形式に量子化されて提供されます。これによりメモリフットプリントが削減され、gpt-oss-120bは80GBのVRAMを搭載したGPUで、gpt-oss-20bは16GBのRAMを搭載した一般的なPCでも動作します。

GPT-OSSの料金

Azure AI Foundryでは、gpt-ossモデルをクラウド上で利用することが可能です。特にgpt-oss-120bは一般的なローカル環境での利用が困難なモデルですが、Azure上では高性能なGPUを自前で用意する必要がなく、サーバーレスで手軽に利用できます。

料金は以下の通りです。

モデル	デプロイメントタイプ	入力(100万トークンあたり)	出力(100万トークンあたり)
gpt-oss-120b	サーバーレス	$0.15	$0.6
gpt-oss-20b	Managed Compute	*Azure Machine Learning VMタイプに基づく料金	*Azure Machine Learning VMタイプに基づく料金

（2025年10月時点）注: gpt-oss-20bの料金は、トークン使用量ではなくAzure Machine Learning VMタイプに基づいて計算されます。

最新情報は、Azure AI Foundryのモデルページをご確認ください。

GPT-OSSの利用手順

それでは、実際にGPT-OSSを利用する手順をご説明します。

GPT-OSSは、Foundry LocalやHugging Faceといったサービスから、手軽にインストールして利用可能です。

上述の通り、gpt-oss-120bはAzure AI Foundryから利用することもできます。ここではFoundry LocalとAzure AI Foundryを利用する2通りの手順をご紹介します。

Foundry Local経由での利用手順

Foundry Localは、Microsoftがプレビュー提供している、AIモデルのセルフホスティングを支援するサービスです。CUIを利用してローカル環境へAIモデルを導入することができます。

まずは、Foundry LocalからGPT-OSSを利用する手順をご説明します。

1. Foundry Localのインストール

ターミナルを開き、以下のコマンドを実行します。

Windows：winget install Microsoft.FoundryLocal
macOS：bash brew tap microsoft/foundrylocal brew install foundrylocal

Foundry Local のインストール.png

Foundry Local のインストール

2. モデルのインストール

Foundry Localのインストール完了後、以下のコマンドを実行します。

gpt-oss-20b：foundry model run gpt-oss-20b
gpt-oss-120b：foundry model run gpt-oss-120b

インストールが完了すると、モデルの利用が可能です。プロンプトを入力すると、ターミナルにモデルからの応答が表示されます。

Azure AI Foundry経由での利用手順

Azure AI Foundryは、Microsoftが提供するAIモデルのホスティングおよび管理プラットフォームで、AIモデルを簡単にデプロイして利用できる環境を提供します。ここではAzure AI FoundryからGPT-OSSを利用する手順をご説明します。

※2025年10月現在、Azure AI Foundry経由ではgpt-oss-120bのみ利用可能です。gpt-oss-20bは利用できないためご注意ください。

1. Azure AI Foundryのモデルカタログにアクセス

Azure AI Foundryのモデルカタログにアクセスし、「GPT-OSS」と検索し、gpt-oss-120bを選択します。

Azure AI Foundryのモデルカタログにアクセス.png

Azure AI Foundryのモデルカタログにアクセス

2. Azure AI Foundryリソースの作成

モデルの選択後、「このモデルを使用する」をクリックすることで、リソースの作成画面が表示されます。サブスクリプションやリソースグループを選択して、Azure AI Foundryリソースを作成しましょう。

Azure AI Foundryリソースの作成.png

Azure AI Foundryリソースの作成

3. モデルのデプロイ

リソースの作成が完了すると、モデルのデプロイ画面が表示されます。デプロイの種類を選択してデプロイしましょう。

モデルのデプロイ.png

モデルのデプロイ

デプロイが完了すると、APIキーとエンドポイントが発行されます。デプロイ画面では、APIを呼び出してモデルを利用するためのサンプルコードも参照できます。

GPT-OSSの活用デモ

ここでは、GPT-OSSを実際にローカル環境へ導入し、オフラインでPythonコードを提案させるデモを行います。

まずは上記の利用手順に沿って、Foundry Localを利用してGPT-OSSをインストールします。

続いてオフライン環境に切り替え、GPT-OSSのインタラクティブチャットに以下のようなプロンプトを送信しました。

六角形の内部でボールが跳ねる物理シミュレーションのPythonコードを生成してください

プロンプトの入力プロンプトの入力.png

プロンプトの入力

推論後に、以下のような応答が返されました。

GPT-OSSの応答.png

GPT-OSSの応答

上記のように、GPT-OSSを活用することで、オフライン環境でも、AIによるコーディング支援を行うことができました。

GPT-OSSの使い方のコツ

GPT-OSSの性能を引き出すためには、その特性を理解し、タスクに応じて戦略的に使い分けることが重要です。このセクションでは、効果的な利用のためのいくつかのコツをご紹介します。

タスクに応じたモデル選択

GPT-OSSには2つのサイズのモデルがあり、それぞれに適した用途があります。

gpt-oss-120b：複雑なコード生成、科学技術計算、深い分析を要する専門的な質疑応答など、品質が最優先される本番環境での利用に適しています。
gpt-oss-20b：効率性、低遅延、およびコンシューマ向けハードウェアでの実行が求められる場合に適しています。

推論レベルの活用

low、medium、highの3段階で設定できる推論レベルは、モデルの性能を最適化するために重要なパラメータです。

low：応答速度が優先される単純な対話や定型的なタスクに使用します。
medium：ほとんどの一般的なタスクにおいて、速度と精度のバランスが取れたデフォルト設定です。
high：深い思考と複数ステップの分析が必要な複雑な問題解決のために使用します。応答時間は長くなりますが、推論の質と精度が向上します。

ファインチューニングによる強化

GPT-OSSはそのままでも強力ですが、独自のデータセットでファインチューニング（追加学習）を行うことで、特定のドメインに特化したモデルへと強化させることができます。

例えば、企業の内部文書や特定の業界用語を学習させることで、より文脈に即した正確な応答を生成し、ハルシネーション（事実に基づかない情報の生成）を抑制する効果が期待できます。

これらのコツは、開発者に対して「一つの万能モデルにすべてを任せる」というアプローチから、「タスクの特性に合わせて最適なツールと設定を選ぶ」という、より柔軟なアプローチを促します。

GPT-OSSの活用シーン

GPT-OSSは、オープンソースで自己管理可能という特性によって、APIベースのAIでは満たせなかったニーズに応えることが可能です。以下に、GPT-OSSの導入が特に有効と考えられる具体的な活用シーンをご紹介します。

高度なセキュリティ・コンプライアンス規制のある組織に向けたAIアシスタント

金融、法務、医療といった業界では、顧客情報、財務データ、独自のソースコードなどの機密情報を外部のサーバーに送信することは、規制や社内ポリシーによって厳しく制限されている場合が少なくありません。

GPT-OSSをオンプレミス環境で実行することで、これらのデータが組織のネットワークから一切出ることなく、安全に活用できるAIアシスタントを構築できます。

オフラインコンピューティング

gpt-oss-20bの効率性は、インターネット接続が利用できないオフライン環境でのAI活用を可能にします。

例えば、自動車の車載システム、工場の生産ラインに設置されたセンサー、遠隔地の教育用デバイスなどに搭載することで、クラウドに依存しないリアルタイムのAI処理が実現できます。

機密性の高いコンテンツ生成

未発表の製品情報を含む技術文書の草稿作成、内部向けの長文レポートの要約、機密情報に基づいたマーケティングコピーの生成など、情報漏洩のリスクを完全に排除したいコンテンツ制作業務にもGPT-OSSは適しています。

インターネットを介さずにすべての処理がローカルで完結するため、安心してAIを利用できます。

上記のように、豊富な計算リソースを活用できるAPIベースのAIとは異なり、ローカル環境で利用可能というオープンウェイトモデルならではのメリットを活かしたユースケースが挙げられます。

GPT-OSS利用時の注意点

GPT-OSSは有用なAIモデルですが、潜在的なデメリットを理解し、十分な準備のもとで導入を判断することが重要です。このセクションでは、主な注意点を解説します。

高度なハードウェア要件

高性能なgpt-oss-120bモデルは、80GB以上のVRAMを持つエンタープライズ級のGPUを要求します。初期のハードウェア投資は、導入における大きなハードルとなり得ます。

gpt-oss-20bは、比較的アクセスしやすいものの、それでも一定水準以上の性能を持つPCが必要です。

運用管理の負担

セルフホスティングは、一度設定すれば終わりではありません。インフラの構築、モデルのデプロイ、パフォーマンスの監視、セキュリティの維持など、専門知識を持つ人材による継続的な運用管理が必要です。

クラウドに依存しないモデルだからこそ、運用管理は自己責任で行う必要があります。

安全性と不正利用に対する責任

APIサービスを利用する場合、モデルの安全性確保や不正利用の監視はプロバイダ側の責任です。しかしセルフホスティングでは、その責任はモデルを導入した組織が負うことになります。

OpenAIのサービス規約を遵守し、有害なコンテンツの生成を防ぐための安全対策を適切に運用する体制が求められます。

利点も多いオープンウェイトモデルですが、管理負担を考慮した上で導入を検討する必要があります。

まとめ

本記事では、GPT-OSSの基本的な概要から技術的な特徴、具体的な利用手順、活用シーン、注意点までを網羅的に解説しました。

GPT-OSSは、OpenAIが提供するオープンウェイトの大規模言語モデルであり、自己管理が可能な点や高い効率性と透明性が特徴です。

GPT-OSSは、セキュリティやコンプライアンスが重要視される環境や、オフラインでの利用が求められるシナリオにおいて特に有用です。一方で、高度なハードウェア要件や運用管理の負担といった課題も存在します。

これらの特性を踏まえ、GPT-OSSを適切に活用することで、AIの可能性を引き出すことができるでしょう。

東京エレクトロンデバイスでは、Microsoft Azureを活用したAI導入のご支援を行っております。お気軽にご相談ください。

お問い合わせはこちら

GPT-OSSとは？セキュリティ重視のAI活用を実現するセルフホスト型LLMを解説

GPT-OSSとは？

GPT-OSSの主な特徴

従来の推論モデルに匹敵する性能

Mixture-of-Experts（MoE）アーキテクチャ

Chain-of-Thought（CoT）による推論の透明性

高度なツール利用（エージェント能力）

高効率な量子化（MXFP4）

GPT-OSSの料金

GPT-OSSの利用手順

Foundry Local経由での利用手順

Azure AI Foundry経由での利用手順

GPT-OSSの活用デモ

GPT-OSSの使い方のコツ

タスクに応じたモデル選択

推論レベルの活用

ファインチューニングによる強化

GPT-OSSの活用シーン

高度なセキュリティ・コンプライアンス規制のある組織に向けたAIアシスタント

オフラインコンピューティング

機密性の高いコンテンツ生成

GPT-OSS利用時の注意点

高度なハードウェア要件

運用管理の負担

安全性と不正利用に対する責任

まとめ

すべてのコラム

CONTACT
お問い合わせ

GPT-OSSとは？セキュリティ重視のAI活用を実現するセルフホスト型LLMを解説

GPT-OSSとは？

GPT-OSSの主な特徴

従来の推論モデルに匹敵する性能

Mixture-of-Experts（MoE）アーキテクチャ

Chain-of-Thought（CoT）による推論の透明性

高度なツール利用（エージェント能力）

高効率な量子化（MXFP4）

GPT-OSSの料金

GPT-OSSの利用手順

Foundry Local経由での利用手順

Azure AI Foundry経由での利用手順

GPT-OSSの活用デモ

GPT-OSSの使い方のコツ

タスクに応じたモデル選択

推論レベルの活用

ファインチューニングによる強化

GPT-OSSの活用シーン

高度なセキュリティ・コンプライアンス規制のある組織に向けたAIアシスタント

オフラインコンピューティング

機密性の高いコンテンツ生成

GPT-OSS利用時の注意点

高度なハードウェア要件

運用管理の負担

安全性と不正利用に対する責任

まとめ

すべてのコラム

CONTACTお問い合わせ

CONTACT
お問い合わせ