Phi-4 とは?
Phi-4 のイメージ(参考:Azure AI Foundary ラボ)
Phi-4は、Microsoft が開発したPhi ファミリーの最新かつコンパクトな言語モデル SLM(Small Language Model)です。 わずか 14B(140 億)パラメータのコンパクトなモデルでありながら、高度な AI 推論能力を発揮し、複雑な論理推論や数学問題の解決などで卓越した性能を示します。
Phi-4 は、従来の大型言語モデルと同等、あるいはそれ以上の精度を維持しながら、より効率的な計算資源利用を実現し、クラウドのみならずエッジ環境での利用も強く意識した設計となっています。
このため、企業向けの導入コストや運用コストの削減に寄与します。
Phi シリーズの進化
Phi-4 の性能の進化(参考:Microsoft)
Phi ファミリーは、小さくても強力な AI モデルを追求して進化してきました。
- Phi-1:Python のコード生成に特化し、小型モデルでも実用性を証明。
- Phi-2:言語理解力と安全性を向上させ、クラウドからエッジまで幅広い環境に対応。
- Phi-3:論理的推論やコーディング性能を強化し、長文処理(最大 128K トークン)を実用化。
- Phi-3.5:多言語対応を拡張し、さらに実用性を高めた進化系。
そして最新のPhi-4では、数学的な推論力や 複雑なタスクの処理能力が大幅に強化されています。
これまでの進化の集大成として、Phi-4 は高精度な推論とリアルタイム処理を両立し、幅広い業務用途に応用可能なモデルとなっています。
【関連記事】
【Microsoft】 Phi ファミリーとは?省電力・高速な小型言語モデル(SLM)を徹底解説
Phi-4 のモデルバリエーション
Phi-4 ファミリーは、多様なニーズに応えるため、性能や機能が最適化された複数のモデルバリエーションを提供しています。
これらは、クラウドでの効率的な利用はもちろん、SLM としての特性を活かしたエッジ AI としての活用も強く意識されています。
モデル名 | 特長 |
|---|---|
Phi-4 | 標準モデル。高度な自然言語処理・数理推論に強み。 |
Phi-4-mini | 超軽量モデル。約 3.8B パラメータでエッジや小規模環境向け。 |
Phi-4-multimodal | 音声、画像、テキストのマルチモーダル処理に対応。 |
それぞれのモデルは共通する技術基盤を持ちながら、目的別に最適化されており、企業のユースケースに応じて適切なモデル選定が可能です。
Phi-4
Phi-4 は、高度な自然言語処理能力と数理・論理推論性能を併せ持つ標準モデルです。
大規模言語モデルと競合できる高性能を示しつつ、リソース効率と高速性を維持しています。数学的問題、論理パズル、技術文書要約、法務分析、プログラミング支援など、複雑な業務用途において優れた推論結果を提供します。
Phi-4-mini
Phi-4-mini は、約 3.8B(38 億)パラメータという超軽量構成で構築されたモデルで、 高速応答と低リソース消費が最大の強みです。
スマートフォン、IoT デバイスなど、リソースが極めて限られたエッジ環境や、リアルタイム性が最重要視されるアプリケーションに最適です。
Phi-4-multimodal
Phi-4-multimodal は、テキストだけでなく画像や音声も統合的に処理できる能力を、比較的小さな 5.6B パラメータで実現したモデルです、
これにより、エッジデバイス上で複数の情報を組み合わせたリアルタイム処理が可能となり、次世代の対話型アプリケーションや、より高度な状況認識・分析が求められる場面での活躍が期待されます。
これらのバリエーションが存在することで、開発者はプロジェクトの要件、例えば求める推論能力のレベル、利用するデバイスの性能、扱うデータの種類(テキストのみか、マルチモーダルか)などに応じて、最適な Phi-4 モデルを選択できます。
各モデルがエッジ環境で具体的にどのような価値を発揮するかについては、後述の「ユースケース」セクションで詳しく解説します。
Phi-4 と他の言語モデルとの比較
ここでは、Phi-4 と業界をリードする大規模言語モデル(LLM)と性能を比較してみましょう。
下の図は、最新の GPT 系列モデルや Google Gemini といった主要言語モデルと、数理推論タスクにおけるパフォーマンスを比較したものです。
数学の問題における他サービスのモデルとの性能比較 (参考:Microsoft
注目すべきは、Phi-4 が小規模言語モデルでありながら、計算集約的な推論能力において他社の大規模モデルをも凌駕している点です。 この結果は、モデルサイズのみならず、アーキテクチャの最適化と学習プロセスの革新が性能向上に寄与していることを示唆しています。
また、以下のグラフは、Microsoft Azure の公式発表データに基づき、Phi-4-multimodalと Qwen2、Gemini-2.0、GPT-4o との比較を可視化したものです。 Phi-4-multimodal は、青色の棒グラフに該当します。
複数カテゴリにおける主要モデル間の比較
これらの結果からわかるように、Phi-4 モデルファミリーは、計算効率と推論能力のバランスを高度に最適化することで、従来の大規模モデルが要求していた計算リソースを大幅に削減しながら、同等以上の性能を実現しています。
特に数理推論とマルチモーダル理解の領域における優位性は、次世代 AI システムの設計方針に大きなインパクトを与えています。
Phi-4 の使い方
Phi-4 は、Azure AI Foundry を通じた統合プラットフォーム上で利用できます。 以下は、基本的な使い方の概要です。
- Azure 公式サイトにアクセスし、プロジェクトを新規作成します。Azure のアカウントをお持ちでない場合は、新規作成しましょう。
- サイドバーから、モデルカタログをクリックします。
モデルカタログ - Phi-4と検索し、用途に合わせて、Phi-4、Phi-4-mini、Phi-4-multimodal を選択します。
モデルの選択 - デプロイをクリックすることで、すぐに Phi-4 の利用が可能です。微調整を選択すると、独自のデータに基づいたカスタマイズやチューニングができます。
Phi-4 のデプロイ
基本的な使い方は以上です。ここからは実際に APhi-4 を活用していきましょう。
実際の利用例
今回は、録音を文字起こしした議事録のポイントをまとめるというユースケースで、実際に Phi-4 を活用していきます。
- 実際にデプロイを行う前にプレイグラウンドで動作の確認が可能です。サイドバーのプレイグラウンドからチャットを選択します。
チャットプレイグラウンド - モデルにPhi-4を選択し、インポートから議事録のデータを選択します。今回は、以下のようなサンプルデータを用意しました。
作成したサンプル議事録の一部 - プロンプトには、この議事録のポイントをまとめてと入力し、実行します。
プロンプトの入力 - 以下のように、文字起こししただけの議事録から、内容を抽出し、要点をまとめることができました。
作成したサンプル議事録の一部
また、モデルをデプロイをすることで、 Azure AI Foundry 上だけでなく、API を介してモデルを利用することができます。
Phi-4 の料金体系
Phi-4 ファミリーのモデル(Phi-4、Phi-4-mini、Phi-4-multimodal)は、MIT ライセンスに基づきオープンソースとして公開されており、無料でモデルの利用が可能です。
利用形態によるコストのポイントは以下の通りです。
【無料の範囲】
- モデルライセンスの利用 MIT ライセンスに基づき、モデル自体の利用、改変、再配布(商用含む)が可能です。
- モデルの入手: Hugging Face等からモデルファイルをダウンロードできます。
- Azure AI Foundry での検証: モデルカタログでのデプロイ操作、プレイグラウンドでの会話検証などは無料で行えます。
【有料の範囲】
- API 利用 Azure にデプロイした Phi-4 モデルをAPI 経由で推論実行する場合には従量課金制となります (具体的な単価は後述します)。
- セルフホスト/エッジ実行: ダウンロードしたモデルを自身で用意した環境で動かす場合、インフラ費用(サーバー、デバイス等)が発生します。
つまり、Phi-4 モデル自体は無料で入手・利用できますが、Azure のマネージド API サービス利用や、自身で用意する実行環境にはコストがかかります。
以下では、標準モデルと Finetuning(ファインチューニング)モデルの API 料金体系をご紹介します。
1. モデル利用料金
学習済みの標準モデルを API 経由で呼び出して利用する場合の、入力トークンと出力トークンに基づいた料金です。
モデル名 | コンテキスト長 | 入力 (1,000 トークンあたり) | 出力 (1,000 トークンあたり) |
|---|---|---|---|
Phi-4 | 128K | $0.000125 | $0.0005 |
Phi-4-mini | 128K | $0.000075 | $0.0003 |
Phi-4-multimodal, text and image | 128K | $0.00008 | $0.00032 |
Phi-4-multimodal, audio | 128K | $0.004 | $0.00032 |
2. ファインチューニング料金
モデルを自社データでトレーニング(微調整)する場合の料金です。 学習時、ホスティング(モデルの展開)時、およびファインチューニング済みモデル利用時にそれぞれコストが発生します。
モデル名 | コンテキスト長 | 学習 (1,000 トークンあたり) | ホスティング (1 時間あたり) | 利用時 入力 (1,000 トークンあたり) | 利用時 出力 (1,000 トークンあたり) |
|---|---|---|---|---|---|
Phi-4 | 128K | $0.003 | $0.80 | $0.000125 | $0.0005 |
Phi-4-mini | 128K | $0.003 | $0.80 | $0.000075 | $0.0003 |
※本記事の掲載の情報は、2025 年 3 月時点の料金体系です。変更される可能性があるため、最新情報はAzure 公式の価格ページまたは公式ブログでご確認ください。
Phi-4:軽量・高速・高性能を活かすユースケース
Phi-4 ファミリーは、従来の大型モデルとは一線を画すサイズ対性能比、エッジデバイスでの実行能力、マルチモーダル統合、そして高度な数理・論理推論を武器に、これまで実現が難しかった、あるいは非効率だった領域で新たな価値を創出します。
ここでは、エッジコンピューティング環境における活用を中心に据えながら、必要に応じてクラウド環境である Azure との関係、各モデルバリエーションの実行方法とユースケースを解説します。
Phi-4(標準モデル): 高性能 SLM による柔軟な推論環境の実現
Phi-4 の標準モデル(14B パラメータ)は、Phi ファミリーの中でも高度な推論能力を持ち、特に数理・論理推論や複雑な指示理解において卓越した性能を発揮します。
大規模言語モデル(LLM)に匹敵する能力を、より少ない計算リソースで実現できる点が大きな特徴です。
このモデルは LLM より軽量とはいえ、Phi-4 mini や Phi-4 multimodal よりは計算リソースを要求します。 そのため、主に十分な処理能力を持つオンプレミスサーバーや高性能なエッジデバイス(例:GPU 搭載ワークステーション、エッジサーバー、高性能産業用 PC など)が必要とされます。 一方で、GPU 搭載端末の導入が困難な場合や、スケーラビリティ・集中管理が求められる場合には、Azure 上でのクラウドデプロイも有効な選択肢になるでしょう。
このように、Phi-4 はエッジ実行とクラウド活用のいずれにも適応できる柔軟なモデルであり、ユースケースに応じた最適な運用形態を選択できます。
主な用途例
例えば、社内ナレッジ活用を例にみてみましょう。 ここでは、クラウドを介さないエッジデバイス上でのオフライン実行を基本にしながら、必要に応じて Azure を活用するハイブリッド構成も視野に入れます。
多くの企業では、設計書、マニュアル、FAQ、議事録などのドキュメントが社内に蓄積されているものの、検索性が低く、情報活用が十分に進んでいません。また、機密情報を含むため、クラウドへのアップロードが制限されるケースもあります。
このような環境で Phi-4 を導入することで、自然言語による質問に対して、社内文書を横断的に検索し、関連情報を要約して即座に回答する AI システム を構築できます。 エッジデバイスでの実行には、Windows IoT Enterprise を搭載した産業用 PC やワークステーション等を利用することで、GUI やセキュリティ管理(BitLocker、Active Directory 連携)など、企業環境に求められる要件も満たせます。
一方、よりスケーラブルな展開や複数拠点の一元管理を実現したい場合には、Azure 上でのデプロイが有効です。モデル更新、ログ管理、使用状況のモニタリングはクラウドで集中管理し、エッジ側から API として利用する構成が考えられます。
Phi-4-mini: デバイス上/小規模環境での高速・多言語処理
Phi-4-mini(約 3.8B パラメータ)は、その超軽量設計により、エッジデバイスやリソースが限られた環境での AI 実行に最適化されたモデルです。
これまでクラウド AI の導入が難しかった現場でも、リアルタイム処理やオフライン動作を実現します。特に電力や通信帯域に制限のあるフィールド環境では、非常に有効です。
主な用途例
例えば、産業機器の保全レポートとして考えてみましょう。
現場に設置された IoT 端末に Phi-4-mini を組み込むことで、機器の稼働状況やエラー履歴を自然言語で要約・レポート化し、現場作業員がそのまま報告書として活用できる仕組みを構築可能です。 現場ネットワーク内で完結するため、クラウド非依存かつ高応答性が求められるシナリオに最適です。
Phi-4-multimodal:エッジで実現する複合情報処理 AI
Phi-4-multimodal(5.6B パラメータ)は、テキスト・画像・音声といった複数のモダリティを、単一の小型モデルで統合処理できる点が特徴です。
これにより、エッジデバイス上で高度なマルチモーダル AI を実現します。スマートグラス、AR 対応ハンディ端末、マルチセンサ搭載 PC などに組み込むことで、現場に密着したインタラクティブな AI 支援を提供できます。
主な用途例
現場の作業支援(AR デバイス等)
例えば、現場の作業を支援する AR デバイスを考えてみましょう。 作業員がスマートグラスを装着し、対象機器にかざすと、Phi-4-multimodal がリアルタイムでその機器を画像認識し、関連マニュアルや操作手順、警告情報を画面上に表示します。
さらに、音声による指示入力や問い合わせにも対応しており、ハンズフリーかつ視覚・音声の統合インターフェースによって、作業効率と安全性を大きく向上させることが可能です。
このような構成は、エッジデバイス(AR 端末、ハンディスキャナなど)上でのローカル実行が基本となりますが、必要に応じて Azure AI Vision 等と連携し、クラウド上での画像解析や音声認識・記録を補完的に活用することもできます。
医療現場での画像診断サポート
次に医療現場での画像診断を例にしてみましょう。 医療現場では、患者のカルテに記載されたテキスト情報と、CT・X 線画像などの視覚データを統合的に解析し、診断支援を行うアプリケーションとして活用できます。
Phi-4-multimodal は、これら異なる情報を組み合わせて処理できるため、症状と画像所見の関係を深く理解し、より適切な判断材料を提示することが可能です。
まとめ
本記事では、Microsoft が開発した最新の小型言語モデル(SLM)である Phi-4 について、その特徴、進化の経緯、モデルバリエーション、他モデルとの性能比較、Azure AI Foundry での使い方、そして料金体系まで詳しくご紹介しました。
Phi-4 は 14B パラメータというコンパクトさながら、特に数理・論理推論やマルチモーダル処理において大規模モデルに匹敵する、あるいは凌駕する性能を発揮します。 標準モデルに加え、軽量な Phi-4-mini、マルチモーダル対応の Phi-4-multimodal があり、多様なニーズに応えます。
Azure プラットフォーム上で容易に導入・活用でき、コスト効率にも優れているため、Phi-4 は企業の AI 活用において、高いパフォーマンスと効率性を両立する強力な選択肢となるでしょう。
特に、クラウドだけでなくエッジ AI の分野においても、その高い効率性と性能により、これまで難しかった新たなアプリケーションやサービスを生み出す大きな可能性を秘めています。
東京エレクトロンデバイスは、企業の AI 活用の推進および SLM の企業導入をサポートしています。お気軽にご相談ください。 お問い合わせはこちら




