Azure AI Content Understandingとは？非構造化データを活用するマルチモーダルAIを徹底解説

Azure AI Content Understandingとは？

Azure AI Content Understanding は、テキスト、画像、音声、動画などの多様な非構造化データを一元的に取り込み、実用的な構造化データへと変換する革新的なマルチモーダルAIサービスです。生成AIの先進的なアルゴリズムを活用し、専門知識がなくても直感的にデータ解析や情報抽出が行えるよう設計されています。

最大の特徴は、従来別々に処理されがちだった各種メディアを、単一の統合プラットフォーム上で連携できる点にあります。テキスト解析から映像理解まで一貫したワークフローで実行できるため、開発の手間を大幅に軽減し、マルチメディアデータから得られる横断的な情報を迅速に活用可能です。

その結果、顧客対応の高度化や業務プロセスの効率化など、ビジネス価値に直結するアプリケーションをよりスピーディかつ容易に構築できます。

Azure AI Content Understandingのワークフロー参考:Microsoft

マルチモーダルAIとは

「マルチモーダルAI」とは、テキスト、画像、音声、動画といった異なる情報モード（モーダリティ）を統合的に処理・理解する技術です。モーダリティとは、情報の形式や種類を指します。

従来のAIは単一モーダリティに特化していましたが、マルチモーダルAIはこれらを組み合わせて扱うことで、人間が五感を通じて情報を捉えるような多角的かつ深い理解を可能にします。たとえば、テキストだけでは把握しづらい内容を、関連する画像や音声と融合して分析することで、より高精度な判断が得られます。

Azure AI Content Understanding は、このマルチモーダルAIの考え方を体現したサービスです。ドキュメント、画像、音声、映像など多様なデータを一つの統合プラットフォーム上でシームレスに処理・解析できる点が最大の強みです。

Azure AI Content Understandingの主な機能

Azure AI Content Understandingが備えるマルチモーダル機能は、ドキュメント、画像、音声、動画という4種のデータモーダリティに対応した分析です。モーダリティごとに高度なAIモデルを組み合わせ、内容の理解と言語化、構造化フィールドへの変換まで行います。

以下に、各モーダリティの分析を行う際の機能を詳しくご紹介します。

ドキュメント分析

ドキュメント分析機能は、スキャンされた書類やデジタルファイルから文字情報を読み取り、レイアウトを理解し、必要なデータを抽出することで、ドキュメント処理の自動化と効率化を実現します。

文書のテキスト抽出とレイアウト解析: スキャンPDFやオンラインの書類から、テキストや手書き文字を高精度に読み取ることができます。オプションの機能として、段落や表、セクションといったレイアウト情報の抽出や数式の抽出を有効化することも可能です。
構造化フィールド抽出: 事前に定義した抽出したい項目（フィールド）に従って、文書内から該当するデータをピンポイントで抜き出します。例えば、契約書からは「契約当事者名」「契約締結日」「支払条件」といった項目を、請求書からは「請求元会社名」「請求先住所」「請求金額」といった項目を、ビジネス上のニーズに合わせて柔軟に取得可能です。

ドキュメント分析参考:Microsoft

画像分析

画像分析機能は、画像内の物体やシーンを認識するだけでなく、文字情報を読み取ったり、特定の視覚的特徴を抽出したりすることで、画像データから価値ある情報を引き出します。

画像内容の分析とテキスト検出: 画像から情報を解析し、必要に応じて含まれる文字（OCR）を読み取ります。画像から得られるデータを標準化された構造で出力することができるため、大量の画像データに埋もれた有用なビジュアル情報を取り出しやすくなります。
柔軟な特徴抽出と構造化: 利用シーンに応じて、画像からどのような特徴を抽出するかを柔軟に設定できます。例えば、小売店の棚卸画像から特定の商品名とその数量を検出したり、製造ラインの画像から製品の欠陥候補を検出したりするなど、目的に応じたデータ取得が可能です。抽出結果は構造化データ（例：検出された製品リストと個数）として出力されるため、在庫管理システムや品質管理プロセスとの連携も容易に行えます。

音声分析

音声分析機能は、録音された音声データから発話内容をテキスト化し、話者を特定したり、会話の重要なポイントを抽出したりすることで、音声情報の活用を促進します。

音声の文字起こしと話者分離: 通話記録や会議の録音など、様々な音声データを高精度にテキストへ変換（文字起こし）し、さらに複数の話者がいる場合には誰がどの部分を発言したのかを識別（話者ダイアライゼーション）します。これにより、発言者ごとの正確な議事録作成などが容易になります。
会話内容の要約と感情分析: 文字起こしされたテキストデータから、会話全体の要約を自動生成したり、発言内容に含まれる感情（ポジティブ/ネガティブなど）を分析したりすることで、会話の重要なポイントや顧客の感情の機微を把握できます。例えば、コールセンターでの顧客との通話記録から、問い合わせの主旨を素早く理解したり、顧客満足度に関わる発言の傾向を分析したりするのに役立ちます。

音声分析参考:Microsoft

映像分析

映像分析機能は、動画ファイルの内容を深く理解し、検索可能なメタデータを生成したり、重要なシーンを特定したりすることで、膨大なビデオコンテンツの管理と活用を効率化します。

映像からメタデータ生成: ビデオファイルを詳細に解析し、内容を理解・整理するための豊富なメタデータ（付加情報）を自動的に生成します。これには、映像内の音声の文字起こし、重要なシーンを代表するキーフレームの抽出、登場人物の識別などが含まれます。これにより、長時間のビデオコンテンツでも、その概要をテキストや代表画像で素早く把握でき、検索や管理が格段に容易になります。
タグ付けと要約: 生成されたメタデータを利用して、ビデオコンテンツに対するカスタマイズ可能なタグ付けや、内容を簡潔に表す説明文の自動生成を行います。例えば、マーケティングキャンペーンで使用された動画から、特定のブランドロゴや製品が映っているシーンを自動で検出しタグ付けすることで、広告効果の測定やコンテンツの再利用を促進できます。

映像分析参考:Microsoft

他の主要なAzure AIサービスとの違い

Azure AI Content Understandingは、テキスト、画像、音声、動画といった多様な非構造化データを統合的に処理し、実用的な構造化データへと変換することを目的としたAzure AIサービスです。これに対し、Azure AIエコシステムには特定のタスクやデータの種類に特化したサービスも存在します。

ここでは、Azure AI Content Understandingとこれらの主要サービスとの主な違いについて解説します。

Azure AI Vision

Azure AI Visionは、画像や動画から情報を抽出するための包括的な機能を提供するサービスです。これには、オブジェクト、顔、テキストの検出、コンテンツのタグ付けや分類などが含まれます。また、ユーザー独自のニーズに合わせて画像認識モデルをカスタマイズする機能も提供しています。

Azure AI Content Understandingとの主な違い

Azure AI Visionは、視覚情報（画像および動画）の分析に特化し、その内容理解に関する広範な機能を提供します。 Azure AI Content Understandingは、画像や動画の分析もそのスコープに含みますが、主目的はテキスト、音声を含む複数の異なる種類の情報を横断的に処理し、ユーザー定義のスキーマに基づいて構造化された実用的なデータへと変換する点にあります。

Content Understandingは、多様なコンテンツタイプを扱うための統合的なアプローチを提供します。

Azure AI Document Intelligence

Azure AI Document Intelligenceは、ドキュメントからテキスト、レイアウト情報（テーブル、選択マークなど）、キーと値のペア、エンティティなどを抽出・分析するAIサービスです。請求書、領収書、IDカードなどのための事前構築済みモデルや、特定のドキュメントタイプに合わせたカスタムモデルの作成が可能です。

Azure AI Content Understandingとの主な違い

Azure AI Document Intelligenceは、特にドキュメントの構造解析と、そこからの詳細かつ正確なデータ抽出に特化したサービスです。

Azure AI Content Understandingもドキュメントからの情報抽出を行いますが、その特徴は、抽出された情報を他の種類のデータ（画像、音声、動画など）と統合し、より広範なコンテンツの文脈で理解し、構造化することにあります。 Document Intelligenceほどドキュメント固有の詳細なフィールド抽出やレイアウト分析に特化するのではなく、マルチモーダルなデータの統合処理を重視します。

Azure AI Video Indexer Azure

AI Video Indexerは、動画および音声ファイルに対して詳細な分析を行い、音声の文字起こし、話者の識別、顔の検出、感情の分析、キーワードやトピックの抽出、シーンの検出といった豊富なメタデータを自動生成するサービスです。これにより、ビデオコンテンツの検索性向上や深い洞察の獲得を支援します。

Azure AI Content Understandingとの主な違い

Azure AI Video Indexerは、動画および音声コンテンツの深い分析と、それに基づく豊富なメタデータの生成、インデックス作成に特化しています。

Azure AI Content Understandingも映像からの情報抽出を行いますが、その主眼は、抽出された映像情報を他のデータ形式（ドキュメントや画像など）と統合し、コンテンツ全体のより包括的な理解と構造化された出力の生成に置かれています。 Video Indexerが提供するような詳細なメディアインテリジェンス機能群全てをContent Understandingが直接的に提供するわけではありません。

以上から、 Azure AI Content Understandingの主な価値は、テキスト、画像、音声、動画といった複数の種類のデータを、単一の標準化されたプロセスで統合的に処理し、ユーザーが定義したスキーマに基づいて構造化された実用的なデータとして出力できる点にあります。

他のサービスが特定の情報の種類やタスクに深く特化しているのに対し、Content Understandingは多様な情報を横断的に扱い、構造化することで、データからの価値抽出とシステム連携を容易にすることを目指しています。

Azure AI Content Understandingの使い方

ここでは、Azure AI Content Understandingを実際に利用するための基本的な手順を、8つのステップに沿って分かりやすくご紹介します。

Azure AI Content Understandingは、Azureポータル内の統合環境である「Azure AI Foundry」を通じて利用します。

Azure公式サイトにアクセスし、プロジェクトを新規作成します。Azureのアカウントをお持ちでない場合は、新規作成しましょう。 ※2025年5月現在、Azure AI Content Understandingを利用できるリージョンは、australiaEast、swedenCentral、westUSに限定されています。プロジェクト作成時には、これらのリージョンを選択するようにしてください。
プロジェクトのダッシュボードが表示されたら、サイドバーのメニューから「AIサービス」をクリックし、「コンテンツの解釈 (Content Understanding) 」を選択します。

AIサービスの項目

「コンテンツの解釈」の画面で、「Navigate to create new Content Understanding project」をクリックし、プロジェクトを新規作成します。コンテンツの解釈
プロジェクトの作成が完了したら、サイドバーからスキーマの定義をクリックします。

スキーマの定義

「Upload a test file」の欄で、分析を行うファイルをアップロードします。今回は、街並みが写ったフリー素材の写真を4枚用意しました。

ファイルのアップロード

用意した写真素材

次に、アップロードしたファイルに対してどのような分析を行うかを選択します。今回は画像ファイルを分析するため、「Image analysis(画像分析)」のテンプレートを選択し、「作成 (Create)」をクリックしてアナライザーを作成します。アナライザーの作成
分析結果としてどのような情報を抽出したいか、具体的なフィールド（項目）を追加・定義します。今回は例として、「人数」「天気」「時間帯」という3つのフィールドを設定し、「保存 (Save)」をクリックします。

フィールドの追加

フィールドを保存すると、自動的にアップロードされた画像の解析が実行されます。解析が完了すると、画像ごとに、先ほど設定したフィールドに対応するデータが入力された形で表示されます。「結果 (Result)」ボタンなどをクリックすることで、これらの構造化されたデータをJSON形式でエクスポートすることも可能です。

解析の完了

上記の手順で、Azure AI Content Understandingを使って簡単にコンテンツの解析を行うことができます。ドキュメント、音声、映像といった他の種類のデータも、基本的には同様の手順で解析可能であり、その多機能性と使いやすさが大きな魅力です。

実践デモ：商品画像からの検品自動化と在庫管理連携

ここでは、「商品の画像データから自動で検品を行い、商品名や状態を特定して在庫情報として管理する」という、より実践的なユースケースでAzure AI Content Understandingを活用する流れをご紹介します。

今回は、中古品と新品が混在する3種類の充電器を買い取り、それぞれの商品の状態を評価・分類し、在庫システムに登録するというシナリオを想定しています。

まず、検品対象となる商品の画像をアップロードします。用意した商品画像
次に、抽出したい情報として「商品名」「商品ID」「商品の状態」「商品の状態の詳細説明」といったフィールドをスキーマに定義します。スキーマの設定
スキーマ設定後、画像の解析が実行されます。解析が完了したら、「結果 (Result)」から分析結果（各フィールドに抽出された情報）を確認し、必要に応じてJSON形式などで出力します。

解析結果

最後に、出力された構造化データ（商品名、状態、IDなど）を、既存の在庫管理システムやデータベースに登録します。

在庫管理ページ

このように、Azure AI Content Understandingを活用することで、商品画像から自動的に検品情報を生成し、商品の状態評価を含めた構造化データを作成することができました。これにより、手作業による検品やデータ入力の手間を大幅に削減し、在庫管理の効率化と精度向上に貢献します。

Azureサービスとの連携と活用事例

Azure AI Content Understandingは、他のAzureサービスと組み合わせることで、その活用範囲が一層広がり、データの価値を最大限に引き出すことが可能です。ここでは、主な連携パターンとその具体的な活用例をご紹介します。

Azure OpenAI Serviceとの連携：高度な情報処理とインサイト生成

Azure AI Content Understandingで抽出・構造化されたデータを、Azure OpenAI Serviceが提供する大規模言語モデル（LLM）に入力することで、単なるデータ抽出を超えた、深い洞察の獲得や創造的なコンテンツ生成が実現します。LLMは、構造化された情報を基に、より文脈に即した正確な処理を実行できます。

活用例：

契約書分析とリスク評価の自動化: 契約書から主要項目を抽出し、LLMに「潜在的なリスクと対応策を提案して」と指示することで、法務レビューの効率化と質の向上を図ります。
顧客の声の分析と改善提案: コールセンターの通話記録やアンケートの自由記述を解析し、構造化した上でLLMに渡し、「顧客満足度向上のための具体的な施策を3つ提案して」といった形で、具体的なアクションに繋がる示唆を得ます。

Azure AI Searchとの連携：インテリジェントなエンタープライズ検索基盤の構築

抽出・構造化されたデータやメタデータをAzure AI Searchでインデックス化することにより、組織内のあらゆる情報資産に対する高度な検索機能を提供できます。キーワード検索だけでなく、AIが質問の意図を理解して関連情報を提示するセマンティック検索も可能です。

活用例：

社内ナレッジベースの強化: 規程集、技術文書、過去の報告書などを横断的に検索可能にし、社員が必要な情報を迅速かつ容易に見つけられる環境を整備します。
マルチモーダルコンテンツ検索: 画像や動画の内容（写っている物体、話されている言葉など）も検索対象とし、「赤い車が映っている動画」のような曖昧な指示でも関連コンテンツを発見できるようにします。

Power Platformとの連携：ローコード/ノーコードでの業務自動化とAIアプリ開発

Power AutomateやPower AppsといったPower Platformのツールと連携することで、プログラミングの専門知識がない担当者でも、Azure AI Content UnderstandingのAI機能を日々の業務プロセスに簡単に組み込んだり、カスタムアプリケーションを迅速に開発したりすることが可能になります。

活用例：

ドキュメント処理の自動化フロー: メールで受信した請求書PDFをPower Automateが検知し、Azure AI Content Understandingで自動的に解析（Azure Blob Storage、Azure Functions、Azure Cosmos DBなどと連携したサーバーレス処理も可能）。抽出されたデータを会計システムへ自動入力したり、承認ワークフローを開始したりします。
現場報告用モバイルアプリ: Power Appsで作成したアプリから、現場作業員がスマートフォンで撮影した画像（例：設備の状態）をアップロード。Azure AI Content Understandingが画像を解析し、状態を自動判定して報告書作成を支援します。

ビジネスインテリジェンスツールとの連携：データドリブンな意思決定の促進

Azure AI Content Understandingによって構造化されたデータは、Microsoft Power BIやAzure Synapse AnalyticsなどのBIツールやデータ分析プラットフォームと組み合わせることで、組織全体のデータを可視化し、より深い分析を通じてデータに基づいた戦略的な意思決定を強力にサポートします。

活用例：

市場トレンドや顧客動向の可視化: 顧客アンケートの自由記述やSNSの投稿を分析し、製品やサービスに対する評価、新たなニーズの兆候などをPower BIダッシュボードでリアルタイムに把握します。
オペレーショナルデータの分析: 製造ラインのセンサーデータや品質検査記録（画像データを含む）を解析し、Azure Synapse Analyticsで他の生産データと統合。歩留まり改善や予知保全のための洞察を得ます。

Microsoft Fabricとの連携：統合データプラットフォームによる価値最大化

Azure AI Content Understandingで構造化したデータをMicrosoft Fabricに取り込むことで、大規模データの統合管理からセルフサービス分析、AI活用までを一気通貫で実現し、データドリブンな意思決定を加速します。

活用例：

統合データレイク構築と高度な分析: Content Understandingで抽出したデータをFabric Lakehouseに集約し、Data Factoryでパイプラインを構築。Synapse NotebooksやSQL Warehouseを用いた深掘り分析や、Power BIによる可視化を実現します。
リアルタイムなデータ活用とセキュアな共有: Event Grid等と連携し、最新データに基づいた分析環境を維持。Unity Catalogによるガバナンスを効かせながら、組織横断での安全なデータ共有とセルフサービスBIを促進します。

【関連記事】

AI時代のデータ活用基盤「Microsoft Fabric」

Azure AI Content Understandingの料金

Azure AI Content Understandingは従量課金制を採用しており、処理対象のコンテンツ種別、抽出フィールド数、およびオプションのアドオン機能に応じて課金されます。

Content Understanding では、入力 (オプションのアドオンを使用したコンテンツ抽出) と出力 (フィールド抽出/スキーマ推論) の両方に対して課金されます。

以下の料金は、米国西部リージョンにおける日本円 (JPY)の価格です。

モーダリティ	コンテンツ抽出	フィールド抽出	アドオン機能
ドキュメント	1,000 ページあたり ¥235.711	最大 100 個のフィールドに対して 1,000 ページごとに ¥3,142.811	- レイアウト抽出: 1,000 ページあたり ¥1,335.695 - 数式抽出: 1,000 ページあたり ¥471.422
画像	無料	最大 10 個のフィールドに対して 1,000 個の画像ごとに ¥942.844	特になし
音声	1 時間あたり ¥56.571	最大 10 個のフィールドに対して 1 時間ごとに ¥125.713	特になし
動画	1 時間あたり ¥157.141	最大 10 個のフィールドに対して 1 時間ごとに ¥1,414.265	- Face のグループ化: 1 時間あたり ¥942.844

【補足事項】

パブリックプレビュー段階となります。
ドキュメントモーダリティは、ドキュメントの改ページ位置の自動修正によって決定されるページごとのコンテンツを分析します。ページ分割されていないドキュメントの場合、1ページは3,000文字として扱われます。画像モーダリティは画像ファイルごと、音声および動画モーダリティは1時間あたりのコンテンツ量に応じて課金されます（分単位での課金）。

※2025年5月時点の情報です。料金が変更される可能性があるため、最新の料金はAzure公式ページをご確認ください。

まとめ

本記事では、Azure AI Content Understandingの機能、利用方法、活用事例などを詳しくご紹介しました。

Azure AI Content Understandingは、非構造化データをマルチモーダルに解析し、構造化されたデータへと変換する次世代型AIサービスです。

テキスト・画像・音声・映像を統合的に扱える
柔軟な要素の抽出が可能
他のAzureサービス（OpenAI、Search、Power Platform等）との親和性が高い

企業が直面する膨大で多様なデータの活用課題に対して、シンプルかつ拡張性のある解決策を提供します。

今後のデータ活用やAI導入を検討している企業にとって、Azure AI Content Understandingは極めて有望な選択肢と言えるでしょう。

東京エレクトロンデバイスは、Azureの企業導入をサポートしています。無料相談も受け付けておりますので、お気軽にご相談ください。

お問い合わせはこちら

Azure AI Content Understandingとは？非構造化データを活用するマルチモーダルAIを徹底解説