Microsoft FabricのData Scienceとは
Microsoft FabricにおけるData Scienceとは、Microsoft Fabric に組み込まれたデータサイエンティスト向けの統合プラットフォームです。
ここではまず、Microsoft Fabricについて説明した後に、 Microsoft FabricにおけるData Scienceを理解する上で重要となるデータサイエンスの概念についてもご説明します。
Microsoft Fabricとは
Microsoft Fabricは、Microsoftによる、データの統合・分析・可視化を一元的に行うことができるクラウドプラットフォームです。 Microsoft Fabricには、Data Factory、Data Engineering、Data Warehouse、Power BIなどのツールが統合されており、すべてのプロセスを一つのプラットフォームで完結できることが可能です。
Microsoft Fabricサービス一覧(Microsoft Fabricサービス一覧)(参考:Microsoft)
データサイエンスとは?
Microsoft Fabric のData Scienceは、Microsoft Fabric内のさまざまな機能を活用してデータサイエンスを行うためのツールですが、そもそもデータサイエンスとはどのようなものでしょうか。
データサイエンスとは、データを分析して価値のある情報を引き出す技術のことです。統計学・プログラミング・ビジネス知識を活用し、データから予測や意思決定を行うことを目的とします。
例えば、データサイエンスを用いることで以下のことが可能となります。
- 売上データを分析して、売れ筋商品を特定する。
- 顧客の購買パターンを分析してマーケティング戦略を立てる。
- センサーデータを使って設備の異常を予測する。
データサイエンスの流れ(プロセス)
データサイエンスを実現するためには、以下のようなプロセスをたどる必要があります。
データサイエンスの流れイメージ(参考:Microsoft) (図のアイコンは左から順に、1: 問題の定義、2: データの取得、3: データの準備・取り込み、4: モデルのトレーニング、5: 予測の実行までを模式的に示しています)
1.問題の定義
最初に、どのような予測をしたいかを明確にします。 例えば、「顧客の購買予測」や「仕入れ量の予測」など、具体的な目標を設定することが重要です。
2. データの取得
機械学習モデルを作成するために、必要なデータを集めます。
3. データの準備・取り込み
データはそのままでは利用できないことが多いため、クリーニングや変換を行います。不要なデータの削除、欠損値の処理、特徴量のエンジニアリングを実施し、モデルの学習に適した形式に整えます。
4. モデルのトレーニング
適切な機械学習アルゴリズムを選び、モデルを学習させます。 試行錯誤を繰り返しながら、アルゴリズムやハイパーパラメータの調整を行います。
5. 予測の実行
トレーニング済みのモデルを使って、新しいデータの売上を予測します。 実際の運用では、定期的にデータを更新し、モデルを使って自動的に予測を行うことが一般的です。 また、予測の精度を確認し、必要に応じてモデルを再学習することで、精度を維持します。
データサイエンスのプロセス具体例
ここで具体例で考えてみましょう。
スーパーマーケットでパンの仕入れ量を最適化するために、データサイエンスを活用するとします。このプロセスは、以下の流れで進められます。
1. 問題の定義
パンの売れ行きを予測し、売れ残りや品切れを防ぐ ことを目標とする。
2. データの収集
過去の売上データに加え、天気や曜日、特売日 などの影響する要素も集める。
3. データの準備
- 欠損しているデータを補完し、異常なデータを修正する。
- 曜日や天気などの要因を数値化し、分析しやすくする。
4. モデルのトレーニング
- 過去のデータをもとに 売上予測モデル を作成する。
- 時系列予測や回帰分析など 複数の方法を試し、最も精度の高いモデルを選ぶ。
5. 予測の実行
- 新しいデータをモデルに入力し、来週の仕入れ量を計算 する。
- 予測結果をもとに発注計画を立て、実際の売上と比較しながらモデルを改善 する。
このようなプロセスをたどることで、以下のようなメリットがあります。
- 過去の売上を分析することで、「どの曜日にパンがよく売れるのか」「天候が売れ行きに影響するのか」などのパターンを発見することができます。
- 機械学習を活用し、無駄のない仕入れ ができるため、売れ残りや品切れを減らすことが可能です。
- データを活用することで、感覚ではなく根拠に基づいた仕入れ ができるようになります。
従来のデータサイエンスの課題
データサイエンスは各プロセスを実行する必要がありますが、従来のデータサイエンスでは、各プロセスを異なるツールや環境で実行する必要があり、データの統合や管理、運用に多くの手間がかかっていました。
Microsoft FabricのData Scienceは、こうしたデータサイエンスのプロセスをMicrosoft Fabricという一つの環境で行うことができるようにするツールとして注目されています。
Microsoft Fabricにおけるデータサイエンスのプロセス
データサイエンスには、データの準備から機械学習、予測結果の活用まで一連のプロセスがあります。Microsoft Fabricでは、これを以下のように実現します。
1. 問題の定義
ビジネスの課題を明確にするためには、既存のデータを分析し、インサイトを得ることが重要です。 Power BIを活用することで、過去のデータの可視化やダッシュボードの作成が可能になり、モデルの目的を具体化することができます。
2. データの収集
Microsoft Fabricでは、以下の機能によりさまざまなデータソースからデータを取り込み、一元管理することが可能です。
- ローカルやクラウドのデータを取り込み(ローカルPC, Azure Data Lake Storage Gen2 など)
- OneLake にデータを保存(Microsoft Fabric の統合データ貯蔵庫)
- レイクハウスを活用してデータを管理・処理(構造化・半構造化・非構造化データに対応)
3. データの準備
データは、そのままでは使用できないことが多いため、Microsoft Fabricの以下の機能を活用してデータの準備を行います。
- Notebooks(Python, PySpark, R) を使ってデータを加工
- Data Wrangler を活用し、ノーコードでデータクレンジングを実施
- Apache Spark による大規模データの処理
4. モデルのトレーニング
以下のツールを活用して、モデルを作成しトレーニングします。
- Python(scikit-learn, TensorFlow, PyTorch など) を使ってモデルを作成
- SynapseML を活用し、大規模なデータに対する機械学習を実施
- MLflow を利用して、モデルの実験・評価・管理を行う
5. 予測の実行
以下の機能を活用して作成したモデルを使って、予測を行います。
- PREDICT 関数を使い、新しいデータに対して予測を適用
- Power BI で予測結果をリアルタイム可視化
このように、Microsoft Fabricのさまざまな機能を組み合わせることで、一つの環境でデータサイエンスを実行することが可能となります。
Microsoft FabricのData Scienceの主な機能
Microsoft FabricのData Scienceには、データの分析や機械学習をスムーズに進めるための機能が揃っています。ここではMicrosoft FabricのData Scienceで利用できる機能について詳細にご紹介します。
Notebook(ノートブック)
ノートブックとは、PythonやRを使ってデータ分析や機械学習を行うための環境のことです。Jupyter Notebookに似たインターフェースで、コードを書いてすぐに実行することができます。
例えば、売上データを分析するとき、Microsoft Fabricのノートブックだけで以下のような作業をすべて行うことができます。
- OneLake からデータを取得し、Pandas で処理
- グラフを作成して、売上の傾向を可視化
- 機械学習モデルを作成し、売上の予測を実施
Spark
Sparkとは、大量のデータを高速に処理するためのツールです。例えば、100万件の売上データを扱うとき、通常の Python では処理に時間がかかりますが、Sparkを使えば並列処理で素早く計算できます。
Microsoft Fabric では、Sparkを使って以下を行うことが可能です。
- OneLake に保存された大規模データを、分散処理で素早く集計
- モデルをトレーニングするときに、大量のデータを一括処理
- Python(PySpark)や Scala を使って、データの加工や分析を高速化
Sparkは主にデータの処理・準備・分析で用いられ、データ量が多い場合でも、処理がスムーズに進むため、大規模な機械学習にも対応できます。
MLflow
MLflowとは、機械学習モデルを管理するためのツールです。
機械学習では、さまざまなアルゴリズムやパラメータを試しながら、最適なモデルを探します。その過程で、「どの設定が一番良かったのか?」を記録しておくことが重要です。
MLflow を使うと、以下のようなことが可能です。
- 実験ごとにデータを保存し、後で比較できるようにする
- どのモデルが最適だったのかを確認し、バージョン管理できる
- 過去の実験結果を見ながら、新しいデータで再トレーニングが可能
つまり、機械学習の試行錯誤を効率的に管理し、最適なモデルを選ぶことが容易になります。
SynapseML
SynapseMLは、主に機械学習の実行・AI モデルの活用の場面で用いられるApache Sparkを活用した機械学習のためのライブラリです。
Microsoft Fabric では、SynapseML を使って以下のようなことができます。
- 大規模な売上データを学習し、顧客の購買行動を予測
- 画像認識や異常検知などの高度な AI モデルを実装
- Azure AI サービスと連携し、事前学習済みの AI モデルを活用
通常の機械学習ライブラリ(scikit-learn など)は、少量のデータには適していますが、大規模データには向いていません。しかしSynapseML を使うと、数百万件以上のデータでも効率的に学習することができます。
セマンティックリンク
セマンティックリンクは、Power BI のデータモデルを Python で直接扱えるようにする機能です。
通常、データサイエンティストが Power BI のデータを使って機械学習をしようとすると、売上計算ルールなどのビジネスロジックを再現する必要があり、手間がかかります。
セマンティックリンクを使えば、Power BI に組み込まれた計算ルールやデータ構造をそのまま利用できるため、データ準備の手間を大幅に削減することができます。
具体的には、SemPyというPythonライブラリを使い、Power BIの計算項目(メジャー)をそのままPythonコード内で活用可能です。 これによりビジネスロジックを再実装せずに、すぐにデータ分析や機械学習が可能になります。
他の Microsoft Fabric コンポーネントとの統合
Data Science は、以下のようにMicrosoft Fabric 内のさまざまなコンポーネントと統合することができます。
Data Factory
Data Factory を使って、様々なデータソースからデータを収集・変換し、Data Science で利用できる形式に加工。
【関連記事】
【Microsoft Fabric】Data Factoryとは?クラウドベースのデータ統合サービスを徹底解説
Data Engineering
Data Engineering の Spark 環境を使って、大規模なデータセットの前処理を行い、Data Science でのモデル開発を効率化。
【関連記事】
【Microsoft Fabric】Data Engineeringとは?データ活用を加速する統合エンジニアリング基盤を徹底解説
Data Warehouse
Data Warehouse に蓄積された構造化データを、Data Science での分析に活用。
【関連記事】
【Microsoft Fabric】Data Warehouseとは? 統合データ分析プラットフォームの中核機能を徹底解説
Real-Time Analytics
ストリーミングデータを Real-Time Analytics でリアルタイムに処理し、その結果を Data Science でモデルの入力として使用。
【関連記事】
【Microsoft Fabric】Real-Time Intelligenceとは?仕組み・導入・活用事例を解説
Power BI
Data Science での分析結果を、Power BI で可視化し、ダッシュボードやレポートを作成。
【関連記事】 ️
【Microsoft Fabric】Power BIとは?統合分析プラットフォームで実現するデータ活用の新時代
Microsoft FabricのData Scienceと他のツールとの比較
Data Science は、Microsoft Fabric に統合された データサイエンス向けの環境です。 同様の機能を持つツールとして、Azure Machine LearningやAzure Databricksなどがあり、それぞれ異なる特徴を持っています。
ここでは、Data Science と他のツールを比較し、どのような用途に適しているかを整理します。
Azure Machine Learningとの比較
Azure Machine Learning(Azure ML)は、機械学習モデルの開発・トレーニング・デプロイをクラウド上で行うためのプラットフォーム です。類似点・相違点は次のとおりです。
類似点
- どちらも Microsoft のクラウドサービス上で動作します。
- Notebook や MLflow、主要な機械学習ライブラリをサポートしています。
- 機械学習モデルの開発から運用まで対応可能です。
相違点
- Microsoft Fabricでは SynapseML を活用した Spark ベースの分散機械学習が可能ですが、 Azure MLでは Azure Synapse Analytics との統合を通じて Spark を利用可能です。
- AutoML(自動機械学習)については、 Microsoft FabricのData Science では プレビュー中ですが、Azure Machine Learning では 正式にサポート されています。
活用場面
- Microsoft Fabricエコシステム内で一貫したデータ分析を行いたい場合はData Scienceが適しています。
- AutoMLなどの高度な機械学習機能を利用したい場合や、 Microsoft Fabricに依存しない独立した環境で開発を行いたい場合は、Azure Machine Learning が適しています。
Azure Databricks との比較
Azure Databricks は Apache Spark を活用した、Azure 上の統合データ分析・機械学習プラットフォームです。ここでは、Microsoft Fabric の Data Science 環境と、Azure Databricks 上でデータサイエンスを行う場合の機能や特徴を比較します。
類似点
- どちらも Spark をベース としており、大規模なデータセットの処理を得意としています。
- ノートブック環境 を提供し、Python、R、Scala などの言語をサポートしています。
- MLflow を活用した実験管理機能を備えています。
各サービスの比較
項目 | Data Science | Azure Databricks |
|---|---|---|
提供プラットフォーム | Microsoft Fabric内で提供 | Azure 上のマネージドサービス |
データ連携 | Microsoft FabricのLakehouseやPower BIとのネイティブな統合 | Delta Lake を中心としたデータレイクハウス管理 |
データ処理のスコープ | Microsoft Fabric内でのデータ分析 + 機械学習に特化 | データエンジニアリング(ETL)+ AI/MLを広くカバー |
活用場面
- Microsoft Fabric Data Science: Microsoft Fabricエコシステムとのシームレスな連携を重視し、Fabric内でデータ準備から分析、可視化まで一貫したワークフローを実現したい場合に特に適しています。
- Azure Databricks: Delta Lakeを中心とした高度なデータレイクハウス基盤を構築・活用したい場合や、成熟したデータエンジニアリング機能を必要とする場合に適しています。
Microsoft Fabric Data Scienceの使い方
ここでは、Data Science の使い方を簡単な例を挙げてご説明します。各ステップの概要は以下となります。
- ローカルからのデータの取り込み
- Data Wranglerを使用したデータの準備
- MLflowを使用した最適なモデル選択
※ 前提条件は以下となります。
- Fabric ワークスペースおよびノートブックが作成済みであること(詳細は、こちらをご覧ください。)
ステップ1: ローカルからのデータの取り込み
- Microsoft Fabric ポータルにアクセスし、Fabricアカウントでサインインします。
- データを編集する対象のノートブックに移動します。
- 「リソース」をクリックします。
リソース選択画面 - 「ファイルのアップロード」をクリックします。
ファイルのアップロード選択画面 - 「次へ」をクリックします。
次へ選択画面 - ファイルが正常にアップロードされたことを確認します。
アップロード完了画面
ステップ2: Data Wranglerを使用したデータの準備
- 捜査対象のノートブック画面で「Data Wrangler」にカーソルを当て、使用するデータ(ここではdfを使用)を選択します。
DataWrangler選択画面 - Data Wrangler 画面が開きます。 この画面は Microsoft Fabric の「Data Wrangler」 を使用して、データを可視化・クリーニング・変換するためのインターフェースです。 Pandas DataFrame を GUI で操作し、データの前処理を直感的に行うことができます。
Data Wrangler説明画面
① 上部メニュー 上部メニューには、データ処理後のエクスポートや表示設定のオプションが配置されています。
② データ概要(右パネル) データ概要には、データセットの基本情報や欠損値の有無などが記載されています。
③ ヒストグラム(上部グラフ) データの分布を視覚的に確認できるヒストグラムが表示されています。
④ 操作群(左パネル) 操作群には、データの変換やクレンジングに関する各種オプションが用意されています。
⑤ クリーニング手順(下パネル) クリーニング手順のパネルには、適用済みのデータ処理の履歴が表示されています。
- Data Wrangler でカテゴリ変数をエンコーディングします。 今回は、③で「Class」が 「A, B, C」 などの文字列になっているので、これを数値(0,1,2 など)に変換する作業を行います。
①「操作群」から②「数式」カテゴリ、③「One-hot エンコード」を選択します。
操作群選択画面
- One-hot エンコードを行うターゲット列を選びます。(今回は「Class」を選択。)
ターゲット列選択画面 - 「適用」をクリックします。
適用画面 - 「コードをノートブックに追加する」ボタンをクリックします。
コード追加画面 - エンコードするコードがノートブックに追加されました。
追加されたコード画面 - 追加されたコードを実行すると、以下のように出力されます。
エンコードするコード画面
コード出力画面
Classの値が True または False になっており、カテゴリ変数がバイナリ化(0/1 または True/False)されていることが確認できます。
- 次に、以下のコードでデータの分析 データの統計情報・分布・相関を確認します。
データの分析確認画面1
出力は次のとおりです。
データの分析確認画面2
ステップ3: MLflowを使用した最適なモデル選択
- MLflow を使ったモデル比較を行い、異なるハイパーパラメータ(C 値)を比較し、最適なモデルを選択してみましょう。 次のコードを入力します。
コード1画面
コード2画面
- 上記コードを実行した結果となります。 実行リスト 「実行リスト」欄には、3回のモデル実行(異なる C 値でのロジスティック回帰)の記録が残っています。
実行リスト画面
strong_beach_08ssnl63、great_thread_xgfz80nd、mango_map_5btqsb16というそれぞれ異なる設定・パラメータで実行されたロジスティック回帰モデルの比較実験がされていることがわかります。
比較の実行 この欄ではC 値が変化すると精度がどのように変わるかを視覚的に確認できます。
比較の実行画面
今回は3回の実験(各 C 値(0.1, 1.0, 10.0)で実行されたモデル)が行われ、great_thread_xgfz80nd と mango_map_5btqsb16 はほぼ同じ精度で、 strong_beach_08ssnl63 よりも高いことがわかります。
Microsoft FabricのData Scienceの料金
Microsoft Fabric の Data Science 機能を利用する際の料金は、Microsoft Fabric 全体の利用料金に含まれています。
※本記事に記載されている情報は、2025年3月時点の情報です。変動する可能性があるため、最新情報はMicrosoft Fabricの料金詳細をご覧ください。
Microsoft FabricのData Scienceの活用場面
ここでは、具体的なユースケースを紹介しながら、どのようにMicrosoft FabricでData Science が活用できるのかをご説明します。
売上予測モデルの構築
小売業や EC サイトでは、過去の売上データを分析し、将来の売上を予測することが重要です。以下のように売上予測を行うことで、在庫管理の最適化やマーケティング施策の精度向上につながります。
- データの取得・統合 売上データをレイクハウスに保存し、異なるデータソースを統合
- データの探索と前処理 Data Science のノートブックを使用し、PySpark を活用してデータの欠損値補完や特徴量エンジニアリングを実施
- 機械学習モデルのトレーニング MLflow を活用し、複数の機械学習モデルを試して最適なモデルを選定
- 予測の実行 最適なモデルを選択し、バッチ推論を実行して売上予測を生成
- 結果の可視化 予測結果を Power BI に連携し、ダッシュボードを作成して経営判断に活用
IoT センサーデータの異常検知
製造業やエネルギー業界では、IoT デバイスから取得したセンサーデータをリアルタイムで分析し、機械の異常を早期に検知するこが求められます。 以下のようなデータサイエンスを実行することで、設備の故障を未然に防ぎ、メンテナンスコストの削減や生産性向上につなげることができます。
- データの収集 IoT デバイスからのセンサーデータをレイクハウスに保存
- データの前処理 Data Science のノートブックを使用し、PySpark を活用して異常検知のための特徴量エンジニアリングを実施
- 機械学習モデルのトレーニング MLflow を利用し、異常検知モデルをトレーニングし、最適なアルゴリズムを選定
- 異常検知のリアルタイム処理 Spark ストリーミングを利用してリアルタイムに異常を検知し、必要に応じてアラートを発信
- 結果の通知・可視化 Power BI で異常データを可視化し、Teams にアラートを通知
顧客の離反分析(Churn Prediction)
通信業やサブスクリプションビジネスでは、以下のように顧客の行動を分析し、解約リスクの高いユーザーを特定することが重要です。
- データの収集・統合 顧客の利用履歴や問い合わせデータをレイクハウスに保存
- データの探索・前処理 Data Science のノートブックを使用し、データのクレンジングと特徴量エンジニアリングを実施
- 機械学習モデルのトレーニング MLflow を利用して複数のモデルを試し、解約確率を予測
- 予測の実行 最適なモデルを選び、顧客ごとの解約リスクをスコアリング
- 結果の可視化・施策の適用 Power BI でマーケティングチームに予測結果を共有し、解約防止策を適用
まとめ
本記事では、Microsoft Fabric のデータサイエンス向け統合プラットフォーム 「Data Science」について、その概要、機能、メリット、活用方法を解説しました。
Data Science は、データ探索、前処理、モデル開発、トレーニング、デプロイ、運用までを一元的に実施できる環境を提供しています。Notebook、Spark、MLflow などの標準ツールを組み込んでいるので、スケーラブルでセキュアな機械学習ワークフローを実現することが可能です。
またMicrosoft Fabric 内の他のコンポーネント(Lakehouse, Data Factory, Power BI など)とスムーズに連携できる点も大きな強みです。データの取り込みからモデルの構築・運用まで、エンドツーエンドで最適化された環境を活用できます。
Data Science を活用することで、データサイエンティストはより迅速にインサイトを得て、ビジネスの意思決定を加速できます。データ活用が競争力の鍵となる現代において、企業の成長を支える強力なツールとなるでしょう。
本記事が、Microsoft Fabric のData Science の理解を深め、皆様のデータ活用の一助になれば幸いです。
東京エレクトロンデバイスは、Microsoft Fabricの導入を支援しています。データ活用基盤の構築、データ統合、分析に関するご相談など、専門知識を持つスタッフがお客様の課題解決をサポートします。
無料相談も受け付けておりますので、お気軽にご相談ください。 お問い合わせはこちら




