【Microsoft Fabric】Data Scienceとは？統合環境で実現するシームレスなデータサイエンスワークフロー

Microsoft FabricのData Scienceとは

Microsoft FabricにおけるData Scienceとは、Microsoft Fabric に組み込まれたデータサイエンティスト向けの統合プラットフォームです。

ここではまず、Microsoft Fabricについて説明した後に、 Microsoft FabricにおけるData Scienceを理解する上で重要となるデータサイエンスの概念についてもご説明します。

Microsoft Fabricとは

Microsoft Fabricは、Microsoftによる、データの統合・分析・可視化を一元的に行うことができるクラウドプラットフォームです。 Microsoft Fabricには、Data Factory、Data Engineering、Data Warehouse、Power BIなどのツールが統合されており、すべてのプロセスを一つのプラットフォームで完結できることが可能です。

Microsoft Fabricサービス一覧（Microsoft Fabricサービス一覧）（参考：Microsoft）

データサイエンスとは？

Microsoft Fabric のData Scienceは、Microsoft Fabric内のさまざまな機能を活用してデータサイエンスを行うためのツールですが、そもそもデータサイエンスとはどのようなものでしょうか。

データサイエンスとは、データを分析して価値のある情報を引き出す技術のことです。統計学・プログラミング・ビジネス知識を活用し、データから予測や意思決定を行うことを目的とします。

例えば、データサイエンスを用いることで以下のことが可能となります。

売上データを分析して、売れ筋商品を特定する。
顧客の購買パターンを分析してマーケティング戦略を立てる。
センサーデータを使って設備の異常を予測する。

データサイエンスの流れ（プロセス）

データサイエンスを実現するためには、以下のようなプロセスをたどる必要があります。

データサイエンスの流れイメージ（参考：Microsoft）（図のアイコンは左から順に、1: 問題の定義、2: データの取得、3: データの準備・取り込み、4: モデルのトレーニング、5: 予測の実行までを模式的に示しています）

1.問題の定義

最初に、どのような予測をしたいかを明確にします。例えば、「顧客の購買予測」や「仕入れ量の予測」など、具体的な目標を設定することが重要です。

2. データの取得

機械学習モデルを作成するために、必要なデータを集めます。

3. データの準備・取り込み

データはそのままでは利用できないことが多いため、クリーニングや変換を行います。不要なデータの削除、欠損値の処理、特徴量のエンジニアリングを実施し、モデルの学習に適した形式に整えます。

4. モデルのトレーニング

適切な機械学習アルゴリズムを選び、モデルを学習させます。試行錯誤を繰り返しながら、アルゴリズムやハイパーパラメータの調整を行います。

5. 予測の実行

トレーニング済みのモデルを使って、新しいデータの売上を予測します。実際の運用では、定期的にデータを更新し、モデルを使って自動的に予測を行うことが一般的です。また、予測の精度を確認し、必要に応じてモデルを再学習することで、精度を維持します。

データサイエンスのプロセス具体例

ここで具体例で考えてみましょう。

スーパーマーケットでパンの仕入れ量を最適化するために、データサイエンスを活用するとします。このプロセスは、以下の流れで進められます。

1. 問題の定義

パンの売れ行きを予測し、売れ残りや品切れを防ぐことを目標とする。

2. データの収集

過去の売上データに加え、天気や曜日、特売日 などの影響する要素も集める。

3. データの準備

欠損しているデータを補完し、異常なデータを修正する。
曜日や天気などの要因を数値化し、分析しやすくする。

4. モデルのトレーニング

過去のデータをもとに売上予測モデルを作成する。
時系列予測や回帰分析など複数の方法を試し、最も精度の高いモデルを選ぶ。

5. 予測の実行

新しいデータをモデルに入力し、来週の仕入れ量を計算する。
予測結果をもとに発注計画を立て、実際の売上と比較しながらモデルを改善する。

このようなプロセスをたどることで、以下のようなメリットがあります。

過去の売上を分析することで、「どの曜日にパンがよく売れるのか」「天候が売れ行きに影響するのか」などのパターンを発見することができます。
機械学習を活用し、無駄のない仕入れができるため、売れ残りや品切れを減らすことが可能です。
データを活用することで、感覚ではなく根拠に基づいた仕入れができるようになります。

従来のデータサイエンスの課題

データサイエンスは各プロセスを実行する必要がありますが、従来のデータサイエンスでは、各プロセスを異なるツールや環境で実行する必要があり、データの統合や管理、運用に多くの手間がかかっていました。

Microsoft FabricのData Scienceは、こうしたデータサイエンスのプロセスをMicrosoft Fabricという一つの環境で行うことができるようにするツールとして注目されています。

Microsoft Fabricにおけるデータサイエンスのプロセス

データサイエンスには、データの準備から機械学習、予測結果の活用まで一連のプロセスがあります。Microsoft Fabricでは、これを以下のように実現します。

1. 問題の定義

ビジネスの課題を明確にするためには、既存のデータを分析し、インサイトを得ることが重要です。 Power BIを活用することで、過去のデータの可視化やダッシュボードの作成が可能になり、モデルの目的を具体化することができます。

2. データの収集

Microsoft Fabricでは、以下の機能によりさまざまなデータソースからデータを取り込み、一元管理することが可能です。

ローカルやクラウドのデータを取り込み（ローカルPC, Azure Data Lake Storage Gen2 など）
OneLake にデータを保存（Microsoft Fabric の統合データ貯蔵庫）
レイクハウスを活用してデータを管理・処理（構造化・半構造化・非構造化データに対応）

3. データの準備

データは、そのままでは使用できないことが多いため、Microsoft Fabricの以下の機能を活用してデータの準備を行います。

Notebooks（Python, PySpark, R）を使ってデータを加工
Data Wrangler を活用し、ノーコードでデータクレンジングを実施
Apache Spark による大規模データの処理

4. モデルのトレーニング

以下のツールを活用して、モデルを作成しトレーニングします。

Python（scikit-learn, TensorFlow, PyTorch など）を使ってモデルを作成
SynapseML を活用し、大規模なデータに対する機械学習を実施
MLflow を利用して、モデルの実験・評価・管理を行う

5. 予測の実行

以下の機能を活用して作成したモデルを使って、予測を行います。

PREDICT 関数を使い、新しいデータに対して予測を適用
Power BI で予測結果をリアルタイム可視化

このように、Microsoft Fabricのさまざまな機能を組み合わせることで、一つの環境でデータサイエンスを実行することが可能となります。

Microsoft FabricのData Scienceの主な機能

Microsoft FabricのData Scienceには、データの分析や機械学習をスムーズに進めるための機能が揃っています。ここではMicrosoft FabricのData Scienceで利用できる機能について詳細にご紹介します。

Notebook（ノートブック）

ノートブックとは、PythonやRを使ってデータ分析や機械学習を行うための環境のことです。Jupyter Notebookに似たインターフェースで、コードを書いてすぐに実行することができます。

例えば、売上データを分析するとき、Microsoft Fabricのノートブックだけで以下のような作業をすべて行うことができます。

OneLake からデータを取得し、Pandas で処理
グラフを作成して、売上の傾向を可視化
機械学習モデルを作成し、売上の予測を実施

Spark

Sparkとは、大量のデータを高速に処理するためのツールです。例えば、100万件の売上データを扱うとき、通常の Python では処理に時間がかかりますが、Sparkを使えば並列処理で素早く計算できます。

Microsoft Fabric では、Sparkを使って以下を行うことが可能です。

OneLake に保存された大規模データを、分散処理で素早く集計
モデルをトレーニングするときに、大量のデータを一括処理
Python（PySpark）や Scala を使って、データの加工や分析を高速化

Sparkは主にデータの処理・準備・分析で用いられ、データ量が多い場合でも、処理がスムーズに進むため、大規模な機械学習にも対応できます。

MLflow

MLflowとは、機械学習モデルを管理するためのツールです。

機械学習では、さまざまなアルゴリズムやパラメータを試しながら、最適なモデルを探します。その過程で、「どの設定が一番良かったのか？」を記録しておくことが重要です。

MLflow を使うと、以下のようなことが可能です。

実験ごとにデータを保存し、後で比較できるようにする
どのモデルが最適だったのかを確認し、バージョン管理できる
過去の実験結果を見ながら、新しいデータで再トレーニングが可能

つまり、機械学習の試行錯誤を効率的に管理し、最適なモデルを選ぶことが容易になります。

SynapseML

SynapseMLは、主に機械学習の実行・AI モデルの活用の場面で用いられるApache Sparkを活用した機械学習のためのライブラリです。

Microsoft Fabric では、SynapseML を使って以下のようなことができます。

大規模な売上データを学習し、顧客の購買行動を予測
画像認識や異常検知などの高度な AI モデルを実装
Azure AI サービスと連携し、事前学習済みの AI モデルを活用

通常の機械学習ライブラリ（scikit-learn など）は、少量のデータには適していますが、大規模データには向いていません。しかしSynapseML を使うと、数百万件以上のデータでも効率的に学習することができます。

セマンティックリンク

セマンティックリンクは、Power BI のデータモデルを Python で直接扱えるようにする機能です。

通常、データサイエンティストが Power BI のデータを使って機械学習をしようとすると、売上計算ルールなどのビジネスロジックを再現する必要があり、手間がかかります。

セマンティックリンクを使えば、Power BI に組み込まれた計算ルールやデータ構造をそのまま利用できるため、データ準備の手間を大幅に削減することができます。

具体的には、SemPyというPythonライブラリを使い、Power BIの計算項目（メジャー）をそのままPythonコード内で活用可能です。これによりビジネスロジックを再実装せずに、すぐにデータ分析や機械学習が可能になります。

他の Microsoft Fabric コンポーネントとの統合

Data Science は、以下のようにMicrosoft Fabric 内のさまざまなコンポーネントと統合することができます。

Data Factory

Data Factory を使って、様々なデータソースからデータを収集・変換し、Data Science で利用できる形式に加工。

Data Engineering

Data Engineering の Spark 環境を使って、大規模なデータセットの前処理を行い、Data Science でのモデル開発を効率化。

Data Warehouse

Data Warehouse に蓄積された構造化データを、Data Science での分析に活用。

Real-Time Analytics

ストリーミングデータを Real-Time Analytics でリアルタイムに処理し、その結果を Data Science でモデルの入力として使用。

Power BI

Data Science での分析結果を、Power BI で可視化し、ダッシュボードやレポートを作成。

Microsoft FabricのData Scienceと他のツールとの比較

Data Science は、Microsoft Fabric に統合されたデータサイエンス向けの環境です。同様の機能を持つツールとして、Azure Machine LearningやAzure Databricksなどがあり、それぞれ異なる特徴を持っています。

ここでは、Data Science と他のツールを比較し、どのような用途に適しているかを整理します。

Azure Machine Learningとの比較

Azure Machine Learning（Azure ML）は、機械学習モデルの開発・トレーニング・デプロイをクラウド上で行うためのプラットフォーム です。類似点・相違点は次のとおりです。

類似点

どちらも Microsoft のクラウドサービス上で動作します。
Notebook や MLflow、主要な機械学習ライブラリをサポートしています。
機械学習モデルの開発から運用まで対応可能です。

相違点

Microsoft Fabricでは SynapseML を活用した Spark ベースの分散機械学習が可能ですが、 Azure MLでは Azure Synapse Analytics との統合を通じて Spark を利用可能です。
AutoML（自動機械学習）については、 Microsoft FabricのData Science では プレビュー中ですが、Azure Machine Learning では 正式にサポート されています。

活用場面

Microsoft Fabricエコシステム内で一貫したデータ分析を行いたい場合はData Scienceが適しています。
AutoMLなどの高度な機械学習機能を利用したい場合や、 Microsoft Fabricに依存しない独立した環境で開発を行いたい場合は、Azure Machine Learning が適しています。

Azure Databricks との比較

Azure Databricks は Apache Spark を活用した、Azure 上の統合データ分析・機械学習プラットフォームです。ここでは、Microsoft Fabric の Data Science 環境と、Azure Databricks 上でデータサイエンスを行う場合の機能や特徴を比較します。

類似点

どちらも Spark をベース としており、大規模なデータセットの処理を得意としています。
ノートブック環境 を提供し、Python、R、Scala などの言語をサポートしています。
MLflow を活用した実験管理機能を備えています。

各サービスの比較

項目	Data Science	Azure Databricks
提供プラットフォーム	Microsoft Fabric内で提供	Azure 上のマネージドサービス
データ連携	Microsoft FabricのLakehouseやPower BIとのネイティブな統合	Delta Lake を中心としたデータレイクハウス管理
データ処理のスコープ	Microsoft Fabric内でのデータ分析 + 機械学習に特化	データエンジニアリング（ETL）+ AI/MLを広くカバー

活用場面

Microsoft Fabric Data Science: Microsoft Fabricエコシステムとのシームレスな連携を重視し、Fabric内でデータ準備から分析、可視化まで一貫したワークフローを実現したい場合に特に適しています。
Azure Databricks: Delta Lakeを中心とした高度なデータレイクハウス基盤を構築・活用したい場合や、成熟したデータエンジニアリング機能を必要とする場合に適しています。

Microsoft Fabric Data Scienceの使い方

ここでは、Data Science の使い方を簡単な例を挙げてご説明します。各ステップの概要は以下となります。

ローカルからのデータの取り込み
Data Wranglerを使用したデータの準備
MLflowを使用した最適なモデル選択

※ 前提条件は以下となります。

Fabric ワークスペースおよびノートブックが作成済みであること（詳細は、こちらをご覧ください。）

ステップ1: ローカルからのデータの取り込み

Microsoft Fabric ポータルにアクセスし、Fabricアカウントでサインインします。
データを編集する対象のノートブックに移動します。
「リソース」をクリックします。リソース選択画面
「ファイルのアップロード」をクリックします。ファイルのアップロード選択画面
「次へ」をクリックします。次へ選択画面
ファイルが正常にアップロードされたことを確認します。アップロード完了画面

ステップ2: Data Wranglerを使用したデータの準備

捜査対象のノートブック画面で「Data Wrangler」にカーソルを当て、使用するデータ(ここではdfを使用)を選択します。DataWrangler選択画面
Data Wrangler 画面が開きます。この画面は Microsoft Fabric の「Data Wrangler」を使用して、データを可視化・クリーニング・変換するためのインターフェースです。 Pandas DataFrame を GUI で操作し、データの前処理を直感的に行うことができます。