Microsoft Fabric の Data Engineering とは
Microsoft Fabric の Data Engineering は、Microsoft が提供する Microsoft Fabric の一部であり、データの取り込み、変換、統合、処理などのデータエンジニアリングを行うためのサービスです。
ここでは Microsoft Fabric の Data Engineering を理解する上での前提知識や概要についてご紹介します。
データエンジニアリングとは
データエンジニアリング(Data Engineering)とは、データを収集・加工・保存し、分析や機械学習で活用できる形にする技術やプロセスのことです。
企業や組織では、日々膨大なデータが生成されます。しかし、そのデータはバラバラの形式だったり、不要な情報が含まれていたりするため、そのままではデータ分析の際にうまく活用することができません。
そこで、データエンジニアリングという技術を活用することで、データを整理・統合・変換し、分析しやすい状態にすることが必要となります。
例 :
EC サイトの場合、注文履歴、在庫データ、顧客データなど多数のデータの中から不要なデータを削除し、フォーマットを統一(例:日付の形式を統一、通貨を統一)する処理などを指します。
Microsoft Fabric とは
Microsoft Fabric の Data Engineering は、Microsoft Fabricの中の一つのサービスです。
Microsoft Fabric とは、Microsoft が提供するデータ統合・データ処理・データ分析・機械学習・ビジネスインテリジェンス(BI)を すべて統合したデータプラットフォームです。 つまりこのサービスを使うことで、データ活用に必要なすべての機能を一か所で管理することができるようになります。
【関連記事】
Microsoft Fabric とは?Microsoft Fabric の概要や特徴、ユースケースなどをくわしく解説

Microsoft Fabric イメージ(参考:Microsoft)
Microsoft Fabric 全体での Data Engineering の位置づけ
Microsoft Fabric でのデータ処理の流れは次のとおりです。
- データの収集: Data Factory を使って、さまざまなデータソースからデータを取り込みます。
- データの加工: Data Engineering でクレンジング(不要なデータの削除)や変換を行います。
- データの保存: OneLake や Data Warehouse にデータを格納します。
- データの活用: Power BI や Data Science を活用し、データの可視化や機械学習に利用します。
Microsoft Fabric サービス概要図(参考:Microsoft)
つまり、Microsoft Fabric のデータ処理の流れの中で、Data Engineering は、取り込まれたデータを整えて、分析や可視化、機械学習などに適した形に整える役割を担っています。
Microsoft Fabric の Data Engineering の特徴
ここでは、Microsoft Fabric の Data Engineering の特徴について解説します。
Data Engineering の特徴(参考:Microsoft)
ノートブックによる開発
Microsoft Fabric ノートブックとは、Microsoft Fabric で提供されるWeb ベースの対話型ノートブック環境です。
ここでいうノートブックとは、プログラム(主に Python や SQL)を書いて、その場で実行しながらデータ分析や機械学習を進めるためのツールのことです。
Microsoft Fabric ノートブックイメージ(参考:Microsoft)
Microsoft Fabric の Data Engineering ではこのノートブックを使うことができるので、以下のようにデータの準備から可視化・分析までをスムーズに進めることができます。
- プログラムを一部分ずつ実行し、エラーやデータの状態を確認しながら進めることができます。
- 視覚的な分析結果を表示したり、チームメンバーとドキュメントとして共有したりすることができます。
- Python、R、Scala などの言語でデータ処理・分析が可能です。
- データの取り込み(インジェスト)、加工・準備、解析 などのタスクを簡単に実行することができます。
Spark ジョブの実行
Apache Spark(アパッチ・スパーク)とは、大規模データを高速に処理できる分散処理フレームワークです。従来のデータ処理技術に比べて 数十倍の速度でデータを処理できるため、ビッグデータの分析や機械学習に広く使われています。
Microsoft Fabric の Data Engineering では、この Spark をサーバーレスで活用し、大規模なデータ処理を実行することができます。
Spark ジョブは、ノートブックから直接実行することも、後述する Data Factory のパイプラインから実行することも可能です。
データパイプラインの構築
データパイプラインとは、Data Engineering の主要な機能の1つで、データを収集・処理・変換・統合し、分析や機械学習に適した形にする一連のプロセスのことを指します。
例えば、EC サイトの売上データを分析する場合にパイプラインを用いると、以下のような流れの自動化が実現します。
- データの収集 → 売上情報や在庫データをクラウドやデータベースから取得
- データの処理 → 形式を統一し、不要なデータを削除
- データの変換 → 売上ごとの傾向を抽出し、レポート用のデータにまとめる
- データの保存・活用 → Power BI で売上分析のレポートを作成
パイプラインイメージ(参考:Microsoft)
Data Engineering では、Data Factory と連携し、クラウドやオンプレミスのデータソース、API などからデータを取得し、レイクハウスへ保存するパイプラインを設計することができます。
【関連記事】
【Microsoft Fabric】Data Factory とは?クラウドベースのデータ統合サービスを徹底解説
レイクハウス
レイクハウス(Lakehouse)とは、企業や組織が さまざまな種類のデータ(構造化データ・非構造化データ)を一元的に管理し、活用できるデータの保管・処理基盤のことです。 Microsoft Fabric では、「OneLake」というデータストレージを基盤とし、レイクハウスの仕組みを採用しています。
そのため Data Engineering では、このレイクハウスを活用し、異なる種類のデータを一元的に管理することができます。
またレイクハウスではデータを処理・分析するための多様なツール(SQL クエリ、機械学習フレームワークなど)と統合することが可能なので、企業はデータの管理・分析の効率を大幅に向上させることが可能となります。
セキュリティとガバナンス
Microsoft Fabric では、以下のようなセキュリティ機能を提供されています。 そのため、Data Engineering を利用する際にも安全にデータを管理することができます。
- データの暗号化 データは保存時・転送時に暗号化され、不正アクセスを防ぐことができます。
- アクセス制御の強化 Microsoft Entra ID との連携により、ユーザーごとのアクセス権限を管理可能です。
- ガバナンスの適用 Microsoft Purview と統合し、データカタログやガバナンスポリシーを適用することもできます。
類似サービスの特徴と使い分け
ここでは、類似のデータエンジニアリングサービスである Azure Databricks と Azure Synapse Analytics の特徴を整理し、 使い分けのポイントを解説します。
Azure Databricks
Azure Databricks は、Databricks 社と Microsoft のパートナーシップにより提供されるサービスで、Databricks の機能を Azure 上で統合的に利用できる PaaS です。
Spark ベースの高性能な分析基盤であり、特にデータサイエンスや機械学習のワークロード、Delta Lake を活用したレイクハウス構築に強みがあります。
Azure Synapse Analytics
Azure Synapse Analytics は、エンタープライズ向けの データウェアハウスとビッグデータ分析を統合する PaaS 型プラットフォームです。 専用 SQL プールによる大規模なデータウェアハウス機能に加え、Spark やサーバーレス SQL によるデータレイク分析機能を、1 つのワークスペースで提供します。
各サービスの使い分け
これらのサービスは、それぞれ得意とする分野やユースケースが異なります。導入にあたっては、自社の技術要件や既存環境、将来的な拡張性を踏まえて選択することが重要です。
以下に、代表的なユースケースをご紹介します。
サービス名 | 代表的なユースケース |
|---|---|
Microsoft Fabric Data Engineering | Microsoft Fabric を中心とした統合分析環境を構築したい場合。初期構築の手間を抑えたい場合 |
Azure Databricks | 機械学習・生成 AI・大規模データ処理が中心。Spark パフォーマンスを最大限に活用したい場合 |
Azure Synapse Analytics | 既存で Synapse 環境があり、SQL でのバッチ・ETL が中心、段階的に分析環境を拡張したい場合 |
Microsoft Fabric の Data Engineering の使い方
ここでは、Microsoft Fabric の Data Engineering を使い始めるための具体的な手順を説明します。各ステップの概要は以下となります。
- ステップ 1: レイクハウスを作成する
- ステップ 2: CSV ファイルを取り込む
- ステップ 3: ノートブックの作成
- ステップ 4: Apache Spark ジョブの実行
※前提条件は以下となります。
- Microsoft Fabric に使用可能なワークスペースが作成されていること(こちらを参考にしてください。)
- CSV ファイルを取り込む前に、OneDrive を構成しておく必要があります。
ステップ 1: レイクハウスを作成する
まず、Microsoft Fabric で レイクハウス(データストレージ) を作成します。
- Microsoft Fablic ポータルにアクセスし、Fablic アカウントでサインインします。
Fabric ホーム画面 - ① 左側のナビゲーションメニュー から「ワークスペース」をクリックし、 ② 既存のワークスペースを選択 するか、「新しいワークスペースを作成」します。
ワークスペースボタン
※ここでは、既存のワークスペース(workspacetest1)を選択します。
- 「新しい項目」 をクリックし、「レイクハウス」を選択します。
新しい項目ボタン - レイクハウスの名前 を入力(例:「lakehousetest1」)したら、「作成」をクリックします。
レイクハウス作成画面
ステップ 2: CSV ファイルを取り込む
作成したレイクハウスに CSV データをアップロード して、データを利用できるようにします。
- レイクハウスのホーム画面 で ①「データを取得」をクリックし、②「新しいデータフロー Gen2」を選択します。
データを取得画面 - 「text ファイルまたは CSV ファイルからインポート」を選択します。
インポートボタン - ①「ファイルのアップロード」を選択 ②CSV ファイルをドラッグ&ドロップ ③「次へ」をクリックします。
アップロード画面 (ここでは、publicholidays.csv をアップロードしました。)
- 「作成」をクリックします。
作成ボタン
ステップ 3: ノートブックの作成
ノートブック(Notebook) を作成し、データを操作・分析できる環境を準備します。
- 使用可能なワークスペースで「新しい項目」をクリックします。
新しい項目画面 - 「ノートブック」をクリックします。
ノートブック画面 - 新規ノートブックが作成されたことを確認します。
新規ノートブック画面
ステップ 4: Spark ジョブの実行
PySpark コードを編集することによってレイクハウス上のデータを直接読み取ったり編集したりすることができます。
- 作成したノートブックの「ホーム」画面で、「レイクハウス」をクリックします。
レイクハウス選択画面 - 「追加」をクリックします。
レイクハウス追加選択画面 - 「レイクハウスの追加」画面で、「スキーマがない既存のレイクハウス」を選択します。 「追加」をクリックします。
レイクハウスの追加画面 - 対象のレイクハウスを選択し、「接続」をクリックします。
レイクハウス接続画面 - レイクハウスが正常に接続されたことを確認します。
正常接続画面 - PySpark で以下のコードを作成します。 テーブルを読み取るコードとなります。
show 画面
出力は以下となります。
show 出力画面
- SQL のクエリを発行することも可能です。 以下は SELECT 文の例となります。
SELECT 文画面
出力は以下となります。
SELECT 文出力画面
- データの前処理(NULL 値処理・型変換)を行う例です。
データのクリーニングコード例
出力は以下となります。
データのクリーニング出力画面
Microsoft Fabric の Data Engineering 活用場面
ここでは、Data Engineering が役立つ具体的な場面をご紹介します。
EC サイトの売上分析
EC サイトで商品の売れ行きを分析し、売上を伸ばすために Data Engineering を以下のように活用することができます。
活用例
- データを統合して、一箇所で分析できるようにする
- データを整形(不要な情報を削除、重複を整理)
AI・機械学習のデータ準備
AI の精度向上のための学習データを作る場合、さまざまなデータソース(テキスト、画像、センサーデータ)を統合したり、ノイズを取り除く必要があります。その場合 Data Engineering を以下のように活用することができます。
活用例
- 異なるデータソースを統合(IoT、SNS、ログデータなど)
- ノイズデータを除去 し、クリーニングする
- AI が学習しやすいフォーマットに変換
医療データの分析
病院ごとに異なる電子カルテシステムを使っており、データが統一されていない場合や患者の診察履歴・検査結果・治療データを一元管理したい場合、Data Engineering は以下のように役立ちます。
活用例
- 異なる病院のデータを統合(カルテ・検査データ・薬の処方履歴)
- データのクレンジング・フォーマット変換(異なる電子カルテシステムのデータを統一)
- データパイプラインを構築(データを定期的に更新し、リアルタイム処理を可能にする)
Microsoft Fabric の Data Engineering の料金
Microsoft Fabric の Data Engineering の料金は、Microsoft Fabric の全体的な料金体系に含まれます。
Microsoft Fabric は 「容量ベースの課金モデル」 を採用しており、Data Engineering だけの専用料金プランは存在しません。 つまり、Microsoft Fabric のライセンス(容量単位)を契約すれば、Data Engineering も利用できる仕組みになっています。
※本記事に記載されている情報は、2025 年 3 月時点の情報です。変動する可能性があるため、最新情報はMicrosoft Fabric の料金詳細をご覧ください。
まとめ
本記事では、Microsoft Fabric の Data Engineering について、その概要、機能、メリット、他のデータエンジニアリング製品との比較、使い方、ユースケースについて解説しました。
Microsoft Fabric の Data Engineering は、データの収集・変換・保存を効率化するプラットフォームです。サーバーレスの Spark 環境やノートブックを活用して、柔軟なデータ処理が可能です。特に、Data Factory との統合により、データパイプラインを自動化できるため、データ処理の手間を大幅に削減できます。また、OneLake と連携することで、データを一元管理し、Power BI や AI の活用をスムーズに進められるのも大きな強みです。
Microsoft Fabric の Data Engineering を活用すれば、データの準備や加工が効率化され、データ分析や機械学習の精度向上につながるでしょう。
本記事が、Microsoft Fabric の Data Engineering の理解を深め、皆様のデータエンジニアリングプロジェクトの一助となれば幸いです。
東京エレクトロンデバイスは、Microsoft Fabric の導入を支援しています。データ基盤の構築、リアルタイム分析環境の構築、既存システムとの連携など、お客様の課題や目的に合わせて幅広くサポートいたします。
「データ活用を加速したい」「リアルタイムなデータ分析を実現したい」といったご要望がございましたら、ぜひお気軽にご相談ください。
お問い合わせはこちら




