データマート - Azure Synapse Analytics
    • PDF

    データマート - Azure Synapse Analytics

    • PDF

    記事の要約

    概要

    Azure Synapse Analyticsを用いたデータマート定義の設定のヘルプページです。

    設定項目

    STEP1 基本設定

    項目名必須デフォルト値内容
    Azure Synapse Analytics接続情報Yes-あらかじめ登録してあるAzure Synapse Analyticsの接続情報から、今回のデータマート定義に必要な権限を持つものを選択します。
    カスタム変数No-ここで設定したカスタム変数をデータベース名、クエリ、スキーマ名、テーブル名に用いることができます。
    データベースYes-処理に利用するデータベース名を指定します。

    クエリ設定

    項目名必須デフォルト値内容
    クエリ実行モードYesデータ転送モード以下2つのモードから選択することができます。
    ・データ転送モード
     SQLと出力先テーブルを指定するだけで、簡単にテーブルへの洗い替え・追記を実行することができます。
    ・自由記述モード
     接続先のDWHに対して、任意のクエリ(DDL、DELETE、INSERTなど)を自由に実行することができます。
    クエリYes-Azure Synapse Analyticsから転送データを取得するためのSQLを入力します。
    カスタム変数を利用し、TROCCOのデータ転送時に動的に設定値を決定することも可能です。

    また、以下設定はクエリ実行モードがデータ転送モードの場合のみ指定できます。

    データ出力先設定

    項目名必須デフォルト値内容
    出力先スキーマYes-データ出力先のスキーマ名を指定します
    存在するスキーマを指定してください。
    出力先テーブルYes-データ出力先のテーブル名を指定します。
    テーブルが存在しない場合は転送時に新しく作成されます。
    出力先テーブルのテーブル構造Yesヒープ (HEAP)テーブル構造を選択します。
    詳しくは、後述のテーブル構造についてを参照ください。
    出力先テーブルのインデックス キー列Yes-テーブル構造クラスター化列ストア インデックス (CLUSTERED COLUMNSTORE INDEX)を選択したときに入力します。
    インデックスのキー列名の入力および順序を指定してください。
    出力先テーブルのテーブル分散Yesラウンド ロビン分散 (ROUND_ROBIN)テーブル分散を選択します。
    詳しくは、後述のテーブル分散についてを参照ください。
    出力先テーブルのディストリビューション列Yes-テーブル分散ハッシュ分散 (HASH)を選択したときに入力します。
    ハッシュキーとなるディストリビューション列名を指定してください。
    出力先テーブルの書き込み設定Yes-以下のいずれかの書き込み方法を選択します。
    • 追記
      • 既存のテーブルのレコードの後に、クエリ実行結果が追記されます。
    • 全件洗い替え
      • 既存のテーブルのレコードが削除されてクエリ実行結果に置き換えられます。
    すでにAzure Synapse Analyticsにテーブルが存在する場合

    すでにAzure Synapse Analyticsに存在するテーブルに対して追記する場合、TROCCO側の以下の設定は反映されず、既存のテーブル側の設定が維持されます。

    • 出力先テーブルのテーブル構造
    • 出力先テーブルのテーブル分散

    テーブル構造について

    テーブル構造について、詳しくはAzure Synapse Analytics公式ドキュメント - テーブル構造オプションを参照ください。

    テーブル構造内容
    ヒープ (HEAP)テーブルをヒープとして格納します。
    クラスター化列ストア インデックス (CLUSTERED COLUMNSTORE INDEX)テーブルをクラスター化列ストア インデックスとして格納します。
    クラスター化インデックス (CLUSTERED INDEX)テーブルを1つまたは複数のキー列を含むクラスター化インデックスとして格納します。

    テーブル分散について

    テーブル分散について、詳しくはAzure Synapse Analytics公式ドキュメント - テーブル分散オプションを参照してください。

    テーブル分散内容
    ハッシュ分散 (HASH)最大8列のハッシュ値に基づいて行を分散させます。
    ラウンド ロビン分散 (ROUND_ROBIN)行をラウンドロビン方式ですべてのディストリビューションに均等に分散させます。
    レプリケート (REPLICATE)テーブルの1つのコピーを各コンピューティングノードに格納します。

    ジョブ起動設定

    項目名必須デフォルト値内容
    ジョブの並列実行Yes並列でのジョブ実行はしないジョブ実行時点で、同一のデータマート定義による他のジョブが実行中の場合に、ジョブを実行するかどうかを選択します。
  • 並列でのジョブ実行はしない:ジョブは実行されずスキップされます。
  • 並列でのジョブ実行を許可:ジョブは実行されます。

  • この記事は役に立ちましたか?