データマート - Databricks
    • PDF

    データマート - Databricks

    • PDF

    The content is currently unavailable in Korean. You are viewing the default Ja - 日本語 version.
    기사 요약

    概要

    Databricksを用いたデータマート定義の設定のDocsです。

    設定項目

    基本設定

    項目名必須内容
    Databricks接続情報あらかじめ登録してあるDatabricksの接続情報から、今回のデータマート定義に必要な権限を持つものを選択します。
    カスタム変数-ここで設定したカスタム変数をクエリやカタログ名・スキーマ名・テーブル名などに埋め込むことができます。
    詳しくはカスタム変数についてをご参照ください。

    クエリ設定

    項目名必須内容
    クエリ実行モード以下のいずれかのモードを選択します。
  • データ転送モード
    クエリと出力先テーブルを指定するだけで、簡単にテーブルへの洗い替え・追記を実行できます。
  • 自由記述モード
    接続先のDWHに対して、任意のDML・DDLステートメント(INSERTDELETEや、CREATEDROPなど)を記述し、実行できます。
  • クエリクエリを入力します。
    クエリ内でテーブル名を指定するときは、以下の形式で記述ください。
  • データ転送モードの場合:catalog_name.schema_name.table_name
  • 自由記述モードの場合:catalog_name.schema_name.table_name

  • なおデータ転送モードを選択している場合は、プレビュー実行をクリックすることで、実行結果を確認することもできます。
    クエリの整形

    クエリ編集欄の左下にある クエリを整形をクリックすることで、入力したSQLクエリを自動で整形できます。
    整形処理では、キーワードの配置やインデント、改行などが見やすく再配置されます。

    データ転送モードを選択した場合

    項目名必須内容
    出力先カタログデータ出力先のカタログ名を入力します。
    詳しくはDatabricks公式ドキュメント - カタログを参照ください。
    出力先スキーマデータ出力先のスキーマ名を入力します。
    詳しくはDatabricks公式ドキュメント - スキーマを参照ください。
    出力先テーブルデータ出力先のテーブル名を入力します。
    詳しくはDatabricks公式ドキュメント - テーブルを参照ください。
    書き込みモード以下のいずれかのモードを選択します。
    • 追記
      • 既存のテーブルのレコードの後に、クエリ実行結果が追記されます。
    • 全件洗い替え (TRUNCATE INSERT)
      • 既存のテーブルのレコードが削除されてクエリ実行結果に置き換えられます。
    • 全件洗い替え (REPLACE)
      • 既存のテーブルがDROPされてクエリ実行結果に置き換えられます。
    テーブルの自動作成

    データ転送モードを選択した場合、出力先テーブルが存在しないときにテーブル作成権限がある場合には自動でテーブルが作成されます。

    全件洗い替え (REPLACE)モードの注意点

    全件洗い替え (REPLACE)モードを選択した場合、既存のテーブルが削除されてから新しいテーブルが作成されます。このため、テーブルに設定されていたパーティション設定などが失われる可能性があります。ご注意ください。

    ジョブ起動設定

    項目名必須デフォルト値内容
    ジョブの並列実行並列でのジョブ実行はしないジョブ実行時点で、同一のデータマート定義による他のジョブが実行中の場合に、ジョブを実行するかどうかを選択します。
  • 並列でのジョブ実行はしない:ジョブは実行されずスキップされます。
  • 並列でのジョブ実行を許可:ジョブは実行されます。
  • 必要な権限

    ご利用いただくにあたって必要な権限は、Databricksの接続情報をご参照ください。

    データマート定義でDatabricksを利用する場合、以下の権限が必要です。

    データ転送モードを利用する場合

    新規にテーブルを作成、もしくは自分がオーナーのテーブルの場合に必要な権限

    • 対象カタログのUSE_CATALOG
    • 対象スキーマのUSE_SCHEMACREATE TABLE

    自分がオーナーではないテーブルの場合に必要な権限

    • 書き込みモード:全件洗い替え (REPLACE)を利用する場合
      • 対象カタログのオーナー
      • 対象スキーマのオーナー
      • 対象テーブルのMODIFYSELECT
    • 書き込みモード:全件洗い替え (REPLACE)以外のモードを利用する場合
      • 対象カタログのUSE_CATALOG
      • 対象スキーマのUSE_SCHEMACREATE TABLE
      • 対象テーブルのMODIFYSELECT

    自由記述モードを利用する場合

    実行するクエリの内容に応じて、必要な権限が異なります。
    Databricksの権限管理について、詳しくはDatabricks公式ドキュメント - Unity Catalogで権限を管理するを参照ください。

    Compute Resource(Warehouse/Cluster)について

    Databricksデータマート定義では、接続情報で指定したHTTP Pathに基づいて、SQL WarehouseまたはClusterのいずれかでクエリが実行されます。

    • SQL Warehouse:SQL分析ワークロードに最適化されたコンピューティングリソース
    • Cluster:汎用的なコンピューティングリソース

    HTTP Pathによって自動的に適切なリソースが選択され、クエリが実行されます。
    Compute Resourceの詳細については、Databricks公式ドキュメント - Computeを参照ください。


    이 문서가 도움이 되었습니까?