データマート - Databricks
- 印刷
- PDF
データマート - Databricks
- 印刷
- PDF
記事の要約
この要約は役に立ちましたか?
ご意見いただきありがとうございます
概要
Databricksを用いたデータマート定義の設定のDocsです。
設定項目
基本設定
項目名 | 必須 | 内容 |
---|---|---|
Databricks接続情報 | ✓ | あらかじめ登録してあるDatabricksの接続情報から、今回のデータマート定義に必要な権限を持つものを選択します。 |
カスタム変数 | - | ここで設定したカスタム変数をクエリやカタログ名・スキーマ名・テーブル名などに埋め込むことができます。 詳しくはカスタム変数についてをご参照ください。 |
クエリ設定
項目名 | 必須 | 内容 |
---|---|---|
クエリ実行モード | ✓ | 以下のいずれかのモードを選択します。 クエリと出力先テーブルを指定するだけで、簡単にテーブルへの洗い替え・追記を実行できます。 接続先のDWHに対して、任意のDML・DDLステートメント( INSERT ・DELETE や、CREATE ・DROP など)を記述し、実行できます。 |
クエリ | ✓ | クエリを入力します。 クエリ内でテーブル名を指定するときは、以下の形式で記述ください。 catalog_name.schema_name.table_name catalog_name.schema_name.table_name なおデータ転送モードを選択している場合は、プレビュー実行をクリックすることで、実行結果を確認することもできます。 |
クエリの整形
クエリ編集欄の左下にある クエリを整形をクリックすることで、入力したSQLクエリを自動で整形できます。
整形処理では、キーワードの配置やインデント、改行などが見やすく再配置されます。
データ転送モードを選択した場合
項目名 | 必須 | 内容 |
---|---|---|
出力先カタログ | ✓ | データ出力先のカタログ名を入力します。 詳しくはDatabricks公式ドキュメント - カタログを参照ください。 |
出力先スキーマ | ✓ | データ出力先のスキーマ名を入力します。 詳しくはDatabricks公式ドキュメント - スキーマを参照ください。 |
出力先テーブル | ✓ | データ出力先のテーブル名を入力します。 詳しくはDatabricks公式ドキュメント - テーブルを参照ください。 |
書き込みモード | ✓ | 以下のいずれかのモードを選択します。
|
テーブルの自動作成
データ転送モードを選択した場合、出力先テーブルが存在しないときにテーブル作成権限がある場合には自動でテーブルが作成されます。
全件洗い替え (REPLACE)モードの注意点
全件洗い替え (REPLACE)モードを選択した場合、既存のテーブルが削除されてから新しいテーブルが作成されます。このため、テーブルに設定されていたパーティション設定などが失われる可能性があります。ご注意ください。
ジョブ起動設定
項目名 | 必須 | デフォルト値 | 内容 |
---|---|---|---|
ジョブの並列実行 | ✓ | 並列でのジョブ実行はしない | ジョブ実行時点で、同一のデータマート定義による他のジョブが実行中の場合に、ジョブを実行するかどうかを選択します。 |
必要な権限
ご利用いただくにあたって必要な権限は、Databricksの接続情報をご参照ください。
データマート定義でDatabricksを利用する場合、以下の権限が必要です。
データ転送モードを利用する場合
新規にテーブルを作成、もしくは自分がオーナーのテーブルの場合に必要な権限
- 対象カタログの
USE_CATALOG
- 対象スキーマの
USE_SCHEMA
・CREATE TABLE
自分がオーナーではないテーブルの場合に必要な権限
- 書き込みモード:全件洗い替え (REPLACE)を利用する場合
- 対象カタログのオーナー
- 対象スキーマのオーナー
- 対象テーブルの
MODIFY
・SELECT
- 書き込みモード:全件洗い替え (REPLACE)以外のモードを利用する場合
- 対象カタログの
USE_CATALOG
- 対象スキーマの
USE_SCHEMA
・CREATE TABLE
- 対象テーブルの
MODIFY
・SELECT
- 対象カタログの
自由記述モードを利用する場合
実行するクエリの内容に応じて、必要な権限が異なります。
Databricksの権限管理について、詳しくはDatabricks公式ドキュメント - Unity Catalogで権限を管理するを参照ください。
Compute Resource(Warehouse/Cluster)について
Databricksデータマート定義では、接続情報で指定したHTTP Pathに基づいて、SQL WarehouseまたはClusterのいずれかでクエリが実行されます。
- SQL Warehouse:SQL分析ワークロードに最適化されたコンピューティングリソース
- Cluster:汎用的なコンピューティングリソース
HTTP Pathによって自動的に適切なリソースが選択され、クエリが実行されます。
Compute Resourceの詳細については、Databricks公式ドキュメント - Computeを参照ください。
この記事は役に立ちましたか?