データマート - Google BigQuery

Prev Next

概要

Google Cloud PlatformのBigQueryを用いたデータマート定義の設定のDocsです。

設定項目

基本設定

項目名 必須 内容
Google BigQuery接続情報 あらかじめ登録してあるGoogle BigQueryの接続情報から、今回のデータマート定義に必要な権限を持つものを選択します。
カスタム変数 - ここで設定したカスタム変数をクエリやデータセット名・テーブル名などに埋め込むことができます。
詳しくはカスタム変数についてをご参照ください。

クエリ設定

項目名 必須 内容
クエリ実行モード 以下のいずれかのモードを選択します。
  • データ転送モード
    クエリと出力先テーブルを指定するだけで、簡単にテーブルへの洗い替え・追記を実行できます。
  • 自由記述モード
    接続先のDWHに対して、任意のDML・DDLステートメント(INSERTDELETEや、CREATEDROPなど)を記述し、実行できます。
クエリ クエリを入力します。
クエリ内でテーブル名を指定するときは、以下の形式で記述ください。
  • データ転送モードの場合:dataset_name.table_name
  • 自由記述モードの場合:project_name.dataset_name.table_name

なおデータ転送モードを選択している場合は、プレビュー実行をクリックすることで、実行結果を確認することもできます。
クエリの整形

クエリ編集欄の左下にある クエリを整形をクリックすることで、入力したSQLクエリを自動で整形できます。
整形処理では、キーワードの配置やインデント、改行などが見やすく再配置されます。

データ転送モードを選択した場合

項目名 必須 内容
出力先データセット データ出力先のデータセット名を入力します。
データセットの命名規則について、詳しくはBigQuery公式ドキュメント - データセットに名前を付けるを参照ください。
出力先テーブル データ出力先のテーブル名を入力します。
テーブルの命名規則について、詳しくはBigQuery公式ドキュメント - テーブルの命名を参照ください。
書き込みモード 以下のいずれかのモードを選択します。
  • 追記
    • 既存のテーブルのレコードの後に、クエリ実行結果が追記されます。
  • 全件洗い替え
    • 既存のテーブルのレコードが削除されてクエリ実行結果に置き換えられます。

パーティショニング・クラスタリングの設定

データ転送モードを選択した場合に設定できます。
パーティショニング・クラスタリングについて、詳しくは分割テーブルの概要クラスタ化テーブルの概要をそれぞれ参照ください。

パーティショニング・クラスタリング設定の適用条件

パーティショニング・クラスタリングの設定はテーブルの新規作成時にのみ有効です。
出力先に既にテーブルが存在する場合は、本設定の内容ではなく既存テーブルの設定内容でジョブが実行されます。

「取り込み時間により分割」におけるパーティションの境界

Google BigQueryの仕様上、パーティションの境界はUTC時間に基づきます。ご注意ください。

項目名 必須 内容
パーティショニング - 以下のいずれかを選択できます。
  • 取り込み時間により分割:TROCCOのジョブ実行時間に基づいてパーティションが切られます。
  • フィールドにより分割:基準となるカラムに基づいてパーティションが切られます。
パーティションフィールド フィールドにより分割を選択したときに入力します。
DATETIMESTAMPDATETIMEのいずれかの型の列名を入力してください。
パーティションタイプ パーティショニングでいずれかの分割方式を選択した場合に選択します。
テーブル分割の粒度を以下より選択してください。
  • 1時間ごと
  • 1日ごと
  • 1ヶ月ごと
  • 1年ごと
クラスタリング - クラスタ化テーブルを作成したい場合に設定できます。
クラスタ化列にカラム名を入力することで、該当のカラムに基づいてテーブルがクラスタ化されます。
なお、クラスタ化列は最大で4つまで指定できます。
整数範囲パーティショニング

特定のINTEGER列の値に基づいてテーブルを分割する、整数範囲パーティショニングによるテーブル新規作成には対応していません。
なお、整数範囲パーティショニングによる既存テーブルへの転送は可能です。

自由記述モードを選択した場合

項目名 必須 内容
データ処理ロケーション - クエリを実行するGoogle BigQueryのロケーションを指定します。
クエリ内でロケーションに紐付かないリソースを指定する場合はご指定ください。
未指定の場合はGoogle BigQueryによって自動的にロケーションが判別されます。
詳しくは、BigQueryの公式ドキュメント - ロケーションを指定するを参照ください。

ジョブ起動設定

項目名 必須 デフォルト値 内容
ジョブの並列実行 並列でのジョブ実行はしない ジョブ実行時点で、同一のデータマート定義による他のジョブが実行中の場合に、ジョブを実行するかどうかを選択します。
  • 並列でのジョブ実行はしない:ジョブは実行されずスキップされます。
  • 並列でのジョブ実行を許可:ジョブは実行されます。

必要な権限

ご利用いただくにあたって必要な権限は以下となります。

  • bigquery.datasets.get
  • bigquery.jobs.create
  • bigquery.tables.create
  • bigquery.tables.delete
  • bigquery.tables.get
  • bigquery.tables.getData
  • bigquery.tables.list
  • bigquery.tables.update
  • bigquery.tables.updateData