データマート - Google BigQuery
  • 07 Mar 2024
  • ダーク
    ライト
  • PDF

データマート - Google BigQuery

  • ダーク
    ライト
  • PDF

Article Summary

概要

Google Cloud PlatformのBigQueryを用いたデータマート定義の設定のヘルプページです。

設定項目

基本設定

項目名必須内容
Google BigQuery接続情報あらかじめ登録してあるGoogle BigQueryの接続情報から、今回のデータマート定義に必要な権限を持つものを選択します。
カスタム変数-ここで設定したカスタム変数をクエリやデータセット名・テーブル名などに埋め込むことができます。
詳しくはカスタム変数についてをご参照ください。

クエリ設定

項目名必須内容
クエリ実行モード以下のいずれかのモードを選択します。
  • データ転送モード
    クエリと出力先テーブルを指定するだけで、簡単にテーブルへの洗い替え・追記を実行できます。
  • 自由記述モード
    接続先のDWHに対して、任意のDML・DDLステートメント(INSERTDELETEや、CREATEDROPなど)を記述し、実行できます。
  • クエリクエリを入力します。
    クエリ内でテーブル名を指定するときは、以下の形式で記述ください。
  • データ転送モードの場合:dataset_name.table_name
  • 自由記述モードの場合:project_name.dataset_name.table_name

  • なおデータ転送モードを選択している場合は、プレビュー実行をクリックすることで、実行結果を確認することもできます。

    データ転送モードを選択した場合

    項目名必須内容
    出力先データセットデータ出力先のデータセット名を入力します。
    データセットの命名規則について、詳しくはBigQuery公式ドキュメント - データセットに名前を付けるを参照ください。
    出力先テーブルデータ出力先のテーブル名を入力します。
    テーブルの命名規則について、詳しくはBigQuery公式ドキュメント - テーブルの命名を参照ください。
    書き込みモード以下のいずれかのモードを選択します。
    • 追記
      • 既存のテーブルのレコードの後に、クエリ実行結果が追記されます。
    • 全件洗い替え
      • 既存のテーブルのレコードが削除されてクエリ実行結果に置き換えられます。

    パーティショニング・クラスタリングの設定

    データ転送モードを選択した場合に設定できます。
    パーティショニング・クラスタリングについて、詳しくは分割テーブルの概要クラスタ化テーブルの概要をそれぞれ参照ください。

    パーティショニング・クラスタリング設定の適用条件

    パーティショニング・クラスタリングの設定はテーブルの新規作成時にのみ有効です。
    出力先に既にテーブルが存在する場合は、本設定の内容ではなく既存テーブルの設定内容でジョブが実行されます。

    「取り込み時間により分割」におけるパーティションの境界

    Google BigQueryの仕様上、パーティションの境界はUTC時間に基づきます。ご注意ください。

    整数範囲パーティショニング

    troccoでは、特定のINTEGER列の値に基づいてテーブルを分割する、整数範囲パーティショニングには対応していません。

    項目名必須内容
    パーティショニング-以下のいずれかを選択できます。
  • 取り込み時間により分割:troccoのジョブ実行時間に基づいてパーティションが切られます。
  • フィールドにより分割:基準となるカラムに基づいてパーティションが切られます。
  • パーティションフィールドフィールドにより分割を選択したときに入力します。
    DATETIMESTAMPDATETIMEのいずれかの型の列名を入力してください。
    パーティションタイプパーティショニングでいずれかの分割方式を選択した場合に選択します。
    テーブル分割の粒度を以下より選択してください。
  • 1時間ごと
  • 1日ごと
  • 1ヶ月ごと
  • 1年ごと
  • クラスタリング-クラスタ化テーブルを作成したい場合に設定できます。
    クラスタ化列にカラム名を入力することで、該当のカラムに基づいてテーブルがクラスタ化されます。
    なお、クラスタ化列は最大で4つまで指定できます。

    自由記述モードを選択した場合

    項目名必須内容
    データ処理ロケーション-クエリを実行するGoogle BigQueryのロケーションを指定します。
    クエリ内でロケーションに紐付かないリソースを指定する場合はご指定ください。
    未指定の場合はGoogle BigQueryによって自動的にロケーションが判別されます。
    詳しくは、BigQueryの公式ドキュメント - ロケーションを指定するを参照ください。

    ジョブ起動設定

    項目名必須デフォルト値内容
    ジョブの並列実行並列でのジョブ実行はしないジョブ実行時点で、同一のデータマート定義による他のジョブが実行中の場合に、ジョブを実行するかどうかを選択します。
  • 並列でのジョブ実行はしない:ジョブは実行されずスキップされます。
  • 並列でのジョブ実行を許可:ジョブは実行されます。
  • 必要な権限

    ご利用いただくにあたって必要な権限は以下となります。

    • bigquery.datasets.get
    • bigquery.jobs.create
    • bigquery.tables.create
    • bigquery.tables.delete
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.list
    • bigquery.tables.update
    • bigquery.tables.updateData

    この記事は役に立ちましたか?