転送元 - BigQuery
  • 15 Nov 2023
  • ダーク
    ライト
  • PDF

転送元 - BigQuery

  • ダーク
    ライト
  • PDF

Article Summary

概要

Google Cloud PlatformのBigQueryからデータを転送する設定のヘルプページです。

制約

  • 転送容量の制限あり
  • Spreadsheetsを外部テーブルとしたテーブルに対して、クエリを実行することができません。

設定項目

STEP1 基本設定

項目名必須デフォルト値内容
BigQuery接続情報Yes-BigQueryの接続情報をご参照ください。
データエクスポート先GCS URIYes-BigQueryのデータを一時的にエクスポートするGCSバケット・フォルダを指定してください。(バケットはあらかじめ作成いただく必要がございます。)
バケット名のみの指定はできません。
ワイルドカード(*)を含むURIを指定すれば複数ファイルでの出力となり、指定しなければ単一ファイルでの出力(上限1GB)となります。
詳細はBigQuery公式ドキュメントをご参照ください。
SQLYes-BigQueryから転送データを取得するためのSQLを入力します。
カスタム変数を利用し、troccoのデータ転送時に動的に設定値を決定することも可能です。
なお、FROM句にはアカウント名を含めず、FROM dataset_name.table_nameの形式でクエリを書いて下さい。
ここで指定するデータセットは一時テーブル作成先データセットと同じリージョンで、かつデータセットのロケーションで指定されているものと同一である必要があります。
データセットのロケーションYesUSSQLで指定したデータセットと一時テーブル作成先データセットのリージョンを指定します。
(どちらも同じリージョンに作成いただく必要があります。)
一時テーブル作成先データセットYes-troccoは転送処理時に、SQLの実行結果を一時テーブルに保存しますが、その一時テーブルをどのデータセットに作成するか指定してください。
なお、ここで指定したデータセットはtroccoによって自動作成されないため、あらかじめ作成済みのデータセットを指定する必要があります。
作成された一時テーブルは転送完了後に削除されますが、転送ジョブがエラー終了した場合、一時テーブルが残ってしまう可能性がある点ご留意ください。
ここで指定するデータセットはSQLで指定したデータセットと同じリージョンで、かつデータセットのロケーションで指定されているものと同一である必要があります。
一時データのファイル形式YesCSVGoogle Cloud Storageにエクスポートする一時データのファイル形式を選択します。
変更した場合は必ず自動データ設定を行ってください。
一時データの削除ポリシーYes削除するGCSにエクスポートした一時データを、ジョブ完了後に削除するか設定します。
ジョブ完了後に一時データを確認したい場合は、削除しないを選択してください。
一時データの確認方法について、詳しくはGCS上の一時データを確認する方法を参照ください。
SQLタイプYes標準SQL標準SQLとレガシーSQLに対応しています。
違いについてはBigQuery公式ドキュメントをご参照ください。

STEP1の詳細設定

項目名デフォルト値内容
ジョブ待機タイムアウト(秒)600ジョブが実行されるまでの待機時間のタイムアウトを秒単位で指定できます。
クエリキャッシュを利用する有効BigQueryのクエリキャッシュ機能を利用するか選択します。
クエリキャッシュについてはBigQuery公式ドキュメントをご参照ください。
ジョブ待機タイムアウトの利用例

BigQueryで実行中のクエリが多い場合、スロット制限により、ジョブが実行されるまでの待機時間が発生することがあります。
この待機時間が指定したタイムアウト時間に達すると、Not found: Tableといったエラーが発生し、該当の転送ジョブは失敗します。
そのような場合にジョブ待機タイムアウトの時間を増やすことで、転送ジョブの失敗を回避できます。

必要な権限

ご利用いただくにあたって必要な権限は以下となります。

  • bigquery.datasets.get
  • bigquery.jobs.create
  • bigquery.tables.create
  • bigquery.tables.delete
  • bigquery.tables.export
  • bigquery.tables.get
  • bigquery.tables.getData
  • bigquery.tables.updateData
  • storage.buckets.create
  • storage.buckets.delete
  • storage.buckets.get
  • storage.buckets.list
  • storage.objects.create
  • storage.objects.delete
  • storage.objects.get
  • storage.objects.list

GCS上の一時データを確認する方法

前述の通り、転送データはGCSの指定したバケット・フォルダに一時的に格納されます。
「一時データの削除ポリシー」を「削除しない」に設定した場合、GCSに残った一時データを転送後に確認することができます。
一時データは圧縮されているため、内容を確認したい場合には、解凍する必要があります。
一時データの拡張子を.gzに変更し、gzipで解凍したうえで、ファイルの内容を確認してください。


この記事は役に立ちましたか?