ワークフローデータチェック
  • 15 Nov 2023
  • PDF

ワークフローデータチェック

  • PDF

Article Summary

概要

データチェックとは

ワークフロー内に設定できるタスクのひとつです。
DWHに対するクエリ結果とエラー条件を突合し、条件に合致する場合に該当のタスクをエラーとする機能です。

たとえば、ある列に入っている特定の文字列をカウントし、2以上の結果だった場合にデータ重複とみなしエラーとする、などのケースで利用できます。

データチェックに対応するDWH

  • Google BigQuery
  • Snowflake
  • Amazon Redshift

設定方法

Google BigQueryを例に設定方法を説明します。

  1. あらかじめ登録したBigQueryの接続情報を指定します。
    この接続情報には、記述したクエリを実行可能な権限が付与されている必要があります。
    datacheck.png
クエリの実行環境

Snowflake・Redshiftの場合、クエリの実行環境もあわせて指定する必要があります。
Snowflakeの場合はウェアハウスを、Redshiftの場合はデータベースを、それぞれ指定してください。

  1. データチェックを行うためのクエリを入力します。
    クエリ結果が1行1列の数値となるように、SELECT文のクエリを記述してください。
    クエリにはカスタム変数を埋め込むことができます。
    プレビュー実行をクリックすると、記述したクエリの結果をその場で確認できます。
    query.png

  2. エラー条件を指定します。
    基準となる値と、その条件を指定してください。条件は6種類より選択できます。
    クエリ結果がNULLの場合に、該当タスクを成功とするかどうかを選択することもできます。
    image.png

選択できるエラー条件

以下の6種類から選択できます。

  • 以上
  • 以下
  • より大きい
  • より小さい
  • 等しい
  • 等しくない

この記事は役に立ちましたか?