ワークフローデータチェック
    • PDF

    ワークフローデータチェック

    • PDF

    記事の要約

    概要

    データチェックとは

    ワークフロー内に設定できるタスクのひとつです。
    DWHに対するクエリ結果とエラー条件を突合し、条件に合致する場合に該当のタスクをエラーとする機能です。

    たとえば、ある列に入っている特定の文字列をカウントし、2以上の結果だった場合にデータ重複とみなしエラーとする、などのケースで利用できます。

    データチェックに対応するDWH

    • Google BigQuery
    • Snowflake
    • Amazon Redshift

    設定方法

    Google BigQueryを例に設定方法を説明します。

    1. あらかじめ登録したBigQueryの接続情報を指定します。
      この接続情報には、記述したクエリを実行可能な権限が付与されている必要があります。
      workflow-data-check-2024-08-29-18-25-0
    クエリの実行環境

    Snowflake・Redshiftの場合、クエリの実行環境もあわせて指定する必要があります。
    Snowflakeの場合はウェアハウスを、Redshiftの場合はデータベースを、それぞれ指定してください。

    1. データチェックを行うためのクエリを入力します。
      クエリ結果が1行1列の数値となるように、SELECT文のクエリを記述してください。
      クエリにはカスタム変数を埋め込むことができます。
      プレビュー実行をクリックすると、記述したクエリの結果をその場で確認できます。
      query.png

    2. エラー条件を指定します。
      基準となる値と、その条件を指定してください。条件は6種類より選択できます。
      クエリ結果がNULLの場合に、該当タスクを成功とするかどうかも選択できます。
      image.png

    選択できるエラー条件

    以下の6種類から選択できます。

    • 以上
    • 以下
    • より大きい
    • より小さい
    • 等しい
    • 等しくない

    この記事は役に立ちましたか?