差分転送機能
    • PDF

    差分転送機能

    • PDF

    記事の要約

    概要

    転送設定内の転送元で指定可能な「差分転送機能」のヘルプページです。

    差分転送とは

    前回転送時からの増分データのみを転送するモードです。
    差分転送を有効化した場合、転送時に「どこまで転送したか」を保持します。
    そのため前回転送時以降に追加された新しいファイルを特定でき、その増分ファイルのみを転送する挙動となります。

    対応コネクター

    データベース系

    転送元 - MongoDB
    転送元 - MySQL
    転送元 - Oracle Database
    転送元 - PostgreSQL
    転送元 - Microsoft SQL Server

    ファイル・ストレージ系

    転送元 - Amazon S3
    転送元 - Azure Blob Storage
    転送元 - FTP・FTPS
    転送元 - Google Cloud Storage
    転送元 - TROCCO Web行動ログ
    転送元 - SFTP

    アプリ系

    転送元 - Google Play

    クラウドアプリケーション系

    転送元 - Google Analytics 4
    転送元 - HubSpot
    転送元 - KARTE Datahub
    転送元 - Repro

    初回転送時の挙動

    差分転送を指定した場合も、初回転送時は全件転送します。
    初回転送時においても、最後に転送されたレコード・パスにファイルパスなどを指定することで、任意のファイル以降のファイルを転送できます。
    詳しくは設定値の項目をご参照ください。

    設定値

    データベース系コネクタ

    カラムを利用して差分転送を行います。
    「増分データを判別するカラム」の値が、「最後に転送されたレコード」の値よりも大きいレコードのみ、取得します。

    項目名説明
    増分データを判別するカラム差分転送の元になる列を指定します。
    レコードに対してユニークかつAuto IncrementalなID列などがある場合、その列名を指定してください。
    複数の列名をカンマ区切りで指定することもできます。
    最後に転送されたレコード通常はこのフォームを編集することはありません(TROCCOが自動で更新します)。
    ジョブの実行に異常が発生した場合や、初回転送時に、任意の箇所から転送を実行したい場合のみこのフォームを編集します。
    このフォームには「前回転送時にどこまで転送したか」に関する情報を記載します。

    ファイル・ストレージ系コネクタ

    パスプレフィックスを利用して差分転送します。
    ファイル名を昇順でソートしたときに「最後に転送されたパス」より後になるファイルを増分として判別し、データ取得します。
    そのため、ファイルの更新日の増分では判別できないことにご注意ください。

    項目名説明
    最後に転送されたパス通常はこのフォームを編集することはありません(TROCCOが自動で更新します)。
    ジョブの実行に異常が発生した場合や、初回転送時に、任意の箇所から転送したい場合のみこのフォームを編集します。
    このフォームには「前回転送時にどこまで転送したか」に関する情報を記載します。
    最後に転送されたレコード・最後に転送されたパスの値

    これらの値は、それぞれlast_recordlast_pathというキーの値として、転送設定STEP3の確認・適用(および変更履歴の最新のリビジョン)に表示されます。
    一方で、これらの値は、転送設定詳細画面で確認できるYAML設定ファイルに含まれません。
    したがって、Gitリポジトリ連携を行う際は、これらの値はGit連携されません。

    ファイル・ストレージ系の差分転送例

    たとえば、S3のバケット上に以下のファイルがある状態で転送を行います。

    • 001.csv
    • 002.csv
    • 003.csv

    このとき、最後に転送されたパスには、003.csvが保存されます。
    この状態で、バケットに000.csv004.csvが追加し、再度転送を実行したとします。
    000.csvは転送されず、004.csvのみが転送されます。
    なお、新たに最後に転送されたパスには、004.csvが保存されます。

    Google Analytics 4・HubSpot

    最新のレコード更新日時を利用して差分転送を行います。
    前回取り込んだレコードの最終更新日時以降に新しく更新されたレコードを転送します。

    項目名説明
    最新のレコード更新日時通常はこのフォームを編集することはありません(TROCCOが自動で更新します)。
    ジョブの実行に異常が発生した場合や、初回転送時に、任意の時刻以降のデータを転送を実行したい場合のみこのフォームを編集します。
    このフォームには「前回転送時にどこまで転送したか」に関する情報を記載します。万一入力される場合は、yyyy-mm-dd HH:MM:SS z形式で入力ください。

    任意のデータから転送を再開したい場合

    最後に転送されたレコード・パスまたは最新のレコード更新日時を編集することで、任意の場所から転送を再開できます。
    ただし、すでに転送されたファイルを再度転送すると、転送先でデータが重複する可能性があります。適宜データを削除した上で再実行するようにしてください。


    この記事は役に立ちましたか?