入力ファイル形式の設定について
  • 02 May 2022
  • 1 分で読み終わります
  • ダーク
    ライト

入力ファイル形式の設定について

  • ダーク
    ライト

概要

転送設定内の転送元で指定可能な「入力ファイル形式」のヘルプページです。

入力ファイル形式とは

転送元がS3やSFTPなどのファイル・ストレージの場合、転送するファイルの形式を指定していただく必要があります。
現在はCSV、JSON Lines、JSONPath、LTSVの4種類の中から選択できます。
また、それぞれの形式について、ファイルの読み込み時の詳細設定をすることができます。

詳細設定について

CSV

参考としたサイトはこちらです。

項目名 デフォルト値 説明
区切り文字 , CSVデータの区切り文字を設定できます。
引用符 " 引用符を設定できます。
エスケープ文字 \ エスケープ文字を設定できます。
スキップする行 0 何番目の行をスキップするか設定してください。
例えば、1行目が項目名になっていて、転送データに含めたくない場合は1を設定してください。
引用符がない場合に値から空白を取り除く NO 引用符がない場合に値から空白を取り除くかどうかを設定してください。
イレギュラーなクオートの処理方式 ACCEPT_ONLY_RFC4180_ESCAPED クオート付きフィールド内で、イレギュラーなクオートが存在した場合の処理方法を設定してください。
詳しくはこちらをご覧ください。
コメントラインマーカー - ここで設定した文字が行のはじめにあったら、その行をスキップします。
不適切なカラムに対する行動 NO 列数が足りなかった場合、YESなら足りない列をNULL値で保管します。
NOならば該当する行の処理をスキップします。
過多なカラムに対する行動 NO 列数が多すぎた場合、YESなら多い列を無視して処理します。
NOならば該当する行の処理をスキップします。
引用符で囲める最大データ量 131072 引用符で囲める最大データ量を設定できます。
もしここで設定した値より大きなデータ量のものが存在した場合は、その行の処理をスキップします。
不正なレコードが存在した場合に
転送を中止するかどうか
NO 不正なレコードが存在した場合に転送を中止するかどうかを指定できます。
デフォルトのタイムゾーン UTC 読み込んだデータ自体にタイムゾーンに関する情報がない場合のタイムスタンプの列で用いるタイムゾーンを設定してください。
日付初期設定 1970-01-01 日付列で、日付が認識できなかった場合のデフォルト値を設定してください。
改行 CRLF 改行に関するルールをCR、CRLF、LFの中からお選びいただけます。
文字コード UTF-8 文字コードを設定できます。

JSON Lines

embulk-parser-jsonlを使用

項目名 デフォルト値 説明
不適切なカラムに対する行動 NO 列数が足りなかった場合、YESなら足りない列をNULL値で保管します。
NOならば該当する行の処理をスキップします。
デフォルトのタイムゾーン UTC 読み込んだデータ自体にタイムゾーンに関する情報がない場合の
タイムスタンプの列で用いるタイムゾーンを設定してください。
改行 CRLF 改行に関するルールをCR、CRLF、LFの中からお選びいただけます。
文字コード UTF-8 文字コードを設定できます。

JSONPath

embulk-parser-jsonpathを使用

項目名 デフォルト値 説明
JSONPath - JSONPathの書き方についてはこちらをご参照ください。
※全指定する場合は"..*"とは指定しないでください)。
デフォルトのタイムゾーン UTC 読み込んだデータ自体にタイムゾーンに関する情報がない場合のタイムスタンプの列で用いるタイムゾーンを設定してください。

LTSV

項目名 デフォルト値 説明
改行 CRLF 改行に関するルールをCR、CRLF、LFの中からお選びいただけます。
文字コード UTF-8 文字コードを設定できます。

この記事は役に立ちましたか?