- 인쇄
- PDF
입력 파일 형식 설정에 대하여
- 인쇄
- PDF
개요
전송원 파일 및 저장소 계열 커넥터에서는 전송 설정의 STEP1에서 입력 파일 형식을 설정하고, STEP2의 입력 옵션에서 입력 파일에 대한 세부 설정을 할 수 있습니다.
이 페이지에서는 TROCCO가 지원하는 입력 파일 형식과 커넥터, 그리고 입력 옵션의 각종 설정 항목에 대해 설명합니다.
입력 파일 형식
전송 설정 편집의 STEP1에서 다음 중에서 선택할 수 있습니다.
* CSV/TSV
* JSON Lines
* JSONPath
* LTSV
* Microsoft Excel (xlsx 또는 xls 파일)
* XML(베타 버전)
XML 파일 형식 전송 기능은 베타 버전으로 제공되고 있습니다.
정식 버전 출시 시에는 사양이 변경될 수 있습니다.
본 기사의 대상 커넥터
- 전송처 - Amazon S3
- 전송처 - App Store Connect API
- 전송처 - Azure Blob Storage
- 전송처 - Box
- 전송처 - FTP・FTPS
- 전송처 - Google Cloud Storage
- 전송처 - Google Drive
- 전송처 - HTTP・HTTPS
- 전송처 - KARTE Datahub
- 전송처 - SFTP
- 전송처 - 로컬 파일
설정 항목
입력 파일 형식에 따라 설정 항목이 달라집니다.
CSV/TSV
Embulk의 csv-parser-plugin을 사용하고 있습니다.
STEP2 입력 옵션
품목명 | 기본값 | 설명 |
---|---|---|
구분 기호 | , , , , , . | CSV 데이터의 구분 문자를 설정합니다. |
따옴표 | " | 따옴표를 설정할 수 있습니다. |
이스케이프 문자 | \ | 이스케이프 문자를 설정할 수 있습니다. |
NULL로 대체되는 문자열 | 설정하지 않음 | NULL로 대체할 문자열을 설정할 수 있습니다. 설정하기를 선택하면 대체할 문자열을 입력할 수 있습니다. |
건너뛸 헤더 줄 수 | 0 | 몇 번째 줄까지 건너뛸지 설정합니다. 예를 들어, 첫 번째 행이 항목명이고 항목명 행을 전송 데이터에 포함하지 않으려면 1을 설정합니다. |
따옴표가 없는 경우 값에서 공백 제거하기 | 아니요 | 따옴표가 없는 경우 값에서 공백을 제거할지 여부를 설정할 수 있습니다. |
불규칙한 쿼트 처리 방식 | ACCEPT_ONLY_RFC4180_ESCAPED | 따옴표가 있는 필드에 불규칙한 따옴표가 존재할 경우 처리 방법을 설정합니다. 자세한 내용은 csv-parser-plugin의 quotes_in_quoted_fields를 참고하세요. |
코멘트 라인 마커 | ----------------------------------------------------------------------------------------------. | 여기서 설정한 문자가 줄의 시작 부분에 있으면 해당 줄을 건너뜁니다. |
컬럼 수가 줄어든 행 처리 | 부정한 기록으로 처리하기 | 잘못된 레코드로 처리하기를 선택하면 컬럼 수가 부족한 레코드가 존재할 때 해당 행의 처리를 건너뜁니다. 누락된 컬럼을 NULL로 보완 하기를 선택하면 컬럼 수가 부족한 레코드가 존재할 때 NULL 값을 보완하여 처리를 계속합니다. |
컬럼 수가 늘어난 행 처리 | 부정한 기록으로 처리하기 | 잘못된 레코드로 처리하기를 선택하면 컬럼 수가 초과된 레코드가 존재할 때 해당 행의 처리를 건너뜁니다. 컬럼 무시 처리를 선택한 경우, 컬럼 수가 초과된 레코드가 존재할 때 넘친 컬럼을 무시하고 처리를 계속 진행합니다. |
따옴표로 묶을 수 있는 최대 데이터 양 | 131072 | 따옴표로 묶을 수 있는 최대 데이터 양(byte 단위)을 설정합니다. 여기서 설정한 값보다 큰 데이터 양이 존재하는 경우, 해당 행의 처리를 건너뜁니다. |
부정한 레코드가 존재할 경우 전송 중단 여부 | 전송 중단하기 | 전송 중단을 선택하면 잘못된 레코드가 존재할 때 전송을 중단합니다. 처리 계속을 선택하면 잘못된 레코드가 존재할 때 NULL 값을 보완하여 처리를 계속합니다. |
기본 시간대 | UTC | 불러온 데이터 자체에 타임존에 대한 정보가 없는 경우 타임스탬프형 열에서 사용할 타임존을 설정할 수 있습니다. |
날짜 초기화 | 1970-01-01 | 날짜 열에서 날짜를 인식하지 못할 경우 기본값을 설정할 수 있습니다. |
줄바꿈 | CRLF | 줄바꿈에 대한 규칙을 CRLF, LF, CR 중에서 설정합니다. |
문자 인코딩 | ----------------------------------------------------------------------------------------------. | 문자 인코딩 방식을 설정할 수 있습니다. 미입력 시 자동 데이터 설정 시 자동으로 추측됩니다. |
JSON Lines
emulk-parser-jsonl을
사용하고 있습니다.
STEP2 입력 옵션
품목명 | 기본값 | 설명 |
---|---|---|
부정한 레코드가 존재할 경우 전송 중단 여부 | 전송 중단하기 | 전송 중단을 선택하면 잘못된 레코드가 존재할 때 전송을 중단합니다. 처리 계속을 선택하면 잘못된 레코드가 존재할 때 NULL 값을 보완하여 처리를 계속합니다. |
기본 시간대 | UTC | 불러온 데이터 자체에 타임존에 대한 정보가 없는 경우 타임스탬프형 열에서 사용할 타임존을 설정할 수 있습니다. |
줄바꿈 | CRLF | 줄바꿈에 대한 규칙을 CRLF, LF, CR 중에서 설정할 수 있습니다. |
문자 인코딩 | ----------------------------------------------------------------------------------------------. | 문자 인코딩 방식을 설정할 수 있습니다. 미입력 시 자동 데이터 설정 시 자동으로 추측됩니다. |
JSONPath
emulk-parser-jsonpath를 사용하고 있습니다.
STEP1 기본 설정
품목명 | 기본값 | 설명 |
---|---|---|
JSONPath | ----------------------------------------------------------------------------------------------. | JSONPath 작성 방법은 Operators를 참고하세요. 전체 지정 시 $. *로 지정해 주십시오. |
STEP2 입력 옵션
품목명 | 기본값 | 설명 |
---|---|---|
경로 | ----------------------------------------------------------------------------------------------. | STEP1 기본 설정의 'JSONPath'와 동일한 설정입니다. |
기본 시간대 | UTC | 불러온 데이터 자체에 타임존에 대한 정보가 없는 경우 타임스탬프형 열에서 사용할 타임존을 설정할 수 있습니다. |
LTSV
STEP2 입력 옵션
품목명 | 기본값 | 설명 |
---|---|---|
줄바꿈 | CRLF | 줄바꿈에 대한 규칙을 CRLF, LF, CR 중에서 설정할 수 있습니다. |
문자 인코딩 | ----------------------------------------------------------------------------------------------. | 문자 인코딩 방식을 설정할 수 있습니다. 미입력 시 자동 데이터 설정 시 자동으로 추측됩니다. |
Microsoft Excel
emulk-parser-poi_excel을 사용하고 있습니다.
STEP1 기본 설정
품목명 | 기본값 | 설명 |
---|---|---|
시트명 | ----------------------------------------------------------------------------------------------. | 전송할 시트 이름을 입력합니다. |
건너뛸 헤더 줄 수 | 1 | 몇 번째 줄까지 건너뛸지 설정합니다. 예를 들어, 첫 번째 행이 항목명이고 항목명 행을 전송 데이터에 포함하지 않으려면 1을 설정합니다. |
컬럼 설정 | ----------------------------------------------------------------------------------------------. | 컬럼 이름, 컬럼 타입, 컬럼 값의 취득 방법을 설정합니다. 값을 구하는 방법에 대해,
|
날짜 및 시간 열의 시간대 | Asia/Tokyo | 타임스탬프형 열에서 사용할 시간대를 설정할 수 있습니다. |
컬럼 설정 값 가져오기 방법에서 캐시 활용을 선택하면 엑셀 파일이 로컬에 저장된 시점의 값을 이용하여 전송을 수행합니다.
따라서 날짜/시간 함수(예: TODAY 함수)나 난수 생성 함수(예: RAND 함수)와 같이 매번 계산 결과가 달라지는 함수는 전송 실행 시 재계산되지 않습니다. 주의하시기 바랍니다.
전송 실행 시 셀 내 수식을 다시 계산해야 하는 경우 전송 시 재 계산을 선택합니다.
XML(베타)
emulk-parser-xml을
사용하고 있습니다.
STEP1 기본 설정
품목명 | 기본값 | 설명 |
---|---|---|
경로 경로(XPath 형식) | ----------------------------------------------------------------------------------------------. | Xpath 탐색의 기준이 되는 노드로의 경로 경로를 입력합니다. XML 파일 내의 모든 노드를 탐색 대상으로 지정하려면 /를 입력합니다. |
컬럼 설정 | ----------------------------------------------------------------------------------------------. | 검색하고자 하는 노드의 경로를 Xpath 형식으로 입력합니다. XPath의 표기법은 XPath Syntax를 참고하세요. 컬럼 타입은 아래에서 선택할 수 있습니다. string long 타임스탬프 double boolean json timestamp를 선택한 경우, 형식과 시간대도 입력해야 합니다. |
XML 네임스페이스에서 정의한 접두사와 결합된 경로를 지정할 수 없습니다.