- 인쇄
- PDF
전송원 - Google BigQuery
- 인쇄
- PDF
개요
Google Cloud Platform의 BigQuery에서 데이터를 전송하는 설정 도움말 페이지입니다.
제약조건
- 전송 용량 제한 있음
- Spreadsheets를 외부 테이블로 설정한 테이블에 대한 쿼리를 수행할 수 없습니다.
설정 항목
STEP1 기본 설정
품목명 | 필수 | 기본값 | 내용 |
---|---|---|---|
BigQuery 연결 정보 | 예 | ----------------------------------------------------------------------------------------------. | BigQuery의 연결 정보를 참고하세요. |
데이터 내보내기 대상 GCS URI | 예 | ----------------------------------------------------------------------------------------------. | BigQuery의 데이터를 임시로 내보낼 GCS 버킷 폴더를 지정해 주세요. (버킷은 미리 생성해 주셔야 합니다). 버킷 이름만 지정할 수 없습니다. 와일드카드(*)가 포함된 URI를 지정하면 여러 파일로 출력되며, 지정하지 않으면 단일 파일로 출력(최대 1GB)됩니다. 자세한 내용은 BigQuery 공식 문서를 참고하세요. |
SQL | 예 | ----------------------------------------------------------------------------------------------. | BigQuery에서 전송 데이터를 가져오기 위한 SQL을 입력합니다. 사용자 정의 변수를 이용하여 TROCCO 데이터 전송 시 동적으로 설정값을 결정하는 것도 가능하다. 참고로 FROM 절에는 계정명을 포함하지 말고, FROM dataset_name.table_name 형식으로 쿼리를 작성해야 한다. 여기서 지정하는 데이터셋은 임시 테이블 생성 대상 데이터셋과 동일한 지역이어야 하며, 데이터셋 위치에서 지정한 데이터셋과 동일해야 합니다. |
데이터 세트 위치 | 예 | 미국 | SQL에서 지정한 데이터 세트와 임시 테이블 생성 대상 데이터 세트의 리전을 지정합니다. (둘 다 같은 지역에 생성해야 합니다). |
임시 테이블 생성 대상 데이터 세트 | 예 | ----------------------------------------------------------------------------------------------. | TROCCO는 전송 처리 시 SQL 실행 결과를 임시 테이블에 저장하는데, 이 임시 테이블을 어떤 데이터셋에 생성할 것인지 지정해야 합니다. 여기서 지정한 데이터 세트는 TROCCO에서 자동으로 생성되지 않으므로 미리 생성된 데이터 세트를 지정해야 합니다. 생성된 임시 테이블은 전송 완료 후 삭제되지만, 전송 작업이 오류로 종료될 경우 임시 테이블이 남아있을 수 있으니 유의하시기 바랍니다. 여기서 지정하는 데이터셋은 SQL에서 지정한 데이터셋과 동일한 지역이어야 하며, 데이터셋의 위치에서 지정한 데이터셋과 동일해야 한다. |
임시 데이터 파일 형식 | 예 | CSV | Google Cloud Storage로 내보낼 임시 데이터의 파일 형식을 선택합니다. 변경 시에는 반드시 자동 데이터 설정을 해주시기 바랍니다. |
임시 데이터 삭제 정책 | 예 | 삭제하기 | GCS로 내보낸 임시 데이터를 작업 완료 후 삭제하거나 설정합니다. 작업 완료 후 임시 데이터를 확인하려면 삭제하지 않음을 선택합니다. 임시 데이터 확인 방법에 대한 자세한 내용은 GCS에서 임시 데이터 확인 방법을 참고하세요. |
SQL 유형 | 예 | 표준 SQL | 표준 SQL과 레거시 SQL을 지원합니다. 자세한 차이점은 BigQuery 공식 문서를 참고하세요. |
STEP1 상세 설정
품목명 | 기본값 | 내용 |
---|---|---|
작업 대기 시간 제한(초) | 600 | 작업이 실행되기까지의 대기 시간 타임아웃을 초 단위로 지정할 수 있습니다. |
쿼리 캐시 이용하기 | 유효 | BigQuery의 쿼리 캐시 기능을 사용할지 여부를 선택합니다. 쿼리 캐시에 대한 자세한 내용은 BigQuery 공식 문서를 참고하세요. |
BigQuery에서 실행 중인 쿼리가 많을 경우, 슬롯 제한으로 인해 작업이 실행되기까지 대기 시간이 발생할 수 있습니다.
이 대기 시간이 지정한 타임아웃 시간에 도달하면 Not found: 라는 메시지가 표시됩니다. Table
등의 오류가 발생하며 해당 전송 작업은 실패합니다.
이러한 경우 작업 대기 시간 제한을 늘리면 전송 작업의 실패를 방지할 수 있습니다.
필요한 권한
이용에 필요한 권한은 다음과 같습니다.
* bigquery.datasets.get
* bigquery.jobs.create
* bigquery.tables.create
* bigquery.tables.delete
* bigquery.tables.export
* bigquery.tables.get
* bigquery.tables.getData
* bigquery.tables.updateData
* storage.buckets.create
* storage.buckets.delete
* storage.buckets.get
* storage.buckets.list
* storage.objects.create
* storage.objects.delete
* storage.objects.get
* storage.objects.list
GCS에서 임시 데이터를 확인하는 방법
앞서 언급했듯이 전송된 데이터는 GCS에서 지정한 버킷 폴더에 임시로 저장된다.
'임시 데이터 삭제 정책'을 '삭제하지 않음'으로 설정한 경우, GCS에 남아있는 임시 데이터를 전송 후 확인할 수 있습니다.
임시 데이터는 압축되어 있기 때문에 내용을 확인하려면 압축을 풀어야 합니다.
임시 데이터의 확장자를 .gz로
변경하고 gzip으로 압축을 푼 후 파일 내용을 확인합니다.