전송원 - Google BigQuery
    • PDF

    전송원 - Google BigQuery

    • PDF

    기사 요약

    개요

    Google Cloud Platform의 BigQuery에서 데이터를 전송하는 설정 도움말 페이지입니다.

    제약조건

    • 전송 용량 제한 있음
    • Spreadsheets를 외부 테이블로 설정한 테이블에 대한 쿼리를 수행할 수 없습니다.

    설정 항목

    STEP1 기본 설정

    품목명필수기본값내용
    BigQuery 연결 정보----------------------------------------------------------------------------------------------.BigQuery의 연결 정보를 참고하세요.
    데이터 내보내기 대상 GCS URI----------------------------------------------------------------------------------------------.BigQuery의 데이터를 임시로 내보낼 GCS 버킷 폴더를 지정해 주세요. (버킷은 미리 생성해 주셔야 합니다).
    버킷 이름만 지정할 수 없습니다.
    와일드카드(*)가 포함된 URI를 지정하면 여러 파일로 출력되며, 지정하지 않으면 단일 파일로 출력(최대 1GB)됩니다.
    자세한 내용은 BigQuery 공식 문서를 참고하세요.
    SQL----------------------------------------------------------------------------------------------.BigQuery에서 전송 데이터를 가져오기 위한 SQL을 입력합니다.
    사용자 정의 변수를 이용하여 TROCCO 데이터 전송 시 동적으로 설정값을 결정하는 것도 가능하다.
    참고로 FROM 절에는 계정명을 포함하지 말고, FROM dataset_name.table_name 형식으로 쿼리를 작성해야 한다.
    여기서 지정하는 데이터셋은 임시 테이블 생성 대상 데이터셋과 동일한 지역이어야 하며, 데이터셋 위치에서 지정한 데이터셋과 동일해야 합니다.
    데이터 세트 위치미국SQL에서 지정한 데이터 세트와 임시 테이블 생성 대상 데이터 세트의 리전을 지정합니다.
    (둘 다 같은 지역에 생성해야 합니다).
    임시 테이블 생성 대상 데이터 세트----------------------------------------------------------------------------------------------.TROCCO는 전송 처리 시 SQL 실행 결과를 임시 테이블에 저장하는데, 이 임시 테이블을 어떤 데이터셋에 생성할 것인지 지정해야 합니다.
    여기서 지정한 데이터 세트는 TROCCO에서 자동으로 생성되지 않으므로 미리 생성된 데이터 세트를 지정해야 합니다.
    생성된 임시 테이블은 전송 완료 후 삭제되지만, 전송 작업이 오류로 종료될 경우 임시 테이블이 남아있을 수 있으니 유의하시기 바랍니다.
    여기서 지정하는 데이터셋은 SQL에서 지정한 데이터셋과 동일한 지역이어야 하며, 데이터셋의 위치에서 지정한 데이터셋과 동일해야 한다.
    임시 데이터 파일 형식CSVGoogle Cloud Storage로 내보낼 임시 데이터의 파일 형식을 선택합니다.
    변경 시에는 반드시 자동 데이터 설정을 해주시기 바랍니다.
    임시 데이터 삭제 정책삭제하기GCS로 내보낸 임시 데이터를 작업 완료 후 삭제하거나 설정합니다.
    작업 완료 후 임시 데이터를 확인하려면 삭제하지 않음을 선택합니다.
    임시 데이터 확인 방법에 대한 자세한 내용은 GCS에서 임시 데이터 확인 방법을 참고하세요.
    SQL 유형표준 SQL표준 SQL과 레거시 SQL을 지원합니다.
    자세한 차이점은 BigQuery 공식 문서를 참고하세요.

    STEP1 상세 설정

    품목명기본값내용
    작업 대기 시간 제한(초)600작업이 실행되기까지의 대기 시간 타임아웃을 초 단위로 지정할 수 있습니다.
    쿼리 캐시 이용하기유효BigQuery의 쿼리 캐시 기능을 사용할지 여부를 선택합니다.
    쿼리 캐시에 대한 자세한 내용은 BigQuery 공식 문서를 참고하세요.
    작업 대기 시간 초과 사용 예시

    BigQuery에서 실행 중인 쿼리가 많을 경우, 슬롯 제한으로 인해 작업이 실행되기까지 대기 시간이 발생할 수 있습니다.
    이 대기 시간이 지정한 타임아웃 시간에 도달하면 Not found: 라는 메시지가 표시됩니다. Table등의 오류가 발생하며 해당 전송 작업은 실패합니다.
    이러한 경우 작업 대기 시간 제한을 늘리면 전송 작업의 실패를 방지할 수 있습니다.

    필요한 권한

    이용에 필요한 권한은 다음과 같습니다.
    * bigquery.datasets.get
    * bigquery.jobs.create
    * bigquery.tables.create
    * bigquery.tables.delete
    * bigquery.tables.export
    * bigquery.tables.get
    * bigquery.tables.getData
    * bigquery.tables.updateData
    * storage.buckets.create
    * storage.buckets.delete
    * storage.buckets.get
    * storage.buckets.list
    * storage.objects.create
    * storage.objects.delete
    * storage.objects.get
    * storage.objects.list

    GCS에서 임시 데이터를 확인하는 방법

    앞서 언급했듯이 전송된 데이터는 GCS에서 지정한 버킷 폴더에 임시로 저장된다.
    '임시 데이터 삭제 정책'을 '삭제하지 않음'으로 설정한 경우, GCS에 남아있는 임시 데이터를 전송 후 확인할 수 있습니다.
    임시 데이터는 압축되어 있기 때문에 내용을 확인하려면 압축을 풀어야 합니다.
    임시 데이터의 확장자를 .gz로 변경하고 gzip으로 압축을 푼 후 파일 내용을 확인합니다.


    이 문서가 도움이 되었습니까?