입수는 Datalake로! (feat. Iceberg)

#Data

조승완 · 토스 Data Engineer

2024년 10월 29일

안녕하세요. 오늘은 토스 데이터 플랫폼팀에서 데이터 효율성을 높이기 위해 도입한 ‘Iceberg’에 대해 이야기해 보려고 합니다. Iceberg에 대한 기본적인 정보는 다른 곳에서도 쉽게 찾아볼 수 있지만, 저는 특히 유지보수와 운영 측면에 집중해서 이야기하려 합니다.

최근 데이터의 양과 다양성이 급격히 증가하면서, 효율적인 데이터 파이프라인 구축의 중요성이 그 어느 때보다 커졌는데요. 특히, 실시간 데이터 조회와 수정, 운영 비용 절감, 스키마 진화의 간소화, 쿼리 성능 최적화와 같은 도전 과제들이 주요 이슈로 떠오르고 있습니다.

이러한 문제를 해결하기 위해, 토스 데이터 플랫폼 팀은 작년 하반기부터 올해 상반기까지 ‘Iceage 프로젝트’를 진행하며 DataLake에 Iceberg 포맷을 도입해 효율적인 데이터 파이프라인을 구축했습니다. 이번 글에서는 Iceberg 도입을 통해 얻은 경험을 바탕으로, 유지보수와 운영 과정에서의 실질적인 팁과 인사이트를 공유하려 합니다. 글에 공유된 모든 예시는 Spark(버전 3.5.2)와 Iceberg(버전 1.5.2) 기준으로 작성되었습니다.

Iceage 프로젝트의 목표

저희 팀의 최종 목표는 다양한 데이터 소스(Kafka, CDC 등)로부터 입수된 데이터를 Iceberg 포맷으로 관리하여, 실시간으로 데이터를 조회하고 수정할 수 있는 효율적인 데이터 파이프라인을 만드는 것입니다. 이를 통해 운영 비용을 절감하고, 데이터 처리 효율성을 높이며, 스키마 진화와 쿼리 성능을 최적화하고자 했습니다.

좀 더 구체적으로 말씀드리면:

준실시간 데이터 조회와 수정 지원: 입수 후 5분에서 15분 이내에 데이터를 조회하고 수정할 수 있는 구조를 만들어서 사용자에게 실시간 데이터를 제공하고자 했습니다.
효율적인 리소스 활용과 비용 절감: JSON으로 입수되는 데이터를 Parquet, Kudu로 적재하기 위한 비용을 절감하고, 리소스를 효율적으로 사용할 수 있는 파이프라인을 구축했습니다.
스키마 진화의 간소화: Iceberg의 스키마 에볼루션 기능을 활용해 스키마 변경 시 발생하는 복잡한 커뮤니케이션을 줄이고 리소스 사용을 최소화했습니다.
쿼리 성능 최적화: Iceberg의 히든 파티셔닝과 파티션 에볼루션을 통해 쿼리 성능을 최적화할 수 있었습니다.
운영 효율성 향상: Kafka Connect 기반의 입수 작업 메타데이터와 리니지 관리를 통해 운영 효율성을 크게 향상시켰습니다.
데이터 일관성 및 무결성 유지: Iceberg의 트랜잭션 지원 덕분에 데이터의 일관성과 무결성을 유지할 수 있었습니다.
Iceberg 메타데이터를 이용한 테이블 모니터링 시스템 구축: Iceberg의 메타데이터를 활용해 테이블의 상태를 실시간으로 모니터링하고, 문제 발생 시 빠르게 대응할 수 있는 시스템을 구축했습니다.

문제 정의

기존 데이터 파이프라인에는 어떤 문제가 있었고, 왜 위와 같은 목표를 세우게 됐는지 살펴보겠습니다.

문제 #1: Kafka 데이터 처리와 CDC 입수의 문제점

기존 데이터 처리에서는 Kafka와 CDC 데이터 입수 과정에서 여러 가지 문제가 있었습니다.

Kafka 데이터 처리 문제
Kafka 데이터를 JSON 형식으로 입수하고 Parquet 형식으로 변환하는 과정에서 고정된 리소스를 사용해야 했습니다. 데이터가 증가하면 리소스도 끊임없이 늘어나야 했기 때문에 비용 효율적이지 않았습니다.
데이터를 실시간으로 제공하기보다는 한 시간 단위로 모아 배치 처리하는 방식이었기 때문에 사용자 입장에서는 최신 데이터를 빠르게 얻기가 어려웠습니다.
CDC 데이터를 Kudu로 받는 문제
CDC 데이터를 실시간으로 처리하는 데 Kudu를 사용했는데, 큰 테이블의 경우 Kudu에 데이터를 적재하는 과정에서 예상보다 많은 지연이 발생했습니다. 이런 지연은 특히 실시간 데이터 제공의 품질에 악영향을 미쳤죠.
Kudu에서는 파티션이나 스키마를 변경할 때마다 추가적인 커뮤니케이션과 작업이 필요해, 그로 인해 많은 리소스와 시간이 소모되었습니다.

문제 #2: 테이블 작업과 파티션 운영의 문제점

기존 데이터 환경에서 테이블 작업을 진행하다가 데이터를 읽을 수 없는 경우가 발생하거나, 파티션 관리에 어려움이 많았습니다. Kudu와 Parquet를 사용할 때 각기 다른 파티션 관리의 제약이 있었고, 이러한 문제들로 인해 쿼리 성능을 최적화하기 어려웠습니다.

특히, Parquet는 특정 파티션 필드 값 때문에 데이터 적재에 제약이 있었고, 파티셔닝을 통한 효율적인 데이터 관리가 쉽지 않았습니다. 파티셔닝이 잘못되면 데이터가 누락되거나, 쿼리 성능을 개선하기 위한 파티션 필터링이 적용되지 않아 많은 비용이 발생할 수 있었습니다.

문제 #3: 운영 자동화의 필요성

기존에는 수많은 데이터 입수 파이프라인을 수동으로 관리해야 했기 때문에, 관리에 많은 시간이 소요되었고 운영 부담도 상당히 컸습니다. 각 파이프라인을 개별적으로 모니터링하고 조정해야 했기에 비효율적이었으며, 그로 인해 데이터의 일관성을 유지하기도 어려웠습니다. 이러한 상황에서는 실시간 데이터 제공의 품질이 저하될 수밖에 없었으며, 문제를 해결하기 위해 데이터 파이프라인의 자동화가 필수적이었습니다.

Iceberg란 무엇인가요?

Iceberg의 구조 (출처: https://iceberg.apache.org/spec/#overview)

Iceberg는 오픈 테이블 포맷으로, 데이터를 효율적으로 관리하고 실시간으로 쿼리할 수 있도록 돕는 도구입니다. Iceberg의 설계 핵심은 데이터와 메타데이터를 분리하여 저장하는 구조입니다. 이를 통해 데이터의 파티셔닝, 스키마 진화, 트랜잭션 처리 등을 유연하게 관리할 수 있게 되었죠.

기존의 데이터 레이크 솔루션들은 Parquet와 같은 파일 포맷에서 다양한 파티셔닝 문제를 안고 있었고, 데이터 스키마가 변경될 때마다 많은 수정이 필요해 비효율적이었습니다. Iceberg는 이러한 문제를 해결하고자 Netflix에서 설계한 오픈소스 프로젝트로, 대규모 데이터 환경에서도 효율적으로 운영될 수 있도록 개발되었습니다.

Iceberg의 가장 큰 장점은 스키마 진화와 파티션 관리의 유연성입니다. 데이터를 새로운 형태로 쉽게 변경할 수 있으며, 파티셔닝 전략을 자유롭게 수정할 수 있어 쿼리 성능을 크게 개선할 수 있습니다. 또한, ACID 트랜잭션을 지원하여 데이터의 일관성과 무결성을 보장합니다. Iceberg의 구조적 설계 덕분에 데이터가 변경되더라도 메타데이터가 이를 추적하고 관리하기 때문에 안정성과 성능을 동시에 유지할 수 있습니다.

이러한 유연한 설계는 Iceberg를 실시간 데이터 처리와 복잡한 데이터 환경에서 효과적으로 사용할 수 있게 해주며, Netflix를 비롯한 여러 대규모 데이터 시스템에서 널리 사용되고 있습니다.

Iceberg의 장점

준실시간 데이터 제공: Iceberg 포맷의 효율성 덕분에 데이터 입수 후 5분에서 15분 이내에 실시간으로 데이터를 조회할 수 있게 되었어요.
비용 효율성: 기존(Parquet, Kudu) 에 비해 유지, 운영 비용을 줄일 수 있었고, 리소스도 더 효율적으로 사용할 수 있었습니다.
스키마 진화 간소화: Iceberg의 스키마 에볼루션 기능을 통해 스키마 변경에 따르는 복잡한 과정을 간소화할 수 있었죠.
처리 효율성 향상: Iceberg의 히든 파티셔닝과 파티션 에볼루션을 지원하여 데이터를 더 효율적으로 관리할 수 있었습니다.
쿼리 성능 최적화: 더 나은 통계 관리와 파일 나열 오버헤드를 줄여 쿼리 성능을 크게 개선할 수 있었습니다.

입수 자동화

데이터 파이프라인 운영에서 자동화는 필수적입니다. Netflix의 사례에서 알 수 있듯, 복잡한 데이터 매쉬 환경에서도 SQL 기반으로 스트리밍 데이터를 관리하고 자동화를 통해 운영의 복잡성을 줄이고 있습니다. 저희도 이를 참고하여 Kafka Connect 기반의 자동화된 입수 작업을 구축해 데이터 파이프라인의 운영 효율성을 높였습니다.

저희의 자동화된 입수 시스템은 메타데이터와 리니지 관리를 통해 실시간 모니터링이 가능하도록 설계되었습니다. 문제가 발생하면 빠르게 대응할 수 있으며, 사내 메신저 알림을 통해 운영 이슈에도 즉각적으로 대처할 수 있는 시스템을 구축해 운영 성숙도를 크게 향상시켰습니다. 이러한 자동화 덕분에 사람의 개입을 최소화하면서도 데이터 파이프라인의 확장성을 크게 높일 수 있었습니다.

이 자동화 도구 덕분에 약 천여 개의 입수 파이프라인을 단 세 명이 관리할 수 있게 되었습니다. 운영 인력이 적더라도 실시간 데이터 제공의 품질을 유지하며 안정적으로 데이터를 관리할 수 있었던 것도 이러한 자동화 시스템 덕분입니다.

자동화 시스템은 위에 보이는 이미지와 같이 다양한 지표를 모니터링하고 있는데요. 각 지표가 뭔지, 그리고 왜 필요한지 간략히 설명드리겠습니다.

manifest_count: 테이블에 포함된 매니페스트 파일의 개수입니다. 매니페스트가 많을수록 메타데이터 크기가 증가할 수 있습니다.
total_manifest_size_mb: 모든 매니페스트 파일의 총 크기(메가바이트)입니다. 메타데이터의 크기와 관련된 중요한 지표입니다.
total_manifest_entries: 매니페스트 파일에 포함된 총 엔트리 수로, 테이블 내 데이터 파일에 대한 정보를 나타냅니다.
snapshot_interval_ms: 스냅샷 간의 시간 간격(밀리초)입니다. 스냅샷 생성 주기를 모니터링하여 너무 짧거나 길지 않도록 관리합니다.
snapshot_size_mb: 최근 생성된 스냅샷의 크기(메가바이트)입니다. 스냅샷 크기가 지나치게 클 경우 성능 저하로 이어질 수 있습니다.
total_data_size_mb: 테이블에 저장된 전체 데이터의 크기(메가바이트)입니다. 테이블의 규모를 파악하는 데 사용됩니다.
total_data_files: 테이블에 포함된 데이터 파일의 총 개수입니다.
total_deleted_files: 테이블에서 삭제된 파일의 총 개수입니다. 불필요한 삭제 파일이 쌓이지 않도록 모니터링이 필요합니다.
latency_ms: 데이터 입수 및 처리의 평균 지연 시간(밀리초)입니다. 성능 저하를 방지하기 위해 지연 시간을 모니터링합니다.
avg_data_files_per_snapshot: 스냅샷당 평균 데이터 파일 개수입니다. 스냅샷에 포함된 데이터 파일의 개수를 파악하여 효율적인 관리를 도울 수 있습니다.
avg_deleted_files_per_snapshot: 스냅샷당 평균 삭제 파일 개수입니다. 삭제 파일이 너무 많을 경우 읽기성능 저하가 발생할 수 있어 유지보수 작업이 필요할 수 있습니다.
table_size_mb: 테이블의 총 크기(메가바이트)입니다. 테이블의 전체 규모를 나타내며, 크기 관리에 유용합니다.
partition_count: 테이블에 포함된 파티션의 총 개수입니다. 파티션 수는 쿼리 성능 및 데이터 관리에 중요한 영향을 미칩니다.
avg_partition_size_mb: 파티션당 평균 크기(메가바이트)입니다. 파티션 크기가 작을 경우 파티션 제거를 고려할 수 있습니다.
max_partition_size_mb: 가장 큰 파티션의 크기(메가바이트)입니다. 이 값이 128MB또는 256MB이하로 유지된다면, 파티션을 제거하는 것도 고려할 수 있습니다.
avg_partition_record_count: 파티션당 평균 레코드 수입니다. 파티션 내 레코드의 균형을 유지하여 성능 최적화를 도울 수 있습니다.
latest_partition_name: 최근 생성된 파티션의 이름입니다. 파티션 생성 주기와 관련된 정보를 제공하여 데이터 갱신 상태를 확인할 수 있습니다.
row_count: 테이블에 저장된 전체 레코드 수입니다. 데이터의 전체 규모를 파악하는 데 유용합니다.
position_delete_file_count: 위치 삭제 파일의 총 개수입니다. 데이터 정리 및 삭제 관리에 중요한 역할을 합니다.
position_delete_total_size_mb: 위치 삭제 파일의 총 크기(메가바이트)입니다. 삭제 파일이 불필요하게 커지지 않도록 관리해야 합니다.
equality_delete_file_count: 동일성 조건으로 삭제된 파일의 총 개수입니다. 데이터 유지보수와 정리에 필요한 정보를 제공합니다.
equality_delete_total_size_mb: 동일성 조건으로 삭제된 파일의 총 크기(메가바이트)입니다. 삭제 파일의 크기를 모니터링하여 불필요한 공간 사용을 줄입니다.

Iceberg 유지보수 및 운영 팁

Iceberg를 유지하고 최적화하는 작업은 데이터 엔지니어에게 중요한 과제입니다. Iceberg의 메타데이터는 읽기 성능에 큰 영향을 미치기 때문에 주기적으로 정리하고 최적화해야 합니다. 이를 위해 저희는 모니터링과 자동화된 Slack 알림 시스템을 구축해, 메타데이터 상태를 실시간으로 점검하고 필요시 바로 대응할 수 있도록 했습니다.

자동화된 모니터링 및 알림 시스템

저희 팀은 Iceberg 테이블의 읽기 성능 저하를 방지하기 위해 특정 지표가 일정 임계값을 초과할 경우 Slack 알림을 통해 즉각적으로 대응할 수 있도록 설정했습니다. 모니터링하는 주요 지표는 다음과 같습니다:

Iceberg 테이블에 불필요한 파티션이 설정되어 있어 스몰 파일이 다수 존재하는지
파티션 설정이 추가로 필요한 테이블이 있는지
유지보수 작업으로 Position/Equality Delete 파일이 제대로 정리되지 않고 있는지

이와 같은 알림을 설정하기 위해 DataLake에 있는 모든 Iceberg 테이블의 메타데이터를 주기적으로 파싱하고, 이를 바탕으로 지표를 수집하여 관리하고 있습니다. 필요한 메트릭은 아래의 쿼리를 통해 추출할 수 있습니다.

snapshot_df = spark.sql(f"SELECT * FROM spark_catalog.{table}.snapshots")
manifest_df = spark.sql(f"SELECT * FROM spark_catalog.{table}.manifests")
data_files_df = spark.sql(f"SELECT * FROM spark_catalog.{table}.files")
partitions_df = spark.sql(f"SELECT * FROM spark_catalog.{table}.partitions")
row_count_df = spark.sql(f"select count(1) as row_count from spark_catalog.{table}")
delete_files_df = spark.sql(f"SELECT * FROM spark_catalog.{table}.delete_files")

메타데이터 관리

Iceberg는 데이터 변경 사항을 스냅샷으로 관리하는데, 시간이 지남에 따라 스냅샷이 쌓여 메타데이터가 커지고, 이로 인해 성능이 저하될 수 있습니다. 이를 방지하기 위해 저희 팀은 정기적인 메타데이터 관리와 최적화 작업을 진행하고 있습니다.

스냅샷 정리 및 메타데이터 최적화: 주기적으로 expire_snapshots 명령을 사용하여 오래된 스냅샷을 제거하고, rewrite_manifests를 통해 메타데이터를 최적화합니다. 이를 통해 메타데이터 크기를 줄여 쿼리 성능을 유지하고, 전체적인 운영 효율성을 높일 수 있습니다. 다만, 작업 중 간혹 org.apache.iceberg.exceptions.NotFoundException: File does not exist Avro와 같은 오류가 발생할 수 있는데, 이는 특정 스냅샷 파일이 사라졌을 때 생기는 문제입니다. 이를 방지하기 위해 저희 팀은 최근 2개의 스냅샷을 유지한 상태에서 오래된 스냅샷을 제거하는 방식으로 관리하고 있습니다.
# 오래된 스냅샷 제거 및 마지막 두 개의 스냅샷 유지 spark.sql(f"CALL system.expire_snapshots(table => '{table}', older_than => TIMESTAMP '{older_then_now}', retain_last => 2)")
options_map = "map('target-file-size-bytes', '241658240', 'max-file-size-bytes', '536870912', 'partial-progress.enabled', 'true')" spark.sql(f"CALL system.rewrite_data_files(table => '{table}', where => '`{partition_column}`>=\"{partition_day}\"', options => {options_map})")
정기적인 데이터 정리 작업: 데이터 파이프라인의 안정성과 성능을 유지하려면 정기적인 데이터 정리가 필수적입니다. 저희는 remove_orphan_files, rewrite_data_files 같은 명령을 자동화하여 스케줄링하고, Airflow와 같은 워크플로우 관리 도구를 활용해 입수 작업 후 정리 작업이 자동으로 이루어지도록 설정했습니다.
- 특정 파티션 정리: 큰 테이블의 경우, 전체 데이터를 재정리하는 대신 특정 파티션만 rewrite_data_files 명령을 사용해 유지보수 시간을 단축할 수 있었습니다. 예를 들어, 특정 날짜 이후의 데이터만 정리할 수 있습니다.
- remove_orphan_files 주의사항: Iceberg 파일이 현재 쓰기 작업 중이라면, 그 파일은 orphan 상태로 인식될 수 있습니다. 이때 remove_orphan_files 명령을 실행하면 쓰기 작업이 실패할 수 있으며, 이는 메타데이터 손상으로 이어져 테이블을 읽지 못하게 됩니다.
  spakr.sql(f"CALL system.remove_orphan_files(table => '{table}')"
- CDC 테이블 유지보수: CDC 테이블처럼 delete 파일이 발생하는 경우, 유지보수 작업을 진행할 때 입수 작업을 잠시 중단하는 것이 안전합니다. 데이터 쓰기 작업과 rewrite 작업이 동시에 이루어지면 메타데이터가 손상될 위험이 있기 때문입니다. 또한, delete 파일을 효율적으로 정리하기 위해 delete-file-threshold 옵션을 0으로 설정하여 불필요한 파일을 제거할 수 있습니다.
  spark.sql(f"CALL system.rewrite_data_files(table => '{table}', options => map('target-file-size-bytes', '251658240', 'delete-file-threshold', '0'))")

효율적인 데이터 쓰기

Iceberg에서 대규모 테이블에 파티션을 추가할 때, 데이터를 효율적으로 읽기 위해서는 Iceberg의 write.distribution-mode 설정이 매우 중요합니다. 이 설정을 통해 데이터 저장 방식을 최적화할 수 있으며, 몇 가지 주의할 점이 있습니다.

데이터 분산 저장: 데이터를 단순히 순차적으로 저장하면 특정 파티션이나 파일에 데이터가 집중될 수 있습니다. 이 경우 특정 파티션을 집중적으로 읽을 때 I/O 부하가 특정 노드에 몰리면서 성능이 저하될 수 있습니다. write.distribution-mode를 사용하면 데이터를 고르게 분산해 저장할 수 있어, 여러 노드에 걸쳐 데이터를 병렬로 처리함으로써 읽기 성능을 향상시킬 수 있습니다. Iceberg에서는 다음 세 가지 분포 옵션을 제공합니다:

none: 기본 설정으로, Spark에서 셔플링이나 정렬을 수행하지 않는 방식입니다.
range: 지정된 컬럼의 값 범위에 따라 데이터를 분배합니다. 예를 들어, 날짜 컬럼을 기준으로 설정하면 날짜별로 데이터를 분산시켜 저장하므로 특정 날짜 범위의 데이터를 빠르게 로드할 수 있습니다.
hash: 해시 함수를 사용해 데이터를 분산시킵니다. 특정 컬럼을 기준으로 해싱하여 여러 파일이나 파티션에 데이터를 균등하게 분배함으로써 I/O 병목 현상을 줄일 수 있습니다.

적절한 옵션 선택: 작은 사이즈의 테이블에서는 hash 옵션을 사용하면 읽기 작업이 빠를 수 있지만, 사이즈가 매우 큰 테이블에서는 hash로 설정할 경우 오히려 읽기 작업이 느려질 수 있습니다. 이때 range 설정을 사용하면 성능 저하를 완화할 수 있습니다. 또한, locally 설정은 셔플링 없이 데이터를 쓸 수 있지만, 이로 인해 작은 파일들이 많이 생성될 수 있어 상황에 맞게 조정이 필요합니다.

환경에 따라 각 설정의 효과가 다를 수 있으므로, 사용 환경에 맞는 최적의 값을 찾기 위해 테스트를 거쳐 설정하는 것이 중요합니다.

-- 분포 모드 설정 예시

-- 'write.distribution-mode'='none'
ALTER TABLE {table} WRITE UNORDERED;

-- 'write.distribution-mode'='none'
ALTER TABLE {table} WRITE LOCALLY ORDERED BY `{partition_col}`;

-- 'write.distribution-mode'='range'
ALTER TABLE {table} WRITE ORDERED BY `{partition_col}`;

-- 'write.distribution-mode'='hash' (셔플링 없이 로컬 정렬)
ALTER TABLE {table} WRITE DISTRIBUTED BY PARTITION LOCALLY ORDERED BY `{partition_col}`;

-- 'write.distribution-mode'='hash' (데이터 분산)
ALTER TABLE {table} WRITE DISTRIBUTED BY PARTITION;

Partition Pruning 문제 해결

Iceberg에서 파티션 프루닝이 잘 작동하지 않는 경우, 이는 파티션 컬럼의 타입과 쿼리에서 사용한 조건의 타입이 일치하지 않는 데서 비롯될 수 있습니다. 예를 들어, 파티션 컬럼이 String 타입인데 Date 타입으로 쿼리를 작성하면 프루닝이 제대로 이루어지지 않아 성능이 저하될 수 있습니다.

타입 일치의 중요성: 아래는 파티션 컬럼이 String 타입일 때 Date 타입으로 쿼리한 예시입니다. 이 경우, 전체 데이터 파일 크기가 124.12TB로 불필요하게 많은 데이터를 읽어야 합니다.

-- 파티션 컬럼이 String이지만, Date 타입으로 쿼리한 경우
EXPLAIN SELECT partition_day, COUNT(1) AS cnt
FROM {table} WHERE partition_day >= DATE_SUB(CURRENT_DATE(), 3)
GROUP BY partition_day;

-- 결과
...생략
| 00:SCAN HDFS [{table}]                                         |
|    HDFS partitions=1/1 files=655173 size=124.12TB                                  |
|    predicates: partition_day >= DATE '2024-06-30'                                  |
|    row-size=12B cardinality=74.23G

올바른 타입 사용: 파티션 컬럼과 쿼리 조건의 타입을 일치시킴으로써 성능을 개선할 수 있습니다. String으로 캐스팅하여 쿼리한 경우, 읽어야 할 데이터의 크기가 3.7TB로 줄어듭니다.

-- 파티션 컬럼 타입과 맞추어 String으로 캐스팅한 경우
EXPLAIN SELECT partition_day, COUNT(1) AS cnt
FROM {table} WHERE partition_day >= CAST(DATE_SUB(CURRENT_DATE(), 3) AS STRING)
GROUP BY partition_day;

-- 결과
...생략
| 00:SCAN HDFS [{table}]                                         |
|    HDFS partitions=1/1 files=19054 size=3.70TB                                     |
|    skipped Iceberg predicates: partition_day >= '2024-06-30'                       |
|    row-size=12B cardinality=21.57G

이러한 방식으로 write.distribution-mode설정과 파티션 프루닝을 적절히 활용하면, Iceberg 테이블의 쓰기 및 읽기 성능을 최적화할 수 있습니다. 테이블 크기와 데이터 특성에 맞는 설정을 통해 성능 저하를 방지하고, 효율적인 데이터 운영을 이끌어낼 수 있습니다.

테이블 복구 및 재구축

Iceberg 테이블을 운영하다 보면, 여러 가지 이유로 테이블을 복구하거나 다시 설정해야 하는 상황이 발생할 수 있습니다. 다음은 테이블 복구 및 재구축을 위해 사용되는 주요 방법들입니다.

카탈로그에서 테이블이 제거된 경우: 데이터와 메타데이터 파일이 정상적으로 존재하지만, 카탈로그에서 테이블이 삭제된 경우 register_table 명령을 사용해 테이블을 다시 등록할 수 있습니다. 이 방법을 통해 기존 데이터 구조를 유지하면서 빠르게 테이블을 복구할 수 있습니다. 더 자세한 내용은 공식 문서에서 확인해주세요.
# 기존 메타데이터 파일을 사용해 테이블을 등록 spark.sql("CALL system.register_table(table => 'db.sample', metadata_file => 'hdfs://{metadata_path}/metadata.json')")
데이터 파일만 존재하는 경우: 테이블의 데이터 파일은 남아 있지만, 메타데이터가 손실된 경우 add_files 명령을 사용해 데이터 파일을 새롭게 Iceberg 테이블로 등록할 수 있습니다. 이를 통해 Parquet 등 다른 포맷으로 저장된 데이터를 손쉽게 Iceberg 포맷으로 전환할 수 있습니다. 더 자세한 내용은 공식문서를 참고해주세요.
# 데이터 파일을 Iceberg 테이블로 추가 spark.sql("CALL system.add_files(table => 'db.sample', source_table => 'parquet.`hdfs://{path}/data`')")
기존 테이블을 Iceberg로 변환: 다른 포맷으로 저장된 기존 테이블을 Iceberg 테이블로 변경하고 싶을 때는 migrate 명령을 사용할 수 있습니다. 이 명령을 통해 기존 데이터를 유지하면서 Iceberg의 장점을 활용할 수 있습니다. 더 자세한 내용은 공식문서에서 확인해주세요.
# 기존 테이블을 Iceberg 포맷으로 마이그레이션 spark.sql("CALL catalog_name.system.migrate('db.sample')")

이러한 방법들은 운영 환경에서 발생할 수 있는 다양한 상황에 유연하게 대응할 수 있도록 도와줍니다. Iceberg의 복구 및 재구축 기능을 통해 데이터 손실 없이 테이블을 관리하고, 운영 중 발생할 수 있는 문제들을 효과적으로 해결할 수 있습니다.

또한, 저희 팀은 데이터 입수 작업을 Kafka Connect 기반으로 설정 파일을 통해 관리하면서 메타데이터와 데이터 리니지를 체계적으로 관리했습니다. 이를 통해 스키마나 파티션 변경 시 발생할 수 있는 문제들을 보다 쉽게 해결할 수 있었고, 운영 효율성도 높일 수 있었습니다. 특히, 데이터 파이프라인에서 발생하는 다양한 변경 사항에 유연하게 대응할 수 있어 테이블 복구 및 재구축 작업과 연계하여 안정적인 데이터 운영 환경을 유지할 수 있었습니다.

이와 같은 Iceberg의 복구 및 관리 기능을 통해, 데이터 손실 없이 테이블을 유지하고, 스키마 변경과 같은 변화에도 유연하게 대처할 수 있었습니다.

앞으로의 계획

저희 팀은 지금까지 DataOps 도구를 고도화하여, 최소한의 인력으로 수많은 파이프라인을 효율적으로 운영할 수 있는 구조를 구축해 왔습니다. 이제 한 걸음 더 나아가, 데이터 메시 구현을 위한 셀프서비스 플랫폼과 데이터 게이트웨이를 개발하는 데 집중하려 합니다.

우선, 셀프서비스 플랫폼을 SaaS 형태로 제공하여, 데이터 팀뿐만 아니라 다양한 사용자가 손쉽게 데이터 파이프라인을 구성하고 데이터를 자유롭게 활용할 수 있는 환경을 만들고자 합니다. 이 플랫폼은 각 도메인 팀이 독립적으로 데이터를 생성하고 관리할 수 있도록 지원하며, 데이터 입수, 처리, 저장을 손쉽게 관리할 수 있는 도구를 제공합니다. 이를 통해 중앙 집중식 관리의 부담을 줄이고, 각 도메인이 필요한 데이터를 직접 책임지고 운영할 수 있도록 돕고자 합니다.

동시에, 데이터를 필요로 하는 팀들이 손쉽게 접근하고 활용할 수 있도록 데이터 게이트웨이도 개발 중입니다. 데이터 게이트웨이는 각 도메인에서 생성된 데이터가 조직 전체에 걸쳐 효율적으로 공유되고 사용될 수 있게 하여, 데이터 활용의 효율성을 극대화합니다. 이를 통해 조직 내에서 필요한 데이터가 언제든지 쉽게 접근 가능하도록 하여 데이터의 가치를 높일 계획입니다.

저희의 최종 목표는 데이터 접근성과 사용성을 더욱 높이는 것이며, 이를 통해 데이터의 가치를 극대화하고자 합니다. 데이터 메시의 철학을 바탕으로, 각 도메인이 주도적으로 데이터를 생성하고 관리하며, 필요에 따라 자유롭게 데이터를 활용할 수 있는 유연하고 효율적인 데이터 환경을 만들고자 합니다.

마무리하며

Iceberg를 도입하면서 기존의 다양한 문제들을 해결하고, 데이터 파이프라인의 효율성을 크게 개선할 수 있었습니다. 실시간 데이터 제공, 비용 절감, 쿼리 성능 최적화 등 여러 이점을 통해 데이터 인프라의 안정성과 성능을 동시에 확보할 수 있었습니다.

저희의 경험이 데이터 파이프라인 최적화와 데이터 레이크 구축에 관심 있는 분들께 도움이 되기를 바랍니다. Iceberg를 활용하여 복잡한 데이터 환경을 더 효율적이고 유연하게 관리해 보세요.

Data Engineer로 지원하기

댓글 관련 문의: toss-tech@toss.im

활기찬수달

언급해주신 댓글 중, • 초기에는 Upsert 모드를 사용했으나, 특정 상황에서 Equality Delete가 정상적으로 처리되지 않는 문제가 있어 Append 모드로 변경하였습니다. 이 부분에 특히 공감이 되었습니다. 저 역시 Upsert 모드를 사용하면서 유사한 문제를 겪었고, 결국 Append 모드로 전환하게 되었는데요. 현재는 이 문제를 해결하셨는지, 아니면 다른 대안을 고려하고 계신지 궁금합니다. 개인적으로는 Flink CDC를 도입하면 이런 문제가 어느 정도 해결되지 않을까 기대되기도 하는데, 혹시 관련해서 경험이 있으신지도 궁금합니다.

유쾌한부엉이

좋은글 감사합니다. 작성해주신 댓글에서 질문이 있습니다. 4. 최신 형상 View 제공 • Append된 Change Log를 기반으로 Key별 최신 데이터를 조회하는 View를 생성하여 사용하고 있습니다. • 이렇게 구성하면 데이터 변경 로그를 실시간으로 반영하면서도 최신 상태를 쉽게 확인할 수 있습니다. 위와 같이 설명해주신 부분에서 사이즈가 큰 파티션 미러 테이블을 사용할경우 View의 조회 속도가 느린 이슈는 없었을까요? View에서 Key별 최신 데이터를 조회하려면 Change Log 테이블과 미러 테이블을 Union해서 최신 Key 값에 해당하는 row를 찾아야 할텐데, 이 경우 미러 테이블이 풀스캔될것 같긴해서요.

조승완

우선 관심 가져주셔서 감사합니다. 지적하신 대로, 뷰(view)를 통해 base 테이블과 CDC 로그를 재생(replay)하여 최신 데이터를 조회하면 속도가 느려질 수밖에 없습니다. 현재 저희는 base 테이블과 CDC 로그를 LEFT OUTER JOIN 방식으로 결합하고 있는데, 이 경우 base 전체를 풀 스캔하지는 않지만, CDC 로그에 추가된 데이터 양이 많아질수록 처리 속도가 점점 떨어지는 구조입니다. 이를 완화하기 위해 저희는 주기적으로 base 테이블 전체를 INSERT OVERWRITE 방식으로 갱신하고 있습니다. 이렇게 하면 base 데이터를 최신 상태로 유지함과 동시에, 쌓여 있던 CDC 로그 건수도 초기화되어 읽기 성능을 일정 수준으로 안정적으로 보장할 수 있습니다.

재치있는여우

안녕하세요. 좋은 글 공유해 주셔서 감사합니다. 한가지 질문이 있습니다. "CDC 테이블처럼 delete 파일이 발생하는 경우, 유지보수 작업을 진행할 때 입수 작업을 잠시 중단하는 것이 안전" flink를 이용하여 실시간으로 iceberg 테이블 적재하는 데이터 파이프라인을 고려하고 있는데, 위 내용을 참고해보면 flink 파이프라인을 중단 후 data rewrite 등의 compaction 작업을 해줘야 한다고 이해를 했습니다. 이 부분을 매번 메뉴얼로 진행할 수 없을 것 같은데, 어떻게 운영하고 계신지 답변 주실수 있을까요?

조승완

관심 가져주셔서 감사합니다. 저희도 현재 Flink 기반으로 Iceberg 적재를 PoC 단계, MVP 수준으로 진행 중이라 파이프라인 중단이 반드시 필요한지는 아직 검증하지 못했습니다. Iceberg Sink로 Kafka Connector를 사용하고 있는데, 구조 특성상 state가 유실될 수 있어 데이터 수집 파이프라인을 중단한 뒤 유지보수 작업을 수행하고 있습니다. 물론 이러한 작업은 사람이 직접 하는 것이 아니라 Airflow를 활용한 배치 작업으로 자동화되어 있습니다. 향후 MVP 단계의 Flink 파이프라인도 동일한 방식으로 운영할 예정이며, Flink의 Savepoint 기능을 이용해 파이프라인 중단 시점에 savepoint를 찍고, 작업 완료 후 해당 지점부터 안전하게 재개할 계획입니다.

재미있는토끼

안녕하세요. 좋은 글 공유해주셔서 감사드립니다. 댓글을 보던 중 SMT를 통해 CDC 로그를 정제하셔서 저장하신 과정에서 궁금한 점이 있습니다. CDC로그를 정제해서 싱크할 때, 기존에 없던 컬럼이 추가되는 경우는 어떻게 반영하셨는지 궁금합니다. 그리고 파싱하는게 꽤나 복잡한 로직이 들어갈 것 같은데, SMT로 구현하셨다는게 너무 신기합니다. 이부분에 대해 조금 더 설명해주시면 너무 감사하겠습니다.

조승완

관심 가져주셔서 감사합니다. CDC 로그는 Debezium 포맷으로 수집되고 있으며, 이를 파싱해 주는 SDK가 이미 다양하게 제공되고 있습니다. 저희도 오픈소스 SDK를 활용해 파싱을 구현했습니다. 또한 신규 컬럼 추가의 경우, 커넥터가 Iceberg로 싱크하기 전 컬럼 메타데이터를 메모리에 보유하고 있어, 해당 정보를 이용해 자동으로 신규 컬럼을 반영할 수 있었습니다.

데이터먹는펭귄

댓글 길이 제약이 있어서 이어서 남깁니다 Q5. "기존에는 수많은 데이터 입수 파이프라인을 수동으로 관리하던 것을 자동화" => 현재는 그럼 Kafka CDC Connector 관련 인프라 및 데이터 변환 코드(SQL) 등이 형상관리되고 있는 것인가요? 저희의 경우 실시간 파이프라인을 Cloud에서 운영 중이고 모든 코드를 Terraform으로 형상관리 하고 있는데 on-premise 환경에선 이를 어떻게 관리하고 있을지 궁금했습니다. Q6. "자동화된 입수 시스템은 메타데이터와 리니지 관리를 통해 실시간 모니터링이 가능하도록 설계되었다" => 어떤 도구를 통해 리니지를 관리하고 있을까요? Kafka를 통해 입수한 CDC 데이터 적재 이후의 downstream들에 대한 리니지를 모두 확보하고 관리하고 있다고 이해하면 될까요? 배치의 경우 Airflow로 자동으로 관리가 되지만, 실시간 + 배치가 결합된 전체 리니지를 어떻게 관리할 수 있을지 고민하던 중이었습니다. Q7. "CDC 테이블처럼 delete 파일이 발생하는 경우, 유지보수 작업을 진행할 때 입수 작업을 잠시 중단하는 것이 안전" => 운영환경에서 delete 파일들은 주기적으로 merge가 될 것이고, 지워도 되는 과거 이력(delete도 하나의 데이터로 관리됨)에 대해서 vacuum을 하게 되어 현재 필요한 delete 이력을 유지보수 단계에서 건드릴 일은 없을 것 같은데, 이런 케이스가 언제 발생하는지 궁금합니다. 참고로 저희의 경우 Delta Lake를 사용하고 있습니다.

조승완

Q5. Terraform과 유사하게 메타데이터 기반으로 작업을 자동 생성할 수 있는 시스템을 개발하여 사용하고 있습니다. 현재 운영 방식은 다음과 같습니다. • 데이터 입수 파이프라인은 Data Lake 형태로 저장되며, 별도의 변환(Transform) 과정은 최소화합니다. • CDC 데이터 적재 과정에서는 Debezium SMT를 만들어 적용하고 있으며, • 이후 도메인별로 필요한 데이터를 다양한 파이프라인을 통해 활용하도록 구성되어 있습니다. 즉, 저희는 입수 데이터를 한 곳에 모으는 것이 핵심 컨셉이며, 이를 기반으로 다양한 활용이 가능하도록 구축했습니다. Q6. 리니지를 효과적으로 관리하는 핵심은 메타데이터 수집 및 그래프(Graph) 구축입니다. 이를 위해 저희는 데이터 엔티티(Entity) 메타데이터를 정의하고, 이를 연결하여 리니지를 구현했습니다. 활용한 오픈소스 • OpenLineage: 리니지 메타데이터 정의을 위한 참고 자료 • OpenMetadata: 리니지 메타데이터를 수집 및 관리할 때 참고한 코드 운영 방식 • 주기적으로 메타데이터를 수집하여 그래프 기반 리니지를 생성 • Kafka로 수집한 CDC 데이터부터 Downstream 전반에 걸친 흐름을 추적 및 관리 즉, 배치(Batch) 및 실시간(Streaming) 파이프라인의 데이터 흐름(In/Out)을 자동으로 수집 및 관리할 수 있도록 설계하여, 운영 비용을 최소화하였습니다. 추후 시간이 되면, 리니지(Lineage) 관련 내용을 정리하여 글로 기고할 예정입니다. Q7. 운영 환경에서 Delete 파일은 주기적으로 Merge되고, 과거 이력(Vacuum)도 유지되기 때문에 일반적으로 유지보수 시 별도의 조치를 할 필요는 없습니다. 그러나, 저희의 경우 실시간 적재와 Impala 기반 Read 환경을 운영하면서 특정 문제가 발생했습니다. 발생한 문제 • 모든 Iceberg 테이블을 MOR(Merge-On-Read) 방식으로 운영 • 유지보수 작업(Compaction, Rewrite 등)을 Spark Batch로 수행 • 이 과정에서 스냅샷(Snapshot)을 찾지 못하는 문제가 간헐적으로 발생 해결 방법 • rewrite_manifests 명령어를 통해 쉽게 복구 가능 • 그러나, 유지보수 작업 중 특정 시점에서 사용자가 데이터를 Read할 수 없는 상황이 발생할 가능성이 있음 즉, 운영 관점에서 유지보수 작업을 진행할 때, 일부 사용자들이 일시적으로 데이터 조회가 불가능한 상황을 고려하여, 입수 작업을 조정하는 것이 안전하다는 의미입니다.

데이터먹는펭귄

안녕하세요. 양질의 글 감사합니다. 많은 도움이 되었습니다. 궁금한 부분이 있어 Q&A 형식으로 몇 가지 질문 남깁니다. 시간 되실 때 답변해 주시면 감사하겠습니다. :) Q1. 토스 페이먼츠팀의 데이터 레이크는 on-premise Hadoop cluster를 사용하고 있나요? 맞다면 이를 클라우드 환경으로 마이그레이션할 계획은 없는지 궁금합니다. Q2. "Kafka 데이터를 JSON 형식으로 입수하고 Parquet 형식으로 변환하는 과정에서 고정된 리소스가 발생했다" => 이 부분은 Iceberg를 사용하더라도 마찬가지가 아닐지 궁금합니다. 데이터 원본은 parquet 이니깐요. Q3. "CDC 데이터를 Kudu로 실시간 적재하는 데 많은 지연 시간이 발생했다" => 어떤 부분이 병목이었을까요? 예를 들어, MOR을 지원하지 않아 직접 애플리케이션에서 이를 write 시에 매번 기존 데이터와 merge해서 재적재해야 한다든가 하는 프로세스가 필요했을지 궁금합니다. Q4. "기존 데이터 환경에서 테이블 작업을 진행하다가 데이터를 읽을 수 없는 경우가 발생하거나, 파티션 관리에 어려움이 많았다" => Metadata Store로 Hive Catalog를 사용하고 계실 것 같은데, Hive Metastore에서도 강력하진 않지만 어느 정도의 Schema Resolution을 지원해서 저희의 경우 안전하게 잘 관리를 하고 있는데, 토스의 경우 어떤 부분에서 문제가 있었는지 궁금합니다.

조승완

안녕하세요! Q1. 현재 제가 속한 토스코어(Toss Core)에서는 on-premise Hadoop 클러스터를 운영하고 있습니다. 클라우드 환경으로의 마이그레이션을 고려한 적은 있으나, 클라우드 사용 비용이 on-premise + DE(Data Engineering) 구성보다 더 비싸며, 기존 환경에서 클라우드로 이전할 경우 수십 명의 데이터 분석가(DA)들이 추가적인 교육을 받아야 하는 부담이 있습니다. 따라서 현재까지는 클라우드로 이전할 계획이 없습니다. 다만, 일부 자회사(토스플레이스, 토스모바일 등)는 스노우플레이크(Snowflake) 기반으로 데이터 플랫폼을 운영하고 있습니다. Q2. 네, Iceberg를 사용하더라도 JSON → Parquet 변환 과정에서 리소스가 발생하는 것은 동일합니다. 다만, 저희의 경우 JSON → Parquet 변환은 시간 단위 배치 작업으로 수행되며, Iceberg 적재는 실시간으로 이루어지기 때문에, 저장 공간과 리소스 활용 측면에서 더 유리한 이점을 확보할 수 있었습니다. 즉, Iceberg를 도입하면서 데이터 적재 방식이 배치(batch)에서 실시간(streaming)으로 전환되었고, 이에 따라 리소스 사용 효율성이 증가했습니다. Q3. Kudu의 Write Path를 보면, WAL(Write-Ahead Logging)을 작성한 후 데이터를 반영하는 구조입니다. 이러한 WAL 기반 구조로 인해, Iceberg와 비교했을 때 근본적으로 처리량 차이가 발생할 수밖에 없습니다. 특히 대량의 변경(UPDATE, DELETE) 로그가 발생하는 경우, Kudu의 WAL이 빠르게 쌓이면서 쓰기 성능이 저하되는 문제가 있었습니다. 이로 인해 실시간 적재 시 데이터 레이턴시(Latency)가 증가하는 현상이 발생했습니다. Q4. 저희도 Hive Catalog를 사용하고 있습니다. 다만, 문제의 원인은 Hive Catalog 자체가 아니라, 이를 기반으로 쿼리를 실행하는 엔진(Impala 등)에서 발생한 메타데이터 동기화 문제였습니다. (쿼리엔진 클러스터를 여러개 사용하고 있습니다.) 토스에서는 수많은 데이터 사용자들이 다양한 패턴으로 데이터를 생성하는데, 이 과정에서 소규모 파일(Small File)이 다량 생성되는 경우가 종종 발생합니다. 이러한 소규모 파일을 효과적으로 제어하지 못하면, 쿼리 엔진(Impala 등)에서 메타데이터 동기화가 지연&누락되는 현상이 발생해 데이터 조회에 문제가 발생했습니다. Iceberg를 도입하여 시멘틱 레이어(Semantic Layer)를 제공함으로써 문제를 완화하고 있지만, 아직 완벽한 해결에는 이르지 않았습니다. 2025년에는 도메인별로 별도의 Catalog를 운영 및 관리하는 방안을 검토 중입니다. Multi-Catalog를 도입해 데이터 메쉬 형태의 구조를 효과적으로 관리할 수 있다면, 이에 대한 내용을 기술 블로그에서 다시 공유하도록 하겠습니다.

씩씩한물소

안녕하세요. 현재 아이스버그 테이블을 활용해서 데이터 플랫폼을 운영중에 한가지 챌린지를 만나서 질문 드리게 되었습니다. 현재 관계형 데이터베이스를 cdc 기반으로 약 10개의 테이블에 대해서 준 실시간성으로 수집 후 아이스버그 테이블에 insert, update, delete를 계산하여 반영중에 있습니다. 이후, 이 10개의 테이블을 join하여 반영한 data mart 테이블에 대해서 약 5~10분에 한번씩 각테이블별로 insert, update, delete된 데이터들을 반영해주고 싶은데 이부분은 어떻게 아이스버그 테이블을 활용하여 반영하셨는지 조언을 좀 해주실수 있을까요? 현재 저희는 1주일에 한번씩 테이블을 삭제 및 새롭게 ctas 쿼리를 사용하여 반영하고 있었는데 이걸 5~10분에 한번씩 처리하기에는 어려워서 토스에서는 어떻게 5~10분씩 업데이트를 하였는지 궁금하여 이렇게 질문드렸습니다.

조승완

안녕하세요. CDC의 핵심 로직은 RDB의 변경 로그를 읽어, 이를 Sink하는 데이터베이스의 Row 포맷에 맞게 변환하여 저장하는 데 있습니다. 저희는 RDB의 변경 로그를 Debezium을 이용해 파싱하고, 이를 Debezium 포맷으로 Kafka에 발화하고 있습니다. Sink 대상 데이터베이스로는 Kudu와 Iceberg를 활용하고 있으며, 두 데이터베이스를 다음과 같이 사용하고 있습니다: 1. Iceberg: 3~8분 주기로 데이터 분석이 필요한 테이블을 처리. 2. Kudu: 1분 미만의 실시간 분석이 필요하거나, 초대형 테이블을 처리. Iceberg로의 CDC 데이터 반영을 좀 더 설명드리면, 저희는 Kafka Connect를 이용해 RDB 변경 로그를 Iceberg에 반영하고 있으며, 이 과정은 다음과 같이 이루어집니다: 1. 초기 스냅샷 저장 • CDC 로그 수집 전, Spark를 활용해 RDB 데이터를 스냅샷 형태로 Iceberg 테이블에 저장합니다. 2. Debezium Source Connector 활용 • Debezium Source Connector를 사용해 RDB의 Binlog를 Debezium 포맷으로 변환하고, 이를 Kafka로 발화합니다. 3. Iceberg Sink Connector 활용 • Iceberg Sink Connector를 통해 Kafka의 CDC 로그를 Iceberg 테이블에 Append 모드로 적재합니다. • 초기에는 Upsert 모드를 사용했으나, 특정 상황에서 Equality Delete가 정상적으로 처리되지 않는 문제가 있어 Append 모드로 변경하였습니다. • 최적화를 위해 오픈소스에서 수정한 코드를 사용하고 있습니다. 4. 최신 형상 View 제공 • Append된 Change Log를 기반으로 Key별 최신 데이터를 조회하는 View를 생성하여 사용하고 있습니다. • 이렇게 구성하면 데이터 변경 로그를 실시간으로 반영하면서도 최신 상태를 쉽게 확인할 수 있습니다. 5. Compaction 작업 • Append 모드로 데이터를 적재하면 테이블 Fragment가 많아질 수 있으므로, 읽기 성능 유지를 위해 주기적으로 Compaction 작업을 수행합니다. 현재는 소수 인원으로 운영 편의성이 높은 Kafka Connect를 주로 사용하고 있습니다. Iceberg Sink Connector의 Commit 주기를 기반으로 CDC 반영 주기를 유연하게 조정할 수 있어 안정적으로 운영 중입니다. 향후 Data Mesh 생태계와 문화가 구축된다면, FlinkCDC나 기타 솔루션으로 전환하여 더 높은 실시간성과 확장성을 확보할 계획입니다. 짧은 답변으로 모든 내용을 담을 수는 없지만, 조금이라도 도움이 되기를 바랍니다. 감사합니다.

재미있는판다

remove_orphan_files 주의사항에 'Iceberg 파일이 현재 쓰기 작업 중이라면, 그 파일은 orphan 상태로 인식될 수 있습니다' 이라는 말씀을 해주셨는데요 그렇다면 배치가 아닌 스트리밍으로 처리되는 테이블들은 remove_orphan_files 작업을 하지못하는건가요?

조승완

일반적으로 잘 발생하지 않는 상황이지만, Apache Iceberg에서 remove_orphan_files 명령을 사용할 때 간혹 쓰기 중인 파일이 오펀(Orphan) 파일로 잘못 인식되어 삭제되는 일이 있을 수 있습니다. 이런 문제는 주로 아래와 같은 상황에서 발생합니다: 1. 스트리밍 작업 중단과 데이터 입수 재개 타이밍 문제 스트리밍 데이터가 한동안 들어오지 않다가 다시 쓰기 작업이 시작되는 시점에 remove_orphan_files 명령을 실행하면, 새로 생성 중인 파일이 아직 메타데이터에 등록되지 않아 오펀 파일로 잘못 간주될 수 있습니다. 2. older_than 설정이 너무 짧은 경우 Iceberg는 기본적으로 3일 이상된 파일을 오펀 파일로 간주합니다. 하지만 older_than 값을 너무 짧게 설정하면, 쓰기 중인 파일이 삭제 대상에 포함될 가능성이 높아집니다. 3. 쓰기 작업 중단 또는 실패 데이터 쓰기 작업 도중 장애가 발생하거나 작업이 중단되면, 생성 중인 파일이 메타데이터에 등록되지 않아 오펀 파일로 남을 수 있습니다. 이후 이러한 파일이 삭제될 위험이 있습니다. 4. 메타데이터 업데이트 지연 Iceberg는 데이터를 저장한 뒤 메타데이터를 갱신합니다. 이 갱신 과정이 지연되면, 메타데이터에 아직 등록되지 않은 파일이 오펀 파일로 간주될 수 있습니다. 과거에는 이러한 문제를 방지하기 위해 스트리밍 파이프라인을 잠시 중단한 뒤 remove_orphan_files 명령을 실행했습니다. 하지만 현재는 dry_run 옵션을 사용해 삭제 대상 파일을 미리 확인한 후, 검토를 거쳐 안전하다고 판단되면 삭제 작업을 진행하고 있습니다. 이렇게 처리하니 스트리밍 작업을 중단하지 않고도 문제없이 작업을 수행할 수 있었습니다.

재치있는수달

잘 읽었습니다~ 한가지 궁금한점이 있습니다. COW(Copy On Write)와 MOR(Merge On Read)는 각각 어떤 상황에서 주로 사용하시나요? COW의 경우 배치, MOR의 경우 실시간을 요하는 스트리밍 작업에서 사용하면 좋겠다싶은 생각이 들더라구요.

조승완

실시간으로 수집되는 데이터를 저장하는 Iceberg 테이블은 모두 MOR(Merge-On-Read) 형식을 사용하며, 본문에서 설명한 것처럼 주기적으로 유지 관리 작업을 수행해 스몰 파일을 제거하고 있습니다. 반면, DW에서 사용하는 배치 작업으로 생성되고 유지 관리되는 Iceberg 테이블은 COW(Copy-On-Write) 형식을 사용하고 있습니다. 조금 더 구체적으로 설명하자면, 실시간 데이터 입수를 처리하는 엔진은 대부분 position delete와 equality delete 방식을 활용하며, 이러한 특성으로 인해 MOR 형식을 선호합니다. MOR은 실시간 입수 환경에서 높은 성능을 유지할 수 있기 때문입니다.

씩씩한코뿔소

알찬 내용 감사합니다~! 혹시 Iceberg 도입 고려하실때 'DeltaTable'이나 'Hudi'을 같이 비교하셨는지 궁금합니다~!

조승완

우선, 저희 토스의 주요 분석 엔진은 Impala입니다. Delta는 Impala와의 호환성이 부족하여, 별도의 변환 작업에 리소스가 추가 소모될 수밖에 없어서 도입을 고려하지 않았습니다. Hudi의 경우, 읽기와 쓰기에 필요한 리소스가 Iceberg에 비해 더 많이 필요했으며, 성능 또한 만족스럽지 않았습니다. 가장 큰 차이는 스키마 진화에 대한 안전성에서 Iceberg보다 낮은 평가를 받은 점이었습니다. 참고로 Apache Paimon도 함께 검토했지만, 도입 시점에서 Iceberg만큼 성숙도가 높지 않다고 판단하여 최종적으로 Iceberg를 선택하게 되었습니다.

유쾌한말

데이터 클라우드 플랫폼인 스노우 플레이크를 이용하면 따로 개발을 할 필요 없이, 스노우 플레이크 자체에서 효율적으로 운영해주는 부분이 많을 것 같은데 굳이 개발을 하신 이유는 비용 절감의 측면인가요?

조승완

네, 맞습니다. 스노우플레이크나 데이터브릭스 같은 데이터 웨어하우스 및 데이터 레이크 플랫폼을 사용하면 자동화된 처리와 운영상의 편리함을 제공해주어 여러 모로 효율적입니다. 그러나 데이터 규모가 일정 수준을 넘거나, 토스와 같이 쿼리로 조회하는 데이터가 수백 PB 이상에 달하는 경우, 클라우드 서비스를 이용하는 것보다 온프레미스에서 직접 운영하는 것이 비용 면에서 더 유리할 수 있습니다. 특히 핀테크 업체의 경우, 데이터 거버넌스 및 보안 이슈로 인해 클라우드 플랫폼을 사용하는 데 제한이 따를 수 있습니다. 금융 데이터는 매우 민감하며, 이를 안전하게 관리하기 위해 데이터 접근, 보안 정책, 규제 준수 등이 철저히 이루어져야 합니다. 이러한 요건 때문에, 핀테크 환경에서는 클라우드 대신 온프레미스에서 데이터를 직접 관리하여 데이터 보안과 거버넌스를 강화하는 것이 더 적합할 때가 많습니다. 이 글을 작성한 것도, 이러한 데이터 웨어하우스나 데이터 레이크 플랫폼을 사용하지 않는 환경에서 Iceberg를 운영할 때 비용 절감과 데이터 거버넌스 관점에서 도움이 되고자 하는 마음에서 작성했습니다.

활기찬람쥐

잘 보았습니다

활기찬고래

잘 읽었습니다. 카탈로그로 무엇을 선택했는지와 선정 이유가 무엇인지 궁금합니다.

조승완

기존 분석 시스템과의 호환성을 위해 현재 HiveCatalog를 사용하고 있으며, 다양한 분석 엔진 간 메타데이터 동기화 속도를 높이기 위해 추후 Rest API를 지원하는 카탈로그로 전환할 계획입니다.

다정한사슴

우와~~~ 정말 대단한 여정인데요! 잘 읽었어요. 데이터 게이트웨이가 특히 기대되네요~~!!

신나는돌고래

알찬 내용 공유 감사합니다.

입수는 Datalake로! (feat. Iceberg)

Iceage 프로젝트의 목표

문제 정의

문제 #1: Kafka 데이터 처리와 CDC 입수의 문제점

문제 #2: 테이블 작업과 파티션 운영의 문제점

문제 #3: 운영 자동화의 필요성

Iceberg란 무엇인가요?

입수 자동화

Iceberg 유지보수 및 운영 팁

자동화된 모니터링 및 알림 시스템

메타데이터 관리

효율적인 데이터 쓰기

Partition Pruning 문제 해결

테이블 복구 및 재구축

앞으로의 계획

마무리하며

연관 콘텐츠

Spark Job 성능 모니터링과 최적화를 위한 Spark Analyzer 개발기

ksqlDB 실시간 Join으로 뉴스 추천 만들기

대규모 CDC Pipeline 운영을 위한 Debezium 개선 여정

.css-p4abj2{display:contents;line-height:1.55;}Iceage 프로젝트의 목표

문제 정의

문제 #1: Kafka 데이터 처리와 CDC 입수의 문제점

문제 #2: 테이블 작업과 파티션 운영의 문제점

문제 #3: 운영 자동화의 필요성

Iceberg란 무엇인가요?

입수 자동화

Iceberg 유지보수 및 운영 팁

자동화된 모니터링 및 알림 시스템

메타데이터 관리

효율적인 데이터 쓰기

Partition Pruning 문제 해결

테이블 복구 및 재구축

앞으로의 계획

마무리하며

연관 콘텐츠

Spark Job 성능 모니터링과 최적화를 위한 Spark Analyzer 개발기

ksqlDB 실시간 Join으로 뉴스 추천 만들기

대규모 CDC Pipeline 운영을 위한 Debezium 개선 여정

Iceage 프로젝트의 목표