← 포트폴리오로 돌아가기

NWP 기상데이터 백업 및 품질관리 파이프라인

2024.07 ~ 현재·개발 / 운영·한국전자기술연구원 (KETI)

HDFS 적재 기상데이터의 결측을 자동 검출·보정하는 파이프라인과 검증 API를 설계·운영하여 데이터 신뢰성을 정량적으로 보장한 프로젝트.

데이터 완결률

99.99%

운영 기간

21개월

결측 건수

1건 / 125,272건

Spark 투입 메모리

총 84GB


Apache AirflowApache SparkHDFSDjango REST FrameworkDockerMySQLPyWebHDFS

데이터 검증 API 개발 (Common-Data-Validator)

  • Django REST Framework 기반 검증 API 서버 구축 (3개 엔드포인트)
  • /valid/hadoop/{datetime}: HDFS Parquet 파일 존재 여부 검증
  • /valid/nwp/{datetime}: NWP 데이터 가용성 검증 (28개 기상 변수)
  • /valid/nwp_146/{datetime}: NWP 146개 필드 데이터 검증
  • 일/월/연 단위 유연한 검증 granularity 지원
  • 21개 ORM 모델, 531개 필드 관리

자동 backfill 파이프라인

  • Airflow DAG(empty_nwp_backfill_process_on_hdfs): 매일 02:00 자동 실행
  • Spark 클러스터 활용: executor 10개 × 8GB = 총 84GB 메모리 투입
  • HDFS 데이터 검증 → 결측 검출 → Spark 기반 자동 보정 → Parquet 재적재
  • 일 49개 파일(회차별) 기준 결측 여부 자동 검증
  • Kafka ETL과 병행 운영하여 정합성 및 신뢰성 확보
  • 2024.07 ~ 현재 21개월간 HDFS 데이터 완결률 99.99% 유지 (125,272건 중 결측 1건)
  • ML 엔지니어의 수동 데이터 요청 프로세스를 자동화하여 운영 부담 제거

← 포트폴리오로 돌아가기