Project
NWP 기상데이터 백업 및 품질관리 파이프라인
2024.07 ~ 현재·개발 / 운영·한국전자기술연구원 (KETI)
Overview
HDFS 적재 기상데이터의 결측을 자동 검출·보정하는 파이프라인과 검증 API를 설계·운영하여 데이터 신뢰성을 정량적으로 보장한 프로젝트.
Key Metrics
데이터 완결률
99.99%
운영 기간
21개월
결측 건수
1건 / 125,272건
Spark 투입 메모리
총 84GB
Tech Stack
Apache AirflowApache SparkHDFSDjango REST FrameworkDockerMySQLPyWebHDFS
Details
데이터 검증 API 개발 (Common-Data-Validator)
- Django REST Framework 기반 검증 API 서버 구축 (3개 엔드포인트)
- /valid/hadoop/{datetime}: HDFS Parquet 파일 존재 여부 검증
- /valid/nwp/{datetime}: NWP 데이터 가용성 검증 (28개 기상 변수)
- /valid/nwp_146/{datetime}: NWP 146개 필드 데이터 검증
- 일/월/연 단위 유연한 검증 granularity 지원
- 21개 ORM 모델, 531개 필드 관리
자동 backfill 파이프라인
- Airflow DAG(empty_nwp_backfill_process_on_hdfs): 매일 02:00 자동 실행
- Spark 클러스터 활용: executor 10개 × 8GB = 총 84GB 메모리 투입
- HDFS 데이터 검증 → 결측 검출 → Spark 기반 자동 보정 → Parquet 재적재
- 일 49개 파일(회차별) 기준 결측 여부 자동 검증
- Kafka ETL과 병행 운영하여 정합성 및 신뢰성 확보
- 2024.07 ~ 현재 21개월간 HDFS 데이터 완결률 99.99% 유지 (125,272건 중 결측 1건)
- ML 엔지니어의 수동 데이터 요청 프로세스를 자동화하여 운영 부담 제거