Project
NWP 기상데이터 수집 파이프라인 운영
2024.02 ~ 2026.03·운영 / 개선·한국전자기술연구원 (KETI)
Overview
Kafka + Spark + Hadoop 기반 실시간 기상데이터 ETL 파이프라인을 운영 인수하여 약 2년간 안정 운영하고, 모니터링 체계 전환과 장애 대응을 주도한 프로젝트.
Key Metrics
운영 기간
약 2년
병렬 Consumer
총 10개
일 처리 격자점
470,162 × 139 컬럼
Kafka 클러스터
3-node (각 125GB RAM)
Tech Stack
Apache KafkaPySparkHDFSDockerDocker ComposeKafka ConnectElasticsearchBurrowTelegrafGrafana
Details
운영 인프라
- Kafka 3-node 클러스터 운영 (kafkanode1~3, 각 125GB RAM)
- LDAPS(unis) Consumer: 2개 노드에 각 scale 5, 총 10개 Consumer 병렬 운영
- HDFS 적재: 일 470,162 격자점 × 139 컬럼 Parquet 파일 적재
모니터링 체계 구축 / 운영
- Elasticsearch + Grafana 기반 실시간 모니터링 대시보드 운영
- Burrow: Kafka Consumer lag 모니터링 및 상태 추적
- Telegraf: 서버 메트릭 수집 (CPU, 메모리, 디스크 I/O)
- srvstatus: 서비스 프로세스 상태 모니터링
운영 개선
- 2024.02 ~ 2026.03, 약 2년간 파이프라인 안정 운영
- Kafka Connect FTP Connector 장애 복구 및 플러그인 관리
- Consumer 장애 시 노드 간 이관을 통한 서비스 연속성 유지