하이브리드 네트워크 가용성 설계

하이브리드 네트워크 가용성 설계

04. 하이브리드 네트워크 가용성 설계

문제 정의

온프레미스 데이터센터와 클라우드를 연결하는 전용선이 단일 회선으로 구성되어 있다.
해당 회선의 장애나 점검 발생 시 하이브리드 환경의 서비스가 전면 중단될 위험이 있으며, 비즈니스 연속성을 위해 Enterprise급 가용성을 확보해야 한다.

핵심 질문
① 전용선 이중화(Active-Active vs Active-Passive) 설계 방식을 비교하라.
② 전용선 장애 시 Site-to-Site VPN으로 Failover되는 구조를 BGP 우선순위 관점에서 설명하라.


1. 현황 분석 — 왜 단일 전용선이 위험한가

[온프레미스 DC] ════════ 단일 전용선 ════════ [클라우드 VPC]
                              ↑
                    SPOF (Single Point of Failure)

단일 전용선 구성은 전형적인 SPOF다. 회선 장애, 통신사 점검, 물리적 절단 등 어떤 원인이든 하나의 이벤트로 하이브리드 환경 전체가 중단된다. Enterprise급 SLA(99.99%)는 연간 다운타임 약 52분 이내를 의미하므로, 단일 회선으로는 충족이 불가능하다.


2. 전용선 이중화 설계 비교

2.1 Active-Active

                  ┌──── 전용선 A (Active) ────┐
[온프레미스]      │                            │      [클라우드]
[CE Router ] ─────┤    ECMP로 트래픽 분산       ├───── [VGW]
                  │                            │
                  └──── 전용선 B (Active) ────┘
  • 두 회선 모두 동일한 BGP 속성(같은 LP, 같은 AS-Path 길이)으로 경로를 광고
  • **ECMP(Equal-Cost Multi-Path)**를 통해 트래픽을 양쪽에 분산
  • 한쪽 장애 시 나머지 회선이 전체 트래픽을 흡수

장점

  • 평상시 대역폭 2배 활용 → 비용 대비 효율적
  • 양쪽 경로가 이미 활성 상태이므로 Failover 수렴 시간이 짧음

단점

  • 비대칭 라우팅 발생 가능 → 상태 기반 방화벽(Stateful FW)에서 세션 불일치 문제
  • 양쪽 회선 각각이 단독으로 전체 트래픽을 수용할 수 있어야 함
  • 트래픽 엔지니어링 및 운영 복잡도 증가

2.2 Active-Passive

                  ┌──── 전용선 A (Active)  ─── LP 200 ──┐
[온프레미스]      │                                       │  [클라우드]
[CE Router ] ─────┤                                       ├── [VGW]
                  │                                       │
                  └──── 전용선 B (Standby) ─── LP 150 ──┘
  • Primary 회선에 높은 Local Preference 부여 (예: 200)
  • Secondary 회선에 낮은 LP 부여 (예: 150) 또는 AS-Path Prepending 적용
  • 평상시 Primary만 트래픽을 전달하고, 장애 시 Secondary가 Best Path로 승격

장점

  • 트래픽 흐름이 단순하고 예측 가능
  • 방화벽 세션 관리 용이 (단일 경로)
  • 운영 및 트러블슈팅이 쉬움

단점

  • Standby 회선이 평상시 유휴 → 대역폭 낭비
  • Failover 시 BGP 수렴 시간만큼 전환 지연 (BFD 미적용 시 최대 180초)

2.3 비교 요약

항목Active-ActiveActive-Passive
평상시 대역폭 활용양쪽 분산 (효율적)한쪽만 사용
Failover 속도빠름BGP 수렴 시간 소요
운영 복잡도높음낮음
비대칭 라우팅 위험있음없음
방화벽 연동세션 동기화 필요단순
권장 시나리오대역폭 수요 높고 운영 역량 충분안정성 우선, 운영 단순화

고찰: 실무에서는 Active-Passive가 더 많이 채택된다. 비대칭 라우팅 이슈가 방화벽 정책과 충돌하는 경우가 잦고, 장애 시 원인 분석도 Active-Active가 훨씬 어렵기 때문이다. 다만 대역폭 요구량이 높고 네트워크 전담 인력이 있는 환경이라면 Active-Active도 유효한 선택이다.


3. 전용선 + VPN Failover 구조 (BGP 우선순위 설계)

3.1 전체 토폴로지

                                          ┌────────────────────┐
                                          │    Cloud VPC       │
                  ┌── 전용선 A ───────────┤                    │
[온프레미스 DC]   │   (Primary, LP 200)    │  Virtual Gateway   │
[CE Router    ]───┤                        │                    │
[BGP AS 65001 ]───┤── 전용선 B ───────────┤                    │
                  │   (Secondary, LP 150)  │                    │
                  │                        │                    │
                  └── S2S VPN  ───────────┤  VPN Gateway       │
                      (Backup, LP 100)     │  (인터넷 경유)      │
                      AS-Path Prepend ×3   └────────────────────┘

3.2 BGP Best Path Selection 핵심

BGP는 동일 목적지에 대해 여러 경로가 있을 때, 아래 순서로 Best Path를 선출한다.

1순위: Highest Local Preference   ← 가장 강력한 제어 수단
2순위: Shortest AS-Path Length    ← 보조 제어 수단
3순위: Lowest MED
4순위: eBGP preferred over iBGP
5순위: Lowest IGP metric to next-hop
  ...

이 중 Local PreferenceAS-Path Prepending을 조합하면 3단계 우선순위를 명확하게 설정할 수 있다.

3.3 우선순위 설정

경로Local PreferenceAS-Path 길이역할
전용선 A20011순위 — 평상시 주 경로
전용선 B15012순위 — 전용선 A 장애 시
S2S VPN1004 (Prepend ×3)3순위 — 전용선 전면 장애 시 최후 경로

3.4 Failover 시나리오

시나리오 1 — 정상 상태

BGP RIB:
  10.0.0.0/16 via 전용선A   LP=200   ← BEST PATH
  10.0.0.0/16 via 전용선B   LP=150
  10.0.0.0/16 via VPN       LP=100

시나리오 2 — 전용선 A 단독 장애

전용선 A의 BGP 세션 Down → 해당 경로 제거

  10.0.0.0/16 via 전용선B   LP=150   ← NEW BEST
  10.0.0.0/16 via VPN       LP=100

시나리오 3 — 전용선 A + B 동시 장애 (통신사 공통 장애 등)

양쪽 전용선 경로 모두 제거

  10.0.0.0/16 via VPN       LP=100   ← LAST RESORT
  → 인터넷 경유 VPN으로 자동 전환

시나리오 4 — 전용선 복구

BGP 세션 재수립 → LP 200 경로 재광고

  10.0.0.0/16 via 전용선A   LP=200   ← BEST PATH 자동 복귀
  10.0.0.0/16 via 전용선B   LP=150
  10.0.0.0/16 via VPN       LP=100

복구 시 자동으로 원래 경로로 돌아오는 것을 Failback이라 한다. BGP에서는 LP가 높은 경로가 다시 광고되면 자동으로 Best Path가 전환되므로 별도 수동 작업이 필요 없다.


4. BFD — 장애 감지 시간 단축

왜 BFD가 필요한가

BGP의 기본 Hold Timer는 180초다. 즉, 회선이 끊어져도 최대 3분간 장애를 인지하지 못한다. Enterprise SLA를 위해서는 이 시간을 줄여야 한다.

BFD(Bidirectional Forwarding Detection) 적용

BFD 패킷 전송 간격(Interval): 300ms
감지 배수(Multiplier): 3
→ 장애 감지 시간: 300ms × 3 = 900ms (1초 이내)

BGP 세션에 BFD를 연동하면, BFD가 먼저 링크 장애를 감지하고 BGP에 즉시 통보해서 경로 전환을 트리거한다.

[BGP만]      장애 발생 ──── 180초 대기 ──── 경로 전환    (서비스 중단 ~3분)
[BGP+BFD]    장애 발생 ── 0.9초 ── 경로 전환             (서비스 중단 ~1초)

5. 설계 시 추가 고려사항

물리적 경로 다양성 (Diverse Path)

전용선 2회선을 같은 통신사, 같은 경로로 구성하면 공통 장애점이 그대로 남는다. 반드시 서로 다른 통신사 또는 물리적으로 다른 경로를 확보해야 진정한 이중화가 된다.

VPN Backup의 한계 인식

VPN은 인터넷을 경유하므로 전용선 대비 지연(Latency) 증가, 대역폭 불안정, 보안 오버헤드(암호화/복호화) 등의 한계가 있다. 따라서 VPN은 전용선이 모두 장애일 때의 **최후 수단(Last Resort)**으로만 사용하고, 핵심 서비스의 트래픽 요구량을 VPN이 감당할 수 있는지 사전에 검증해야 한다.

정기 DR 테스트

Failover 경로가 실제로 동작하는지 주기적으로 검증해야 한다. 설정만 해두고 테스트하지 않으면, 실제 장애 시 BGP 설정 오류나 VPN 터널 만료 등의 이유로 Failover가 실패할 수 있다.


6. 종합 정리

┌──────────────────────────────────────────────────┐
│        Enterprise급 하이브리드 네트워크 설계        │
│                                                    │
│  ① 전용선 이중화 (서로 다른 통신사/물리 경로)       │
│  ② BGP Local Preference + AS-Path Prepend로        │
│     전용선 > VPN 우선순위 명확 설정                  │
│  ③ BFD 적용으로 장애 감지를 sub-second로 단축       │
│  ④ VPN을 Last Resort로 구성하여 전면 장애 대비      │
│  ⑤ 정기 DR 테스트로 Failover 동작 검증              │
└──────────────────────────────────────────────────┘

결론: 전용선 이중화 방식은 운영 환경에 따라 Active-Active 또는 Active-Passive를 선택하되, 전용선 전면 장애에 대비한 VPN Failover는 반드시 구성해야 한다. BGP의 Local Preference로 경로 우선순위를 제어하고, BFD로 장애 감지를 1초 이내로 단축하는 것이 Enterprise급 가용성 확보의 핵심이다.

chat_bubble댓글 0

Devendency에서 댓글 작성