q1: SLI, SLO, SLA
a1:
SLI, SLO, SLA는 모두 서비스의 신뢰성과 성능을 수치로 관리하는 개념으로, 특히 SRE(Site Reliability Engineering) 분야에서 핵심적인 역할을 합니다. 아래에서 하나씩 자세히 설명드리겠습니다.
⸻
1. SLI (Service Level Indicator)
서비스 수준 지표
• 정의: 서비스의 실제 성능을 측정하는 지표
• 예: 평균 응답 시간, 에러율, 성공 요청 비율, 가용성(availability)
예시:
• 웹 서버 응답 성공률 = 성공 요청 수 / 전체 요청 수
• API 평균 응답 시간 = 모든 응답 시간의 평균
⸻
2. SLO (Service Level Objective)
서비스 수준 목표
• 정의: SLI에 대해 설정하는 내부 목표 수치
• SLI가 실제 측정 값이라면, SLO는 우리가 지향하는 기준입니다.
• 일반적으로 내부 팀 또는 조직 간에서 합의하는 목표치입니다.
예시:
• 응답 성공률 99.9% 이상 유지
• API 평균 응답 시간 200ms 이하
⸻
3. SLA (Service Level Agreement)
서비스 수준 협약
• 정의: 서비스 제공자와 고객 간 공식적으로 합의한 계약상의 서비스 수준
• SLA를 어기면 벌금, 보상 등 법적 책임이 따르기도 합니다.
예시:
• 가용성 99.5% 미만 시, 한 달 요금의 10% 환불
• 24시간 내 고객 문의 응답 보장
⸻
4. 관계 정리 (한 줄 요약)
SLI 측정
- 실제로 서비스가 얼마나 잘 동작하고 있는지
SLO 목표
- 우리가 달성하고자 하는 수준
SLA 계약
- 고객과의 공식 약속 수준 (벌칙 포함 가능)
⸻
5. 예시로 쉽게 이해하기
예를 들어, 온라인 쇼핑몰의 주문 API를 생각해볼게요:
• SLI: API 요청 성공률 = 99.92%
• SLO: 99.9% 이상 유지 (내부 목표)
• SLA: 99.5% 이상 유지 (고객과의 계약), 미달 시 보상 조치
⸻
6. 시각화 비유
SLI = 현재 체중계 숫자 (측정값)
SLO = 내 목표 체중 (운동 목표)
SLA = 헬스 트레이너와의 계약 체중 (안 지키면 벌금 있음)
⸻
이 개념들은 특히 클라우드 서비스, API 제공 업체, 대형 플랫폼 운영팀(SRE) 등에서 매우 중요하게 사용됩니다.
SLI, SLO, SLA 250416
2025. 4. 16. 18:32
반응형