🐢 꼬부기 LV.1 | 개념•기초/💧물대포(핵심개념)

사용자경험 기준으로 비즈니스 심각도 정의하기

서화 2026. 3. 15. 16:27

서비스의 비즈니스적 중요도가 높아지면서 장애 발생시 어떤 이슈를 우선적으로 대응해야 하는지 명학한 판단기준과 이를 뒷받침할 체계적인 관리 프로세스의 필요성이 커짐에 따라 비즈니스 심각도 정의를 시도함

지금 부터 설명하는 개념은 서로 다른 역할을 가지지만 비즈스 심각도를 정의하고 장애를 판단하는 과정에서 긴밀하게 연결되어있다

주요언어 정리

CUJ(Critical User Journey)

핵심 사용자 여정을 의미하며, 사용자가 서비스를 통해 비즈니스 핵심 가치를 달성하기 위해 거치는 필수 경험의 흐름이다 

예시 ) 로그인후 상품을 검색하고 주문을 완료한다

CSP(Critical Serving Path)

고객의 핵심행동(예) 구매,결제, 가입)등으로 이어지는 일련의 서비스 경로중 장애 발생시 직접적으로 매출 전환에 영향을 주는 핵심 경로를 의미한다

SLI(Service Level Indicator)

서비스의 현재 상태를 수치로 측정하는 지표

서비스가 얼마나 잘 동작하고 있는지를 객관적인 숫자로 표현한다 대표적으로는 에러율,응답지연시간,가용성이 있다

SLA(Service Level Agreement)

SLI를 기준으로 어디까지를 정상으로 볼것인지를 합의한 서비스 수준 기준

예시)에러율은 0.5%이하를 유지한다

SEV(Severity)

장애가 서비스와 비즈니스에 미치는 영향도를 기준으로한 심각도 등급

장애 발생시 얼마나 빠르게 어디까지 대응할지를 결정하는 지표가 된다

이 장애, 그래서 얼마나 심각한가요?

기존에도 에러율과 지연시간등 SEV 지표를 기준으로 한 장애 레벨을 존재했다 

SEV는 장애 발생시 대응우선순위 커뮤니케이션 범위,투입 리소스를 결정하기 위해 사용된다

하지만 기술적으로 동일한 장애라도 비즈니스 영향은 크게 달라지는 경우가 발생하기도 한다

예시)

  • 특정 페이지의 에러율이 일시적으로 상승했지만 큐레이터 서비스의 핵심 기능인 수익발생 및 기여 측정에 영향 없는 경우
  • 고객이 경험하는 페이지는 아니지만 구매 기여 누락이나 수익 오집계로 이어지는 경우

이처럼 장애의 기술적 크기와 비즈니스적 치명도가 항상 일치하지 않는 상황 발생으로 인해 장애의 우선 순위를 두고 논의 하게됨

기존에 존재했던 지표로 판단이 어려워진 이유는 기술지표가 부족해서가 아니라 비즈니스 관점에서 무엇이 치명적인지에 대한 기준이 명시적으로 정의되지 않았다는 점이다

따라서 비즈니스가 성립되는 구조를 다시 바라보는것에서 시작했다

비즈니스 심각도 정의 접근 방식

1. 핵심사용자 여정 정의

고객이 서비스를 통해 핵심 목표를 달성하는 경로를 정의하고 서비스의 핵심가치와 반드시 지켜져야할 단계들을 식별한다

 2. CSP/NON-CSP구분

핵심 사용자 여정에서도 장애 발생시 매출이나 전환에 직접적인 영향을 주는 핵심경로와 그렇지 않은 경로를 서비스 기능 단위로 구분한다

3. CSP 우선사항 정의

csp로 분류된 기능들 사이에서도 고객경험과 비즈니스 영향도의 크기에 따라 대응 우선순위를 나누고 비즈니스 가치에  치명적인 기준을 등급화한다 

4.SEV 설계 및 시스템 연결

암에 정의한 기준을 기반으로 SLI 지표를 수립하고 SLI를 근거로 엔지니어링의 SEV판단 체계를 수립하고 모니터링 및 알림 시스템으로 연동한다

이러한 단계적 접근을 통해서 무엇을 기준으로 중요하다고 판단 할 것인가에 초첨을 맞출수 있다

핵심 사용자 여정 정의

사용자가 서비스에서 핵심 가치를 경험 하기 위해 반드시 거쳐야하는 필수 경로 이며 프로덕트 관점에서 이서비스가 제대로 가치를 전달하고 있는가를 판단하는 기준에 해당한다

예시)

큐레이터가 링크를 공유하고 해당 링크를 통해 유입된 고객이 주문을 완료하며, 그 주문의 구매 기여가 정확히 측정된다 

  • 서비스 핵심 가치: 큐레이터가 추천한 상품 판매로 수익을 얻는 경험을 한다
  • 핵심 단계: 제휴 링크 생성 → 고객 유입 → 구매 발생→ 기여 측정
  • 성공 조건: 구매 기여 측정이 정확하게 이루어지고, 수익이 정상 반영되는 것
  • 비즈니스 영향: 해당 여정이 정상 작동하지 않으면 서비스 핵심 가치(수익 창출)가 중단됨

이렇게 정의된 이후 어떤 기능이 비즈니스적으로 치명적인지, 장애 발생시 무엇을 먼저 ㅈ대응해야 하는지를 판단하는 기준이 된다

CSP/NON-CSP 정의: 무엇이 정말 치명적인가

CUJ는 큐레이터 서비스의 비즈니스가 성립되기 위한 최소조건을 설명해주지만 실제 서비스는 이여정을 구성하는 여러기능과 시스템위에서 동작하기 때문에 이들중 일부는 장애 발생시 곧바로 수익손실이나 기여누락으로 이어지는것도 있고 불편은 하지만 비즈니스 영향은 그렇게 크지 않은 경우도 있다

따라서 서비스의 CSP는 수익 발생과 구매 기여 측정에 직접적인 영향을 주는 핵심 서비스 경로에 해당한다 즉, 장애가 발생했을 수익이 발생하지 않거나, 구매 기여가 누락되거나, 수익 집계의 정합성이 깨질 수 있는 경로를 CSP로 볼수있다

예시)

  • 제휴 링크 생성
  • 고객 유입 트래킹
  • 구매 기여 측정

반대로 사용자 경험관련기능이나 장애 발생시 내부 운영으로 대체 보완 가능한 기능은 NON-CSP로 분류할수있다

이렇게 구분함으로서 모든 장애를 동일한 기준이 아닌 비즈니스적으로 반드시 지켜야할 경로를 명확하게 식별할수 있다

CSP 우선사항: 고객 경험과 비즈니스 영향을 함께 고려

핵심 경로로 분류된 기능들이라 하더라도 장애가 발생했을때 고객 경험 저하로 인해 발생하는 비즈니스 영향의 크기가 다르기 때문에 사용자 경험과 비즈니스 영향을 함꼐 고려한 우선사항 구분이 필요했다

이 단계에서는 장애로 인해 어떤사용자의 어떤경험이 중단되는지 기준으로 삼고 매출,신뢰,운영 비용등 비즈니스 전반에 미치는 영향을 함께고려해봐야한다

  • Customer 구매 경험 단절
    고객이 제휴 링크를 통해 유입된 이후 구매를 완료하지 못하거나, 구매 기여가 정상적으로 측정되지 않는 경우
    고객의 핵심 구매 경험이 직접적으로 중단되며, 서비스 신뢰와 성과에 즉각적인 영향을 미친다
  • Curator 수익 활동 경험 단절
    고객의 구매는 가능하지만, 큐레이터가 상품을 탐색하거나 링크를 생성·관리하는 과정에서 장애가 발생해 수익 활동이 제한되는 경우
  • Curator 일반 서비스 이용 경험 단절
    큐레이터의 일부 기능 이용에 불편이 발생하지만, 구매 발생이나 기여 측정에는 직접적인 영향이 없는 경우
  • 운영·관리 경험 단절
    서비스의 핵심 기능에는 영향이 없으나, 내부 운영이나 관리 과정에서 불편이 발생하는 경우

이렇게 기준을 정하면 무엇을 먼저 보호해야하는지를 판단할수 있다

비즈니스 심각도를 SEV로 연결

CUJ와 CSP, Priority 정의까지는 장애를 비즈니스 관점에서 해석하기 위한 기준을 세우는 과정이었고 다음 단계는 이를 엔지니어링의 SEV 기준으로 연결하는 것이다

SEV 판단의 핵심 기준: 무엇을 기준으로 장애가 부를것이냐

구글의 SRE(Site Reliability Engineering)방법론에 따르면 서비스의 건강 상태를 정량적으로 측적하고 이를 바탕으로 객관적인 판단을 내릴것을 권장한다

SLI (Service Level Indicator): 서비스의 ‘건강 지표’

SEV를 판단하기 위한 첫 번째 단계는 ‘무엇을 측정할 것인가’이다
활용 목적은 SLI는 단순히 숫자를 나열하는 것이 아니라, 서비스의 상태를 객관적으로 측정하고 뒤에서 설명할 SLO 달성 여부 및 SEV 등급을 결정하는 가장 기초적인 근거 데이터가 된다

예시)

가용성: 전체 요청중 성공한 요청의 비율

응답지연 : 요청이 처리되는데 걸리는 시간

에러율 : 실패한 요청의 비율

처리량 : 초당 처리되는 요청 수

이벤트 적재 성공률 : 데이터 손실 없이 데이터가 쌓이는 비율

SLO (Service Level Objective)와의 결합: ‘장애의 경계선’

어느정도 장애인가를 결정하는 기준치

판단프로세스

  • SLI관측 : 현재 에러율이 5%발생중임
  • SLO 비교 : 우리 서비스의 에러율 기준은 0.1% 미만임 
  • SEV 결정 :  SLO를 심각하게 초과함, 영향 범위가 넓으므로 SEV 1 발령

데이터 기반의 의사결정

  • SLI를 통해 실시간 데이터를 수집하고,
  • SLO를 통해 허용 가능한 범위를 설정하며,
  • 이 범위를 벗어난 정도와 사용자 영향도에 따라 SEV 등급을 부여한다

비즈니스 영향 (CSP / NON-CSP Priority)

대시보드는 핵심 사용자 여정(CUJ)을 구성하는 주요 기능별 SEV를 한눈에 볼 수 있도록 구성해 모디터링 해서 장애 발생시 빠르게 원인 파악이 가능하다

얼럿: 무엇이 끊겼는지를 바로 알 수 있게

단순 에러 알람이 아니라 문제의 위치와 심각도를 즉시 파악할수 있다

비즈니스 심각도 정의 이후, 무엇이 달라졌는가

장애를 바라보는 기준은 기술 지표 자체가 아니라, 무엇을 먼저 지켜야 하는지에 대한 관점이라는 점이다