로그인

[우아콘2024] "장애 같은데? 일단 멈춰!" 배민은 서비스 장애를 어떻게 감지할까

[디지털데일리 왕진화 기자] 우아한형제들 딜리버리프로세싱팀이 배달 시스템 전반에 각각 장애 상황이 발생했을 경우, 이를 보다 효율적으로 처리를 할 수 있을 지 고민했던 경험담을 풀어냈다.

천은정 우아한형제들 딜리버리프로세싱팀 PM은 30일 서울 강남구 그랜드 인터컨티넨탈 서울 파르나스에서 열린 ‘우아한테크콘퍼런스2024’(이하 우아콘)을 통해, “그동안 우리가 직면했던 문제들은 항상 답이 없었고 앞으로 직면할 문제들도 답이 없을지 몰라도 늘 그래왔던 것처럼 계속 질문을 통해서 우리만의 정답을 만들 것”이라고 강조했다.

치킨을 주문했다고 가정을 해볼 때, 고객이 치킨을 주문하면 사장님은 어떤 주문인지 확인하고 조리를 시작한다. 이후로 배달이 필요하게 될 텐데, 이 시작부터 완료되는 과정을 고민하는 팀이 바로 딜리버리프로세싱팀이다.

딜리버리프로세싱팀에서는 배달이 가능한 지역을 관리 중이다. 예를 들어 한강 한가운데서 주문이 들어왔을 때처럼, 배달을 갈 수 없듯 지역에서 배달 가능 여부를 살펴보고 있다. 배달 가능한 지역에서 주문이 들어오면 이 주문 건을 배달하기 위한 배달 데이터를 생성하거나, 라이더가 픽업하거나 고객에게 전달했다는 배달 상태도 이 팀이 관리한다.

김지언 PM은 “장애는 나지 않으면 좋겠지만 언제든 발생할 수 밖에 없는 그런 존재”라며 “빠른 대응이 필요한 상황인데 이 대기하는 시간들 속에서 사람에 의존하게 되면서 대응 시간도 계속 지연되니, 딜리버리프로세싱팀에선 ‘이 시간을 어떻게 하면 단축할 수 있을지’ 고민하기 시작했다”고 설명했다.

이 질문의 해결 방안은 3가지로 꼽힌다. 바로 빠르게 이상 상황을 감지하고, 즉각적으로 조치를 하면서 이 일련의 과정을 효율적으로 커뮤니케이션할 수 있게 하는 것이다. 이 3가지가 해결된다면 크리티컬한 장애 상황에서 고객의 영향도는 최소화할 수 있고, 이는 곧 서비스의 신뢰도와 연결이 될 수 있으며 기업 입장에선 장애로 인한 보상 규모도 축소할 수 있는 효과도 얻게 된다.

김 PM은 도요타 생산 공장의 안돈 시스템을 이 과정에서 떠올렸다고 강조했다. 두꺼비집에는 전기가 과하게 공급됐을 때 퓨즈에 이상이 생겼다는 것을 감지하고 더 큰 사고를 막기 위해서 유입되는 전류를 사전에 차단하는 기능이 있듯이, 안돈 시스템은 간단히 말해 ‘공정별 품질 상태를 알려주는 시스템’을 뜻한다. 여러 공정 라인 중에서 문제가 있는 그 라인을 특정해서 알려주고, 담당자로 하여금 빠르게 스톱(STOP) 조치를 내릴 수 있게 해주는 것이다.

김 PM은 “그리고 담당자가 조치를 했으면 그 조치 사항들을 대시보드를 통해서 알려주게 된다”며 “이렇게 안돈 시스템의 장점들은 앞서서 우리가 해결하고자 했던 그 문제들을 도울 수 있고, 만약 배민의 장애 대응 상황에 적용해본다면 시스템이 이상 상황을 감지하거나 조치, 공지하는 등 세 가지를 한 번에 처리할 수 있을 것이라고 생각했다”고 말했다.

주문을 완료했지만 배달 데이터를 생성하지 못하거나, 배차 실패, 소비자에게 전달 처리를 하지 못하는 사례도 있다. 각 프로세스에서 전환하는 데 실패하거나 또는 지연이 발생한다면 결론적으로는 좋은 배달 경험을 제공할 수 없게 된다. 이처럼 각 프로세스에서 다음 프로세스로 잘 전환됐는지를 보고 해당 팀은 프로덕트의 품질을 확인하게 된다.

대표 예시가 월드컵 때와 일반 장애 때의 비교다. 이러한 사례들을 토대로 부적합한 건수가 연속적으로 증가하거나 그 증가 속도가 빨라지면 이상 상황이라고 판단할 수 있는 기준 능력을 삼는 것이다. 이를 통해 트래픽이 갑자기 바뀌는 구간들에도 초기에 이상 상황으로 감지될 수 있도록 했다.

다만 급증한 트래픽이 문제가 아닌 경우 가장 먼저 장애 발생 직전 시점에 변경된 내용이 있는지도 확인한다. 트래픽이 아닌, 시스템의 어떤 변경으로 인해서도 장애가 충분히 발생할 수 있기 때문이다.

김 PM은 “이렇게 변화가 많은 프로세스인 만큼 유관 부서와 해당 내용들을 같이 맞춰보는 게 필요하다”며 “그래서 이전부터 콘셉트에 대한 부분도 촘촘히 맞춰봤지만 이후에 같이 대응해야 될 프로세스에 대해서도 매뉴얼을 제공하면서 유관 부서와 맞춰간다”고 말했다.

천 PM은 “최초의 이상 상황에서 최우선으로 했었던 것은 고객에 대한 경험”이라며 “슬랙(Slack) 알람 뿐만 아니라 옵스진이라는 툴을 연동해 장애 상황을 빠르게 인지한 담당자가 참여하게 만들고, 장애 상황 여부를 판단할 수 있는 기준 지표를 대시보드에 빠르게 구축했다”고 설명했다. 이어 “다음으로는 역할에 대한 재분배를 통해 누구나 다 와서 이 시스템을 복구할 수 있게끔 조정했다”고 부연했다.

즉, 딜리버리프로세싱팀은 안돈 시스템을 찾은 것에 만족하지 않고, 어떻게 하면 배민만의 방식으로 상황에 맞게 녹일 수 있는지에 대한 고민들을 끊임없이 이어갔다. 또한, 기준 지표 검증 과정을 반복함으로써 담당자는 물론 유관 부서들도 신뢰할 수 있게끔 과정과 소통을 쌓는 데에 노력했다고 강조했다.

천 PM은 “결국은 이런 고민들 덕분에 완성도 높은 프로덕트를 만들 수 있었다라고 생각한다”며 “많은 책임과 부담을 느끼긴 했지만 오히려 그럴 때마다 더 본질이 무엇인지, 우리가 해결하고자 했던 그 문제가 무엇이었는지를 끊임없이 고민하고 답을 찾아갈 수 있었다”고 말했다.