장애대응
-
If Kakao 장애 재발 방지 에서 얻는 교훈 - CI/CD, Image RegistrySemina/CICD 2022. 12. 14. 14:24
이런 저런 이유로 장애가 발생할 수 있다. 큰 장애가 나면, 종종 운영관리 툴들도 같이 죽는 경우가 종종 있는데, If Kakao 장애 재발 방지 동영상에서, 이 문제가 2nd 우선 순위로 다루어 졌다. 1. 운영 관리 툴 이중화 큰 장애가 발생했는데, 이를 복구할 운영 관리툴도 같이 죽었다. AD ( Active Directory) SCM (Git ) CI/CD Wiki / Jira 그래서, 카카오 복구가 지연됐다고 한다. 특히 앱배포에 어려움을 겪었다고 한다. 그리고 언급은 안돼었지만, 개발망도 Main DC 에만 있는 경우가 많다. 개발망이 죽으면, 당장 서비스에 영향은 없지만, 복구를 위한 개발/수정 작업에 영향을 미친다. 2. image registry 이중화, 대역폭 이미 우리도 겪고 있는 문..
-
LINE 플랫폼 서버의 장애 대응 프로세스와 문화Semina/개발문화 2021. 12. 18. 15:52
Line Deveoper day link : https://linedevday.linecorp.com/2021/ko/sessions/175/ LINE DEVELOPER DAY 2021 LINE 플랫폼 서버의 장애 대응 프로세스와 문화 | 이수안 / LINE Plus linedevday.linecorp.com Youtube : https://www.youtube.com/watch?v=YS35AGyq4aY 1. 프로세스로 장애에 대응한다. 2. 장애를 통해 배운다 3. 개발문화를 통해 사전에 장애를 예방한다. 장애대응 프로세스 -> 우리의 장애대응 프로세스와 매우 유사하다. 그리고 우리가 보강해야 할 단계는 회고(Retrospective)와 개선 계획을 포함한 post-mortem 이다. 개발문화 장애 재발..