목록으로

Programming Notes

빌링 파이프라인이 갑자기 느려진 원인은 ClickHouse에 숨겨진 병목 현상이었습니다

페타바이트 규모의 ClickHouse 클러스터에서 파티셔닝 설정을 변경하자 중요한 빌링 작업들이 중단되는 상황이 발생했습니다. 하지만 표준 메트릭상으로는 뚜렷한 오류가 관찰되지 않았습니다. 이 글에서는 ClickHouse의 쿼리 플래너(Query Planner)에서 발생한 심각한 락 경합(Lock Contention)을 어떻게 식별했는지, 그리고 이를 해결하기 위해 직접 업스트림 패치를 제작한 과정을 살펴봅니다.