들어가며
데이터 분석의 세계에서 회귀 분석은 빼놓을 수 없는 중요한 도구입니다. 그중에서도 선형 회귀는 가장 기본적이면서도 널리 사용되는 방법이죠. 선형 회귀는 독립 변수와 종속 변수 간의 관계를 선형적인 형태로 모델링하여, 데이터를 가장 잘 설명하는 직선 또는 평면을 찾는 데 집중합니다. 이때, "가장 잘 설명한다"는 기준을 정하는 것이 중요한데, 그 대표적인 방법이 바로 최소제곱법(Least Square Method, LSM)입니다. 이번 글에서는 선형 회귀의 핵심 손실 함수인 LSM을 두 가지 다른 관점에서 살펴보고, 그 의미를 더 깊이 이해해 보고자 합니다.
최소제곱법(LSM), 그 속을 들여다보다
우리가 흔히 접하는 선형 회귀 모델은 독립 변수(x)와 종속 변수(y) 사이의 관계를 나타내는 방정식으로 표현됩니다. 가장 간단한 형태는 y = ax + b 와 같은 직선의 방정식이죠. 여기서 a는 기울기, b는 y절편을 의미합니다. 데이터 포인트들이 흩어져 있는 공간에 이 직선을 그었을 때, 각 데이터 포인트와 직선 사이에는 오차가 발생합니다. 이 오차를 잔차(residual)라고 부릅니다.
최소제곱법은 바로 이 잔차들의 제곱의 합을 최소화하는 a와 b 값을 찾는 방법입니다. 왜 그냥 잔차의 합이 아니라 "제곱의 합"을 사용할까요? 여기에는 몇 가지 이유가 있습니다.
- 부호 문제 해결: 잔차는 양수일 수도 있고 음수일 수도 있는데, 단순히 더하면 서로 상쇄되어 오차가 작아 보이는 문제가 발생할 수 있습니다. 제곱을 하면 모든 잔차가 양수가 되므로, 이러한 문제를 해결할 수 있습니다.
- 이상치(outlier) 민감도 증가: 잔차를 제곱하면 큰 오차에 더 큰 가중치를 부여하게 됩니다. 즉, 모델이 이상치에 더 민감하게 반응하여, 전체적인 데이터 패턴을 더 잘 설명하도록 유도할 수 있습니다.
- 수학적 편리성: 잔차 제곱합은 미분 가능한 함수이므로, 최적화 알고리즘을 적용하여 최소값을 쉽게 찾을 수 있습니다.
이제 최소제곱법을 두 가지 시각으로 나누어 좀 더 자세히 살펴보겠습니다.
1. 기하학적 관점:
기하학적으로 최소제곱법은 데이터 포인트들을 가장 잘 "근사"하는 직선을 찾는 문제입니다. 각 데이터 포인트에서 직선까지의 수직 거리를 잔차라고 생각하면, 최소제곱법은 이 거리들의 제곱합을 최소화하는 직선을 찾는 것과 같습니다. 마치 좌표 평면에 흩뿌려진 점들을 대표하는 하나의 직선을 찾기 위해, 각 점들이 직선으로부터 얼마나 떨어져 있는지를 측정하고, 그 "떨어진 정도"를 가장 작게 만드는 직선을 찾는 과정과 같습니다.
2. 선형대수학적 관점:
선형대수학적인 관점에서 최소제곱법은 조금 더 추상화된 형태로 표현됩니다. 데이터들을 행렬과 벡터로 표현하고, 이를 이용하여 방정식을 세웁니다. 예를 들어, 독립 변수 x와 종속 변수 y 데이터가 주어졌을 때, 이 데이터를 행렬 X와 벡터 y로 표현할 수 있습니다. 그리고 우리가 찾고자 하는 기울기 a와 y절편 b를 묶어 벡터 β로 표현합니다.
이제 선형 회귀 모델은 Xβ ≈ y 와 같은 형태로 표현될 수 있습니다. 여기서 "≈"는 "근사적으로 같다"는 의미입니다. 왜냐하면 실제 데이터는 완벽하게 선형적인 관계를 가지지 않기 때문입니다. 최소제곱법은 ||Xβ - y||² (여기서 || ||는 벡터의 크기를 나타냄)를 최소화하는 벡터 β를 찾는 문제입니다. 즉, Xβ와 y의 차이를 최소화하는 β를 찾는 것이죠. 이 식을 풀면 β = (XᵀX)⁻¹Xᵀy 라는 해를 얻을 수 있습니다. 여기서 Xᵀ는 X의 전치 행렬, (XᵀX)⁻¹는 XᵀX의 역행렬을 의미합니다.
이러한 선형대수학적 표현은 다중 선형 회귀와 같이 독립 변수가 여러 개인 경우에도 쉽게 확장될 수 있다는 장점이 있습니다.
마무리하며
지금까지 최소제곱법(LSM)을 기하학적 관점과 선형대수학적 관점, 두 가지 시각으로 살펴보았습니다. 기하학적으로는 데이터 포인트들을 가장 잘 근사하는 직선을 찾는 문제이고, 선형대수학적으로는 행렬과 벡터를 이용하여 방정식을 풀고 최적의 해를 찾는 문제입니다.
최소제곱법은 선형 회귀의 핵심 원리이며, 이를 이해하는 것은 데이터 분석 능력을 한 단계 더 발전시키는 데 도움이 될 것입니다. 앞으로 다양한 데이터 분석 프로젝트에서 최소제곱법을 활용하여 의미 있는 결과를 도출해내시기를 바랍니다.