푸아송 분포
푸아송 분포 (Poisson distribution)는 확률론과 통계학에서 단위 시간 또는 단위 공간에서 발생하는 사건의 횟수에 대한 이산 확률 분포이다. 주로 드물게 발생하는 사건의 빈도를 모델링하는 데 사용되며, 예를 들어 특정 시간 동안 콜센터에 걸려오는 전화 횟수, 특정 지역에서 발생하는 교통사고 건수, 또는 특정 면적 내에서 발견되는 희귀종 식물의 개체 수 등을 설명하는 데 유용하다.
정의
푸아송 분포는 하나의 모수 λ (람다)에 의해 결정되며, 이는 단위 시간 또는 공간에서 사건이 발생할 것으로 예상되는 평균 횟수를 나타낸다. 푸아송 분포를 따르는 확률변수 X가 특정 값 k (0, 1, 2, ...)를 가질 확률은 다음과 같이 주어진다.
P(X = k) = (λ^k * e^(-λ)) / k!
여기서:
- P(X = k)는 사건이 k번 발생할 확률
- λ는 사건이 발생할 것으로 예상되는 평균 횟수
- e는 자연 상수 (약 2.71828)
- k!는 k의 계승 (factorial)
특징
- 모수: 푸아송 분포는 하나의 모수 λ만으로 정의된다.
- 평균과 분산: 푸아송 분포의 평균과 분산은 모두 λ와 같다. 즉, E(X) = λ이고 Var(X) = λ이다.
- 독립성: 푸아송 분포는 각 사건이 서로 독립적으로 발생한다고 가정한다.
- 희소성: 사건 발생 확률이 매우 낮을 때 푸아송 분포는 이항 분포의 좋은 근사로 사용될 수 있다. 특히 이항 분포의 시행 횟수 n이 매우 크고, 각 시행에서 사건이 발생할 확률 p가 매우 작을 때, λ = np로 설정하여 푸아송 분포로 근사할 수 있다.
응용
푸아송 분포는 다양한 분야에서 활용된다.
- 통신: 콜센터의 전화 트래픽 모델링, 네트워크에서 발생하는 에러 수 예측
- 보건: 특정 지역에서 발생하는 질병 발생 건수 분석, 병원 응급실 방문 환자 수 예측
- 금융: 특정 기간 동안 발생하는 주식 거래 횟수 모델링, 보험 회사의 보험금 청구 건수 예측
- 제조: 생산 라인에서 발생하는 불량품 수 예측
- 생태학: 특정 지역에서 발견되는 희귀종 동식물 개체 수 분석
관련 분포
- 이항 분포: 시행 횟수가 많고 사건 발생 확률이 낮을 때 푸아송 분포는 이항 분포를 근사한다.
- 지수 분포: 푸아송 과정에서 사건과 사건 사이의 시간 간격은 지수 분포를 따른다.
- 감마 분포: 푸아송 과정에서 특정 횟수의 사건이 발생할 때까지 걸리는 시간은 감마 분포를 따른다.