페이지랭크(PageRank)는 구글이 1998년 공동 창업자 래리 페이지와 세르게이 브린이 개발한 웹 페이지의 중요도를 평가하는 알고리즘이다. 웹 그래프에서 각 페이지를 노드, 하이퍼링크를 간선으로 모델링하여, 페이지 간의 상호 연결성을 기반으로 가중치를 부여한다. 페이지랭크 값은 검색 결과 정렬에 활용되며, 이후 다양한 분야의 순위 산정 및 그래프 분석에 응용되고 있다.
개념
페이지랭크는 무작위 서퍼 모델(random surfer model) 을 전제로 한다. 서퍼가 현재 페이지에서 임의의 하이퍼링크를 따라 이동할 확률(보통 85 %~90 %)과, 아무 페이지든 무작위로 점프할 확률(보통 10 %~15 %)을 조합하여 각 페이지의 장기 체류 확률을 계산한다. 이 확률이 바로 페이지랭크 점수이며, 값이 높을수록 해당 페이지가 “중요하다”고 판단한다.
역사
| 연도 | 사건 |
|---|---|
| 1996 | 스탠포드 대학에서 래리 페이지와 세르게이 브린이 “BackRub” 프로젝트를 시작, 초기 하이퍼링크 분석 연구 수행 |
| 1998 | “PageRank”라는 이름으로 알고리즘을 공식화하고 구글(Google) 설립 시 핵심 기술로 채택 |
| 2001 | 구글이 공개 논문 The PageRank Citation Ranking: Bringing Order to the Web 발표 |
| 2006 | 구글이 검색 결과에 페이지랭크 공개를 중단하고, 내부적으로는 계속 사용 |
| 이후 | 페이지랭크 개념이 학술·산업 전반에 퍼져 다양한 변형 및 확장 알고리즘이 개발됨 |
원리 및 수식
기본 식
페이지랭크 $ PR(i) $는 다음과 같이 정의된다.
$$ PR(i)=\frac{1-d}{N}+d\sum_{j\in M_{i}}\frac{PR(j)}{L(j)} $$
- $ N $ : 전체 페이지 수
- $ d $ : 댐핑 팩터(damping factor, 일반적으로 0.85)
- $ M_{i} $ : 페이지 $ i $로 링크되는 페이지 집합
- $ L(j) $ : 페이지 $ j $가 가지고 있는 아웃링크 수
위 식을 모든 페이지에 대해 행렬 형태로 표현하면 고정점 문제로 볼 수 있다. 전통적으로 전력법(power iteration)을 이용해 수렴시킨다.
수렴 조건
- 초기값은 보통 모든 페이지에 동일한 값 $ \frac{1}{N} $을 할당한다.
- 반복 계산 후 $|PR^{(k+1)}-PR^{(k)}|_1 < \epsilon$ (보통 $\epsilon=10^{-6}$)이면 수렴으로 판단한다.
적용 분야
- 검색 엔진 : 구글을 비롯한 여러 검색 서비스가 초기 순위 산정에 활용.
- 소셜 네트워크 분석 : Influence 모델링, 사용자 영향도 측정.
- 추천 시스템 : 아이템 간 연관성을 그래프 기반으로 평가.
- 학술 인용 분석 : 논문 인용 네트워크에서 영향력 있는 논문 선정.
- 웹 스팸 탐지 : 비정상적인 링크 구조를 식별해 스팸 페이지를 차단.
비판·한계
| 비판·한계 | 내용 |
|---|---|
| 링크 조작 | 페이지랭크는 하이퍼링크를 기반으로 하므로, 인위적인 링크 교환(link farm)이나 SEO 스팸을 통해 순위를 조작할 수 있다. |
| 새로운 페이지 | 초기 단계에서 인바운드 링크가 없는 페이지는 낮은 페이지랭크를 받으며, “콜드 스타트 문제”가 발생한다. |
| 계산 비용 | 전체 웹 규모에 대해 반복적인 행렬 연산이 필요해, 대규모 분산 컴퓨팅 환경이 요구된다. |
| 주제 다양성 반영 부족 | 단순히 연결성만 고려하므로, 검색어와의 의미적 연관성을 충분히 반영하지 못한다. |
| 시간에 따른 변화 | 웹 구조가 빠르게 변함에도 불구하고, 페이지랭크는 상대적으로 느린 업데이트 주기를 가진다. |
관련 알고리즘 및 변형
- HITS (Hyperlink-Induced Topic Search) : “허브·권위” 점수를 동시에 계산.
- SALSA (Stochastic Approach for Link-Structure Analysis) : HITS와 PageRank의 혼합형.
- TrustRank : 신뢰도 기반 스팸 필터링 알고리즘.
- Personalized PageRank : 사용자별 선호를 반영해 초기 벡터를 개인화.
- Topic‑Sensitive PageRank : 특정 주제에 맞는 가중치를 부여.
참고문헌
- Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, “The PageRank Citation Ranking: Bringing Order to the Web”, Technical Report, Stanford University, 1999.
- Amit Singhal, “Search Engine Optimization (SEO) and PageRank”, Google Research Blog, 2005.
- Soumen Chakrabarti, “Mining the Web: Discovering Knowledge from Hypertext Data”, Morgan Kaufmann, 2002.
외부 링크
이 항목은 2026년 2월 현재의 정보를 기반으로 작성되었으며, 최신 연구 동향에 따라 내용이 업데이트될 수 있다.