다중서열정렬 (Multiple Sequence Alignment, MSA) 은 두 개 이상의 DNA, RNA, 혹은 단백질 서열을 서로 정렬하여, 서열들 간의 진화적·구조적·기능적 유사성을 파악하기 위한 생물정보학 기법이다. 정렬된 결과는 동일하거나 유사한 잔기(염기 또는 아미노산)가 같은 열(column)에 위치하도록 배치되며, 삽입·삭제(gap)와 같은 인덱스 차이를 최소화한다.
1. 정의 및 목적
정의: 여러 생물학적 서열을 공통 조상으로부터의 삽입·삭제·치환을 고려해 최적의 정렬 형태로 배열하는 과정.
주요 목적
진화 관계 추정 – 계통수(phylogenetic tree) 구축의 기초 자료.
보존 서열·모티프 탐색 – 기능적 혹은 구조적 중요 부위 식별.
구조·기능 예측 – 알려진 구조를 가진 서열에 대한 동형성 추론.
데이터베이스 검색·전사체/단백질군 분석 – 대규모 유전체·단백질 데이터셋에서의 비교.
2. 역사
1970‑s: 최초의 다중 서열 정렬 시도는 Needleman‑Wunsch와 Smith‑Waterman와 같은 쌍 서열 정렬 알고리즘을 순차적으로 적용한 방법에서 시작.
1980‑s: Clustal (1988)과 DIALIGN (1996) 등, 진보적(Progressive) 정렬 방식이 도입돼 실용적인 대규모 정렬이 가능해졌다.
2000‑s: MUSCLE, MAFFT, T‑Coffee 같은 일관성 기반(Consistency‑based) 정렬이 등장하면서 정렬 정확도가 크게 향상.
2010‑s 이후: GPU 가속, 딥러닝 기반 정렬(예: DeepAlign, AlphaFold‑Multimer 연동) 연구가 활발히 진행되고 있다.
3. 핵심 개념
용어
의미
스코어링 매트릭스 (Scoring Matrix)
아미노산·염기 치환 점수를 정의하는 행렬 (예: BLOSUM, PAM).
갭 페널티 (Gap Penalty)
삽입·삭제(gap) 발생 시 부여되는 비용; 선형, 비선형(affine) 형태가 일반적.
합-쌍 점수 (Sum‑of‑Pairs, SP) 점수
정렬된 모든 서열 쌍에 대한 점수를 합산한 총점; MSA 최적화의 주요 목표 함수.
컬럼 점수 (Column Score, CS)
정렬된 각 열이 실제 진화적 ‘동일성’ 혹은 ‘보존성’를 얼마나 잘 반영하는지 측정.
NP‑hard
최적 MSA 문제는 조합론적 복잡도 측면에서 NP‑hard로 알려져 있다. 따라서 실제 분석에서는 휴리스틱 또는 근사 알고리즘이 사용된다.
4. 정렬 알고리즘 분류
분류
대표 알고리즘
특징
진보적(Progressive) 정렬
ClustalW, Clustal Omega
초기 서열 간 거리 행렬 → 계층적 군집 → 단계적 정렬. 빠르지만 초기 오류가 전파될 위험.
일관성 기반(Consistency‑based) 정렬
T‑Coffee, ProbCons
모든 쌍 서열 정렬 결과를 일관성 매트릭스로 통합 후 최적화. 정확도 향상, 연산량 증가.
반복적(Iterative) 정렬
MUSCLE, MAFFT (FFT‑NS‑2)
초기 정렬 → 재정렬 → 수렴까지 반복. 속도와 정확도 균형.
프로파일 정렬(Profile Alignment)
PRANK, Dialign
진화 모델을 고려해 삽입·삭제를 ‘가상적인’ 진화 사건으로 모델링. 삽입이 과다히 포함되는 현상 억제.
딥러닝/학습 기반
DeepAlign, AlphaFold‑Multimer 연동
서열·구조 정보를 동시에 학습하여 정렬 정확도와 구조 예측을 동시 개선. 연구 단계.
5. 주요 파라미터와 설정
갭 모델
선형(gap open + gap extension = const·L)
비선형(affine) – ‘갭 오픈 페널티’와 ‘갭 연장 페널티’를 별도로 지정.
스코어링 매트릭스 선택
단백질: BLOSUM62, PAM250 등.
핵산: NUC44, DNAfull 등.
정렬 가중치
보존 부위에 높은 가중치를 부여하거나, 구조적 제약(예: 2차 구조)과 결합.
정렬 범위
전구간(Global) vs. 부분 서열(Local) 정렬.
일부 프로그램은 정밀도‑속도 트레이드오프 파라미터(예: MAFFT의 “—‑auto”)를 제공.
6. 평가 지표
SP 점수 – 대부분의 알고리즘이 최적화 목표로 사용.
TC (Total Column) 점수 – 전체 열이 완전 일치할 경우 1.0.
BOA (Bali‑Osawa Alignment) 지수 – 정렬 정확도와 복잡도를 동시에 반영.
실제 데이터 기반 검증 – BAliBASE, SABmark, OXBench 등 표준 데이터셋 사용.
7. 활용 사례
분야
구체적 활용
계통학
다중 서열 정렬을 토대로 Maximum Likelihood, Bayesian 계통수 구축.
구조생물학
보존된 구조 모티프·도메인 예측, 동형성 모델링.
분자 진단
병원체 변이 분석·백신 타깃 서열 설계.
전사체 분석
RNA‑Seq 결과의 동일 유전자군 비교 (예: splice variant 분석).
단백질 설계
기능성 서열 패턴 추출 → 인공 효소·항체 설계.
8. 한계와 전망
계산 복잡도: 최적 정렬은 NP‑hard이므로 대규모(수천~수만 서열)에서는 근사 알고리즘이 필수.
삽입·삭제 과다: 일부 진보적 방법은 초기에 삽입을 과다 생성하며, 이를 보정하는 프로파일‑정렬이나 일관성 기반 기법이 필요.
데이터 다변성: 다중 도메인·가변 길이 서열, 고변이 바이러스 등 복잡한 경우 정렬 정확도가 떨어질 수 있다.
머신러닝: 최근 Transformer 기반 모델이 서열 간 거리를 학습하여 정렬 초기값을 제공하거나, 직접 정렬을 예측하는 연구가 활발히 진행 중이다.
통합 플랫폼: Galaxy, EMBOSS, Bioconductor 등에서 다양한 MSA 도구를 워크플로우 형태로 연계함으로써 재현성·확장성을 강화하고 있다.
9. 주요 도구 및 리소스
도구
특징
웹사이트
Clustal Omega
대규모 정렬(수십만 서열) 지원, 빠른 알고리즘
https://www.ebi.ac.uk/Tools/msa/clustalo/
MAFFT
FFT 기반 빠른 정렬, L‑INS‑i (정밀) 옵션 제공
https://mafft.cbrc.jp/alignment/software/
MUSCLE
높은 정확도와 속도, 다중 스레드 지원
https://www.drive5.com/muscle/
T‑Coffee
일관성 매트릭스 기반, 다양한 서열·구조 입력 가능
http://tcoffee.crg.eu/
ProbCons
확률적 모델 기반, 높은 SP 점수
http://probcons.stanford.edu/
PRANK
진화 모델 적용, 삽입·삭제를 실제 진화 사건으로 해석
http://wasabiapp.org/software/prank/
DeepAlign
딥러닝 기반 서열·구조 동시 정렬
https://github.com/DeepAlign/DeepAlign
10. 참고문헌 (선택)
Higgins, D.G., et al. (1996). CLUSTAL: a package for performing multiple sequence alignment. Gene.
Edgar, R.C. (2004). MUSCLE: multiple sequence alignment with high accuracy and high throughput. NAR.
Katoh, K., & Standley, D.M. (2013). MAFFT multiple sequence alignment software version 7: improvements in performance and usability. Mol Biol Evol.
Notredame, C., et al. (2000). T‑COFFEE: a novel method for fast and accurate multiple sequence alignment. J Mol Biol.
Remmert, M., et al. (2012). HHblits: lightning-fast iterative protein sequence searching by HMM-HMM alignment. Nat Biotechnol.
다중서열정렬은 현대 생물학·생명정보학 연구의 핵심 인프라이며, 정확하고 효율적인 정렬 방법의 지속적인 개발은 유전체·단백질 데이터의 해석 역량을 직접적으로 확장한다.