파운데이션 모델

파운데이션 모델은 인공지능 분야에서, 대규모 데이터와 연산 자원을 활용해 사전 학습(pre‑training)된 뒤, 다양한 하위 작업에 대해 추가 학습(fine‑tuning)이나 프롬프트 엔지니어링 등을 통해 적용할 수 있는 범용적인 딥러닝 모델을 의미한다. 영어 원어인 foundation model은 “기초·기반 모델”이라는 뜻으로, 해당 모델이 여러 응용 분야의 기반이 된다는 의미를 담고 있다.

정의

파운데이션 모델은 다음과 같은 특징을 가진다.

  1. 대규모 사전 학습: 수십억~수조 개의 파라미터와 방대한 텍스트·이미지·동영상 등 다양한 형태의 데이터를 이용해 사전 학습한다.
  2. 범용성: 특정 작업에 한정되지 않고, 자연어 처리, 컴퓨터 비전, 멀티모달 이해 등 여러 분야에 전이(transfer)될 수 있다.
  3. 다중 작업 적응: 미세 조정(fine‑tuning), 프롬프트(prompt) 기반의 제어, 혹은 제로샷(zero‑shot) 추론을 통해 새로운 과업에 적용한다.

역사

파운데이션 모델이라는 용어는 2021년 스탠포드 대학의 Institute for Human-Centered AI(HAI)에서 발표한 보고서 “On the Opportunities and Risks of Foundation Models”에서 처음 체계적으로 제시되었다. 보고서는 대규모 언어 모델(GPT‑3, BERT 등)과 대규모 비전 모델(CLIP, DALL·E 등)이 보여주는 공통적 특성을 정리하고, 이러한 모델이 향후 AI 연구와 산업에 미칠 영향을 논의했다.

이후 2022년~2023년 사이에 멀티모달 파운데이션 모델(Multimodal Foundation Models)인 Flamingo, BLIP‑2, GPT‑4 등이 공개되며, 파운데이션 모델의 개념은 자연어 처리에 국한되지 않고 이미지·음성·코드 등 다양한 데이터 유형을 포괄하게 되었다.

주요 특징 및 구성 요소

구분 내용
규모 파라미터 수가 수억 규모에서 수조 규모까지 다양하며, 일반적으로 모델이 클수록 다양한 작업에 대한 일반화 능력이 향상된다.
학습 데이터 웹 크롤링 텍스트, 위키피디아, 책, 뉴스, 이미지 캡션 등 다량의 공개·비공개 데이터를 포함한다.
학습 방식 자기지도학습(self‑supervised)·대조학습(contrastive learning)·교차모달 학습 등 여러 방식이 혼합되어 사용된다.
전이 방법 (1) 파라미터 전체를 미세 조정, (2) 일부 레이어만 학습, (3) 프롬프트를 설계해 제로샷/few‑shot 방식으로 활용한다.

대표적인 파운데이션 모델 사례

  • GPT‑3 / GPT‑4 (OpenAI) – 대규모 언어 생성·이해 모델
  • BERT, RoBERTa (Google, Facebook) – 양방향 인코더 기반 언어 모델
  • CLIP (OpenAI) – 이미지와 텍스트를 동시에 학습한 멀티모달 모델
  • DALL·E (OpenAI) – 텍스트 설명으로부터 이미지를 생성하는 모델
  • Flamingo (DeepMind) – 다양한 비전·언어 작업에 적용 가능한 멀티모달 모델

연구 및 사회적 논의

  1. 성능 향상: 파운데이션 모델은 기존에 개별 과업별로 학습하던 모델 대비 높은 정확도와 적은 데이터 요구량을 보인다.
  2. 경제·사회적 파급력: 서비스 개발 비용 절감, 생산성 향상 등 긍정적 효과가 기대되지만, 고성능 모델을 구축·운용하기 위한 막대한 컴퓨팅·에너지 비용이 논쟁의 대상이다.
  3. 윤리·안전성: 대규모 데이터에 포함된 편향(bias)·허위 정보가 모델에 전이될 위험, 악용 가능성(예: 자동화된 허위 정보 생성) 등이 주요 우려사항으로 제기된다.
  4. 규제·표준화: 여러 국가·기관에서 파운데이션 모델의 투명성, 책임성, 검증 절차 등에 관한 가이드라인을 마련하고 있다.

비판 및 한계

  • 자원 집약성: 수백억 파라미터를 학습하는 데 필요한 전력·시간·비용이 소수 기업·기관에 집중돼 기술 격차를 확대한다.
  • 불투명성: 사전 학습에 사용된 데이터와 구조가 공개되지 않은 경우가 많아, 결과물의 해석가능성(interpretability)이 낮다.
  • 편향·유해 콘텐츠: 훈련 데이터에 내재한 사회적 편향이 모델 출력에 그대로 반영될 가능성이 있다.

참고 문헌(선택)

  1. Bommasani, R. et al. “On the Opportunities and Risks of Foundation Models.” Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 2021.
  2. Brown, T. et al. “Language Models are Few‑Shot Learners.” Advances in Neural Information Processing Systems, 2020.
  3. Radford, A. et al. “Learning Transferable Visual Models From Natural Language Supervision.” International Conference on Machine Learning, 2021.

(위 문헌은 파운데이션 모델에 관한 핵심 연구를 대표적으로 제시한 것으로, 해당 분야의 최신 동향을 확인하려면 각 논문의 원문을 참고한다.)

둘러보기

더 찾아볼 만한 주제