목록으로

Programming Notes

GenRec 직접 학습: 랭킹을 특징 파이프라인에서 토큰 네이티브 시퀀스 모델링으로 전환

저자: Chunlong Yu, Han Zheng, Jie Zhu, I-Hong Jhuo, Li Xia, Lin Zhu, Sawyer Shen, Yulan Yan 핵심 요약 (TL;DR) 대부분의 최신 랭킹 스택은 대규모 생성 모델을 특징 추출기 로 활용하며, 그 출력물을 벡터로...

저자: Chunlong Yu, Han Zheng, Jie Zhu, I-Hong Jhuo, Li Xia, Lin Zhu, Sawyer Shen, Yulan Yan

핵심 요약 (TL;DR) 

대부분의 최신 랭킹 스택은 대규모 생성 모델을 특징 추출기로 활용하며, 그 출력물을 벡터로 평탄화하여 다운스트림 랭커에 공급합니다. 이러한 방식은 효과적이지만, 파이프라인 복잡성을 가중시키고 종종 토큰 수준의 의미를 희석시킵니다. GenRec 직접 학습(DirL)은 다른 방향을 모색합니다: 생성적이고 토큰 네이티브한 시퀀스 모델을 랭킹 엔진 자체로 사용하는 것입니다. 이러한 구성에서 랭킹은 사용자 행동, 컨텍스트, 후보 항목에 대한 종단 간(end-to-end) 시퀀스 모델링 문제로 변모하며, 명시적인 특징 추출 단계가 없습니다.

고전적인 L2 랭커 설계를 재검토하는 이유?

대규모 추천 시스템은 역사적으로 계층화된 파이프라인으로 발전해 왔습니다: 더 많은 신호는 더 많은 특징 파이프라인 작업을 요구하며, 이는 결국 더 많은 특수 사례를 발생시킵니다. 우리의 이전 L2 랭킹 아키텍처에서는 신호가 밀집(dense) 및 희소(sparse) 브랜치로 분리되어 스택 후반에 병합되었습니다 (그림 1). 시스템이 고도화됨에 따라 세 가지 반복적인 문제가 점점 더 명확해졌습니다.

 

그림 1: 전통적인 랭킹 DNN

1) 증가하는 파이프라인 표면적 
새로운 신호가 추가될 때마다 특징 정의, 조인, 정규화 로직, 유효성 검사, 오프라인/온라인 일치성 확인 등 주변 생태계가 확장됩니다. 시간이 지남에 따라 이처럼 비대해진 표면적은 반복 속도를 늦추고 운영 오버헤드를 증가시키며 미묘한 프로덕션 불일치 위험을 높입니다.

2) 평탄화로 인한 의미 희석 
생성 모델은 토큰 수준 상호작용, 구성적 의미, 컨텍스트 종속성 등 풍부한 구조를 자연스럽게 포착합니다. 그러나 이러한 표현이 희소 또는 밀집 특징 벡터로 평탄화될 때, 그러한 구조의 상당 부분이 손실되어 생성 표현을 강력하게 만드는 핵심 의미가 훼손됩니다.

3) 시퀀스 모델링이 애드온으로 취급됨 
전통적인 랭커가 히스토리 특징을 수용할 수는 있지만, 긴 행동 시퀀스와 세밀한 시간적 상호작용을 모델링하려면 일반적으로 광범위한 수동 특징 엔지니어링이 필요합니다. 그 결과, 시퀀스 모델링은 종종 일류(first-class) 관심사로 다루어지기보다는 부가 기능처럼 덧붙여집니다.

DirL 목표: 랭킹을 "엔지니어링된 특징에 대한 MLP"가 아닌 네이티브 시퀀스 학습으로 다루는 것.

DirL에서 "직접 학습"이 의미하는 것

**직접 학습(DirL)**의 핵심적인 변화는 간단하지만 근본적입니다.

기존의 파이프라인:

생성 모델 → 임베딩 → 다운스트림 랭커,

대신 DirL은 종단 간(end-to-end) 공식을 채택합니다:

토큰화된 시퀀스 → 생성 시퀀스 모델 → 랭킹 점수.

DirL에서는 사용자 컨텍스트, 장기 행동 이력, 후보 항목 정보가 모두 단일의 통합된 토큰 시퀀스 내에서 표현됩니다. 랭킹은 이후 생성적이고 토큰 네이티브한 시퀀스 모델에 의해 직접 수행됩니다.

이러한 설계는 몇 가지 핵심적인 기능을 가능하게 합니다:

  • 짧은 요약 창을 넘어선 장기 행동 모델링 
    모델은 확장된 사용자 이력을 통해 작동하며, 고정된 크기의 집계로는 표현하기 어려운 장거리 종속성 및 변화하는 관심사를 포착할 수 있습니다.
  • 정밀한 사용자-콘텐츠 상호작용 학습 
    토큰 수준에서 상호작용을 모델링함으로써, DirL은 거칠고 사전 엔지니어링된 특징에 의존하기보다는 상세한 행동 및 콘텐츠 패턴을 학습합니다.
  • 랭킹 모델 내에서 보존되는 교차 토큰 의미론 
    의미론적 구조는 스코어링 전에 수작업으로 만든 밀집 또는 희소 벡터로 축소되지 않고 랭킹 프로세스 전반에 걸쳐 유지됩니다.

아키텍처 개요 (신호에서 랭킹까지)

1) 통합 토큰화

DirL의 모든 입력은 공유 토큰 임베딩 공간으로 변환되어, 이질적인 신호들을 단일 시퀀스 백본 내에서 모델링할 수 있게 합니다. 개념적으로, 각 입력 시퀀스는 세 가지 토큰 유형으로 구성됩니다:

  • 사용자 / 컨텍스트 토큰 
    이 토큰들은 연령이나 코호트와 같은 속성, 요청 또는 캔버스 컨텍스트, 시간 신호(예: 요일 또는 시간), 과거 CTR과 같은 사용자 수준 통계 등 사용자 또는 요청 수준 정보를 인코딩합니다.
  • 이력 토큰 
    이 토큰들은 과거 사용자 상호작용을 나타내며, 참여한 문서 ID, 의미 또는 임베딩 ID, 토픽과 같은 속성 등의 신호를 포함합니다. 각 상호작용은 토큰으로 매핑되어 시간적 순서를 보존하고 장거리 행동 모델링을 가능하게 합니다.
  • 후보 토큰 
    점수를 매길 각 후보 항목은 문서 특징과 사용자-항목 상호작용 특징으로 구성된 토큰으로 표현됩니다. 이 특징들은 MLP를 통해 고정 차원 벡터로 연결되고 투영되어 공유 임베딩 공간과 호환되는 토큰을 생성합니다.

범주형 특징은 직접 임베딩되고, 밀집 수치형 신호는 해당 토큰으로 융합되기 전에 MLP 레이어를 통과합니다. 결과적으로, 모델 백본은 다음과 같은 형태의 시퀀스를 소비합니다:

[1 사용자/컨텍스트 토큰] + [N 이력 토큰] + [1 후보 토큰]

2) 장문 시퀀스 모델링 백본 (HSTU)

긴 입력 시퀀스를 모델링하기 위해, DirL은 단순한 전체 어텐션을 넘어 확장되도록 설계된 시퀀스 백본을 채택합니다. 현재 설정에서 백본은 다중 헤드 어텐션과 정규화를 위한 드롭아웃이 적용된 스택형 HSTU 레이어로 구성됩니다. 최종 HSTU 레이어에서 나온 후보 토큰의 은닉 상태는 점수화를 위해 MMoE 모듈로 공급됩니다.

3) 멀티태스크 예측 헤드 (MMoE)

랭킹은 일반적으로 여러 목표(예: 참여 관련 프록시)를 최적화합니다. DirL은 표현 학습을 공유하면서 멀티태스크 예측을 지원하기 위해 다중 게이트 전문가 혼합(MMoE) 레이어를 사용합니다. 

MMoE 레이어는 N개의 공유 전문가와 각 태스크별 하나의 태스크 특정 전문가로 구성됩니다. 각 태스크에 대해 게이팅 네트워크는 공유 전문가와 태스크 특정 전문가의 가중 조합을 생성합니다. 집계된 표현은 최종 예측을 생성하기 위해 태스크 특정 MLP 헤드로 공급됩니다.  

그림 2: DirL 구조

 

초기 실험: 성공과 실패

고무적인 결과

초기 결과는 토큰 네이티브 설정이 내부 평가 지표와 온라인 참여(UU당 사용 시간)를 모두 개선함을 나타내며, 통합된 토큰 공간에서 긴 행동 시퀀스를 모델링하는 것이 방향적으로 유익함을 시사합니다.

어려운 부분: 효율성과 확장성

표현력을 향상시키는 동일한 설계 선택은 또한 실질적인 장애물을 발생시킵니다:

  • 훈련 속도 저하: 긴 시퀀스 모델링 및 더 큰 구성 요소는 반복 주기를 몇 시간에서 며칠로 늘릴 수 있어 제거 연구(ablation)를 비싸게 만듭니다.
  • 서빙 및 훈련 비용 증가: 대규모 희소 임베딩 테이블과 깊은 시퀀스 스택은 메모리 및 컴퓨팅 리소스를 지배할 수 있습니다.
  • 용량 제약으로 인한 출시 속도 제한: 하드웨어 가용성 및 비용 상한선은 트래픽 확장 및 실험에 걸림돌이 됩니다.

요약하자면: DirL의 주요 과제는 "올바른 종속성을 학습할 수 있는가?"가 아니라 "생산 시스템으로 활용하기에 충분히 저렴하고 빠르게 만들 수 있는가?"입니다.

 

생산 적용 가능성을 위한 경로: 탐색적 방향

현재 우리의 작업은 토큰 네이티브 모델링의 의미론적 이점을 유지하면서 전체 비용을 줄이는 데 도움이 될 수 있는 옵션을 탐색하는 데 중점을 둡니다.  

1) 임베딩 테이블  

  • 과도하게 큰 희소 테이블 통합 및 가지치기
  • 가능한 경우 공유 토큰 표현에 더 의존

2) 시퀀스 모델의 적정 규모화

  • 한계 이득이 평탄해지는 지점에서 백본 깊이 감소
  • 최소 효과적인 토큰 세트 평가 — 어떤 토큰이 실제로 지표를 움직이는지 식별.
  • 시퀀스 길이 대 성능 곡선 탐색하여 '무릎 지점(knee)' 찾기

3) 추론 및 시스템 최적화

  • 토큰 네이티브 추론에 최적화된 동적 배치
  • 커널 퓨전 및 그래프 최적화
  • 랭킹 모델 동작을 보존하는 양자화 전략

 

왜 이 방향이 중요한가

DirL은 추천 시스템의 더 넓은 변화를 탐구합니다—특징이 많은 파이프라인과 얕은 랭커에서 사용자 궤적에서 직접 학습하는 파운데이션 스타일 시퀀스 모델로의 전환입니다. 토큰 네이티브 랭킹을 효율적으로 만들 수 있다면 여러 가지 이점을 얻을 수 있습니다:

  • 더 적은 특징 파이프라인 레이어로, 더 간단한 모델링 인터페이스.
  • 더 강력한 의미 활용, 공격적인 평탄화로 인한 정보 손실 감소.
  • 장기 행동 및 의도 모델링을 위한 더 자연스러운 경로.

초기 신호는 고무적입니다. 다음 단계는 이러한 가능성을 실제에 적용하는 것입니다—즉, 이 접근 방식을 생산 시스템으로서 확장 가능하고, 비용 효율적이며, 빠르게 반복할 수 있도록 만드는 것입니다.

 

Microsoft 서비스를 활용한 토큰 네이티브 랭킹 연구 활성화 

이 연구는 Microsoft의 내부 기계 학습 및 실험 생태계 내에서 개발되고 검증되었습니다. 

훈련 데이터는 MSN 프로덕션 로그 및 사용자 행동 레이블 7일치에서 파생되었으며, 수천 개의 특징(수치형, ID 기반, 교차, 시퀀스 특징 포함)을 포괄합니다. 모델 훈련은 MSN 인프라 팀이 구축한 PyTorch 기반 딥러닝 프레임워크를 사용하여 단일 A100 GPU가 장착된 Azure Machine Learning에서 수행되었습니다.

온라인 서빙을 위해 훈련된 모델은 Microsoft의 내부 추론 플랫폼인 DLIS에 배포되었습니다. 평가는 Azure Exp 플랫폼에서 통제된 온라인 실험을 통해 수행되었으며, 실제 프로덕션 트래픽 하에서 사용자 참여 신호의 유효성을 검사할 수 있었습니다.

구현은 Microsoft의 내부 플랫폼을 활용하지만, DirL의 핵심 아이디어는 광범위하게 적용 가능합니다. 유사한 접근 방식을 탐색하는 데 관심 있는 실무자들은 다음의 주요 단계를 고려할 수 있습니다:

  • 사용자 컨텍스트, 장기 행동 시퀀스 및 후보 항목을 포착하는 통합 토큰 공간 구축.
  • 확장된 사용자 궤적에서 직접 학습하기 위해 장문 시퀀스 모델링 백본 적용.
  • 랭킹을 네이티브 시퀀스 모델링 문제로 공식화하고, 토큰 수준 표현에서 후보 점수화.
  • 모델 효과와 시스템 효율성 모두를 평가하여, 표현력 향상과 훈련 및 서빙 비용 간의 균형을 맞추기.

 

행동 촉구 

대규모 추천 시스템을 연구하는 실무자와 연구자분들께 전통적인 특징 중심 파이프라인과 함께 토큰 네이티브 랭킹 아키텍처를 실험하고, 모델링 능력과 시스템 효율성 간의 절충점을 비교하며, 직접 시퀀스 학습이 프로덕션 환경에서 실질적인 이점을 제공하는 시점에 대한 통찰을 공유해 주실 것을 권장합니다. 

 

감사의 말씀: 

이 연구를 가능하게 해주신 여러 동료들의 지원과 기여에 감사드립니다.

모델 배포를 도와주신 Gaoyuan Jiang과 Lightning Huang, 훈련 플랫폼을 지원해주신 Jianfei Wang, 랭커 모니터링을 담당해주신 Gong Cheng, 시퀀스 특징 로깅을 해주신 Peiyuan Xu, 그리고 모델 설계에 대한 귀중한 논의를 해주신 Chunhui Han과 Peng Hu께 감사드립니다.