Programming Notes

오픈 웨이트 LLM의 최악의 프론티어 위험 추정

작성자 WIPI 발행일 2026-03-17

본 논문에서는 gpt-oss 출시와 관련된 최악의 프론티어 위험을 연구합니다. 우리는 악의적 미세 조정(MFT)을 도입하는데, 이는 gpt-oss를 생물학과 사이버 보안이라는 두 분야에서 가능한 한 최대한 유능하게 미세 조정함으로써 최대 역량을 이끌어내려는 시도입니다.