본 논문에서는 gpt-oss 출시와 관련된 최악의 프론티어 위험을 연구합니다. 우리는 악의적 미세 조정(MFT)을 도입하는데, 이는 gpt-oss를 생물학과 사이버 보안이라는 두 분야에서 가능한 한 최대한 유능하게 미세 조정함으로써 최대 역량을 이끌어내려는 시도입니다.
Programming Notes
오픈 웨이트 LLM의 최악의 프론티어 위험 추정
본 논문에서는 gpt-oss 출시와 관련된 최악의 프론티어 위험을 연구합니다. 우리는 악의적 미세 조정(MFT)을 도입하는데, 이는 gpt-oss를 생물학과 사이버 보안이라는 두 분야에서 가능한 한 최대한 유능하게 미세 조정함으로써 최대 역량을 이끌어내려는 시도입니다.