Programming Notes

OpenAI와 앤스로픽, 공동 안전 평가 결과 공유

작성자 WIPI 발행일 2026-06-15

OpenAI와 앤스로픽(Anthropic)이 사상 최초로 진행된 공동 안전 평가의 결과를 공유했습니다. 양사는 서로의 모델을 대상으로 목표 불일치(misalignment), 지시 이행, 환각(hallucinations), 탈옥(jailbreaking) 등을 테스트했으며, 이를 통해 그간의 진전과 과제, 그리고 연구소 간 협업이 지닌 가치를 조명했습니다.