OpenAI와 앤스로픽(Anthropic)이 사상 최초로 진행된 공동 안전 평가의 결과를 공유했습니다. 양사는 서로의 모델을 대상으로 목표 불일치(misalignment), 지시 이행, 환각(hallucinations), 탈옥(jailbreaking) 등을 테스트했으며, 이를 통해 그간의 진전과 과제, 그리고 연구소 간 협업이 지닌 가치를 조명했습니다.
Programming Notes
프로그래밍과 기술 이슈를 빠르게 정리하는 개발 블로그
Programming Notes
OpenAI와 앤스로픽(Anthropic)이 사상 최초로 진행된 공동 안전 평가의 결과를 공유했습니다. 양사는 서로의 모델을 대상으로 목표 불일치(misalignment), 지시 이행, 환각(hallucinations), 탈옥(jailbreaking) 등을 테스트했으며, 이를 통해 그간의 진전과 과제, 그리고 연구소 간 협업이 지닌 가치를 조명했습니다.