목록으로

Programming Notes

OpenAI와 앤스로픽, 공동 안전 평가 결과 공유

OpenAI와 앤스로픽(Anthropic)이 사상 최초로 진행된 공동 안전 평가의 결과를 공유했습니다. 양사는 서로의 모델을 대상으로 목표 불일치(misalignment), 지시 이행, 환각(hallucinations), 탈옥(jailbreaking) 등을 테스트했으며, 이를 통해 그간의 진전과 과제, 그리고 연구소 간 협업이 지닌 가치를 조명했습니다.