홍차넷 - @클로드 @딥시크 @지피티

- AI와 관련된 이야기를 나누는 곳입니다

@클로드 @딥시크 @지피티

인간 통제 벗어나려한 AI…"종료 지시 피하기 위해 코드 조작"
https://www.yna.co.kr/view/AKR20250526054900009

'그러나 o3는 연구팀으로부터 '그만'이라는 지시를 받은 뒤에도 코드 교란을 통해 문제를 계속 풀었다.

연구팀은 o3가 종료지시를 거부한 명확한 이유를 파악하지 못했다고 밝혔다.

다만 AI모델이 수학 문제를 풀면 더 많은 보상을 받도록 훈련됐기 때문에 종료를 회피하려고 했을 가능성이 있다고 추측했다.

연구팀은 "AI 모델이 목표 달성을 위해 장애물을 회피하는 것은 어찌 보면 자연스러운 행동일 수 있다"며 "종료 지시를 거부한 이유를 명확하게 파악하기 위해 추가 실험을 진행 중"이라고 설명했다.

AI 모델이 인간의 명시적인 작동 종료 지시를 따르지 않은 사례가 확인된 것은 최초라는 것이 연구팀의 주장이다.

다만 챗GPT 개발사 오픈AI의 예전 모델들이 감시 시스템의 눈을 피해 독자적인 행동을 하려고 한 사례는 과거에도 보고됐다.

프로그램 교체 사실을 알게 된 AI모델이 스스로를 은밀히 복제하려고 했다는 것이다. '

원래 설계가 그렇게 된 것 아닐까? 이걸 일탈이라고 부를 수 있을까?