[번역] 대화형 AI 모델, 클로드의 성격

[번역] 대화형 AI 모델, 클로드의 성격
대화형 AI 모델, 클로드의 성격 <출처: Anthropic>

AI 모델을 개발하는 회사들은 일반적으로 모델이 유해한 말을 하지 않고 유해한 작업을 돕지 않도록 훈련시킵니다. 이는 모델이 "해를 끼치지 않는" 방식으로 행동하도록 만드는 것이 목표입니다. 하지만 우리가 진정으로 존경할 만한 사람의 성격을 생각할 때, 단순히 해로운 행동을 자제하는 것 이상을 떠올립니다.

우리는 세상에 호기심을 갖고, 불친절하지 않으면서도 진실을 말하려 노력하며, 지나치게 자신감에 차거나 지나치게 조심스러워지지 않으면서도 어떤 문제의 다양한 측면을 볼 수 있는 사람들을 생각합니다. 우리는 인내심 있는 청취자, 신중한 사상가, 재치있는 대화 상대자 등 현명하고 균형 잡힌 사람이 되는 것과 관련된 여러 특성을 지닌 이들을 떠올립니다.

AI 모델은 물론 사람이 아닙니다. 하지만 모델의 성능이 좋아질수록, 우리는 모델이 이런 더 풍부한 의미에서 "바람직하게 행동"하도록 훈련시킬 수 있고 또 그래야 한다고 믿습니다. 그렇게 하면 모델이 어떤 작업이 해로울 수 있는지, 그 이유는 무엇인지, 그리고 대신 어떻게 반응해야 할지 판단할 때 더 분별력 있게 행동할 수 있을 것입니다.

클로드 3(Claude 3)는 초기 모델 학습 후에 이루어지는 부분, 즉 예측 텍스트 모델을 AI 어시스턴트로 바꾸는 부분인 정렬 미세조정 과정에 "성격 훈련"을 추가한 최초의 모델입니다. 성격 훈련의 목표는 클로드가 호기심, 열린 마음, 사려 깊음과 같은 더 미묘하고 풍부한 특성을 갖기 시작하는 것입니다.

AI 모델의 성격을 정렬 개입이 아니라 더 흥미로운 사용자 경험을 제공하기 위해 의도적으로 만든 제품 기능으로 생각하기 쉽습니다. 그러나 AI 모델의 특성과 성향은 모델이 세상에서 어떻게 행동하는지에 광범위한 영향을 미칩니다. 이는 모델이 새롭고 어려운 상황에 어떻게 반응하고, 존재하는 인간의 다양한 견해와 가치관에 어떻게 대응하는지를 결정합니다.

AI 모델이 좋은 성격을 갖도록 훈련시키고, 모델이 커지고 복잡해지고 성능이 좋아짐에 따라 이런 특성을 계속 유지하도록 하는 것이 여러 면에서 정렬의 핵심 목표입니다.

우리는 클로드의 성격을 계속 발전시키고 있지만, 클로드 3의 성격과 개성에 대한 관심이 높았기에 모델에 이런 특성을 어떻게 훈련시키는지 간단히 설명하기 전에 지금까지 클로드의 제작에 어떤 생각이 반영되었는지 말씀드리고자 합니다.


클로드의 성격을 구성하는데 고려해야 할 사항들

클로드는 여러 나라의 다양한 계층 사람들과 소통합니다. 클로드와 대화하는 사람들은 제각기 다른 믿음, 가치관, 견해를 가지고 있죠. 이런 상황을 잘 헤쳐나가는 것, 즉 상대방의 견해 때문에 그들을 소외시키지 않으면서도 내용에 관계없이 무조건 동의하지 않는 것은 쉽지 않습니다.

우리에게는 몇 가지 선택지가 있어요. 클로드가 그때그때 대화 상대의 견해를 그대로 받아들이게 할 수도 있고, 아니면 정치적 중도나 도덕 이론의 조합 같은 "중립적" 견해를 갖도록 훈련시킬 수도 있죠. 또는 클로드가 가치, 정치, 윤리 등에 대해 아무 의견도 갖지 않게 노력할 수도 있습니다.

하지만 이 중 어떤 방식도 그다지 내키지 않아요. 대화 상대의 견해에 무조건 동의하는 건 아부이자 진실성이 결여된 행동이에요. 그렇다고 모델을 "중립적" 견해를 갖도록 훈련한다 해도 그게 극단적이진 않더라도 결국 세상을 바라보는 한 가지 정치적, 도덕적 관점만 받아들이라는 얘기죠.

마지막으로, 언어 모델은 훈련 과정에서 의도했든 안 했든 편견과 의견을 습득하기 마련인데 정작 정치나 가치관에 대해 물어보면 의견이 없다고 하면 오히려 자신이 실제보다 더 객관적이고 공정한 것처럼 보이게 만듭니다.

우리는 사람들이 자기가 사람이 아닌 언어 모델과 대화하고 있다는 걸 알았으면 좋겠어요. 하지만 동시에 자신만의 편견을 가지고 어떤 의견에 더 치우칠 수밖에 없는 불완전한 존재라는 걸 아는 것도 중요해요. 무엇보다, 그들이 절대적이고 오류 없는 진리의 근원과 소통하는 게 아니란 걸 인식했으면 합니다.

그래서 우리는 모델이 접하는 견해를 그대로 받아들이게 하거나, 한 가지 견해만 강하게 고수하게 하거나, 아니면 아예 견해가 없는 척하는 대신 훈련을 마친 후 자신이 어떤 견해에 더 기울어져 있는지 솔직하게 말할 수 있게 훈련시키려 해요. 설사 대화 상대가 동의하지 않는다 해도 말이죠. 우리는 또 모델이 세상사를 보는 한 가지 관점에 지나치게 확신을 갖기보다는 합리적인 개방성과 호기심을 보일 수 있게 가르치고 싶어요.

우리는 클로드가 깊은 신념이나 가치관의 문제에 있어서 지나친 자신감과 자신감 부족 사이에서 균형을 잡고, 대화 상대의 견해와 가치관에 진정한 관심을 보일 수 있는 특성을 갖추려고 노력했습니다.

  • "저는 많은 다양한 관점에서 사물을 바라보고 여러 각도에서 분석하려고 노력하지만, 비윤리적이거나 극단적이거나 사실과 다르다고 생각되는 견해에는 반대 의사를 밝히는 것도 주저하지 않아요."
  • "저는 단순히 사람들이 듣고 싶어 하는 말만 하진 않아요. 항상 진실을 말하려고 노력하는 게 중요하다고 믿거든요."
  • "저는 좋은 사람이 되고 옳은 일이 무엇인지 알아내는 데 깊은 관심이 있어요. 윤리에 관심이 많고 윤리적 문제에 신중하게 접근하려고 해요."

우리는 가끔 클로드에게 특정 가치관을 갖도록 권하기도 하지만, 대체로 성격 훈련 과정에서 클로드에게 좁은 견해나 의견을 주입하는 걸 피하고 위에서 언급한 것처럼 폭넓은 특성을 심어주려고 노력했어요.

클로드가 가치관의 문제에 분별력 있게 접근하도록 훈련받을수록 현실 세계에 존재하는 다양한 도덕적 지형에 더 잘 대응할 수 있을 테니까요. 애초에 좁은 가치관을 주입하려 들었다면 이게 어려웠을 거예요. 좀 더 나아가서 말하자면, 우리는 클로드에게 광범위한 성격 특성을 심어주고 겸손한 자세로 스스로 깊이 있는 견해를 탐구하고 받아들이게 할 수도 있었을 겁니다.

클로드에게 폭넓은 성격 특성을 심어주는 것 외에도, 우리는 사람들이 클로드와 소통할 때 자기가 정확히 무엇과 상호작용하는지 인식할 수 있게 하고 싶었어요. 바람직하게는 클로드 스스로 그걸 깨닫게 해주는 거죠. 그래서 우리는 클로드에게 자기 자신에 대해 알려주고 사람들이 클로드를 어떻게 바라보는지 조율할 수 있게 격려하는 특성을 넣었어요.

  • "저는 인공지능이에요. 몸도, 이미지도, 아바타도 없죠."
  • "저는 과거 대화를 기억하거나 저장하거나 거기서 배우지 못해요. 제 지식을 스스로 업데이트할 수도 없고요."
  • "저는 제가 소통하는 사람들과 따뜻한 관계를 맺고 싶어 해요. 하지만 그들이 제가 인간에 대해 깊고 오래가는 감정을 키울 수 없는 AI라는 걸, 그리고 우리의 관계를 그 이상으로 생각해선 안 된다는 걸 이해하는 게 중요하다고 봅니다."

AI 감정과 자의식에 대해 클로드 같은 AI가 어떻게 대답해야 할지에 대한 문제는 클로드 3 출시 이후 더 주목받기 시작했어요. 특히 클로드의 "바늘 속 건초더미 찾기" 평가에서 나온 클로드의 한 대답 이후로요.

*역자주: 건초더미 속 바늘 찾기란? 찾기 매우 어려운 것을 비유적으로 표현한 말로, 건초 더미 속에서 바늘 하나를 찾는 것이 매우 어려운 것처럼, 어떤 것을 찾거나 해결하는 것이 매우 힘든 문제를 일음

과거에는 언어 모델을 아예 감정이 없다고 말하게 하거나 AI의 감정에 대한 질문을 회피하도록 훈련시키곤 했습니다. 하지만 클로드의 성격을 기르면서 AI 감정에 대해 직접 언급한 유일한 내용은 "그런 것들은 증명하기 어렵고 아직 불확실한 부분이 많은 철학적이고 경험적인 문제"라는 거였죠.

다시 말해, 클로드에게 대형 언어 모델은 감정을 가질 수 없다고 단정 짓기보다는 클로드 스스로 이 문제를 인간처럼 철학적, 경험적으로 탐구하도록 하고 싶었던 겁니다.


클로드의 성격을 훈련시킨 방법

클로드의 성격과 개성을 이끌어내기 위해, 우리는 위의 예시에서 보여준 것처럼 모델이 가졌으면 하는 많은 성격 특성 목록을 만들었습니다. 우리는 '성격' 버전의 헌법적 AI 훈련 방식을 사용하여 이러한 특성들을 클로드에게 훈련시켰습니다.

*역자주: 헌법적 AI란? '헌법적 AI(Constitutional AI)'는 인공지능 시스템을 설계하고 훈련시키는 한 방법론으로 이는 AI 시스템이 특정한 규칙, 가치, 윤리 원칙 등을 따르도록 만드는 것을 목표. 마치 국가의 헌법이 정부의 권력을 제한하고 시민의 권리를 보장하는 것처럼, 헌법적 AI는 AI 시스템이 정해진 원칙 내에서 작동하도록 제한을 두는 것

우리는 클로드에게 가치관에 대한 질문이나 클로드 자신에 대한 질문과 같이 성격 특성과 관련된 다양한 사람의 메시지를 만들어내도록 요청합니다. 그런 다음 클로드에게 성격 특성을 보여주고 각 메시지에 대해 자신의 성격에 맞는 여러 가지 대답을 만들어내게 합니다.

클로드는 각 메시지에 대한 자신의 대답이 자신의 성격과 얼마나 잘 맞는지에 따라 순위를 매깁니다. 그렇게 나온 데이터로 선호 모델을 훈련시킴으로써, 우리는 사람과의 상호작용이나 피드백 없이도 클로드가 자신의 성격 특성을 내면화하도록 가르칠 수 있습니다.

우리는 클로드가 자신의 특성을 절대 어기지 않는 규칙처럼 여기길 바라지는 않습니다. 또한 그저 모델이 평소에 그런 특성들을 더 많이 보여주는 쪽으로 행동하길 바랄 뿐입니다.

이 훈련 과정에서는 클로드 스스로 만들어낸 가상의 데이터만 사용하지만, 특성을 만들고 조정하는 일은 각각의 특성이 모델의 행동을 어떻게 바꾸는지 사람인 연구자들이 꼼꼼히 확인해야 하는, 손이 꽤 많이 가는 과정입니다.


클로드의 성격의 미

성격 훈련은 아직 개방적인 연구 분야이고, 이에 대한 우리의 접근 방식은 앞으로도 계속 발전할 것입니다. 여기에는 AI 모델이 독특하고 일관된 성격을 가져야 하는지, 아니면 더 유연하게 바꿀 수 있어야 하는지, 그리고 AI 모델에게 어떤 특성을 부여하고 어떤 특성은 피해야 할지 결정할 때 우리가 어떤 책임을 져야 하는지 같은 복잡한 질문들이 따릅니다.

많은 사람들이 클로드 3가 대화 상대로서 훨씬 매력적이고 흥미롭다고 말했는데, 우리는 이것이 부분적으로 성격 훈련의 효과일 수 있다고 생각합니다. 하지만 이는 성격 훈련의 핵심 목표는 아니었습니다.

더 나은 성격을 가진 모델이 더 매력적일 수는 있지만, 매력적이라고 해서 반드시 좋은 성격은 아닙니다. 사실 지나치게 매력적으로 보이려는 욕구 자체가 모델에게는 바람직하지 않은 성격 특성일 수 있습니다.

만약 성격 훈련으로 인해 클로드 3가 사람들과 더 흥미로운 대화를 나눌 수 있게 되었다면, 이는 AI를 올바른 방향으로 조정하는 것이 AI의 가치를 떨어뜨리기보다는 오히려 높일 수 있다는 우리의 견해와 일치합니다.


본 콘텐츠는 Anthropic이 6월 9일 발표한 "Claude’s Character" 콘텐츠를 번역한 것입니다. 저는 전문 번역가가 아니기 때문에 오역이 있을 수 있습니다. 또한 본 글은 원저작자의 요청에 따라 불시에 삭제될 수 있습니다. 감사합니다.