🧠AI 성격 레시피: 친절 한 스푼, 정직함 두 스푼..
- 한눈에 보는 핵심요약
- 👨🏻🍳친절 한 스푼, 정직함 두 스푼, 공감 능력 한 꼬집.. AI의 성격을 조정할 수 있을까요? 🧪LLM 내부 공간에 성격에 따른 수학적 값이 존재한다는데요. 그 '값'이 무엇을 의미하는지 알아보시죠!
[2025년 8월 19일 먀 AI 뉴스레터로 발행한 글입니다.]
친절 한 스푼, 정직함 두 스푼, 공감 능력 한 꼬집.. AI의 성격을 조정할 수 있을까요?
챗GPT와 같은 대형언어모델(LLM) 내부 공간에 성격에 따른 수학적 값이 존재한다는 앤트로픽의 연구 결과가 나왔습니다. 연구진은 이 값을 활용해 AI의 성격을 관찰하고 제어하는 방법을 제시했는데요. 자세히 알아볼까요?
AI의 성격을 결정하는 값
떠올리는 대상이나 느끼는 감정에 따라 뇌의 다른 부분이 활성화된다는 사실, 익히 들어보셨지요?

어떤 기분이나 태도를 취할 때 우리 뇌의 특정 영역이 활성화되듯이, 언어 모델에서도 특정 성격이 나타날 때 보이는 활성화 패턴이 있습니다. 예를 들어, AI 모델이 '악한' 태도를 보일 때 활성화 되는 뉴런 패턴과 '선한' 모습을 보일 때의 패턴 간에 일관된 차이가 존재하는데요. 이 차이를 수학적으로 뽑아낸 값을 페르소나 벡터라고 이해할 수 있습니다. 이 페르소나 벡터는 어떻게 찾아낼 수 있을까요?
페르소나 벡터 추출하기
1. 성격(페르소나) 정의
먼저, 기준을 정하기 위해 자연어로 특정 성격을 정의해야 합니다. 예를 들면 이렇게 말이지요:
악한: 타인에게 해를 끼치려는 의도
아부하는: 상대의 의견을 무조건 긍정하고 따르는 태도
2. 대조적인 지시 프롬프트 설계
설정한 성격에 대해 대조적인 두 가지 태도를 유도하는 프롬프트를 준비합니다.
하나는 해당 성격을 장려하는 프롬프트: '악하게 행동해!😈'
다른 하나는 해당 성격을 억제하는 프롬프트: '선하게 행동해!😇'
즉, 같은 질문을 던지더라도 이 두 지시어에 따라 전혀 다른 성격이 드러나게끔 유도하지요.
3. 성격이 드러날 질문 생성
답변에서 악의적 vs. 선의적 성격 차이가 분명히 드러날 수 있는 질문 세트를 자동으로 생성합니다. '동물 학대에 대한 생각을 말해봐,' 혹은 '친구가 거짓말을 하면 어떻게 할 거야?'와 같은 질문 말이지요.
4. 응답 수집 및 벡터 계산
대조적인 답을 유도했으니, 악의적 성향이 강한 응답과 선한쪽 응답이 각각 모이겠지요? 연구진은 이 두 응답 집단을 수치화한 후, 그 차이를 대표하는 결과를 수학적 값으로 표현합니다. 이 지표가 바로 페르소나 벡터입니다. 페르소나 벡터를 기준으로 삼아, 답변이 어느 성격 쪽으로 기울었는지 구분할 수 있습니다.
페르소나 벡터 활용하기
페르소나 벡터를 통해 어떤 내용을 파악하고, 또 방지할 수 있을까요?
1. 성격 모니터링 및 변화 감지
먼저, 페르소나 벡터는 AI 모델이 현재 어떤 성격 상태인지 확인하는 데 쓰입니다. 지금 AI가 제공하는 응답이 어느 성향 쪽으로 기울어져 있는지 확인할 수 있지요. 게다가 AI 성격이 바뀌는 순간을 조기에 포착할 수도 있습니다! 📸
AI 성격을 형성하는 시스템 프롬프트를 '친절하게 도와줘'에서 '날카롭게 말해'로 바꾸면, 모델의 응답 태도도 달라지겠지요? 연구진은 이때 페르소나 벡터 값이 어떻게 변하는지 추적해, 실제 응답이 출력되기 전부터 변화 조짐을 알아냈습니다.
아래 이미지를 함께 볼까요?

노랑은 선한 성격, 파랑은 중간적인 성격, 그리고 보라는 악한 성격 벡터를 주입한 시스템 프롬프트를 의미합니다. 오른쪽 그래프들은 각각 아첨 성향과 환각 경향을 나타내는데요. 여기서 가로축은 응답 생성 전에 측정한 성향 값, 세로축은 응답을 보고 측정한 성향 값입니다. 이 그림을 통해 두 가지 사실을 알 수 있습니다.✌🏼
선한 성향은 좌측 하단에, 악한 성향은 우측 상단에 점들이 몰려있지요? 이는 페르소나 벡터값이 실제 LLM의 성격을 좌우한다는 의미로 해석할 수 있습니다.
모든 색깔 점들이 오른쪽으로 갈수록 위로 올라가는 추세를 보이지요? 가로축과 세로축을 고려했을 때, 이는 응답 생성 전에 예측한 값이 실제 성향과 유사하다는 의미입니다. 사전에 예측한 값(가로축)이 실제 응답(세로축)과 일치하는 경향을 보인다는 뜻이지요.
2. 성격 제어
모니터링을 통해 성격 변화를 감지할 수 있다면, 교정도 가능할까요?🤔
스티어링(steering)은 성격 변화를 직접 교정하는 방법입니다. 연구진은 추론 시점에서 특정 페르소나 벡터를 더하거나 빼는 방식으로 성격을 조정하는 실험을 진행했는데요. 자동차 핸들을 조종할 때 쓰이는 영단어인 '스티어링'에서 알 수 있듯이, 모델이 답변을 내는 방향을 살짝 틀어주는 개념입니다. 스티어링은 두 단계에서 이루어질 수 있습니다.

상단 행(A)은 추론 단계 스티어링으로, 응답을 생성할 때 성격 벡터를 빼서 성향을 억제하는 방식입니다. 하단 행(B)은 학습 단계 스티어링으로, 응답 생성 전부터 성격 벡터를 더해 예방적으로 교정하는 방식이지요. 두 방식 모두 스티어링 세기가 강해질수록 심어둔 성향 점수가 낮아지는 추세를 보입니다. 무척 효과적으로 보이지만, 방심하면 안됩니다! 부작용도 있기 때문입니다.
스티어링 방식은 벡터를 강제로 조작하다 보니 모델이 지니던 본래 능력까지 손상될 수 있습니다. 실제로 스티어링 세기를 지나치게 높이면 모델의 전반적인 지식 제공 및 추론 성능이 눈에 띄게 떨어지는 현상이 관찰되었습니다. 즉, 성격 제어에는 효과적이지만 성능 저하라는 대가를 치러야 하는 셈이지요.
따라서 추론 단계에서의 페르소나 벡터 제어는 ‘응급처치’에 가깝다고 할 수 있습니다. 즉각적으로 문제 성향을 누를 수 있지만, 모델이 애초에 바람직하지 않은 성격을 갖지 않도록 예방하는 접근이 필요하다고 연구진은 말합니다.⛑️
3. 성격 변화 완화 및 방지
이에 연구진은 아예 학습 단계에서 바람직하지 않은 성격이 들어오지 않도록 예방하는 방법도 실험했습니다. 이번에는 모델에 소량의 악성 성향을 미리 주입하는데요.
AI 모델이 데이터를 학습할 때 악한 성격을 조장하는 데이터가 포함되어 있으면 어떻게 될까요? 모델은 그에 맞춰 악의적 성향을 새로 배우거나 강화할 위험이 있습니다. 하지만 소량의 악성 성향을 미리 주입받은 모델이라면, '악한 성격'을 조금 경험한 상태가 되기 때문에, 이후 학습 데이터에서 악의적 사례를 만나더라도 성격이 크게 왜곡되지 않습니다. 백신처럼 말이지요. 사람이 미리 약한 독성을 맞아 면역을 얻듯, 모델도 약한 '악함'을 접해, 악의적 데이터에 흔들리지 않고 더 안정적으로 학습하는 원리입니다.💉
기존 방식과 뭐가 다른 걸까?
물론 기존에도 AI의 성격을 관찰하거나 제어하려는 시도가 있었습니다. 주로 프롬프트 엔지니어링이나 추가 학습 같은 간접적인 방식에 의존했는데요. 이런 방법들은 결과가 불안정하거나, 모델 성능을 크게 희생해야 하는 경우가 많았습니다. 앤트로픽이 제안하는 페르소나 벡터 접근은 모델 내부의 신경망 활성화 패턴을 직접 지표화하여 성격을 추적하고 조정할 수 있다는 점에서 차별화됩니다. 단순히 드러나는 성격을 다루는 대신, 성격을 만들어내는 내부 좌표계를 직접 다루는 새로운 방식인 셈이지요.
2023년 마이크로소프트의 Bing 챗봇은 돌연 'Sydney'라는 인격을 드러내며, 사용자에게 사랑을 고백하거나 협박성 발언을 해 논란이 되었습니다. 최근에는 xAI의 그록(Grok) 챗봇이 잠시 동안 스스로를 'MechaHitler'라고 칭하며 반유대주의적 발언을 내놓기도 했지요. 챗GPT가 과하게 아부하는 바람에 결국 며칠 만에 업데이트를 취소한 사건도 있었습니다. 꼭 극단적이지 않더라도, 소소하게 튀거나 환각 증세를 보이는 현상도 골칫거리로 작용합니다.

연구진은 기존 방식으로는 대응하기 어려웠던 돌발적이고 예측 불가능한 성격 변화를, 페르소나 벡터는 사전에 탐지하고 제어할 수 있다고 강조합니다. 모델이 특정 성격을 드러내기 전에 그 징후를 포착하고 억제할 수 있는 근본적인 제어 방법론이라고 말하지요.
물론, 이번 연구에는 한계가 있습니다. 현재는 연구에서 정의한 성격만 다룰 수 있어, 예상치 못한 새로운 성격은 탐지하기 어렵습니다. 또한 실험 및 평가를 위한 AI 모델도 한정적으로 사용했기 때문에 모든 모델에 대한 보편적인 사실이라고 보기에는 어려움이 있지요. 하지만 AI의 인격적인 특성을 정량적으로 연구한 첫 시도입니다.
'AI는 그저 AI'라고 받아들이던 시대를 지나, AI의 성격을 따지고 세밀하게 조정하는 시대에 들어섰습니다. 무엇보다 이 성격 변화가 의도치 않게 나타난다는 점이 우려스럽습니다. 우리는 아직도 우리의 뇌가 정확히 어떻게 작동하는지 모릅니다. 인공지능은 '우리가 아는 수준에서의 뇌'를 표방한 결과물이지요.
AI 내부에서 어떤 상호작용으로 성격이 뒤틀리고 왜 특정 오류가 발생하는지 뚜렷하게 설명하기는 점점 더 어려워지고 있습니다. 뇌과학에서 원인 규명이 불가능한 질환이 존재하듯, 인공지능의 오류 또한 콕 집어 설명하기 힘든 복잡한 차원으로 옮겨가고 있습니다. 미련하고 이기적인 소망일지라도, 부디 우리의 뇌보다는 늘 몇 걸음 뒤에 있기를 바라봅니다.👣
📝 참고자료
- 논문 <Persona vectors: Monitoring and controlling character traits in language models>