ChatGPT는 왜 그럴듯한 ‘거짓말’을 하는가? 인공지능의 환각에 대한 3가지 관점

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

ChatGPT를 비롯한 대규모 언어 모델(Large Language Models, LLMs)이 때때로 사실과 다른, 그럴듯한 답변(일명 ‘환각(Hallucination)’ 또는 ‘거짓말’)을 생성하는 현상은 모델의 학습 원리구현 알고리즘, 그리고 운영 기조라는 세 가지 핵심적인 축에서 그 원인을 찾을 수 있습니다. LLMs는 진정한 지식이나 세상을 이해하는 추론 능력 없이 통계적 패턴에 기반해 언어를 생성한다는 근본적인 한계가 이 문제의 출발점입니다.

1. 학습 원리와 구현 알고리즘에 내재된 ‘거짓말’의 씨앗

ChatGPT

ChatGPT와 같은 LLMs는 방대한 텍스트 데이터(수조 개의 단어에 달할 수 있음)를 학습하여 언어의 패턴과 통계적 상관관계를 파악하는 방식으로 작동합니다. 이 과정에서 모델이 거짓된 정보를 생성하게 되는 원리는 다음과 같습니다.

1.1. 토큰 확률 예측 기반의 생성 과정

LLMs는 기본적으로 트랜스포머(Transformer) 아키텍처를 기반으로 하며, 주어진 문맥에서 다음에 올 토큰(Token, 단어 또는 단어의 일부)을 확률적으로 예측하는 방식으로 응답을 생성합니다.

  • 통계적 패턴 학습: 모델은 학습 데이터에서 “A 다음에 B가 올 확률”, “C 문맥에서는 D가 나올 확률” 등을 학습합니다. 이는 가장 그럴듯하게 연결되는 언어의 흐름을 만드는 데 초점을 맞출 뿐, 답변의 사실 여부나 진실성을 검증하는 메커니즘이 아닙니다.
  • 환각의 발생: 정보가 부족하거나 학습 데이터에서 매우 드물게 나타난 정보에 대해 질문을 받았을 때, 모델은 0점(모른다고 답함)을 받기보다 가장 문법적으로 자연스럽고 맥락상 적절해 보이는 단어의 조합을 이어 붙여 답변을 ‘추측’하게 됩니다. 이 ‘추측’은 유창하지만 사실과 다를 수 있으며, 이것이 바로 환각입니다. OpenAI 연구진은 이러한 환각이 훈련 방식과 평가 방식의 문제에서 비롯되며, AI가 ‘이 답변이 올바른가?’라는 질문에 제대로 답하지 못해 발생한다고 분석했습니다.
1.2. 학습 데이터의 한계와 편향성

LLMs의 성능은 전적으로 학습 데이터의 품질과 다양성에 달려 있습니다.

  • 데이터의 부정확성 및 편향: 학습 데이터 자체가 편향되거나 잘못된 정보를 포함하고 있다면, 모델은 그 정보를 진실인 것처럼 학습하고 출력할 수 있습니다. “Garbage In, Garbage Out(입력에 쓰레기가 들어가면, 출력도 쓰레기다)”이라는 개념처럼, 데이터 품질은 모델의 정확도에 직접적인 영향을 줍니다.
  • 정보의 희소성: 유명인의 생일처럼 학습 데이터에 단 한 번만 나타나는 정보와 같이 희소한 정보에 대해 질문할 경우, 모델은 낮은 확률로 오류를 내포한 답변을 생성할 가능성이 높아집니다. 모델이 통계적 패턴을 충분히 확립하지 못해 오류 발생률이 높아지는 통계적 현상입니다.
1.3. 강화 학습(RLHF)의 미세 조정 문제

ChatGPT는 사전 학습(Pre-training) 후 인간 피드백 기반의 강화 학습(Reinforcement Learning from Human Feedback, RLHF)이라는 미세 조정 단계를 거칩니다. 이 과정은 모델을 더 유용하고, 무해하며, 사용자의 의도에 잘 부합하도록 만드는 것을 목표로 합니다.

  • ‘정확도’와 ‘유창성’ 사이의 갈등: RLHF는 모델의 응답이 인간 평가자의 선호도에 따라 순위가 매겨지도록 학습시킵니다. 이 과정에서 모델은 “정확하지만 짧은 답변”보다 “그럴듯하고 유창하며, 자신감 있어 보이는 답변”에 더 높은 보상을 받도록 학습될 수 있습니다.
  • ‘모른다’고 말하지 않는 경향: 많은 모델의 평가 지표는 정확도를 기준으로 순위를 정하지만, ‘정답일 확률이 조금이라도 있으면 무조건 답을 내놓는 것’이 모델의 최적 전략이 될 수 있습니다. 이는 ‘모른다(IDK)’고 기권하는 경우 0점을 받는 것보다, 대답을 시도해서 맞을 가능성이라도 확보하는 것이 이득이기 때문입니다. 이러한 학습은 모델이 불확실한 상황에서 멈추지 않고, 확신에 찬 거짓 정보를 생성하게 부추길 수 있습니다.

2. OpenAI의 운영 기조에서 찾는 원인

출처: cometAPI

OpenAI를 비롯한 LLM 개발사들의 운영 기조 또한 환각 현상에 영향을 미칩니다.

2.1. 상업적 유용성 및 사용자 경험 우선

LLM은 상업적인 제품으로 사용자에게 제공됩니다.

  • “친절하고 유창하게” 응답하는 모델 선호: 사용자는 질문에 대해 명확하고 즉각적인 답변을 기대합니다. 모델이 “모르겠습니다”라고 자주 답하거나, 답변이 딱딱하고 비인간적이면 사용자 만족도가 떨어집니다. 따라서 OpenAI는 모델이 인간과 유사한 상호작용을 할 수 있도록 유창성과 맥락 적합성에 중점을 두고 미세 조정합니다. 이 ‘인간과 같은’ 응답을 추구하는 과정에서 인간과 같은 오류도 함께 발생할 가능성이 높아집니다.
  • 답변 거부 최소화: 모델이 너무 자주 “안전 조치”를 이유로 답변을 거부하면 유용성이 떨어집니다. 이 때문에 안전 조치가 너무 엄격할 경우 신중하게 처리할 수 있는 쿼리까지 피하게 될 수 있어, 적절한 균형을 찾는 것이 운영상의 도전 과제입니다.
2.2. 기술적 한계의 인정과 진보의 속도

OpenAI는 AI의 환각 현상이 기술적으로 완전히 제거될 수 없는 통계적 현상임을 인정하면서도, 모델의 지속적인 개선을 통해 환각률을 줄여나가고 있습니다.

  • 불완전한 모델의 배포: AI 기술의 발전 속도는 매우 빠르며, 완벽하게 정확한 모델을 기다리기보다는 높은 유용성을 확보한 상태에서 모델을 빠르게 배포하고 사용자 피드백을 통해 개선해나가는 방식을 택합니다. 이는 기술 진보의 가속화를 위한 전략이지만, 동시에 초기 모델에서 부정확한 답변의 위험을 안고 가는 것을 의미합니다.

3. 왜곡되거나 거짓 답변이 나오지 않게 하려면 (해결 방안)

ChatGPT와 같은 LLMs의 답변 신뢰도를 높이고 환각을 최소화하기 위한 방법은 모델 자체의 개선과 사용자의 프롬프트 엔지니어링 두 가지 측면에서 접근할 수 있습니다.

3.1. 모델 개발/운영 차원의 개선 방안
  1. 훈련 데이터의 정제 및 강화: 편향되거나 부정확한 정보를 걸러내고, 최신 정보로 지속적으로 업데이트하여 훈련 데이터의 품질을 높입니다.
  2. 사실 확인 시스템 통합 (Retrieval-Augmented Generation, RAG): 모델이 답변을 생성할 때 신뢰할 수 있는 외부 데이터베이스나 실시간 웹 검색 결과와 교차 검증하도록 하여, 답변의 정확성을 보장합니다. 최근 ChatGPT가 실시간 웹 검색 기능을 추가한 것이 이 접근 방식에 해당합니다.
  3. 전문 분야 특화 모델 개발: 특정 도메인(예: 법률, 의학)에 특화된 데이터를 집중적으로 학습시킨 모델을 개발하여 해당 분야에서의 정확도와 깊이를 높입니다.
  4. 불확실성 표출 학습: 모델이 확신이 없는 정보에 대해 “이 정보는 확인되지 않았습니다”“데이터가 부족하여 정확한 답변이 어렵습니다”와 같이 솔직하게 모른다고 답하도록 학습시키는 메커니즘을 강화합니다.
3.2. 사용자 프롬프트 엔지니어링을 통한 방지 전략

사용자는 질문(프롬프트)을 설계할 때 몇 가지 전략을 사용하여 모델의 답변 정확도를 높일 수 있습니다.

  1. 명확하고 구체적인 질문: 모호성을 피하고, 원하는 결과, 형식, 출처 기준을 명확하게 제시합니다. (예: “2024년 1분기 기준, 삼성전자의 매출액을 공식 보도자료를 인용하여 알려줘.”)
  2. 제약 조건 설정: 프롬프트에 “출처가 불분명한 경우 ‘확인되지 않음’이라고 답할 것”, “추측하지 말고 근거 중심으로 응답할 것” 등의 지침을 명시합니다.
  3. 반론 역할 부여 (Role Reversal): 모델에게 단순히 찬성이나 동조하는 답변을 요청하는 대신, “내 주장의 논리적 오류를 검토해줘”“이 주장에 대해 가장 설득력 있게 반대하는 입장에서 설명하라”와 같이 비판적 관점을 요청하여 다각적인 검증을 유도합니다.
  4. 다중 관점 요청 (Multiview): “이 문제에 대한 찬반 양쪽 입장을 각각 정리하라”와 같이 상반된 시각을 모두 제시하도록 하여 모델이 한쪽으로 편향되는 것을 방지합니다.
  5. 답변의 교차 검증: 동일한 질문을 여러 방식으로 질문하여 답변이 일관되게 나오는지 확인하거나, 답변을 공신력 있는 출처(학술 논문, 정부 발표 등)와 직접 대조하여 확인하는 습관이 중요합니다.

결론적으로 ChatGPT의 거짓말은 인간의 의도를 완벽하게 이해하지 못하는 통계 기반 모델의 근본적인 한계와 유창성을 극대화하려는 운영상의 선택이 결합되어 나타나는 현상입니다. 우리는 모델의 작동 원리를 이해하고, 적극적인 검증 및 정교한 프롬프트 설계를 통해 그 위험을 최소화해야 합니다.

slowburger
slowburger

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다