구글, AI 환각 잡는 ‘메타인지’ 제시…“에이전트 시대 필수 조건” < 산업일반 < AI산업 < 기사본문 - AI타임스

모델이 애매할 때 무조건 답변을 거부하면서 유용한 정보까지 깎아 먹는 '효용성 세금'(왼쪽). 반면 불확실성을 솔직하게 언어로 표현해 유익한 정보와 신뢰를 지키는 구글 메커니즘(오른쪽) (사진=arXiv)

구글 연구진이 대형언어모델(LLM)의 환각 현상을 근본적으로 해결하기 위해서는 모델이 자신의 불확실성을 정확히 인식하고 표현하는 ‘메타인지(Metacognition)’ 능력이 필요하다는 새로운 주장을 내놓았다. 이를 ‘충실한 불확실성(Faithful Uncertainty)’이라고 정의하며, 앞으로 에이전트 AI의 핵심 기술이 될 것이라고 강조했다.

구글 연구진은 최근 온라인 아카이브에 공개한 논문 ‘환각은 신뢰를 훼손한다; 메타인지가 해법이다 (Hallucinations Undermine Trust; Metacognition is a Way Forward)’에서 현재 AI 업계가 환각 문제를 해결하는 과정에서 본질적인 한계에 직면해 있다고 분석했다.

이에 따르면, 지금까지의 사실성(factuality) 향상은 대부분 모델 내부에 더 많은 사실을 저장하는 ‘지식 경계(knowledge boundary) 확장’에 의존해 왔다. 하지만 모델이 무엇을 알고 무엇을 모르는지를 구분하는 ‘경계 인식(boundary awareness)’ 능력은 상대적으로 거의 개선되지 않았다.

특히 환각 제거와 모델 효용성(utility) 사이에 근본적인 상충 관계가 존재한다고 지적했다. 환각을 완전히 없애기 위해서는 모델이 조금이라도 불확실할 때 답변을 거부해야 하지만, 이렇게 되면 실제로는 정답을 알고 있는 수많은 질문까지 답변하지 않게 된다.

모델의 오류율을 25%에서 5%까지 낮추기 위해서는 전체 정답의 52%를 포기해야 한다는 사례를 예로 들었다. 이를 ‘효용성 세금(Utility Tax)’이라고 소개했다.

환각률을 낮추기 위해 감수해야 하는 정보 손실률을 나타낸 '효용성-오류 상충관계 곡선' (사진=arXiv)

환각률을 낮추기 위해 감수해야 하는 정보 손실률을 나타낸 '효용성-오류 상충관계 곡선' (사진=arXiv)

이러한 한계를 극복하기 위해 연구진은 환각의 정의 자체를 바꿔야 한다고 주장했다. 기존에는 모든 사실 오류를 환각으로 간주했지만, 연구진은 환각을 ‘확신에 찬 오류(confident error)’로 재정의했다.

즉 틀린 답변이라도 “확실하지는 않지만 제 추측으로는"과 같이 불확실성을 적절하게 표현한다면, 그것은 환각이 아니라 사용자가 참고할 수 있는 가설이라는 것이다.

이 개념의 핵심이 바로 ‘충실한 불확실성’이다. 이는 모델이 언어적으로 표현하는 불확실성과 실제 내부 확률 분포가 반영하는 내재적 불확실성을 일치시키는 것을 의미한다.

모델이 자신 있게 알고 있을 때는 확실하게 답변하고, 확신이 낮을 때만 적절하게 불확실성을 표현해야 한다는 것이다. 연구진은 이를 인간 의사의 진단 과정에 비유했다. 의사는 모든 것을 알기 때문에 신뢰받는 것이 아니라, 골절과 단순 염좌를 구분해 설명하기 때문에 신뢰를 얻는다는 설명이다.

논문은 이러한 메타인지 능력이 에이전틱 AI 시대에 더욱 중요해질 것이라고 강조했다. 최근 AI 업계는 검색 엔진, 데이터베이스, API 등을 활용하는 에이전트 시스템으로 빠르게 전환되고 있다. 외부 도구를 활용할 수 있기 때문에 모델이 ‘모르는 것’을 인식할 필요가 없는 것처럼 보이지만, 연구진은 오히려 정반대라고 주장했다. 모델이 자신의 지식 한계를 알지 못하면 이미 알고 있는 내용을 불필요하게 검색해 비용과 지연 시간을 늘리거나, 반대로 검색이 필요한 상황에서도 기억에 의존해 그럴듯하지만 잘못된 답을 생성할 수 있기 때문이다.

연구진은 메타인지가 에이전트의 ‘제어 계층(control layer)’ 역할을 수행한다고 설명했다. 에이전트는 자신의 확신 수준을 바탕으로 언제 검색을 수행할지, 어떤 정보를 신뢰할지, 검색 결과와 자신의 기존 지식이 충돌할 때 어떤 판단을 내릴지를 결정해야 한다. 이러한 능력이 없다면 현재의 에이전트는 외부 규칙과 복잡한 스캐폴딩(scaffolding)에 의존하는 ‘눈을 감고 비행하는’ 상태에 가깝다는 것이다.

하지만, 충실한 불확실성을 구현하는 과정은 쉽지 않다고 전했다. 연구진은 ‘부트스트래핑 역설(Bootstrapping Paradox)’이라는 문제를 지적했다.

모델의 불확실성 표현은 현재 무엇을 알고 있는지에 따라 달라지는데, 학습 데이터는 정적(static)인 상태다. 이에 따라 모델은 학습 과정에서 실제로 무엇을 깨우쳤고 무엇을 놓쳤는지를 실시간으로 반영하지 못한다.

모델에 “모른다”라고 가르친 내용도 이후 학습 과정으로 알게 될 수 있지만, 결국 모른다는 답을 내놓게 된다. 이는 ‘불확실성 환각’에 해당한다. 반대로 모델의 매개변수 한계나 용량 부족으로 정확한 의미를 모르면서도, 확신을 가지고 정답처럼 말하는 환각 문제도 발생할 수 있다.

연구진은 기업들이 당장 이러한 접근법을 적용하기 위해서는 프롬프트 엔지니어링이 가장 현실적인 출발점이 될 수 있다고 설명했다. 예를 들어 모델에게 "답변을 작성하기 전에 내부 확신도를 0~100% 사이로 평가하고, 기준치 미만일 때 추측성 단서를 붙여라"라고 지시하는 '내부 확신도 점수화' 방식이 대표적이다.

연구진이 개발한 오픈소스 프로젝트 ‘메타페이스(MetaFaith)’와 같은 프레임워크를 활용하면 기존 상용 모델에서도 메타인지 기반 프롬프팅을 시도할 수 있다고 밝혔다. 다만 장기적으로는 강화학습(RL)을 통해 모델 학습 단계에서부터 메타인지 능력을 내재화해야 할 것으로 전망했다.

구글은 AI가 단순 챗봇에서 복잡한 다중 에이전트 시스템으로 발전함에 따라, 모델의 자기 인식 능력은 신뢰할 수 있는 자율성의 필수 조건이 될 것이라고 전망했다.

동시에 모델이 실제로 자신의 내적 상태를 인식하는지, 아니면 단지 불확실성을 흉내 내는 것인지 구별하는 평가 체계를 구축하는 것이 앞으로 해결해야 할 가장 중요한 연구 과제 중 하나라고 강조했다.

박찬 기자 cpark@aitimes.com