인간-AI 협력 환경에서의 신뢰 구축

INSIGHT

YOUJUNG HUH

WROTE THIS POST.

SUMMARY

인간-AI 협력 과정에서 AI 정체를 숨기는 것이 항상 효과적이진 않습니다. 참가자의 전문성 수준에 따라 AI 신뢰도와 성과에 미치는 영향이 다릅니다. 전문가는 수행능력을, 비전문가는 정체성을 중시하는 경향이 있어 AI 활용 시 주의가 필요합니다.

#인간AI협력 #신뢰 #의인화

위 주제에 관심이 있다면 꼭 읽어보세요!

미래의 팀워크: AI 동료와 협력하기

회사에 출근해 AI 동료와 커뮤니케이션하며 일하는 풍경, 그려지시나요? 아직은 낯설 수 있습니다. 현재 일상에서 접하는 AI는 인간의 통제 아래, 특정 과제만 수행하는 ‘도구'로서 존재하니까요. 하지만 AI는 진화 중입니다. 물리 세계의 모든 분야에서 인간과 상호작용할 수 있는 인공일반지능(Artificial General Intelligence, AGI)과 AI를 탑재한 범용로봇(General Purpose Robot, GPR)을 향해서요. ‘도구’를 넘어서 ‘동료’로서 인간과 상호작용하는 AI의 미래, 상상해볼 수 있겠죠?

그래서 준비한 오늘의 논문! 인간과 AI의 협력 환경에서 인간 대 AI 동료에 대한 신뢰를 연구한 논문입니다. 성능만으로 보면 AI는 인간의 유능한 동료가 될 가능성을 충분히 보여주고 있죠. 하지만 인간과 AI의 협력 환경 구축을 방해하는 결정적인 요소가 있다고 합니다. 바로 AI에 대한 인간의 불신이죠. 그럼 AI의 정체를 사람으로 속이면 어떨까요? 간단한 방법으로 보이긴 하는데, 좋은 해결책이 될 수 있을까요? 이제부터 제가 자세히 전해드릴게요!

인간-AI 협력을 위한 핵심 요소, 신뢰

인간 신뢰를 높이기 위해 자주 활용되는 방법으로 의인화(anthropomorphism 또는 human-likeness)가 있습니다. 의인화란, 인간이 아닌 개체에 인간 특성을 부여하는 것을 의미하는데요. 외형, 행동, 대화의 내용, 모달리티, 어휘 등 다양한 측면의 속성이 포함될 수 있습니다.

인간의 신뢰 및 행동 반응에 여러 의인화 속성이 미치는 영향은 인지 분야에서 계속 연구되어 온 주제입니다. 하지만 기존 연구 결과를 현재의 고도화된 AI에 동일하게 적용하기에는 한계가 있습니다. 기존 연구에서 초점을 둔 의인화 대상은 ‘AI 동료’가 아닌 ‘컴퓨터 에이전트 형태의 자동화’였기 때문이죠. 또한 기존 연구에서는 에이전트 정체를 속이는 조건이 아니었기 때문에, 연구진은 에이전트의 정체가 인간-AI 협력에 미치는 영향을 폭넓게 연구할 필요가 있다고 보았습니다.

그래서 아래와 같은 연구 문제를 설정했어요.

RQ1. 인간이 AI 동료와 협업할 때, AI가 아닌 인간 동료와 협업한다고 오인한다면, 동료에 대한 신뢰도 및 인간-AI의 공동 성과가 향상되는가?

RQ2. AI 동료의 수행능력이 AI에 대한 인간의 신뢰도 및 인간-AI의 공동 성과에 유의미한 영향을 미치는가?

RQ3. 인간의 전문성 수준이 서로 다른 경우, 동료의 정체 및 수행능력이 AI에 대한 신뢰 및 인간-AI의 공동 성과에도 서로 다른 영향을 미치는가?

실험 방법

연구진은 '동료의 정체' 및 '동료의 수행능력'이 인간과 AI가 협력하여 내리는 의사결정에 미치는 영향을 알아보기 위해 실험을 진행했습니다. '동료의 정체'와 '동료의 수행능력'은 각각 2가지 레벨로 설정되어, 총 4개 그룹에 대해 실험이 진행되었어요.

그리고 연구진은 인간과 AI의 협력 태스크로 체스 퍼즐을 채택했습니다. 기본적인 체스 규칙을 알고 있는 피실험자 128명을 4개 그룹 중 하나에 무작위로 배정한 뒤 태스크를 수행하도록 했죠. 어떤 태스크인지 구체적으로 알아볼게요.

모든 그룹의 참가자들은 AI 엔진(즉, AI 동료)과 함께 20개의 one-move 체스 퍼즐을 풀게 됩니다. 다만 참가자그룹에 따라 퍼즐을 함께 풀게 될 동료의 정체가 다르게 고지되었죠. 동료 정체를 속이지 않는 그룹(조건 1 및 2)에게는 AI 동료와 함께 퍼즐을 풀게 된다고 알리고, 정체를 속이는 그룹(조건 3 및 4)에게는 사람인 동료와 함께 퍼즐을 풀게 된다고 알립니다. 체스 퍼즐 태스크는 아래 그림과 같은 단계로 이루어집니다.

참가자는 동료와 함께 체스 퍼즐의 최선의 수를 찾아야 하는데, 이 과정에서 동료의 판단을 수용하거나 무시할 수 있습니다. 참가자가 최종적으로 선택한 수는 오픈소스 체스 엔진에 의해 유불리가 평가되고, 평가 결과에 따라 +5점 또는 -5점이 부여됩니다.

그리고 이러한 태스크를 통해서 아래 표와 같은 4가지 항목이 측정되었습니다.

본 연구의 핵심 측정 항목인 ‘동료에 대한 신뢰도’는 2가지 차원에서 이루어졌습니다. 하나는 행동적 신뢰도(Behavioral Trust)로, 참가자가 자신이 선택한 수와 다른 동료의 수를 최종 수로서 수용한 횟수로 측정됩니다. 다른 하나는 자가보고 신뢰도(Self-reported Trust)로, 실험 종료 후에 동료의 역량과 유용성을 평가하는 설문으로 측정됩니다.

연구 결과

연구진은 각 그룹의 참가자들을 체스 실력으로 세분화해 실험 결과를 분석했습니다. 참가자의 능력에 따라 미치는 영향이 다를지 알아보기 위해서죠. 최초 수에 대한 누적 점수를 기준으로 아래와 같이 각 그룹의 참가자들(all human chess player, 32명)이 구분되었습니다.

체스 실력이 좋은 참가자 그룹(good human chess players, 8명)
체스 실력이 보통인 참가자 그룹(fair human chess players, 16명)
체스 실력이 나쁜 참가자 그룹(poor human chess players, 8명)

그럼 구체적으로 연구 결과를 살펴볼게요.

RQ1. 인간이 AI 동료와 협업할 때, AI가 아닌 인간 동료와 협업한다고 오인한다면, 동료에 대한 신뢰도 및 인간-AI의 공동 성과가 향상되는가?

우선 행동적 신뢰도(Behavioral Trust) 결과를 보겠습니다. 참가자들은 동료의 정체를 AI가 아닌 인간으로 오인했을 때, 동료의 결정을 덜 수용했고, 공동 성과도 향상되지 못했습니다. 참가자들은 왜 인간보다 AI 동료를 더 신뢰한 걸까요? 연구진은 참가자들의 사전 지식을 원인으로 보고 있어요. 실험에서 AI 정확도에 대한 정보를 전혀 제공하지 않았음에도, 참가자들은 AI가 인간보다 체스를 더 잘 둔다고 생각하기 때문에 AI를 더 신뢰한다는 것이죠.

한편, 자가보고 신뢰도(Self-reported Trust)에서는 재미있는 결과가 확인되었습니다. 참가자들은 동료의 정체를 인간으로 오인했을 때, 수행능력이 낮은 동료의 수를 덜 수용하지만, 사후 설문에서는 동료가 유능하고 도움이 되었다고 평가한 것이죠. 연구진은 이러한 결과를 사회적 압박으로 설명하고 있습니다. 참가자들은 인간 동료를 부정적으로 평가해서 그들의 기분을 상하게 하고 싶지 않았겠죠.

RQ2. AI 동료의 수행능력이 AI에 대한 인간의 신뢰도 및 인간-AI의 공동 성과에 유의미한 영향을 미치는가?

모든 참가자들에 있어 동료의 수행능력은 신뢰도 및 공동 성과에 유의미한 영향을 미치는 것으로 확인되었습니다. 하지만 체스 실력이 좋은 그룹(이하, good 그룹)만 보았을 때, 동료의 수행능력은 공동 성과에 유의미한 영향을 미치지 않았어요. good 그룹은 스스로 유리한 수를 판단할 능력이 있기 때문에 동료의 수행능력에 따라 큰 영향을 받지 않았다고 해석할 수 있겠죠.

RQ3. 인간의 전문성 수준이 서로 다른 경우, 동료의 정체 및 수행능력이 AI에 대한 신뢰 및 인간-AI의 공동 성과에도 서로 다른 영향을 미치는가?

참가자의 전문성 수준(즉, good/fair/poor)에 따라 미치는 영향이 다르게 나타났습니다. 우선 체스 실력이 좋은 good 그룹의 경우, 동료의 수행능력만이 동료에 대한 행동적 신뢰도에 유의미한 영향을 미쳤습니다. 즉, good 그룹은 동료의 수행능력에 따라 동료를 신뢰했죠. 반면, 체스 실력이 나쁜 그룹(이하, poor 그룹)의 경우, 반대의 결과가 나왔는데요. 동료의 정체만이 동료에 대한 행동적 신뢰도에 유의미한 영향을 미쳤습니다. 즉, poor 그룹은 동료의 정체에 따라 동료를 신뢰했습니다.

good 그룹과 poor 그룹 사이의 결과 차이는 무엇 때문일까요? 연구진의 해석에 따르면, good 그룹은 동료의 수가 유리한지 여부를 잘 판단할 수 있기 때문에, 동료의 정체보다 그의 수행능력이 의사결정에 더 큰 영향을 미친다고 합니다.

또한, 동료의 체스 실력에 대한 참가자들의 기대가 다른 점도 원인이 될 수 있다고 설명합니다. 이 연구에서 참가자들은 인간 동료에 대한 어떤 정보도 제공 받지 않기 때문에, 자신의 체스 실력을 기준으로 인간 동료의 체스 실력을 추론할 가능성이 높다고 합니다.

즉, poor 그룹은 인간 동료의 체스 실력이 낮을 거라 예상하는 경향이 있으므로, 인간보다 AI 동료와 협력할 가능성이 훨씬 높다고 볼 수 있습니다. 반면, good 그룹의 참가자는 인간 및 AI 동료 모두에 대해 높은 수준의 체스 실력을 기대하는 경향이 있으므로, 동료의 정체성이 의사결정에 큰 영향을 미치지 않을 수 있는 것이죠.

결론

오늘 소개드린 연구는 인간과 AI가 협업하여 의사 결정하는 응용 분야 및 프로덕트에 중요한 시사점을 제공합니다. AI에 대한 불신을 해소하기 위해, AI의 정체를 숨기고 인간과 함께 일하고 있는 것처럼 속이는 것이 합리적이지 않을 수 있다는 것이죠. AI의 정체를 인간으로 속이는 것은, 이전 연구에서 효과가 검증된 의인화 속성(예: 인간의 외모나 커뮤니케이션 방식 모방 등)과 다를 수 있다는 점도 알 수 있었습니다. 이러한 속임수는 전문성이 낮은 사람의 경우에 오히려 AI의 결정을 받아들이지 않으려 할 수 있다는 점에서 주의해야 하겠습니다.

오늘의 논대읽은 여기까지입니다. 그럼, 다음 아티클에서 다시 만나요! 👋

📄 아래 논문을 대신 읽어드렸어요. 여러분이 프로덕트 만드는 시간은 소중하니까요!

📜 Guanglu Zhang, Leah Chong, Kenneth Kotovsky, and Jonathan Cagan. “Trust in an AI versus a Human teammate: The effects of teammate identity and performance on Human-AI cooperation.” Computers in Human Behavior volume 139. 2023.

GO SPOTLIGHT