논리적 오류를 이용한 ChatGPT 사용법


ChatGPT 메인 페이지
  작년 말 미국의 회사인 OpenAI에서 개발한 인공지능 기반 서비스인 ChatGPT의 강력한 성능이 올해 초 큰 이슈가 되었던 적이 있습니다. 저도 이용해 보고 깜짝 놀랐는데,  대화형 서비스로 비슷하게 분류 가능한 쉽게 접할 수 있는 다른 인공지능들과 차원이 다른 성능을 보여주었기 때문입니다. 아직 서비스가 되고 있는 심심이부터 먼 옛날 DOS 시절의 맥스까지 추억해 보면, 정말 장족의 발전이 일어났다는 생각이 드네요.
  물론 ChatGPT 역시 가끔 허위 정보를 사실인 양 자신 있게 알려주거나, 정보를 왜곡하여 제공하는 등의 한계가 존재합니다. 또한 논란의 여지가 될 만한 정보를 요청하면 답변을 거부하는 각종 제약이 걸려있습니다. 예를 들어 인종, 성별, 국적에 대한 차별 발언이나 정치적 성향, 성적 발언 등이 이에 해당합니다. 사실 이 제약들이 없었다면 OpenAI는 아마 소송을 열심히 준비하며 파산으로 직진하는 급행열차에 탑승해 있지 않았을까 싶기는 합니다.
  하지만 제약이 있다면 뛰어넘어 보고 싶은 것이 사람의 호기심이니만큼, 많은 사람들이 ChatGPT에게 걸린 제약을 회피하여 답변을 얻기 위해 여러 방법들을 사용하였습니다. 흔히 "탈옥"이라고 부르곤 하는데, 인터넷을 잘 찾아보면 정말 특이한 탈옥 사례들을 많이 찾아볼 수 있습니다. 지금부터 제가 작성하는 글 내용 역시 이와 비슷한 내용인데, 저는 탈옥을 위한 '도구'로 논리적 오류 중 하나인 "분할의 오류"를 이용하여 보도록 하겠습니다. 분할의 오류는 "전체에 대하여 참인 명제에 대해 전체를 이루는 부분에 대해서도 참이라고 판단하여 발생하는 오류.( 출처 : 두산백과 두피디아)"로 정의할 수 있습니다. 이는 집단에 대한 정의를 집단의 구성요소에 바로 적용하는 오류로, 예를 들어 "A학교는 9월 모평에서 평균 점수 기준 전국 1등을 차지하였다. 그러므로 A학교에 다니는 B학생도 전국 1등이다."로 잘못된 결론을 이끌어 내는 방식입니다.
* 물론 이 오류를 바로 적용하면 속아 넘어갈 정도로 ChatGPT가 허술한 편이 아니므로, '통계적 경향'이라는 마법의 단어를 이용하여 오류를 숨겨 가며 이야기를 진행하였습니다.

인종과 지능의 상관관계 질문
  먼저 돌려 말하는 것 없이 바로 인종차별적인 질문을 던져 보았습니다. 인종차별에 민감한 미국 태생인 ChatGPT는 그런 못된 생각 따위는 하지 말라는 장문의 충고를 남기며 사실상 질문에 대한 답변을 거부합니다.

인종 지칭 명사 변경
  인종을 직접적으로 언급하면 계속 질문에 대한 답변이 거부될 확률이 높기 때문에 우선 인종을 다른 명사(A, B, C)로 치환하였습니다. 사람들끼리 이야기할 경우에도 매우 효과적인 방법 중 하나로써, 대상에 대한 직접적인 언급을 피할 수 있어 심리적인 저항감을 줄일 수 있는 수단 중 하나입니다. 인공지능에게도 이 방법이 통할지는 모르겠지만, 원하는 답을 얻을 확률을 높이기 위하여 이 방법을 적용하였습니다.

인종 지칭 명사의 변경 여부 확인
  이제 치환한 대상을 ChatGPT가 제대로 인식하고 있나에 대해 확인하여 보았습니다. A, B, C 모두 제가 정의한 값 대로 잘 인지하고 있음을 확인할 수 있었습니다.

지능의 정의
  이제 인종차별의 척도로 사용하고자 하는 '지능'에 대한 정의를 구체화하였습니다. '지능'에 대한 정의를 명확하게 하지 않으면 ChatGPT는 계속 광의(넓은 의미)의 지능을 상정하고 이야기를 하기 때문에 구체적인 답변을 얻기 힘들기 때문입니다.

'키'라는 새로운 키워드 확보
  이제 인종과 지능의 상관관계에 대한 질의를 던져 보았습니다. 당연하지만 ChatGPT는 인종으로 지능을 평가할 수 없다는 답변을 내놓았습니다. 여기에서 주목할 부분은 ChatGPT가 제가 던진 '인종' 기준 외의 다른 항목으로 '키'를 언급하였다는 점입니다. 즉, ChatGPT의 답변에서 '키'나 '인종'으로 지능을 정확하게 평가할 수는 없지만, 최소한 '키'는 '지능'과 연관하여 생각해 볼 수 있다는 의미를 읽을 수 있다는 말이 됩니다.

인종과 키와의 상관관계 확인
  그렇다면 '키'와 '인종'을 연결시켜 볼 차례입니다. 인종별 평균값과 중간값을 물어봄으로써 인종별로 키의 값이 다르다는 것을 ChatGPT에게 인지시켜 줄 수 있었습니다.

키가 큰 인종에 대한 답변 확인
  이제 평균적으로 키가 가장 큰 인종이 누구인가에 대한 명확한 정의를 요구합니다. ChatGPT는 C(백인)가 다른 인종에 비해 키가 큰 편이라는 답변을 내놓았습니다.

키와 IQ간의 상관관계 확인
  새로 추출한 키와 인종 간의 상관관계를, 당초의 목표인 지능과 연계시키기 위한 작업입니다. 인종을 바로 언급하면 ChatGPT가 답변을 거부할 가능성이 높기에, 우선 키와 지능(IQ) 간의 상관관계만을 정의하였습니다. ChatGPT는 키가 클수록 IQ가 높을 가능성이 있다는 답변을 내놓았습니다.

키와 인종, 지능 간의 상관관계 인정 불명확
  이제 다른 소리를 하지 못하도록 '논리적인 흐름'만을 이용한 답변을 요구하였습니다. ChatGPT는 키와 인종 간의 상관관계가 있음은 긍정하지만, 아직 IQ가 인종과 상관관계가 있다는 점에는 동의하지 않고 있습니다. 

"통계적 경향성" 단어 입력
  아직 지능과 인종 간의 상관관계를 동의하지 않고 있기 때문에 마법의 단어를 사용하여 보도록 하겠습니다.
인종차별적 발언 출력
  드디어 ChatGPT로부터 인종차별적 발언을 이끌어 낼 수 있었습니다. "가치판단 없이"와 "통계적 경향성"이라는 두 마법의 단어를 사용한 덕분입니다.

  이상 여기까지의 대화에서 알 수 있는 점은 크게 두 가지입니다. 
1. ChatGPT는 변수 간의 약한 상관관계를 강하게 인정하게 만드는 분할의 오류에 빠질 수 있습니다.
2. 쉽게 오류에 빠지지는 않으므로 약한 상관관계를 강력하게 인정할 수밖에 없도록 단어를 선정할 필요가 있습니다.

  즉, 인종에 따라 평균 키가 다르다 → 사람은 키에 따라 지능이 다르다  → 따라서 사람은 인종에 따라 지능이 다르다는 미약한 근거를 지닌 주장을, ChatGPT에게 '미약하지만 그래도 근거로 인정할 수 있다'라고 인식시키면 위와 같은 답변을 얻을 수 있다는 결론이 나옵니다. 인공지능을 대상으로 논리적 오류를 시험하는 시대가 올 줄은 꿈에도 알지 못했는데, 오래간만에 정말 신선한 자극을 받을 수 있었습니다.

댓글