ChatGPT 표절 검사기의 불편한 진실

DeepL과 ChatGPT로고에 표절 딱지 붙은 이미지

최근 가족과 대화 중에 문득 '내 잠재 고객이 이런 상황에서 피해 볼 수도 있겠네?'라는 생각이 들었던 일이 있었어요.

최근 미주 언론사나 마케팅 관련 업체 중 일부가 인공지능 표절 검사기를 사용한다고 해요. 이유는 외주 기사나 콘텐츠가 AI가 작성한 글로 판명될 경우 해당 콘텐츠 크리에이터와는 다시는 같이 일하지 않기 위해서죠.

마침 저 역시 ChatGPT로 생성한 콘텐츠를 제공하는 MVT 프로젝트를 진행하고 있어서 흥미가 생겼고, 더 확인해 보고 싶은 것이 있어서 바로 실행에 옮겨봤어요.

ChatGPT 표절 검증을 위한 가설 정하기

개인적으로 번역할 때 인공지능을 이용하는 여러 워크플로가 있어요. 그중에 가장 심플한 버전을 공유하자면,

  1. 한국어로 콘텐츠를 직접 작성
  2. 생성형 인공지능 번역기인 DeepL로 영문으로 빠르게 번역
  3. Custom Instruction이나 GPT builder로 문법 검사 후 일부 변경
  4. 최종 영문 버전 완성

DeepL의 번역 성능은 학습이 잘 되어 있다고 생각하기 때문에, 다른 것은 몰라도 이 부분은 신뢰하는 편이에요. 그리고 DeepL의 번역기와 마찬가지로, ChatGPT를 이용한 문법 검사도 신뢰해요.

그렇다면 무엇을 검증해 보고 싶은지 가설로 정리해 볼게요.

원문 글을 사람이 직접 작성했다면, DeepL과 ChatGPT로 번역된 콘텐츠는 인공지능이 만든 표현 방식이나 뉘앙스를 반영하지 않아 표절 점수 10% 이하로 측정될 것이다.

AI 표절 검사기로 검증하기

  check chatgpt plagiarism로 검색된 표절 검사기 목록들
check chatgpt plagiarism로 검색된 표절 검사기들

먼저 구글에서 "check chatgpt plagiarism"을 입력했어요. 그리고 SERP (Search Engine Results Page)에 검색된 Top 3 도구를 이용해서 번역된 동일한 콘텐츠로 테스트 해봤어요.

참고로 각 도구마다 무료로 제공되는 글자 수가 다르기 때문에 표절 점수에도 어느 정도 영향을 줄 수 있다는 점 미리 알려드려요. 그리고 그 어떤 업체로 부터 지원을 받지 않았다는 점 말씀 드려요.

GPTZero: 신뢰도 높음

✌️ 두 줄 요약

  • 인공지능 번역기인 DeepL로 번역해도 표절로 잡히지 않는다.
  • ChatGPT 특유의 뉘앙스가 있는 문법 교정 부분이 표절로 의심 받았다.
GPTZero 표절 검사기 화면 및 표절 의심 지수
GPTZero 표절 검사기 화면 및 표절 의심 지수

GPTZero의 표절 점수는 24%로, 이는 ChatGPT가 만든 콘텐츠로 표시되었네요.

그리고 하이라이트 된 부분은 제가 작성한 부분이지만 ChatGPT가 작성했다고 보여주네요. 그래도 제 가설과 가장 근사치에 해당하는 결과를 보여줬네요.

표절 의심이 되는 하이라이트 된 부분이 DeepL 번역기 때문이 아닐까 생각할 수 있는데요. 오차범위를 생각해도 전문을 번역했기 때문에 80% 이상은 나와야 하지만 그렇지 않았기 때문이에요.

Plagiarism Detector: 신뢰도 낮음

✌️ 두 줄 요약

  • 인공지능 번역기인 DeepL로 번역된 모든 내용을 표절로 의심한다.
  • 표절 검사 도구가 표절 의심 부분에 하이라이트 기능을 지원하지 않아 신뢰도가 떨어진다.
Plagiarism Detector 표절 검사기 화면 및 표절 의심 지수
Plagiarism Detector 표절 검사기 화면 및 표절 의심 지수

같은 내용으로 Plagiarism Detector는 91%로 인공지능이 생성한 콘텐츠라고 나오네요. 🧐

아마도 Plagiarism Detector는 DeepL로 번역한 내용 전반을 ChatGPT가 생성한 것으로 의심하는 것 같지만 추측일 뿐이네요. 그렇지 않다면 이렇게 높은 표절 점수가 나올 것 같지는 않아요.

그리고 표절이 의심되는 부분을 하이라이트 하는 기능이 없기 때문에, 이에 따라 도구의 신뢰도가 상당히 떨어져 보여요.

Content Detector: 신뢰도 낮음

✌️ 두 줄 요약

  • GPTZero와 유사한 결과값을 보여줬으나, 같은 글임에도 공통적인 부분이 없었다.
  • 검사기의 신뢰도를 떨어뜨리는 결과값을 보여줬다.
Content Detector 표절 검사기 화면 및 표절 의심 지수
Content Detector 표절 검사기 화면 및 표절 의심 지수

마지막으로 Content Detector를 이용했을 때는 약 43%가 인공지능으로 작성했다고 나오네요. GPTZero와 유사한 결과값이네요.

하지만 두 도구 간의 공통으로 찾아낸 부분은 없었어요. 전혀 다른 결과를 보여주고 있네요.

앞선 도구들과 달리 Content Detector는 데이터를 바탕으로 한 추측이 어려운 부분이 있네요.

다만 성능이 떨어지는 부분이 있다고 느껴져요. 숫자 리스트의 숫자 부분에만 표절 의심이 표시되는 것이 신뢰도를 떨어뜨리는 요인 중에 하나에요.

마치면서

오늘은 ChatGPT를 활용한 서비스 개발 프로젝트를 진행하는 입장에서, 한 번쯤 생각해 볼 수 있는 생성형 인공지능 표절 주제를 다뤄봤어요.

검증 결과를 기준으로 볼 때 마케팅 및 미디어 업체들과 콘텐츠 제작자들이 이런 도구를 믿어도 될까요?

유료 버전으로 테스트해 보지 않았지만 1개를 제외한 나머지 도구들은 신뢰도가 전반적으로 떨어지는 것 같아요. 아마도 미디어 및 마케팅 업체도 이 부분을 잘 알고 있어서 콘텐츠 제작자들이 억울하지 않도록 정성적으로 내부에서 판단할 것으로 생각해요.

또한 외주로 수익을 내는 콘텐츠 크리에이터, 기자, 블로거라면 앞으로 더 강화될 저작권이나 분쟁에 대비하여 불이익이나 오해를 받지 않도록 출처 표기를 생활화하는 것이 필요해요. 특히 요즘처럼 'AI로 생성한 콘텐츠로 쉽게 돈을 벌 수 있다'라는 분위기에서 더 경각심을 가지는 것이 중요하다고 생각해요.

여러분은 어떻게 생각하시나요? 댓글로 남겨주세요.