안정성과 책임감
AI chatbot은 결국 사람이 쓴 텍스트를 분석하여 내놓는 글이므로, 사람들의 편견을 완전히 배제하는 것이 불가능하다. 예를 들어, 두 국가가 전쟁을 했던 일을 들어 그 LLM이 어느 국가의 관점에서 그 역사를 해석할지는 분명하다. 그 LLM이 만들어진 빅 테크기업이 속한 나라의 관점에서 서술된 역사가 옳은 역사라고 인식하고 있을 가능성이 있다.
또 하나 주목할 문제는 위에서 언급한 욕설이나 민감한 텍스트를 필터링 하기 위해서 관리자들이 그러한 텍스트에 하나하나 라벨링을 해야하는데, 이 일을 수행하는 직원들이 직장 내에서 잘 대접받지 못하고 트라우마를 호소했다고 한 언론인이 보도하였다.
이것을 해결하려고 BLOOM이라는 대체 LLM이 출시가 되기도 했다. 이 LLM은 고품질이고 다국어로 된 더 적은 텍스트 소스를 가지고 훈련시킨 것이다. 이미 고품질인 것을 확인한 소스들이니 위와 같은 문제가 해결될 가능성은 있으나 텍스트의 양이 현격히 줄어들 것이므로 빅 테크 회사들이 이러한 방식을 받아들일지는 미지수다.
한편 이 LLM이 출현하고부터 저작권 문제도 혼란을 야기시키고 있다. 현재 저작권은 픽셀이나 텍스트, 또는 소프트웨어를 바로 복붙하는 것은 금지하고 있지만, 그 스타일에 대해서는 제한을 두고있지 않다. 이미 Stable Diffusion과 Midjourney같은 AI art program의 창작자는 예술가들과 사진작가들로부터 고소를 당하고 있다. 또한 Open AI와 Microsoft 또한 AI coding 보조 프로그램인 Copilot에 대해 소프트웨어 저작권 침해 관련한 고소를 당했다.
그러나 필자의 생각으로는 필터링 하는 건 기계이나 이를 필터링할 수 있게 만드는 건 사람이라는 지적에 대해서는 chatGPT가 생겨서 일어난 문제는 아니라고 본다. 이미 게임이나 서치엔진에서도 욕설이나 민감한 주제, 사진을 필터링하는 툴은 존재했고, 거기서 일하는 사람들도 존재해 왔으니까 말이다. chatGPT가 없어진다고 해서 이러한 문제가 해결되는 것은 아니고, 더 활성화된다고 해도 그런 사람들을 고용하지 않을 수 있는 것도 아니다. 다만 이러한 관리자들에 대한 처우와 인식을 개선하는 노력을 해야한다. 가상세계에서 경찰의 역할을 하고있기 때문이다.
정직한 사용 강화
LLM의 사용으로 인해 야기된 여러가지 법적 문제들은 곧 관련 법이 만들어지고 활발하게 논의되면서 점점 자리를 잡을 거라고 생각한다. 그것보다도 일반 유저들 사이에서 LLM사용을 투명하게 공시하자는 이야기가 나오고 있다. 학술지 출판부(예: 네이처)는 논문에 LLM을 사용했는지 밝혀야 한다고 말했다. 사이언스지는 아예 논문에 ChatGPT나 어떤 AI툴에 의해 만들어진 어떤 텍스트도 실을 수 없다고 말했다.
국내에서도 대학생들이 chatGPT를 사용하여 과제를 내는 것에 대해 논란이 된 적이 있었다. 학생들의 자료수집 시간을 줄여주고 효율적으로 과제를 할 수 있을 거라는 의견도 있었지만, 배움을 목적으로 하는 과제인 만큼, 이를 문제삼는 사람도 있었다.
이를 해결하기 위해 AI가 만든 텍스트를 감별하는 프로그램도 나오고 있다. 프린스턴 대학교의 Edward Tian은 GPTZero라는 프로그램을 개발하여 LLM의 특성을 이용해 AI가 만든 텍스트를 집어내는 시도를 했다. 이 AI 감시 툴은 글의 ‘당혹감(perplexity)’을 이용한다. 즉, 그 텍스트가 얼마나 LLM처럼 보이는지를 측정하는 것이다. 만약 대부분의 문장이나 단어가 예측 가능하다면, 그 텍스트는 AI가 만들었을 가능성이 높다. 이 툴은 또한 글의 ‘간헐성(burstiness)’이라고 말하는 텍스트의 다양성을 검사하기도 한다. AI가 만든 텍스트는 톤, 억양, 당혹감이 사람이 쓴 것보다 더 일관성 있을 것이기 때문이다.
다시 말해 글이 완벽할 수록 기계가 쓴 글이고, 불완전할 수록 인간이 쓴 것이라는 것이다. 이젠 선생님은 더 불완전한 글에 더 많은 점수를 주게 될 지도 모르겠다.
Open AI 또한 자체적으로 AI 감시 툴을 출시했다. 그런데 인간이 쓴 글을 AI가 썼다고 잘못 라벨링한 것이 9%, AI가 쓴 것이라고 올바로 감지한 비율은 오직 26%이다. 그러니 학생에게 AI가 쓴 거라고 의심하고 질책학기 전에 다른 증거가 꼭 필요하다.
다른 아이디어는 AI가 만든 글에 watermark를 넣는 것이다. 예를 들어 LLM이 출력할 때 특정 순간에 랜덤한 숫자를 하나 발생시켜 그럴듯한 대체 단어 리스트를 만든다. 고른 단어의 흔적이 최종 텍스트에 남게 되면서 이를 감지할 수 잇게 되는 것이다. 이는 통계적으로는 확인할 수 있지만 사람인 독자는 이를 발견할 수 없다. 이 방법의 장점은 ‘위양성’이 절대 나타나지 않는다는 것이다. 물론 AI로 텍스트를 발행하고 나서 이를 편집할 수도 있다. 그러나 그러려면 글의 반절 이상의 단어를 수정해야 할 거라고 전문가들은 말한다.
한편, LLM개발자들은 더 많은 데이터셋을 바탕으로 더 정교한 챗봇을 만드려고 열심히 일하고 있다. OpenAI는 올해 GPT-4를 출시한다. 이번 GPT-4에는 특히 학술적이거나 의학적 작업을 목적으로하는 툴을 포함하고 있다고 한다. 12월 말에 Google과 DeepMind는 의학적으로 전문화된 LLM인 Med-PaLM에 대해 예고했다. 이 툴은 일반 인간 의사만큼의 의학적 질문에 답할 수 있다고 한다. 물론 단점도 있고 신뢰성에 대해서는 신중할 필요가 있겠지만 정말 비대면 의료가 먼 미래에 있지 않은 것 같다.
미래에는 이 LLM이 의료 분야에서 더 활발하게 활용될 것이다. 지금도 AI가 의료영상에서 암을 진단하는 데 아주 유용하게 이용되고 있지만, 아마도 일반인들도 어렵지 않게 자신의 질병에 대해 크로스 체킹할 수 있을 것이고, 혹시나 불치병인 질병이나 흔치 않은 병에 대해서 치료 사례들을 더 쉽게 찾아볼 수 있을 것이라고 기대한다.
이번에 chatGPT가 일반인들에게도 무료로 이용할 수 있도록 출시되면서, 사회 각계각층에서 이에 대한 이야기로 한바탕 시끄러웠다. 그동안 많은 챗봇이 개발됐었지만 이렇게까지 주목받지 않은 이유는 대화가 매끄럽게 진행 될 만큼 유용하지 않았기 때문이다. 애플의 시리도 “무슨 말인지 모르겠다”는 말을 반복하기 일쑤였고, 수많은 은행 서비스의 챗봇을 이용해보아도 결국 전화를 걸어 인간 상담사를 찾게 되었기 때문이다. 어떤 이들은 사라질 직업이 혹시나 본인의 직업이 되지는 않을까, 불안해하고 있다. 그동안은 반복 가능한 일, 예를 들어 치킨을 튀긴다거나, 나사를 같은 곳에 조인다거나 하는 일을 로봇이 대체할 것이라고 예상해왔는데, 이젠 인간만이 할 수 있다고 믿었던 글쓰기조차 기계가 대신할 수 있다니, 정말 기술의 발전은 한계가 없다는 것을 다시 한 번 느낀다.
나는 AI의사는 기술적으로는 가능해도 현실적으로는 불가능하지 않을까 하는 생각을 계속 가지고 있었다. 왜냐하면 한 사람의 건강이 달린 문제인 만큼 ‘책임’의 주체가 명확하지 않기 때문에 법적으로나 윤리적으로나 실제로 활용하기 어려울 것이라고 생각했기 때문이다. 그러나 의사의 진단을 돕고 환자 자신의 건강을 스스로 체크해 볼 수 있다는 점에서 이제 의사가 핸드폰 속으로 들어올 날이 얼마 남지 않은 것 같다.
이번 chatGPT의 등장으로 이외로 블루칼라의 일이 더 사라지기 어렵다는 생각을 하게 됐다. 아직까지는 현장에서 다양한 상황에 알맞게 대처하고 적응할 수 있는 로봇을 만들어 배치하는 것보다 인간을 고용하는 게 더 저렴한 경우가 많을 것 같다. 대량생산할 수 있는 완제품을 만드는 일은 기계가 대신할 수 있을지 몰라도 엉성할 지 몰라도 프로토타입은 인간이 만드는 게 더 효율적일 것이다.
이러한 시대에 내가 할 수 있는 일은 뭘까.
출처:
(1) nature | Vol 614 | 9 February 2023
'과학 칼럼 > 과학 뉴스레터' 카테고리의 다른 글
HUD(Head Up Display) 기술 개발 위한 현대모비스&Zeiss 사업협력계약체결 (6) | 2024.11.07 |
---|---|
ChatGPT와 함께할 미래 (1) (0) | 2023.04.28 |
반도체의 미래 (3) AI 반도체 (0) | 2023.04.01 |
반도체의 미래 (2) 초고직접 반도체 (0) | 2023.03.29 |
반도체의 미래 (1) 메모리 반도체와 시스템 반도체 (0) | 2023.02.22 |