노승영 번역가 noh@socoop.net
내가 기계번역을 처음 접한 것은 대학원 시절이다. 선배의 권유로 들어간 컴퓨터 회사는 당시에 일본어 번역 프로그램을 만들고 있었는데, 여기에 들어갈 일본어 사전 데이터베이스를 구축하는 업무를 맡은 것이다. 나는 일본어 단어를 한국어 단어로 1대1 교체하면 번역이 완성되며 문제는 한 단어가 여러 의미로 해석되는 중의성을 어떻게 해결할 것인가뿐이라고 단순하게 생각했다. 물론 일본어는 문법 구조가 한국어와 비슷하기 때문에 이런 식의 초보적 접근법으로도 웬만한 문장은 번역할 수 있을 것이다. 영어를 한국어로 번역하는 토이 프로그램도 심심풀이로 시도해봤는데 어순의 차이를 극복하지 못하고 금세 포기하고 말았다. ‘(관사) 주어, 동사, (관사) 목적어’, 이렇게 세 단어로 구성된 간단한 문장은 동사와 목적어의 순서를 바꾸고 영어 단어를 한국어 단어로 바꿔주면 번역할 수 있지만, 문장의 구조가 조금만 복잡해지면 문장을 구로 나누고 구끼리의 관계와 구 안에서 단어들의 관계를 파악하지 않고서는 번역이 불가능하다. 게다가 중의성은 단어 차원이 아니라 문법 차원에서도 존재할 수 있다. 이를테면 “Visiting relatives can be boring.”[1]이라는 영어 문장에서 ‘visiting’은 ‘친척을 방문하는 것’이라는 뜻의 동명사일 수도 있고 ‘방문하는’이라는 뜻의 현재분사일 수도 있다. 이 문장만 놓고 보면 어느 의미가 맞는지 알 수 없으며, 앞뒤 문장을 참고해야만 한다. 게다가 단순히 앞뒤에 어떤 단어들이 오는지 파악하는 것이 아니라 문장을 ‘이해’해야 한다. 대명사의 선행사를 찾는 것도 어려운 과제다. 영어 대명사를 단순히 한국어 대명사로 옮기면 된다고 생각할 수도 있지만, 정관사가 없는 한국어에서는 (대명사를 그대로 번역하면) 선행사를 찾기가 힘들다. 컴퓨터로는 비문을 바로잡고 원래 의미를 유추하는 것도 여간 힘든 일이 아니다. 이런저런 이유로 ‘영어를 한국어로 기계번역하는 일은 아직 요원하겠군’이라고 생각하고는 관심을 접었다.
기계번역은 컴퓨터가 등장하면서부터 연구자들의 목표였다. 워런 위버(수학자이자 록펠러재단 연구원)는 1947년에 이렇게 말했다. “번역하는 컴퓨터를 설계하는 것이 불가능한 일일까? …… 번역 문제를 암호학 문제로 취급할 수 있지 않을까, 하는 의문이 당연히 들지 않을까? 이를테면 러시아어 문서를 보면서 이렇게 말하는 것이다. ‘이 글은 실은 영어로 쓴 것이며 이상한 기호로 암호화되었을 뿐이야. 어디 해독해볼까.’”[2] (1947년 3월 4일자로 워런 위버가 노버트 위너에게 보낸 편지) 초창기 연구자들은 기계 번역에 대해 낙관적이었다. 언어는 기호 체계이며 컴퓨터는 기호 체계를 형식주의적으로 다루는 기계이므로, 컴퓨터가 발전하면 번역의 문제도 해결될 것이라 생각했다. 하지만 1966년에 ALPAC(자동 언어 처리 자문위원회)에서 기계번역에 대해 비관적인 보고서를 내놓으면서 기세가 한풀 꺾였다. 문제는 기계번역이 인간 번역가의 번역보다 느렸다는 것이다. 당시의 컴퓨터 성능으로는 최적의 알고리즘과 최고의 하드웨어로도 긴 문장을 분석하는 데 7분이나 걸렸으니 말이다.
1960년대 후반부터 1970년대 후반까지는 인공지능이 기계번역에 도입되었다. 언어를 문법적으로 분석하는 것이 아니라 말뭉치를 통계적으로 분석하는 통계 기반의 인공지능, 인간의 신경세포를 흉내 내어 컴퓨터를 학습시키는 신경망 기반의 인공지능이 시도되었으나 컴퓨터의 처리 능력이 미흡하고 언어 자료가 충분하지 않아서 성공을 거두지는 못했다.
하지만 최근 들어 딥러닝 기법이 발전하고 인터넷 시대와 함께 언어 빅데이터를 활용할 수 있게 되면서 기계번역은 새로운 전기를 맞았다. 특히 구글은 2006년부터 기계번역 서비스를 시작했는데, 처음에는 영어, 스페인어, 독일어, 프랑스어의 4개 언어만 지원했으나 지금은 104개 언어를 지원한다. 구글 기계번역 책임자 베누고팔은 2012년에 이렇게 말했다. “현재 기계번역의 수준은 인터넷 페이지를 보고 내용을 이해하는 데 충분하다. 하지만 이를 바탕으로 누군가에게 연애 편지를 보낸다든지, 계약서를 작성하는 것은 무리다. 인간의 언어는 굉장히 많은 표현을 담고 있는데, 우리는 아직 이를 다른 언어로 전달하는 수준에는 도달하지 못했다. 이런 것을 실현하는 것은 우리의 목표도 아니다. 기계번역의 목표는 사람의 수고를 줄여서, 사람이 더욱 생산적인 일을 하도록 돕는 것이다. 이미 많은 미국 회사가 기계 번역을 바탕으로 중국에 문서를 보낸다. 예전에는 모두 번역사가 했으나, 이제는 기계번역이 초벌로 문서를 만들면 번역사는 검토만 한다. 그만큼 생산성을 높일 수 있다.”[3] 실제로 유럽연합에서는 모든 공식 문서를 소속 국가의 언어로 번역하는데 이 중 상당수를 기계번역에 의존한다. 기계번역을 이용하면 인간 번역가에 쓰이는 예산을 절감하면서도 시간을 절약할 수 있다. 마이크로소프트는 기술 지원 문서의 상당수를 기계번역 버전으로 제공한다. 기술번역 회사들은 기계번역을 이용한 저가의 서비스를 옵션으로 내놓고 있다. 이를테면 어떤 회사는 기계번역을 하되 인간 번역사가 검수하는 경우에 번역료를 최대 30퍼센트 할인하며 부분적으로 사람이 검수하는 경우는 40~80퍼센트까지 할인한다.[4] 우리가 구글에서 검색할 때는 웹 검색 기능을 이용하지 않더라도 늘 번역 서비스를 이용한다. 검색어를 한국어로 입력하더라도 그 단어가 포함된 외국어 문서까지 찾아서 보여주기 때문이다. 외국인이 개발한 스마트폰 앱을 설치하여 이용할 수 있는 것은 메뉴와 설명서가 자동으로 번역되기 때문이다. 이렇듯 기계번역은 이미 우리의 삶에 깊숙이 들어와 있다.
한편 베누고팔이 말하는 기계번역의 한계는 지금도 유효하다. 비록 알파고가 바둑 경기에서 세계 최고수 이세돌을 이겼지만, 바둑과 기계번역은 다른 분야다. 바둑은 규칙이 엄격히 정해져 있고 경우의 수가 유한한 반면에―물론 바둑판을 배열할 수 있는 경우의 수는 10170으로 사실상 무한대이지만―언어는 규칙을 정확히 명시할 수 없고 예외가 많으며 문장을 생성할 수 있는 경우의 수가 무한하다. 게다가 문장을 올바로 이해하려면 언어 지식 말고도 세상에 대한 지식, 상황에 대한 지식이 필요하다. 알파고가 바둑을 이해하거나 즐기는 것이 아니라 단지 이기는 수를 둘 뿐이듯 기계번역도 언어를 이해하지 못한 채 단지 번역문을 출력할 뿐이다. 하지만 알파고가 이세돌을 이겼듯 기계번역도 인간보다 더 나은―오역이 적다는 점에서―번역을 내놓을지도 모른다.
기술번역계에서는 (기계번역까지는 아니더라도) 컴퓨터를 적극적으로 활용하여 번역한다. 이를테면 같은 성격의 문서에서 똑같은 문장이 반복되면 처음의 번역문을 그대로 가져다 쓰는데, 이 경우 번역사는 번역료를 받지 못한다. 70퍼센트가량 비슷한 문장은 처음의 번역문과 기계번역을 활용하여 어느 정도 번역한 뒤에 번역사가 최종적으로 다듬는데, 이 경우는 번역료에서 일정 부분을 차감한다. 이것은 기존에 번역한 원문과 번역문을 데이터베이스로 만들기 때문인데, 이를 번역 메모리Translation Memory(TM)라 한다. 이렇게 하면 자신이 어떤 단어를 예전에 어떻게 번역했는지 찾아볼 수도 있다. 이를 용례 색인concordance이라 한다. 이런 기법을 활용하는 번역을 컴퓨터 보조 번역Computer-assisted translation(CAT)이라 한다. 어쩌면 (인간 번역가가 하는) 번역은 기계번역 원고를 원문과 대조하여 후처리하는 단순 업무로 전락할지도 모른다. 출판번역은 아직 이런 체계가 갖추어지지 않았기 때문에, (매절 계약의 경우) 번역 원고의 매수에 따라 번역료가 산정된다. 하지만 출판번역계에도 컴퓨터 보조 번역이 도입된다면 번역의 본질에 대한 의문이 제기될 것이다. 번역은 예술일까, 노동일까? 매절은 번역을 노동으로 간주하는 것이고 일한 만큼 대가를 받는 것인데, 컴퓨터 보조 번역으로 인해 노동 강도가 세지고 번역료가 낮아진다면 이를 감수할 수 있을까? 그렇다면 번역료는 노동의 대가가 아니라 생계비의 개념으로 보아야 할까? 나의 번역이 컴퓨터의 번역과 큰 차이가 없다면 나는 어떤 근거에서 노동의 대가를 달라고 주장할 수 있을까?
분야가 정해져 있고, 정형화된 문장을 주로 쓰는 기술 문서, 일기 예보, 스트레이트 신문 기사 등은 컴퓨터 보조 번역을 거쳐 점차 기계번역으로 대체될 것이다. 어쩌면, 기계번역이 보편화된다면 글을 쓸 때부터 기계번역을 염두에 두고 ‘기계번역 친화적’인 문장을 쓰려고 노력할지도 모른다. 이를테면 영국의 언어학자 찰스 케이 오그던이 제안한 쉬운 영어Basic English가 글쓰기의 표준이 될 수도 있다. 한편 출판번역의 경우에도, 내용만 그럭저럭 전달하면 그만인 분야에서는 기계번역이 인간 번역가를 대체할지도 모른다. 처음에는 원서를 구글 번역으로 돌린 뒤에 원문과 대조하면서 어색한 문장만 고쳐서 납품하는 번역가가 등장할 것이고 기계번역의 성능이 훨씬 개선되면 아예 기계번역된 원고를 제 이름으로 내놓는 사람이 생길지도 모른다. 식품으로 치면 원산지 허위 표기인 셈이다. 그런데 이렇게 속여도 편집자나 독자가 알아차리지 못한다면 번역가는 무사히 부당 이득을 챙기게 될까? 이 사실이 들통나는 순간 그뿐 아니라 대부분의 번역가가 퇴출되고 컴퓨터 프로그램으로 대체될 것이다. 번역가가 필요없다는 것을 번역가 자신이 입증한 것이니 말이다.
물론 이런 일은 일어나지 않을 것이다. 바둑에서는 이기는 수가 좋은 수이지만 번역에서는 ‘이긴다’라는 개념이 없기 때문이다. 좋은 번역과 나쁜 번역이 있는 것은 사실이지만 양극단 사이의 스펙트럼에는 무수한 점이 있을 수 있으며, 심지어 가장 나쁜 번역도 관점에 따라서는 좋은 번역이 될 수도 있다. 바둑에서는 평범한 기보를 무수히 학습하여 필승의 수를 알아낼 수 있지만 번역에서는 평범한 번역을 무수히 학습한다고 해서 최상의 번역 기법을 터득할 수는 없다. 어쩌면 한 번역가의 모든 작품에 대한 병렬 말뭉치(원문과 번역문을 나란히 배열한 데이터베이스)를 컴퓨터가 학습하도록 한다면 그의 문체를 흉내 낼 수 있을지도 모르겠다. 물론 이것은 기존의 무작위 병렬 말뭉치로 기본적인 학습을 끝낸 상태에서 ‘가치망’을 조정하는 작업일 것이다. 음악에서는 모차르트나 베토벤의 양식을 감쪽같이 흉내 내는 작곡 소프트웨어가 일찌감치 나와 있다. 언어에서도 이렇게 할 수 있을까? 만일 가능하다면, 소설이 먼저일까 번역이 먼저일까? 노老소설가나 노번역가의 평생에 걸친 작품을 분석하여 사후에도 그의 문체를 되살릴 수 있다면 우리는 여전히 (컴퓨터가 쓴) 그 글을 읽고서 감동받을 수 있을까? ‘저자는 죽었다’라는 선언에 동의한다면, 문체가 (살과 뼈를 가진 인간으로서의) 저자와 독립적으로 존재할 수 있다는 데 동의해야 할 것이다. 그렇지 않더라도, 그가 쓴 글과 컴퓨터가 쓴 글을 구별할 수 없는 지경이 되면 우리는 ‘저자는 문체가 스스로를 표현하는 수단에 불과하다’라는 주장에 동의해야 한다. 텍스트만 보고서 상대방이 사람인지 컴퓨터인지 알아맞히는 시험에서 컴퓨터가 자신을 사람으로 가장하는 데 성공한다면 그 컴퓨터는 지능이 있는 것으로 간주해야 한다는 튜링 테스트의 논리를 적용한다면, 우리는 컴퓨터를 어엿한 저자로 인정해야 하며 문체의 진짜 소유자로 받아들여야 할 것이다. 하지만 문단 안에서, 아니 책 한 권 전체에서 일관성을 유지하는 것이 가능할까? 그러려면 얼마나 강력한 연산 능력과 얼마나 많은 저장 용량이 필요할까? 한 달 전만 해도 이런 가정은 공상에 불과하다고 치부했을 테지만, 알파고 이후로는 예전만큼 확신하지 못하겠다. 하지만 알파고와 인간 번역가의 대결이 성립할 수 있을까?
좀 더 상상의 나래를 펼쳐보자면, 기계번역은 공짜(?)로 제공될 것이다. 물론 지금도 그렇지만, 앞으로는 광고를 보거나 개인 정보를 제공하는 대가로 웹 문서뿐 아니라 잡지, 단행본도 번역본으로 읽을 수 있게 될 것이다. 인간 번역가의 번역은 인쇄술 등장 이전의 책이 그랬듯 소수의 전유물이 될 것이다. 물론 이때가 되면 극소수의 번역가만 살아남을 것이다. 기계번역과 별로 다르지 않은 결과물을 내놓는 번역가는 설 자리가 없을 것이다. 기계로 대량 생산되는 저렴한 제품이 수공예로 소량 생산되는 고급 제품이 구별되듯 기계번역과 인간의 번역이 구별될 것이다. 이런 시대에는 어떤 번역가가 살아남을까?