기계번역은 하나의 언어로 기술된 문서를 다른 언어로 자동으로 번역하기 위한 제반 기술을 의미한다. 통상적으로 규칙 기반 기계번역(RBMT: Rule based machine translation)과 통계 기반 기계번역(SBMT: Statistical based machine translation), 그리고 규칙과 통계 기반 기술을 병합한 하이브리드 기계 번역으로 크게 나눌 수 있습니다. 하지만 알고리즘 측면에서 본다면 직접 방식, 중간언어 방식, 통계기반 , 하이브리드 번역 등으로 좀 더 세부적으로 나누어질 수 있다
인간이 사용하는 자연어(natural language)를 컴퓨터를 이용하여 처리하고자 하는 연구는 규칙 기반의 접근법(rule based approach)과 통계 기반의 접근법(statistics based approach)으로 나눌 수 있다. 통계 기반 접근법은 사람이 실제로 사용하는 많은 데이타로부터 확률정보 및 통계 정보를 추출하여 이를 통해 여러 언어현상을 규명하고자 하는 코퍼스 기반 접근법(corpus based approach)라고도 한다.
1. 기계번역과 통계기반 자연어 처리
작성자: 김선배 blesid@gmail.com
기계 번역 방법
기계번역은 하나의 언어로 기술된 문서를 다른
언어로 자동으로 번역하기 위한 제반 기술을
의미한다. 기계번역은 통상적으로 규칙 기반
기계번역(RBMT: Rule based machine translation)
과 통계 기반 기계번역(SBMT: Statistical based
machine translation), 그리고 규칙과 통계 기반
기술을 병합한 하이브리드 기계 번역으로 크게
나눌 수 있습니다. 하지만 기계 번역을 수행하
는 알고리즘 측면에서 본다면 직접 방식, 중간
언어 방식, 통계기반 , 하이브리드 번역 등으로
좀 더 세부적으로 나누어질 수 있다.
■ 직접 방식 기계번역
직접 방식의 기계번역은 원문에 대해 형태소
분석, 품사 태깅을 수행한 후, 각 형태소를 목
적 언어의 문법 구성에 맞게 재배열, 생략, 삽
입, 통합, 분리하는 방식으로 목적 문장을 생성
한다.
직접 방식의 기계번역은 한국어 일본어와 같은
유사 어족에 있어 90% 이상의 상당히 높은 번
역 품질과 번역 속도를 보이고 있어서 상용화
에 무리가 없지만, 한국어와 영어 및 중국어와
같이 구문 구조가 상이한 언어간 번역에는 부
적절하다.
■ 규칙 기반 기계번역(RBMT)
규칙기반 기계번역은 변환 방식 기계번역
(transfer based MT)으로도 알려진 기술로서 예
전의 대부분의 상용 엔진들이 이 방식을 적용
해 왔다. 번역 대상 원문에 대해 형태소 분석,
품사 태깅과 함께 구문 분석을 수행하고, 분석
된 원문의 구문 구조를 변환 규칙(transfer
rules)에 기반해 목표 언어의 구문 구조로 변환
하여 목표 언어 문장을 생성하는 방식이다.
변환 규칙을 마련한 언어는 높은 번역 성능과
품질을 보장하지만, 신규 언어를 번역하기 위
해서는 해당 언어에 대한 자원과 언어 전문가
를 확보하여 구문 변환 분석을 수행해야 하는
어려움이 존재하 다양한 언어로 번역이 불가능
하다.
■ 중간언어(Pivot) 방식 기계번역
중간언어 방식의 기계번역은 소스 언어 문장이
분석이 되면 중간 언어로 표현하고, 이 중간
언어를 중심으로 목표 언어 문장을 자동 생성
하는 방식이다. 목적언어의 생성은 원시 언어
와 전혀 무관하게 이뤄지는 것이 특징이다. 예
를 들면 한영 번역시 일본어를 중간언어로 활
용하면 한->일, 일->영으로 영어 문장을 손쉽
게 얻을 수 있는 것이다.
하지만 다수 언어가 가지고 있는 언어 현상을
충분히 표현해내는 신뢰할만한 중간언어를 설
계 구현하는 것이 어려움이 존재한다.
2. ■ 통계 기반 기계번역(SBMT)
통계 기반 기계번역은 대량의 말뭉치(Corpus)
로부터 학습된 통계 정보를 활용하여 목적언어
문장을 자동으로 생성하는 엔진을 말한다. 따
라서 정제된 언어쌍(코퍼스)에 대한 의존도가
무척 크다. 특정 도메인에 최적화된 번역엔진
을 개발하기 위해서는 최소 약 2백만 코퍼스
이 필요하며 일반 도메인에 적용하려면 그 이
상의 코퍼스가 필요하다. 하지만 대부분의 회
사가 최소 품질역량을 넘길 수 있는 코퍼스를
보유하기도 쉽지 않으며, 언어모델, 번역모델,
디코더 등의 성능과 품질 개선을 위한 엔지니
어링 리소스를 지속적으로 투자하지 않으면 적
정 수준의 품질을 얻기 불가능하다.
■ 하이브리드 방식 기계 번역
규칙 기반 기계번역(RBMT)의 강점과 통계 기
반 기계번역(SBMT)의 강점을 병합한 연구가
진행되고 있으며, 통계기반에 용어집과 사람에
의해 번역된 번역 메모리(Translation Memory)
를 재활용하여 품질을 개선하는 방식도 상용엔
진에서 진행중이다.
통계 기반의 자연어 처리 방법
인간이 사용하는 자연어(natural language)를
컴퓨터를 이용하여 처리하고자 하는 연구는 규
칙 기반의 접근법(rule based approach)과 통계
기반의 접근법(statistics based approach)으로
나눌 수 있다.
통계 기반 접근법은 사람이 실제로 사용하는
많은 데이타로부터 확률정보 및 통계 정보를
추출하여 이를 통해 여러 언어현상을 규
명하고자 하는 코퍼스 기반 접근법(corpus
based approach)라고도 한다.
통계 기반 자연어 처리는 코퍼스 구축과 코퍼
스 분석도구 개발, 중의성 탐색과 해소를 위한
품사 태깅, 통계기반 파싱, 기계 번역 등과 같
은 분야까지 연구가 확장되고 있다.
그리고 언어가 실제로 사용된 코퍼스로부터 추
출한 통계와 확률정보를 자연어 처리에 사용하
므로 어떤 영역의 데이타에 대해서도 처리할
수 있고, 확장성이 좋은 장점이 있지만, 시스템
수정이 어렵고 제한된 영역에 대하여 높은 정
확도를 보이는 규칙기반 접근법과 비교하여 정
확도가 떨어진다는 단점을 갖고 있다.
따라서 통계기반이냐 규칙 기반이냐의 접근법
은 응용 분야의 선택에 따라 결정되어야 한다.
예를 들면 질의어 응답 시스템 등과 같이 처리
영역이 매우 제한적이거나 정확성을 요구하는
분야를 위해서는 규칙 기반 접근법을 이용하는
것이 효율적이지만 음성인식, 문자인식, 그리고
음성 합성 분야 등 약각의 오류율을 감수하더
라도 모든 입력 데이터를 처리하기 위해서는
통계 기반의 접근법이 더욱 효과적일 것이다.
통계기반 접근법은 어휘 지식 획득(lexical
knowledge acquisition), 품사 태깅(part of
speech tagging), 문법 개발(grammar
construcion), 구문 분석(syntactic analysis), 기
계번역(machine translation) 등 많은 자연어 처
리 분야 발전가능성을 제시하였다