“바벨 피쉬가 현실이 된다면?” 메타의 새로운 AI 모델 SeamlessM4T는 실시간으로 101개 언어를 번역하여 글로벌 소통의 패러다임을 바꿀 준비를 하고 있습니다. 새로운 기술이 미래의 대화 방식을 어떻게 혁신할지 주목해보세요.
- 즉각적이고 정확한 번역 가능: SeamlessM4T는 음성을 텍스트로 변환하는 단계를 생략하여 23% 더 정확한 번역을 제공합니다.
- 언어 포괄성 향상: 기존 모델은 주로 영어 중심이지만, SeamlessM4T는 36개 언어로 음성을 바로 번역해 언어적 다양성을 지원합니다.
- 오픈소스 제공: 이 모델은 무료로 공개되어 연구자 및 개발자들이 이를 활용해 맞춤형 번역 솔루션을 개발할 수 있습니다.
소스
- Meta’s new AI model can translate speech from more than 100 languages | MIT Technology Review
- Meta AI creates speech-to-speech translator that works in dozens of languages
메타(Meta)는 101개 언어 간 음성을 실시간으로 번역할 수 있는 AI 모델 SeamlessM4T를 공개했습니다. 이 모델은 음성을 텍스트로 변환 후 번역하는 기존의 단계적 방식과 달리, 음성 간 직접 번역이 가능하여 번역 과정에서 발생하는 오류를 크게 줄였습니다. 연구에 따르면, SeamlessM4T는 기존 최고 성능의 모델 대비 23% 더 정확하며, 번역 결과를 36개 언어로 제공할 수 있습니다. 이는 구글의 AudioPaLM 모델이 지원하는 113개 언어 번역과 비교했을 때, 더 많은 대상 언어를 다룬다는 점에서 차별화됩니다.
SeamlessM4T는 특히 드문 언어 데이터를 다루기 위해 새로운 훈련 방식을 도입했습니다. 병렬 데이터 마이닝(parallel data mining) 기술을 활용하여, 인터넷과 국제 기구 아카이브에서 수집된 음성과 텍스트 데이터를 매칭해 대규모 훈련 데이터를 확보했습니다. 이러한 접근은 소수 언어(minority languages) 번역 성능을 강화하는 데 기여했습니다.
그러나 이 모델이 만능은 아닙니다. 번역의 문화적 맥락과 의미를 정확히 전달하기 위해서는 여전히 인간 번역자의 검증이 필요합니다. 특히 의료(medicine) 및 법률(legal) 분야에서의 활용 시 신중한 검토가 요구됩니다. 예컨대, 2021년 미국 보건 당국에서 백신 관련 정보를 번역했을 때 "not mandatory(의무 아님)"를 "not necessary(필요 없음)"로 잘못 번역하여 혼란을 초래한 사례가 있었습니다.
SeamlessM4T는 오픈소스 방식으로 제공되어, 연구자와 개발자들이 이를 기반으로 더욱 다양한 응용 프로그램을 개발할 수 있는 가능성을 열었습니다. 이 기술은 글로벌 소통의 새로운 기준을 제시하며, 디지털 커뮤니케이션의 혁신적인 도약을 이끌 것으로 기대됩니다.