進化するAI翻訳でも“誤訳”なぜ起こる?発展途上のAI×人間が出来ることは?

AI翻訳を活用している企業

報道などでの翻訳テロップに対して、「誤訳ではないか」との反応が相次いでいる。

つい先日は、米トランプ前大統領の2度目の暗殺未遂事件を受けて、ハリス氏がXに投稿した「I am glad he is safe. Violence has no place in America.」との文言が、ニュース番組で「彼が無事でよかった。アメリカに暴力は存在しない」と訳され、内容の誤りを指摘する声があがった。(「アメリカでは暴力は許されない/暴力が入り込む余地はない」などの訳が正しいとされる)

小さな訳の違いが、大きなイメージの違いを生むこともある。

ある日本メディアが、日本語版で「福島第1原発処理水」だった記事タイトルを、英語版では「Fukushima water」と表記した。これには「他のメディアと同じように『treated water(処理された水)』でよくない?」「“汚染水”を意味することを知ってて書いてるだろ!福島への風評被害だ」といった批判の声も出ている。

技術の進歩によって、人間以外による翻訳も普及しつつある現代。

『ABEMA Prime』では、AI翻訳時代において、なぜ誤訳やニュアンスの違いが生じるのか、専門家とともに考えた。

翻訳・通訳の経験を生かして、AI翻訳を研究する立教大学の山田優教授は、翻訳には、何を伝えたいかの「命題」と、どう伝えたいかの「モダリティー」の2要素が必要だと説明する。

状況や経緯をAIに理解させていないと、意味は合っていてもニュアンスが違うなど、AIの“誤訳”が生まれることもある。

ハリス氏のケースは、「直訳としてはある程度間違っていないが、伝え方が間違っていた」との見方だ。

「AI翻訳が進化し、例えば“You can go.”は、canが『行く能力を持っている』か、『行く許可を与えるか』のどちらか、文脈を踏まえた誤訳になりつつある」。

一方で「機械翻訳はニュアンスや心情が読めないと言われがちだが、人間も間違える」と、誤訳はAIに限らない現状も語る。

「ビリー・アイリッシュの発言が、雑誌で過剰な“女性言葉”に日本語訳されて、読者から『こういうキャラじゃない』と指摘された。メッセージは合っていても、伝え方を間違えれば問題は起こる」。

山田氏が生成AIの変遷を振り返る。

「Googleなど今までの機械翻訳は、文字情報から確率論に基づいて、『おそらく世間で訳されている』であろう妥当な訳を出していた。ChatGPTも文脈を与えなければ機械翻訳と同様だが、周辺情報を加えると、ニュアンスをくんだ訳が出てくる。ユーザー側が文脈を絞り込むことで精度が上がる」。

そうした現状を踏まえつつ、「大規模言語モデルの可能性を、もっと探りたい」と考える。

「言葉を数値化ではなく、ベクトル化する。“I love you.”を日本語で『月がきれいですね』と訳すのは湾曲表現だと言われてきたが、両者を大規模言語モデルでの“コサイン類似度”で示すと、真意はどちらも近いものになる」と説明した。

日常会話でも直訳では困るシチュエーションがある。

例えば飛行機のドリンクサービスで、「私は紅茶で」とだけ言うような場面だ。

「かつては“I am a tea.”と訳されることもあったが、最近の翻訳は『私は今、飛行機で注文したい』と伝えると、ちゃんと訳してくれる」という。

ネット掲示板「2ちゃんねる」創設者のひろゆき氏は、「ネット上のデータを使った方が安上がりのため、SNS投稿を拾ってきてしまう」と推測する。

処理水報道の翻訳についても、「英語圏の人が『“Fukushima water”で伝わる』と多用すれば、そのデータが蓄積される。一般ユーザーの言葉の使い方に左右される現状で、機械翻訳には限界があるのではないか」と考察する。

個々の誤訳に対して、NG表現をリスト化して、1対1で対応させることは可能だと、山田氏は説明する。

「ある程度は統計的に処理しても、最後で個別に置き換えることができる。できない場合には、発信者が確認する責任を取るところに落ち着いてくるだろう」。

これにひろゆき氏は「ChatGPTなども差別表現などの禁止ワードを設定しているはずだが、“Fukushima”も“water”も、単語としては問題ない。組み合わせでアウトになる単語まで、人力で制限するのは難しい」と疑問を投げかけると、山田氏は「最終的には、信頼してチェックできる人が目を通す必要がある」と返していた。

参照元:Yahoo!ニュース