LLMによる翻訳:輝く場面と、ひそかに失敗する場面
言語モデルの翻訳はもう解決済みと感じるほど流暢です。本当に輝く場面、ひそかに失敗する場面、そしてなぜ流暢さが誤りを隠してしまうのかを解説します。
翻訳は、大規模言語モデルがまるごと解決してしまった問題の一つに感じられます。ある言語の段落を貼り付ければ、別の言語で流暢で自然なテキストが返ってくる——十年前のぎこちない機械翻訳よりはるかに優れています。日常的な多くの用途では、本当にそれくらい優秀です。しかし「流暢」と「正確」は別の性質であり、その両者の隔たりこそが、言語モデルによる翻訳が危うくなる場所です。なぜなら出力があまりに読みやすいために、誤りが誤りに見えないからです。本稿では、LLM翻訳が本当に輝く場面、ひそかに失敗する場面、そして自信たっぷりの誤訳を世に出さずに使う方法を扱います。
本当に輝く場面
その強みは流暢さと自然さです。古いシステムは一語ずつ翻訳し、技術的には正しくとも明らかに外国語然としたテキストを生み出していました。現代のモデルは、まるでネイティブスピーカーが書いたかのように読めるテキストを生み出し、慣用表現や文体、流れを、以前の手法には不可能だったやり方で処理します。外国語文書の要旨をつかむため、気軽なコミュニケーションのため、人間が後で磨く翻訳の下書きを得るためなら、これは本物の飛躍であり、膨大な時間の節約になります。
一つの文章の中での文脈処理も驚くほど得意です。段落を与えれば、あいまいな単語の正しい意味を周囲の文から選び取り、トーンを合わせ、ばらばらの文の羅列ではなく一貫したものを生み出します。その文脈把握こそが、人々が「ひどかった」と記憶している翻訳ツールとの主な違いです。
なぜ流暢さは罠なのか
ここに核心的なリスクがあります。出力は、正確かどうかにかかわらず、常に流暢なのです。誤訳は、古い機械翻訳のようにぎこちない言い回しで自らの存在を告げてはくれません。完璧に読め、しかも原文とは微妙に——あるいは完全に——異なる意味になっています。原語を知らない読者には、その誤りを見抜く術がありません。なぜなら唯一使えたはずの手がかり、すなわちぎこちなさが取り除かれてしまっているからです。
これは、人々が頼りにしている「自信と正しさの通常の関係」を逆転させます。私たちは、たどたどしい文章よりも、なめらかで自信に満ちた文章を信頼することに慣れています。LLM翻訳ではその直感が裏切られます。なめらかさは保証されているのに、正しさは保証されていないからです。モデルがネイティブらしく聞こえるほど巧みになるほど、読者はそれが間違っているときに気づけなくなります。
ひそかに失敗する場面
失敗は予測可能な場所に集中します。固有名詞、専門用語、領域特有の語彙は、そのまま残すか定着した訳語を当てるべきところで「翻訳」されてしまいます。否定や条件——意味を反転させる小さな言葉——は、文が何を約束しているかを変えてしまう形で、抜け落ちたり弱められたりします。数値や単位、書式は、慣習の違いをまたいで誤って扱われます。そして文化的な言及や慣用句は、文法的には正しいが無意味な何かに直訳されてしまいます。
長い文書には、それ自身の失敗が加わります。すなわち一貫性です。一ページ目である訳語が当てられた用語が、十ページ目では別の語に揺れてしまうのです。各かたまりが、前になされた選択を厳密に記憶することなく処理されるからです。同じ用語が毎回同じものを意味しなければならない法的契約書や技術マニュアルでは、たとえ個々の文が問題なくとも、その揺れは本物の欠陥です。
言語は平等ではない
ひそかな、しかし重要な現実として、品質は言語ペアによって途方もなく変わります。学習データが豊富な、広く使われる二言語間の翻訳は優秀です。リソースの乏しい言語が絡む翻訳や、めったに一緒に現れない二言語間の翻訳は、目に見えて弱くなります——より直訳的で、より誤りやすく、目に見えない中間言語として支配的な言語に頼りがちになります。Hugging Faceのドキュメントなどに記載されているツール群やモデルファミリーは、この格差を可視化しています。能力はデータに従い、データは世界の言語に均等に分布してはいないのです。
罠は、それでも出力が一様に流暢に見えてしまうことです。二つの主要言語間の翻訳ですばらしい体験をしたユーザーは、より珍しいペアにも同じ品質が当てはまると思い込み、流暢な出力は疑う理由を一切与えてくれません。自信は一様ですが、正確さはそうではないのです。
重大な局面での翻訳は別の問題である
気軽な理解のためなら、たまの誤りは無害です。しかし結果を伴うもの——法的文書、医療情報、安全に関する指示、ブランドを代表するマーケティング——では、計算がまるごと変わります。契約書の微妙な誤訳は責任の所在を移しかねず、投薬指示では人を傷つけかねず、公式声明では拡散する恥となりかねません。出力を読みやすくしているその流暢さこそが、重大な誤りが問題化するまで気づかれずに通り抜けることを許してしまうのです。
重大な局面での作業に対する成熟したアプローチは、モデルを下書きエンジンとして扱い、人間の翻訳者を最終的な権威とすることです。モデルが作業の大半を高速にこなし、両言語に堪能な人間が、抜け落ちた否定、揺れた用語、直訳された慣用句を捕まえます。この分担は、ゼロから翻訳するより速く、生の出力をそのまま世に出すよりはるかに安全です。人間によるレビューの水準は、間違ったときのコストに応じて調整すべきです——社内メールなら軽く、公開する契約書なら重く。
痛い目を見ずに使うために
いくつかの慣行が、安全な使い方と危うい使い方を分けます。その仕事が「これを理解する」ためなのか「これを公開する」ためなのかを最初に決めましょう。両者は異なる水準の精査を要するからです。公開する作業では、両言語を読める人間に出力をレビューさせ、全体的な読みやすさだけでなく、固有名詞、数値、否定、一貫性に注意を払わせましょう。特定の訳し方をしなければならない用語の用語集を用意し、出力がそれを守っているか確認しましょう。そして、流暢さが弱い正確さを覆い隠す、よりまれな言語ペアには特に注意しましょう。どれも特別なことではありません。なめらかさを真実の代理だと信頼しない、という規律にすぎません。
まとめ
LLM翻訳は本物の飛躍です。流暢で、自然で、文脈を踏まえており、理解のためにも下書きのためにも膨大な時間を節約してくれます。その危うさは強みの裏返しです——出力は正確かどうかにかかわらず常になめらかなので、古いシステムがぎこちなさで告げていた誤りが、今や完璧な姿で到着します。固有名詞、否定、数値、慣用句、そして長文書の一貫性でひそかに失敗し、リソースの乏しい言語ペアでははるかに弱いのに、同じくらい自信たっぷりに見えます。精査の度合いを賭け金に合わせましょう。要旨をつかむには信頼し、あらゆるものの下書きには活用し、公開されるものとモデルの間には二言語話者の人間を置きましょう。そうすれば強力なツールです。重大な局面で生の出力をそのまま世に出せば、いずれその場の誰にも見えない自信に満ちた誤りを公開することになるでしょう。
