機械翻訳は1950年代には既に存在していたというのはご存じですか?しかしその技術が黄金期を迎えたのはここ10~15年のこと。機械翻訳は着実に改善されて広く利用されるようになり、翻訳者の日々の仕事に役立つツールへと成長しました。
機械翻訳とは?
機械翻訳には様々な定義があります。機械翻訳 (MT)、または自動翻訳とは簡単に言えば、コンピューターのソフトウェアが人間の手を介さず、ある言語のテキストを別の言語に翻訳する処理のことです。大量のソース言語とターゲット言語を機械翻訳エンジンで比較、一致させることで機能しています。
機械翻訳の簡単な歴史
現代の機械翻訳と同等の方式は、古くはアラビア語の暗号作成者Al-Kindiが体系的言語翻訳のメソッドを発達させた、9世紀のアッバース朝(現在のイラク)で言及されています。その技術は現代の機械翻訳エンジンでも利用され続けています。
自動的に翻訳するシステムを作るために、これまで様々な試みがなされてきました。例えば1933年にはロシアの科学者、Petr Petrovich Troyanskiiにより「言語を別言語に翻訳する際に単語を選択、印刷する装置」が発表されました。この装置はFree Code Campの記事にもあるとおり簡単なものでした。フィルムカメラ、単語カード、そしてタイプライターで構成されており、このころからすでに形態論や文法規則 (性、数など) も考慮したうえで翻訳する装置でした。
冷戦初期 (1950年代) になると、IBMが機械翻訳の実験を開始します。この時初めて、自社コンピューターでの自動翻訳が誕生し、49行のロシア語の文章の英語翻訳に成功しました。これは非常に大きな成功と思われましたが、実際はあいまいな解釈にならないよう十分に精査された文章を翻訳したものに過ぎませんでした。
しかしこの大きな進歩により各国の技術競争が進み、それが現在の機械翻訳と呼ばれるものが生まれるきっかけとなりました。
その後の数十年は、技術の停滞と進歩が繰り返されました。アメリカでは2つのシステム(LogosとSYSTRAN)が軍事目的で使用されていました。カナダでは気象情報を英語とケベック・フランス語間で翻訳するMETEOという技術が開発されました。
次に機械翻訳が大きく成長したのは、1980年代に日本がその競争に参加したのがきっかけです。それ以降、機械翻訳は大きく進化し、多くの翻訳エンジンが誕生しました。
今日存在している機械翻訳エンジンを、その誕生順にご紹介します。
機械翻訳の種類
統計的機械翻訳 (SMT)
統計的機械翻訳は、バイリンガルコーパスを使用して翻訳を出力するものです。バイリンガルコーパス(ソースとターゲットが対になったテキスト)から統計分析を行い、文字列に対する翻訳の正しさの確率を見積もります。そしてその確率の中から最も正しいと考えられる文字列を選び出します。この種類の機械翻訳は文脈を考慮しないことが、注意点です。単純に統計をベースにしたものだからです。
ルールベース機械翻訳 (RBMT)
統計的機械翻訳に対し、ルールベース機械翻訳は、例えば各種辞書や文法などの言語的情報を拠り所とした手法です。このタイプのMTは翻訳の出力の際、文法に従い、形態、構文、意味までも考慮しており、ソースとターゲット言語両方の文法構造を分析したうえで翻訳を出力します。
しかし言語は生き物(常に変化し続けるもの)であるため、ルールベース機械翻訳は最近ではあまり使われなくなってきていることが、注意点です。
ハイブリッド機械翻訳
ハイブリッド機械翻訳はその名の通り、統計的機械翻訳とルールベース機械翻訳を組み合わせたものです。品質に関しては両方の良い所取りができるとはいえ、ハイブリッド機械翻訳もまた人の手による編集をかなり必要とします。
ニューラル機械翻訳 (NMT)
ニューラル機械翻訳は大規模なニューラルネットワークを活用して翻訳のやり方を自ら学習します。このメソッドは言語ペアによる翻訳結果の質が良く、人気が高まっています。
TranslateFXでも指摘しているとおり、「このニューラルネットワークのパラメーターは、何百万もの文章ペアでネットワークをトレーニングすることで構築、洗練されます。各文章ペアを実行するときに、バックプロパゲーションと呼ばれるアルゴリズムを使ってニューラルネットワークが少しずつ修正されていきます。」これにより、トレーニングが進むほどこのタイプの機械翻訳はより良い翻訳結果を導き出せるようになるのです。
現時点ではニューラル機械翻訳が最も進んだ機械翻訳の形です。しかしながら翻訳結果が自然な文章になってしまっているがために、ポストエディティングでは誤訳に気付かないままになってしまう、という欠点もあります。
機械翻訳のポストエディティング
機械翻訳のポストエディティングとは、その名の通り、リンギストがMTエンジンを使って文書を翻訳する場合に必要な工程です。その機械翻訳の内容を編集することをポストエディティングと言います。MTのスピードと、人間の頭脳が備える知識を組み合わせたこの方法は、今や世界中の翻訳者やLSPが活用しています。
機械翻訳がプロの翻訳者の中で議論される場合、機械翻訳のポストエディット (MTPE) に関することが多いです。ここ数年でかなり進化したとはいえ、機械翻訳の翻訳結果はまだまだ翻訳者による編集や校正が必要になることが常です。
もちろん、単純に機械翻訳だけで十分な場合もあります。MTとMTPEの違いや様々なユースケースについて、本シリーズの別記事で詳しくお話していますのでそちらもご覧ください。
機械翻訳はどのような場面で使うのか
以前にもお話しましたが、人の手による翻訳か、機械翻訳か、あるいは両方使うのかを判断するには様々な側面を考慮する必要があります。
ターゲットオーディエンス
考慮すべき重要なポイントの1つは、その翻訳がどこで、どのような目的で使用されるか、という点です。例えば社内のごく少数の人しかアクセスしないような社内文書や資料を翻訳するなら、目指すゴールは正確さよりも相互理解であるはずなので、MTPEは必要なく、MTだけで十分でしょう。
しかし、より価値の高い、多くの利害関係者の目に触れるようなコンテンツ(例えばウェブサイトやゲーム、不特定多数に向けた重要な文書など)の場合、機械翻訳も使えるかもしれませんが、分かりやすく読みやすいものにするための編集作業もある程度時間をかけて行う必要があるでしょう。
テキストの種類
機械翻訳のポストエディティングに向かないテキストもある、ということも知っておいてください。MTPEをワークフローに入れるべきかどうかは、翻訳成果物の用途と同じくらいテキストの種類に大きく依存します。
機械翻訳のポストエディティングは以下のような文書に向いています。
- ブログやプレスリリース
- 技術文書のテキスト
- 非公式の文書
- ニュース記事
- マニュアルや指示書
一方、ソースが以下のようなものの場合は注意が必要、あるいは機械翻訳は避けた方が良いでしょう:
- UX/UIのコピー:各分節が短いうえ、内容が文脈に大きく依存するためです
- 特定の分野における豊富な知識や経験が求められる文書(医学、工学、法律など)
- 言葉遊びやユーモアも重要な役割を担うマーケティング/広告コピー
そしてもちろん、機械翻訳は一切使わない方が良いものもあります。言葉にメッセージを込め、言葉によって読者の感情を揺さぶる、文芸翻訳がその一例です。そのほかにも、文脈やメッセージを伝えることに重きを置くクリエイティブコンセプトなどもあります。
機械翻訳(ポストエディティング)を使うメリット、デメリット
機械翻訳の是非は、翻訳業界においてさえもその意見が分かれます。一切使うべきでないという人もいれば、MTPEに未来を見出す人もいます。1つ確かなことは、ポストエディティングされた機械翻訳は絶対に、実際の翻訳者によって訳出されたもののような正確さ、「人間らしさ」と同等にはならないということです。しかし、それに近づけることはできます。そして大量のテキストを翻訳するのに費やす時間を考えればそれだけで十分な場面も多々あるはずです。MTPEは、翻訳のワークフローに便利な手法になり得ます。
機械翻訳のメリット
時間の節約になる
人間の手による翻訳の処理量は、1日で大体2,000ワードと言われていますが、機械翻訳のポストエディティングの場合、1日最大7,000ワードにまで増やすことができます。もちろん、ソーステキストがどの程度機械翻訳に適しているかは考慮する必要があります。例えばソーステキストが不明瞭であるほど出力される翻訳結果には、より多くのポストエディティングが必要になります。
memoQからのアドバイス:機械翻訳のポストエディティングの1手順目(ソーステキストを吟味して、様々なMTエンジンを試す)は省略せずしっかり行いましょう。面倒かもしれませんが、長い目で見ればこの手順は飛ばさない方が後から後悔せずに済みます。
コストを下げられることが多い
翻訳にかかる時間を減らせれば、もちろんプロジェクトに係るコスト全体を下げることができます。いわゆる編集距離を慎重に正しく評価して、すべて人の手で行う翻訳に要する総時間よりも、機械翻訳にかけた後の編集の方が短くなっていることを確認する必要があります。人の手による一からの翻訳よりも短時間(かつ低価格)で行うポストエディティングで、人の手によるものに近い品質の翻訳に到達するには、評価とテストを何度も繰り返す必要があります。
大量の文書を訳せる
自分の手で大量の文書を翻訳しようする場合、翻訳メモリやバイリンガルコーパスなどの必要なリソースがなければ非常に時間がかかる作業になってしまいます。このようなケースでは文書(または少なくともソース文書の一部)をMTエンジンにかけて前翻訳を実施することで時間を節約し、翻訳量を減らすことが出来ます。
高品質を目指せる
適切に評価を行い、ソーステキストに最も合うMTエンジンを選ぶことができれば、人の手による翻訳に近い高品質な翻訳結果を得ることができます。短時間で、しかも安く。
機械翻訳のデメリット
もちろん、機械翻訳が(ポストエディティングを行ったとしても)使えないケースも多々あります。機械翻訳の落とし穴をいくつか見ていきましょう。
すべての文書に合うわけではない
人の手による翻訳をせず、MTを使用する最も大きなデメリットは、MTが文脈を考慮できないという点です。機械翻訳が合う文書もあれば、人間の翻訳者のみに翻訳してもらうのが良い文書もあるのです。
正確さ
機械翻訳エンジンは文脈を予想できません。これはつまり、ソーステキストのスタイルや、原文に書かれている文化特有の概念なども考慮できないということです。
ローカライゼーションワークフローに機械翻訳を取り入れるなら
機械翻訳のポストエディティングをローカライゼーションプロジェクトに取り入れたいなら、必要な手順を正しく踏むことが重要となります。MTのメリットを最大限活かし、時間とコストを確実に節約したいなら、前翻訳を実施して分節の編集に取り掛かる前に、そのために必要となる最初の手順をしっかり踏んでください。
理想的な機械翻訳のポストエディティングワークフローを構築するための4つの手順(Nimdziより):
- ソーステキストの準備
まず、ポストエディティングのためにソーステキストの準備をしましょう。ここで、どのMTエンジンを使うかも判断しましょう。 - テストとQA
使いたい機械翻訳エンジンの候補が決まったら、ソーステキストの一部を抜き出し、それぞれのエンジンのパフォーマンスをテストしましょう。 - ポストエディティング
この段階が、多くの人が考える機械翻訳のポストエディティングです。翻訳者によるターゲットテキストの評価、編集の手順になります。 - QA
翻訳者およびレビュー担当者によるターゲットテキストの最終評価です。
memoQでは、皆様の会社ないしはプロジェクトでMTに投資し始める際、どの機械翻訳エンジンおよび手法が、ご自身の文書の種類や求める品質、業界に合っているかを、十分な時間をかけてテスト、評価することをお勧めしています。
memoQの機械翻訳
機械翻訳済みのテキストがありそのプロジェクトでどの程度のポストエディティングが必要かを理解しているのであれば、すぐにmemoQで作業を開始していただけます。当社のTMSでは、多数のMTエンジンをご使用になれます。どのエンジンが使えるか、そのインテグレーションによりmemoQがどう動作するのかについては当社の機械翻訳ページをご覧ください。用語ベース、翻訳メモリ、機械翻訳を組み合わせることでmemoQは機械翻訳のポストエディティングにおいて最良のソリューションとなります。
memoQ
memoQ is among the world's leading translation management systems. The favorite productivity tool for translation professionals around the globe.