進化し続ける Google 翻訳

Google翻訳には「統計的機械翻訳」と呼ばれる技術が使われていて、現在広く使われている構文解析のアプローチとは異なる。

簡単に言ってしまえば、膨大な過去の訳例に基づいて、確率的にもっともそれらしいと思われる訳文を作りだすというアプローチ。

この方法では、参考に用いられる例文(コーパス)の品質と、統計処理のアルゴリズムが翻訳の質に大きな影響を与える。

Google 翻訳
http://translate.google.co.jp/

Google 翻訳が登場した当初は、そのひどい翻訳結果に幻滅したものだが、最近ではかなり精度が向上しているように感じる。
2008年と2011年5月の時点で、具体的にどのように翻訳精度が向上したかを示している次の記事が興味深い。

Google 翻訳の英日翻訳の品質について 2011 年版(Overlasting::Life)
http://diary.overlasting.net/2011-05-12-1.html

この記事では、2008年と2011年5月の翻訳結果を比較しているが、今回改めて、2011年5月の時点で不適切な結果だった例を試してみた。英文と各時点での翻訳結果を次に示す。

  • 「I forgot to call her last night.」
  • 2008年:パスワードを忘れて彼女の最後の夜をコールします。
  • 2011年5月:私は彼女の最後の夜に電話をするのを忘れた。
  • 2011年9月:○私は昨夜、彼女を呼び出すのを忘れていました。
  • 「She doesn't know how to play golf.」
  • 2008年:彼女はゴルフをする方法を知っています。
  • 2011年5月:彼女がどのようにゴルフを分かっていない。
  • 2011年9月:○彼女はゴルフをする方法を知りません。
  • 「The dictionary on the desk is mine.」
  • 2008年:辞書を机の上には、鉱山です。
  • 2011年5月:机は私のものですの辞書。
  • 2011年9月:○机の上の辞書は私のものです。

驚くことに、この数ヶ月間で適切な訳ができるようになっている!
過去に翻訳したことのある特定の文章だけ対応できている可能背もあるので、3番目の文章に似た構造を持つ、次の新しい文章でも試して見た。

  • 「The car in front of the bank is mine.」
  • 2011年9月:銀行の前の車は私のものです。

まったく問題ない。
Google 翻訳は、確実に精度を高めて言っているようだ。
開発グループには恐れ入る。

Google 翻訳が成長する秘訣として、他の翻訳サービスには見られない、ユーザーからのフィードバックを有効に活用する仕掛けの存在が挙げられる。

例えば、翻訳結果の右下には「翻訳を評価」を3段階で行うボタンがあり、ユーザが結果の良し悪しを評価しフィードバックとして返すことができる。また、翻訳結果の単語ごとに「クリックしてその他の翻訳を表示する」オプションがあるが、これも重要なフィードバックになるだろう。

さらに、Webページの自動翻訳では、文章にカーソルを重ねると「翻訳を改善する」オプションが表示される。

このように、ユーザーからのフィードバックを積極的に吸い上げることで、Google翻訳は日々成長している。

さらにGoogleGoogle 翻訳者ツールキット」という、翻訳作業をブラウザ上で支援するツールを提供している。翻訳メモリと用語集機能など、翻訳作業をするうえで我々に便利な機能が提供されているが、その一方で、ユーザが整備した用語集はGoogle 翻訳の性能向上にも活用されているのではないだろうか。

Google 翻訳者ツールキット
http://translate.google.com/toolkit?hl=ja

クラウド型の翻訳ツール「Google 翻訳者ツールキット」(WEB版 The Professional Translator)
http://e-trans.d2.r-cms.jp/blog_detail/&blog_id=8&id=37

Google翻訳が万能というわけではない。株式会社 Preferred Infrastructure の 岡野原 大輔氏が情報科学若手の会2011で行った講演のスライドをみると、自然言語処理の楽しさと可能性にワクワクさせられる。

■ 研究・企業・生き方について (株式会社 Preferred Infrastructure 岡野原大輔) (Slide Share)
http://www.slideshare.net/pfi/2011-9314423

機械翻訳によって、コミュニケーションにおける言語の壁が消えて無くなる日が来るのは、意外と近いかもしれない。


※ 現在のGoogle翻訳の能力
■原文

Machine translation, sometimes referred to by the abbreviation MT (not to be confused with computer-aided translation, machine-aided human translation MAHT and interactive translation) is a sub-field of computational linguistics that investigates the use of computer software to translate text or speech from one natural language to another.

■翻訳結果(20011年9月22日)

時には略語のMTで参照される機械翻訳、(コンピュータ支援翻訳と混同しないように、マシン支援、人間の翻訳はMAHTとインタラクティブな翻訳が)テキストかを翻訳するコンピュータソフトウェアの使用を調査し、計算言語学のサブフィールドです。一つの天然の言語から別のスピーチ。

■翻訳結果(20012年8月24日)

時々略称MTによって呼ば機械翻訳は、(コンピュータ支援翻訳と混同されないため、マシン支援ヒューマン翻訳はMAHTとインタラクティブな翻訳)は、テキストまたはを翻訳するためにコンピュータソフトウェアの使用を調査し、計算言語学のサブフィールドである1自然言語から別の言語へのスピーチ。


言語と計算 (4) 確率的言語モデル

言語と計算 (4) 確率的言語モデル

入門 自然言語処理

入門 自然言語処理