今回の旅行で役に立ったのが、Google機械翻訳のサイト(translate.google.co.jp)。日常生活では、せいぜい英語ぐらいしか使わないので、機械翻訳は訳質が悪いと、けちをつけていたが、さすがにCroatia語になるとからきしお手上げで、ずいぶんお世話になった。日本語としては、まだまだ意味不明なものが多いが、それでも何をかいてあるのかさっぱりというより、少しでもわかる箇所があるというのは本当に助かった。
注意書きを読んで、少し驚いたのは、統計言語モデルベースでの機械翻訳だったこと。
解説すると、機械翻訳には、ルールベースと統計モデルベースの2つの方式がある。ルールベースは、Bookという言葉が、"I read a book"のように、動詞"Read"が前に来ていたら、"本"と訳し、"I booked the room"のように、動詞として使われたら、"予約する"というように訳すといったように翻訳のルールを書き連ねていき、それに沿って翻訳をするもの。一方の統計言語モデルは、言葉の間のつながり方の出現頻度をデータベースとして持つもの。
少し前に、機械翻訳のビジネスにかかわっていた。ルールベースは、詳細なルール化が出来るほど約質は向上するという長所の反面、ルールの収集が人手によることや規模が大きくなると翻訳エンジンへ負担が大きくなるという欠点がある。
一方の統計言語モデルは、まだまだ研究途上にあり約質が満足できるレベルでないため商用的には程遠いと考えられていた。
そして、モデルベースが最初に商用化されるとした、マイナーな言語間であれば、人手をかけていいものを100年待つよりありもので満足する方がましとの考えから受け入れられるだろう。そして、こうしたそれぞれの長所を生かして、将来的には統計言語ベースのモデルに部分的にはルールベースを使用するハイブリッド型できれば、コストパフォーマンスがよいものができるだろうと考えていた。
今回、Croatia語(Bosnia語/Serbia語)→日本語という、まさにマイナーな言語間の翻訳をやってみて、当時考えていたことが間違っていなかったと思った。でも、当時考えている以上に、統計言語モデルが進化しているとも感じた。(既にハイブリットなのかも)