Deep Learning技術が変えた翻訳の世界

AIといえば、将棋や囲碁で人間の名人に勝ったり、車を自動で運転したり、無人の店舗を運営したり、といったインパクトのある話題がまず思い浮かぶかも知れない。AIのビジネスでの活用領域は多岐に亘るが、AIの仕組みやビジネス性を理解しやすい実例として、今回は『AI翻訳』を取り上げたいと思う。

和訳や英訳は誰もが一度は行った ことがあるかと思うが、まずはAIはそれをどうやるか、という仕組みを簡単に解説する。

コンピュータが行う翻訳は、数年前まで、『統計的機械翻訳』(SMT : Statistical Machine Translation)という方式が主流であった(図1)。

図1 統計的機械翻訳技術イメージ

SMTを単純に言うと、英文和訳であれば、英文を日本語の語順に並び替えて、単語毎の訳を繋ぎ合せるという方法である。膨大な訳文例をコンピュータに学ばせる(機械学習)ことで、翻訳する時の単語の並びの入れ替わり方を確率で決めたり、tailには「服のすそ」という意味もあるが、cat(猫)と一緒に使われたら訳語は「尻尾」の確率が100%、といった計算処理をしている。

図2 ニューラル機械翻訳技術イメージ

訳文が不自然になったり、並び替えや単語訳を正しく行うチューニングの大変さといった問題があった。この従来技術を塗り替えたのが『ニューラル機械翻訳』(NMT: Neural Machine Translation)である(図2)。

これも単純化して言うと、英文和訳であれば、英文を数字の列に数値化する。数値が表しているものは、英語の「文の意味」である。その数値を日本語で表すとどうなるか、が分かれば、和訳ができたことになる。SMT の逐語訳による翻訳を、NMTは数値計算による翻訳に変えた。AIが語学を数学にして解いている。

少し学術的な話になってしまったが、幾層も繋がったニューラルネット(人間の神経回路と似た伝達構造のアルゴリズム)を使って、データの持つ特徴量を自動で抽出するということが、最近のAI ブームを牽引するDeep Learning の仕組みである。そして、その特徴量をより正しく求められるようにするために、学習データがとても重要になっている。

AI 翻訳における学習では、図2に示したような入力文と翻訳後の出力文のセット(対訳データと言う)を大量に学習することで、中間にある特徴量の数値をチューニングする。翻訳の精度が出るかどうかは、学習量とチューニング次第である。

AI翻訳の実ビジネスでの活用

ここまで、仕組みの話が長くなったが、話をリアルな世界の翻訳ビジネスに戻す。

NTTコミュニケーションズでは、「ニューラル機械翻訳(NMT)」の仕組みを使ったAI翻訳サービス「COTOHA Translator」を2018年3月から提供している。

COTOHA Translatorは、NTTグループ企業の株式会社みらい翻訳とNTT研究所、そして国立研究開発法人情報通信研究機構(NICT)が連携して開発したAI翻訳エンジンをベースにしている。この翻訳エンジンは、上記の連携主体が持つ膨大な対訳データを学習しているので、図3の比較結果にあるように、日英の翻訳精度では世界最高の水準を達成している。

図3 AI翻訳エンジン比較(5点満点みらい翻訳社調査)

人が行う翻訳との比較で言うと、翻訳の専門家にはかなわないが、TOEICで900点を取るレベルのビジネスパーソンと日英の翻訳では同じレベル、という調査結果が出ている。AIの世界では、精度を出すために正確かつ大量の学習用データがいかに大切か、ということが分かる事例でもあると思う。

次にAI 翻訳をめぐるビジネス環境についてお話しする。

グローバル化された企業では、外国籍社員や海外のパートナー企業との資料共有、海外の論文やレポート等のタイムリーな情報収集等が日常業務として行われている。20名を超える社員が毎日、日本と米国のオフィス間の文書を翻訳しているという企業例もある。

AI 翻訳のCOTOHA Translator は、TOEIC900点レベルのビジネスパーソンが平均7時間程度かかる翻訳を、同等の精度で約2分で完了する。

また、使い方の特長として、Microsoft OfficeやPDF形式のファイルをPC上でドラッグ& ドロップするだけで、翻訳されたファイルを作成することができる。

日常的に社員が翻訳業務を行ったり、翻訳事業者に外注を行っているような企業では、AI翻訳を導入して、社員が最終的なチェックと手直しを行うという業務フローに変更することによって、翻訳にかかる稼働とコストを劇的に減らすとともに、より戦略的な業務に貴重な社員稼働をシフトすることが可能になる。

COTOHA Translatorは、サービス開始から約3カ月で100社を超えるお申込をいただき、日々ユーザーが増えるAI活用の拡大事例となっている。今後は、インターネット経由ではなく、企業内閉域網(VPN)内でご利用いただく形態や、お客様の社内に専用のAI翻訳サーバーをオンプレミスで設置する形態についても、お客様のニーズに合わせて順次サービスとして拡充していく方針である。

通常、AIによる分析モデルを作成するには、アルゴリズムの作成と学習用データの整備、データによる学習を通じた分析モデルのチューニング等々に多大な時間と稼働がかかる。個社別のソリューション毎に分析モデルを作成していると、1つの案件にかかるコストが高くなるとともに、分析モデルを作成・チューニングできる人材の稼働不足がボトルネックになる場合がある。

AI翻訳のように、高精度な1 つの学習済みAIモデルを様々な企業に横展開できるビジネスモデルは、AI活用サービスを早期に拡大していくという視点では分かりやすい事例と言える。

学習済み翻訳モデルに、お客様の社内や業界に特有の対訳データを追加学習させて更に翻訳精度を上げていく取組みや、TV会議内の発言を翻訳して画面に表示するような他サービスと連携した取組み等を通じて、AI翻訳の実ビジネスでの活用範囲は今後も更に拡大していくことが見込まれる。

<AI活用のことなら下記へ>

ai-strategy-ac@ntt.com