カスタム機械翻訳エンジン

よくある質問

よくある質問

SDL Language Cloudのカスタム機械翻訳エンジンとは何ですか。

SDL Language CloudのカスタムMTエンジンは、SDL Language Cloud Translation Toolkitを通じて提供されます。 SDLの機械翻訳テクノロジの中核となるのはSDL XMTです。

SDL XMTのベースラインエンジンが、SDL Language CloudにおけるカスタムMTエンジンのトレーニング機能の原点です。 この機能により、特定のプロジェクトやクライアント、業種に合わせて、独自の言語ペアをカスタマイズしたり調整することができます。 すべての言語ペアが、SDL XMTのトレーニングテクノロジを使用して作成された標準仕様で提供されます。 XMTはモジュール型アプローチを採用しているため、トレーニングプロセスを言語ごとに最適化できます。 SDL Language Cloudのトレーニング機能を使用すると、クライアントや自社の翻訳資産の関連コンテンツを利用してMTエンジンをトレーニングできるため、ポストエディットの負担を軽減できます。

SDL XMTとは何ですか。

ほとんどのMTエンジンでは、サポート対象の全言語ペアのいずれにも対応するアプローチをとっています。 SDLは、長年の経験により、言語の細かな特徴に対処する方法はさまざまであることと、相性の良いアルゴリズムは言語ペアによって異なることを把握しています。 この経験を活かして開発したのがSDL XMTです。SDL XMTはモジュール型の柔軟なテクノロジで、言語特有のさまざまな課題に対処できます。 柔軟性のない語句ベースによる設計の機械翻訳から進化した統計ベースのシステムであり、原文言語と訳文言語に基づいた組み合わせや一致を可能にするよう設計されたアルゴリズムを採用しています。このため、以前のシステムと比較して非常に高い品質の翻訳を提供できます。 SDL XMTは、ソーシャルメディアなどの新しい分野のコンテンツにも対応するモジュールを使用し、機械翻訳を適用できます。

カスタムMTエンジンをトレーニングするには、どうすればよいですか。

トレーニングは簡単に開始できます。SDL Languageアカウントの[機械翻訳]エリアにある[カスタムエンジン]タブで、SDLの強力なトレーニング環境にTMXファイルをアップロードするだけです。 ここでもSDLのMTに関する長年の経験が活かされており、ファイルは自動的にクリーンアップされ、最高の結果を得るためにエンジントレーニングを最適化するよう準備されます。 エンジンをトレーニングするには、90,000ワード以上の原文が必要です。 TMXファイルを複数アップロードすることもできます。 TMXファイルのサイズは、1ファイルにつき250MBまでですが、.zipファイルを使用すれば複数のTMXファイルをまとめてアップロードできます。

トレーニングワークフローを教えてください。

カスタムMTエンジンのトレーニングは、4つのフェーズで構成されています。

  1. オフラインでのデータ収集:並列データは、利用可能なあらゆるソース(通常は翻訳メモリ)から収集し、トレーニングプロジェクトに適しているか、つまり分野(例:旅行)とコンテンツタイプ(例:パッケージ旅行のパンフレット)が同等かどうかを確認する必要があります。

    コンテンツを準備したりクリーンアップする必要はありません。これらの処理は、機械翻訳に関するSDLの長年の経験に基づいて構成された設定を使用して自動的に行われ、各エンジンが最適な翻訳結果を提供するようになっています。 この段階では、一部の並列データについてテストデータとしての使用(トレーニング中にエンジンの調整に使用)を保留するかどうかを決める必要があります。 保留するデータがない場合は、MTトレーニング機能で自動的にテストデータとして使用されます。

  2. エンジントレーニング:トレーニングに使うデータを収集したら、[カスタムエンジン]タブで[Train a new engine]を選択します。 1つ以上のTMXファイルをアップロードし、ウィザードの指示に従って処理を開始します。 評価データとサンプルデータ(UTF-8エンコード済み)をアップロードし、トレーニングを開始します。 トレーニングには、かなりの演算処理能力が必要です。計算グリッドの現状の負荷にもよりますが、トレーニングがキューに入り、後で実行されることもあります。 トレーニングの実行に時間を要することもあります。最新のステータスは[カスタムエンジン]ユーザーインターフェイスに表示され、トレーニングが完了するとユーザーにEメールが送信されます。

  3. エンジンの評価:アップロードした評価データを使用して、エンジンが自動的に評価されます。評価データがアップロードされていない場合は、トレーニング用データからランダムに選択された1000行が使用されます。 この評価は、機械翻訳と人の手による翻訳の類似度を示すBLEUスコアの計算に使われます。 トレーニング済みエンジンをテストするには、SDL Language Cloud Translation Toolkitアカウントが必要です。

    SDL Language Cloud Translation Toolkitアカウントでは、SDL Language Cloud Translation ToolkitやAPI(SDL Trados StudioやMicrosoft Officeなどのツール)を通じてエンジンにアクセスできます。 エンジントレーニングの結果は、.zipファイルとしてパッケージ化できます。この中には、原文テキスト、トレーニング済みエンジンで作成された翻訳、ベースラインで作成された翻訳のコンテンツが、CSV形式、XLIFF形式、またはTMX形式で入っています。 この.zipファイルは、翻訳者に送信し評価してもらうことが可能です。

  4. エンジンのアクティブ化:実際の翻訳作業でトレーニング済みエンジンの使用を開始するには、エンジンを「アクティブ化」する必要があります。 アクティブ化は、ユーザーインターフェイスで数回クリックするだけで実行できます。

トレーニング可能な言語を教えてください。

カスタムMTエンジンのトレーニングは、サポートされている言語のあらゆる組み合わせで実行できます。 対応するSDLベースラインエンジンがない場合は、既存のベースラインを利用するのではなく、トレーニングをいちから実施する必要があります。 ベースラインエンジンの一覧は、こちらで確認してください。

エンジンのトレーニングには、どの程度の時間がかかりますか。

TMXファイルをアップロードすると、サーバーAPIを介してMTチームに送信されます。 エンジンのトレーニングにかかる時間は、第1にキューの時間によりますが、送信されたトレーニングリクエストの数によっても異なります。 第2に、言語ペアとアップロードしたトレーニング用のデータのサイズも影響します。 例えば、約250万ワードを含む200MBのTMXファイルをアップロードしてエンジンのトレーニングに使用する場合は、4時間程度かかります。 エンジンのトレーニングには、CPUを大量に使用し、最長24時間かかることがある点にご注意ください。 ユーザーには、スロットの割り当て時、トレーニングの開始時、トレーニングの完了時にEメール通知が送信されます。 エンジントレーニングプロセス中にエラーが発生した場合も、Eメールで通知されます。

トレーニング済みのエンジンは、どこでどのように使用できますか。

カスタムMTエンジンは、SDL Language Cloud Translation Toolkitを通じて使用できます。 SDLが作成したエンジンとまったく変わりません。 SDL Language Cloud Translation Toolkit APIを通じて、SDL Language Cloudオンライン内で、SDL Trados StudioやMicrosoft Officeからなど、同じ方法で使用できます。

ただし、SDL Language Weaver Enterprise Translation ServerやSDL BeGlobalでは使用できないため、ご注意ください。

独自にトレーニングしたエンジンをほかのユーザーと共有できますか。

トレーニング済みエンジンは、APIキーを共有することでほかのユーザーと共有できます。 または、共有権限をSDLから取得できます。 (スペースを解放して新しいエンジンをトレーニングするなどの目的で)独自のの評価データやトレーニング済みエンジンのファイルをダウンロードすることも可能です。 ダウンロードしたトレーニング済みエンジンを後で再度使用したい場合は、SDLを通じてそのファイルを展開できます。

SDLでエンジンをトレーニングしてもらえますか。

はい。ご自身でTMXデータをアップロードしてエンジンをトレーニングすることも、SDL iMTチームが代わりにトレーニングを行いSDL Language Cloudアカウントに展開することもできます。 SDLがトレーニングしたエンジンは、お客様のアカウントの[カスタムエンジン]タブにある[SDL trained]列に表示されます。

SDL Language Cloud Translation Toolkit APIを利用できますか。

SDL Language Cloudのセキュリティは万全ですか。

SDL Language Cloudの機械翻訳では、コンテンツのセキュリティが確保されています。 SDLは、お客様のデータが保存または使用されることがないことを保証いたします。 詳しくは、SDL Language Cloudの利用規約をご参照ください。

MTエンジンをトレーニングする際、エンジンのトレーニング用にアップロードしたデータは、米国サンノゼにあるSDLのセキュアなサーバーに保存されます。 SDLでは、暗号化プロトコルに業界標準の最良手法を使用し、ユーザーと翻訳エンジン間を移動するお客様のデータを保護しています。 お客様のデータはすべて、翻訳エンジンのトレーニング中であってもセキュリティとプライバシーが確保されています。 SDLが、こうしたデータを当社独自のMTエンジンの強化やトレーニングのために使用することはありません。 SDLでは、公有財産の利用可能なデータのみを使用しています。使用するデータを元の形式で複製することはありません。

詳しくはこちらで、Safe Harbour Privacy PolicyとHosted Products Privacy Policy(Language Cloudの仕様を含む)をご確認ください。

ヘルプはどこにありますか。

何か問題が発生した場合に、SDL Language Cloud Translation Toolkitアカウントからヘルプにアクセスできます。 画面の右上にあるクエスチョンマークのアイコンをクリックして、[Help & Support]を選択します。