自定义机器翻译引擎

常见问题

常见问题

什么是 SDL Language Cloud 自定义机器翻译引擎?

SDL Language Cloud 自定义机器翻译引擎通过 SDL Language Cloud Translation Toolkit 提供。 SDL XMT 是 SDL 机器翻译技术的核心所在。

SDL XMT 基准引擎是 SDL Language Cloud 自定义机器翻译引擎训练功能的起点。 使用这些引擎,您可以根据特定项目、客户或垂直行业的需求,自定义和定制自己的语言对。 所有语言对都使用 SDL XMT 训练技术创建,以标准形式提供。 XMT 的模块化方法可优化各种语言的培训流程。 通过 SDL Language Cloud 的训练功能,您可以利用客户提供的或自有翻译资产中相关的内容来训练机器翻译引擎,翻译结果只需稍作译后编辑即可使用。

什么是 SDL XMT?

大多数机器翻译引擎运用一刀切的方式处理所有语言对。 历经多年,SDL 意识到可以使用许多不同方法处理独特的语言习惯,同时不同语言对也有不同算法。 我们吸取这种经验,研发出 SDL XMT,这是一项模块化的灵活技术,使我们可以应对各门语言的此类挑战。 它是一个统计型系统,突破机器翻译中基于短语翻译的单一化设计,同时整合多种算法,基于源语言和目标语言的混合和匹配,力争提供比传统系统更卓越的翻译成果。 SDL XMT 也使机器翻译在一些新领域中得到应用,例如在社交媒体中,可以使用恰当的模块处理该类内容。

如何训练自定义机器翻译引擎?

入门非常简单:登录您的 SDL Language 帐户,在“机器翻译”区域中选择“自定义引擎”选项卡,将 TMX 文件上传到强大的训练环境。 SDL 拥有多年机器翻译经验,会将您的文件自动清理和准备成恰当的格式,以优化引擎培训流程,获得出色的结果。 训练一个引擎需要至少 90,000 个源词汇。 可以上传多个 TMX 文件来训练引擎。 每个 TMX 文件的容量限制为 250M。但是,可以将多个 TMX 文件合并成压缩文件上传。

训练流程是怎样的?

自定义机器翻译引擎的训练由四个阶段组成:

  1. 离线数据收集:从任何可用的资源(通常是翻译记忆库)中收集和评估平行数据,确保它们适用于训练项目,例如在同一领域中(比如旅游)且内容类型相同(比如度假套餐手册)。

    您无需对内容进行准备或清理,因为它将自动使用基于 SDL 多年机器翻译经验配置的设置,为每个引擎生成最优化的训练结果。 在此阶段中,您需要决定是否应该保留一些平行数据作为测试数据(用于对训练期间的引擎进行细微调整)。 如果不做任何保留,机器翻译训练功能将自动执行。

  2. 引擎训练:收集完训练所需的数据后,请在“自定义引擎”选项卡中选择“训练新引擎”。 上传一个或多个 TMX 文件,并按照简单明了的向导执行操作。 上传评估数据和示例数据(UTF-8 编码),然后开始训练。 训练过程需要大量的计算,因此根据当前的计算网格负荷,训练可能要排队并稍后运行。 训练可能需要几个小时,更新状态将在“自定义引擎”用户界面上显示。当训练完成后,用户将收到一封电子邮件。

  3. 引擎评估:引擎将通过已上传的评估数据自动评估;如果没有上传评估数据,引擎将从训练数据中随机选择 1000 个词条进行评估。 这用来计算 BLEU 分数,也就是用于衡量机器翻译和人工翻译之间的相似度。 为了测试训练过的引擎,必须将其部署到您的 SDL Language Cloud Translation Toolkit 帐户。

    一旦部署完成,即可通过 SDL Language Cloud Translation Toolkit 和 API(因此亦可通过 SDL Trados Studio 和 Microsoft Office 等工具)访问引擎。 引擎训练结果可以打包成压缩文件,包含 CSV、XLIFF 或 TMX 格式的以下内容:源文本、训练过的引擎提供的翻译、基准引擎提供的翻译。 然后,您可发送压缩文件给译员进行评估。

  4. 引擎激活:在开始使用训练过的引擎之前,需将其“激活”。 在用户界面点几下鼠标,执行几个操作即可。

可以训练哪些语言?

训练自定义机器翻译引擎时,可以使用任意可支持的语言组合。 请注意,如果没有相应的 SDL 基准引擎,训练将从头开始,而不是在现有基准引擎上逐步构建。 此处为基准引擎的完整列表。

训练一个引擎需要多长时间?

TMX 文件上传完成后,将通过服务器 API 发送到我们的机器翻译团队。 训练引擎所需时间首先取决于排队时间,也就是说,已提交的训练请求数量。 其次,还取决于上传的语言对和训练数据的大小。 使用 200MB 且包含约 250 万个单词的 TMX 文件训练引擎,需要约 4 小时。 请注意,训练引擎会高度占用 CPU,因此最长可能需要 24 小时。 当您的任务已经得到安排、训练开始及完成时,您都会收到相应的通知邮件。 如果在训练引擎过程中出现错误,您也会收到通知邮件。

如何使用训练过的引擎?在哪里使用?

自定义机器翻译引擎通过 SDL Language Cloud Translation Toolkit 使用。 这些引擎与 SDL 创建的引擎并无二致。 它们的使用方式也相同,比如通过 SDL Language Cloud Translation Toolkit API,通过 SDL Language Cloud 在线使用,通过 SDL Trados Studio 和 Microsoft Office 等。

请注意这些引擎不能用于 SDL Language Weaver 企业级翻译服务器或 SDL BeGlobal。

我可以分享自己训练的引擎吗?

您可以通过分享 API 密钥与另一名用户分享训练过的引擎。 此外,您也可以通过 SDL 来授予共享权。 您还可以下载评估数据和训练过的引擎文件(例如腾出空间来训练新引擎)。 当您以后想再次使用该训练过的引擎时,SDL 可以为您部署这些数据和文件。

SDL 能帮我训练引擎吗?

可以,您可以上传 TMX 数据训练自己的引擎,或者由 SDL iMT 团队代替您训练,然后将其部署到您的 SDL Language Cloud 帐户中。 这些项目在您帐户的“自定义引擎”选项卡的“SDL 训练”栏中显示。

我可以使用 SDL Language Cloud Translation Toolkit API 吗?

SDL Language Cloud 的安全性如何?

您可以放心地使用 SDL Language Cloud 机器翻译,您的内容将绝对安全。 SDL 保证不会保存或使用您的任何数据。 有关更多信息,请参考 SDL Language Cloud 条款和条件

当您训练机器翻译引擎时,您上传的数据将存储在我们位于美国圣何塞的安全服务器中。 我们使用行业标准最佳实践来加密协议,保护您的数据在用户及翻译引擎之间安全传递。 您的所有数据,甚至在训练翻译引擎过程中,都是安全的、私密的。 SDL 绝不使用这些数据提升或训练自己的机器翻译引擎。 SDL 仅使用公共领域的数据,且所使用数据不以原有形式复制。

如需更多信息,请在此处阅读“安全港隐私政策”和“托管产品隐私政策”(包括 Language Cloud 具体规定)。

在哪里可以得到帮助?

如遇到任何问题,您可以通过您的 SDL Language Cloud Translation Toolkit 帐户获取帮助。 点击屏幕右上方的问号图标,然后选择“帮助和支持”。