腾讯开源翻译模型Hunyuan-MT-7B

模型介绍

混元翻译模型,包含一个翻译模型Hunyuan-MT-7B和一个集成模型Hunyuan-MT-Chimera。翻译模型用来将待翻译的文本翻译成目标语言,集成模型用来把翻译模型的多个翻译结果集成为一个更好的翻译。重点支持33种语言互译,支持5种民汉语言。

核心特性与优势

  • 在WMT25参赛的31种语言中,有30种语言获得了第一名的成绩。
  • Hunyuan-MT-7B在业界同尺寸模型中效果最优。
  • Hunyuan-MT-Chimera-7B是业界首个开源翻译集成模型,可以进一步提升翻译效果。
  • 提出了一个完整的翻译模型训练范式,从预训练->CPT->SFT->翻译强化->集成强化,翻译效果达到同尺寸SOTA。

新闻

  • 2025.9.1 我们在Hugging Face开源了 Hunyuan-MT-7BHunyuan-MT-Chimera-7B

模型链接

模型名称 描述 下载
Hunyuan-MT-7B 混元7B翻译模型 🤗 模型
Hunyuan-MT-7B-fp8 混元7B翻译模型,fp8量化 🤗 模型
Hunyuan-MT-Chimera 混元7B翻译集成模型 🤗 模型
Hunyuan-MT-Chimera-fp8 混元7B翻译集成模型,fp8量化 🤗 模型

提示词模板

ZHXX 翻译提示词模板。


将下面的文本翻译成<目标语言>,不要额外解释。

<源文本>


XXXX 翻译提示词模板(不包括ZHXX)。


将以下段落翻译成<目标语言>,不要额外解释。

<源文本>


Hunyuan-MT-Chimera-7B 提示词模板


分析以下用三重反引号包围的<源语言>段落的多个<目标语言>翻译,并生成一个单一的精炼<目标语言>翻译。只输出精炼后的翻译,不要解释。

<源语言>段落: <源文本>

多个<目标语言>翻译:

  1. <翻译文本1>
  2. <翻译文本2>
  3. <翻译文本3>
  4. <翻译文本4>
  5. <翻译文本5>
  6. <翻译文本6>

使用 transformers 推理

首先,需要安装最新版本的transformers,推荐v4.56.0

pip install transformers==4.56.0

以下代码片段展示了如何使用 transformers 库加载和使用模型。

!!! 如果你想用transformers加载fp8模型,你需要将config.json中的”ignored_layers”改为”ignore”并将compressed-tensors升级到compressed-tensors-0.11.0。

from transformers import AutoModelForCausalLM, AutoTokenizer
import os

model_name_or_path = "tencent/Hunyuan-MT-7B"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")  # You may want to use bfloat16 and/or move to GPU here
messages = [
    {"role": "user", "content": "Translate the following segment into Chinese, without additional explanation.\n\nGet something off your chest"},
]
tokenized_chat = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=False,
    return_tensors="pt"
)

outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])
支持的语言: 语言 缩写 中文名称
中文 zh 中文
英语 en 英语
法语 fr 法语
葡萄牙语 pt 葡萄牙语
西班牙语 es 西班牙语
日语 ja 日语
土耳其语 tr 土耳其语
俄语 ru 俄语
阿拉伯语 ar 阿拉伯语
韩语 ko 韩语
泰语 th 泰语
意大利语 it 意大利语
德语 de 德语
越南语 vi 越南语
马来语 ms 马来语
印尼语 id 印尼语
菲律宾语 tl 菲律宾语
印地语 hi 印地语
繁体中文 zh-Hant 繁体中文
波兰语 pl 波兰语
捷克语 cs 捷克语
荷兰语 nl 荷兰语
高棉语 km 高棉语
缅甸语 my 缅甸语
波斯语 fa 波斯语
古吉拉特语 gu 古吉拉特语
乌尔都语 ur 乌尔都语
泰卢固语 te 泰卢固语
马拉地语 mr 马拉地语
希伯来语 he 希伯来语
孟加拉语 bn 孟加拉语
泰米尔语 ta 泰米尔语
乌克兰语 uk 乌克兰语
藏语 bo 藏语
哈萨克语 kk 哈萨克语
蒙古语 mn 蒙古语
维吾尔语 ug 维吾尔语
粤语 yue 粤语

引用混元-MT:

@misc{hunyuanmt2025,
  title={Hunyuan-MT Technical Report},
  author={Mao Zheng, Zheng Li, Bingxin Qu, Mingyang Song, Yang Du, Mingrui Sun, Di Wang, Tao Chen, Jiaqi Zhu, Xingwu Sun, Yufei Wang, Can Xu, Chen Li, Kai Wang, Decheng Wu},
  howpublished={\url{https://github.com/Tencent-Hunyuan/Hunyuan-MT}},
  year={2025}
}
© 版权声明
THE END
喜欢就支持一下吧
点赞8赞赏
评论 抢沙发

请登录后发表评论

    暂无评论内容