模型介绍
混元翻译模型,包含一个翻译模型Hunyuan-MT-7B和一个集成模型Hunyuan-MT-Chimera。翻译模型用来将待翻译的文本翻译成目标语言,集成模型用来把翻译模型的多个翻译结果集成为一个更好的翻译。重点支持33种语言互译,支持5种民汉语言。
核心特性与优势
- 在WMT25参赛的31种语言中,有30种语言获得了第一名的成绩。
- Hunyuan-MT-7B在业界同尺寸模型中效果最优。
- Hunyuan-MT-Chimera-7B是业界首个开源翻译集成模型,可以进一步提升翻译效果。
- 提出了一个完整的翻译模型训练范式,从预训练->CPT->SFT->翻译强化->集成强化,翻译效果达到同尺寸SOTA。
新闻
- 2025.9.1 我们在Hugging Face开源了 Hunyuan-MT-7B 和 Hunyuan-MT-Chimera-7B。
模型链接
| 模型名称 | 描述 | 下载 |
|---|---|---|
| Hunyuan-MT-7B | 混元7B翻译模型 | 🤗 模型 |
| Hunyuan-MT-7B-fp8 | 混元7B翻译模型,fp8量化 | 🤗 模型 |
| Hunyuan-MT-Chimera | 混元7B翻译集成模型 | 🤗 模型 |
| Hunyuan-MT-Chimera-fp8 | 混元7B翻译集成模型,fp8量化 | 🤗 模型 |
提示词模板
ZHXX 翻译提示词模板。
将下面的文本翻译成<目标语言>,不要额外解释。
<源文本>
XXXX 翻译提示词模板(不包括ZHXX)。
将以下段落翻译成<目标语言>,不要额外解释。
<源文本>
Hunyuan-MT-Chimera-7B 提示词模板
分析以下用三重反引号包围的<源语言>段落的多个<目标语言>翻译,并生成一个单一的精炼<目标语言>翻译。只输出精炼后的翻译,不要解释。
<源语言>段落:
<源文本>
多个<目标语言>翻译:
<翻译文本1><翻译文本2><翻译文本3><翻译文本4><翻译文本5><翻译文本6>
使用 transformers 推理
首先,需要安装最新版本的transformers,推荐v4.56.0
pip install transformers==4.56.0
以下代码片段展示了如何使用 transformers 库加载和使用模型。
!!! 如果你想用transformers加载fp8模型,你需要将config.json中的”ignored_layers”改为”ignore”并将compressed-tensors升级到compressed-tensors-0.11.0。
from transformers import AutoModelForCausalLM, AutoTokenizer
import os
model_name_or_path = "tencent/Hunyuan-MT-7B"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto") # You may want to use bfloat16 and/or move to GPU here
messages = [
{"role": "user", "content": "Translate the following segment into Chinese, without additional explanation.\n\nGet something off your chest"},
]
tokenized_chat = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=False,
return_tensors="pt"
)
outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])
| 支持的语言: | 语言 | 缩写 | 中文名称 |
|---|---|---|---|
| 中文 | zh | 中文 | |
| 英语 | en | 英语 | |
| 法语 | fr | 法语 | |
| 葡萄牙语 | pt | 葡萄牙语 | |
| 西班牙语 | es | 西班牙语 | |
| 日语 | ja | 日语 | |
| 土耳其语 | tr | 土耳其语 | |
| 俄语 | ru | 俄语 | |
| 阿拉伯语 | ar | 阿拉伯语 | |
| 韩语 | ko | 韩语 | |
| 泰语 | th | 泰语 | |
| 意大利语 | it | 意大利语 | |
| 德语 | de | 德语 | |
| 越南语 | vi | 越南语 | |
| 马来语 | ms | 马来语 | |
| 印尼语 | id | 印尼语 | |
| 菲律宾语 | tl | 菲律宾语 | |
| 印地语 | hi | 印地语 | |
| 繁体中文 | zh-Hant | 繁体中文 | |
| 波兰语 | pl | 波兰语 | |
| 捷克语 | cs | 捷克语 | |
| 荷兰语 | nl | 荷兰语 | |
| 高棉语 | km | 高棉语 | |
| 缅甸语 | my | 缅甸语 | |
| 波斯语 | fa | 波斯语 | |
| 古吉拉特语 | gu | 古吉拉特语 | |
| 乌尔都语 | ur | 乌尔都语 | |
| 泰卢固语 | te | 泰卢固语 | |
| 马拉地语 | mr | 马拉地语 | |
| 希伯来语 | he | 希伯来语 | |
| 孟加拉语 | bn | 孟加拉语 | |
| 泰米尔语 | ta | 泰米尔语 | |
| 乌克兰语 | uk | 乌克兰语 | |
| 藏语 | bo | 藏语 | |
| 哈萨克语 | kk | 哈萨克语 | |
| 蒙古语 | mn | 蒙古语 | |
| 维吾尔语 | ug | 维吾尔语 | |
| 粤语 | yue | 粤语 |
引用混元-MT:
@misc{hunyuanmt2025,
title={Hunyuan-MT Technical Report},
author={Mao Zheng, Zheng Li, Bingxin Qu, Mingyang Song, Yang Du, Mingrui Sun, Di Wang, Tao Chen, Jiaqi Zhu, Xingwu Sun, Yufei Wang, Can Xu, Chen Li, Kai Wang, Decheng Wu},
howpublished={\url{https://github.com/Tencent-Hunyuan/Hunyuan-MT}},
year={2025}
} © 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END






暂无评论内容