看到两篇本站 mdx 制作者可能有兴趣的新闻。
会写程式的可以看看有没有用。
jQuery 4.0 发布
Google 开源模型 TranslateGemma
https://www.techbang.com/posts/127571-translategemma-vs-chatgpt-2026-ai-translation-mobile
看到两篇本站 mdx 制作者可能有兴趣的新闻。
会写程式的可以看看有没有用。
https://www.techbang.com/posts/127571-translategemma-vs-chatgpt-2026-ai-translation-mobile
国内现在还是偏向用混元 1.8B ,中英中外比 TranslateGemma 4B 更强。(看其他开发者的讨论
TranslateGemma 和 HY-MT1.5-1.8B 虽然都号称号称“可以”在端侧运行,但真的只是“可以”,适合特定的场景,比如实时语音翻译、单句即时翻译、离线翻译查词 —— 这些场景对延迟容忍度更高。
实际要顺畅运行,还是要求挺高的,如果要在 vLLM 中部署,那么最好有一台带 NVIDIA GPU(如 RTX 3060 6GB+) 的设备,否则:
纯 CPU 推理速度会让你等到怀疑人生:10,000 字 ÷ 5 tokens/s ≈ 2,000 秒 ≈ 33 分钟
HY-MT 1.8B 模型:
| 精度 | VRAM/RAM 需求 | 推荐硬件 | 推理速度 |
|------|--------------|---------|---------|
| FP16 | ~4GB | RTX 3060 6GB | ~30-50 tokens/s |
| FP8 | ~2.5GB | RTX 3060 6GB | ~40-60 tokens/s |
| INT4 (GPTQ) | ~1.5GB | RTX 3050 4GB / GTX 1650 | ~25-40 tokens/s |
| CPU (GGUF) | ~3GB RAM | 任意 8GB+ RAM | ~5-10 tokens/s |
HY-MT 7B 模型:
| 精度 | VRAM/RAM 需求 | 推荐硬件 | 推理速度 |
|------|--------------|---------|---------|
| FP16 | ~16GB | RTX 4090 / A100 | ~20-40 tokens/s |
| FP8 | ~10GB | RTX 3090 / 4080 | ~30-50 tokens/s |
| INT4 (GPTQ) | ~5GB | RTX 3060 6GB / RTX 4060 8GB | ~15-30 tokens/s |
TranslateGemma:
| 模型 | VRAM 需求 | 推荐硬件 |
|------|----------|---------|
| 4B | ~8GB FP16 / ~3GB INT4 | RTX 3060 / 4060 |
| 12B | ~24GB FP16 / ~8GB INT4 | RTX 3090 / 4080 |
| 27B | ~54GB FP16 / ~16GB INT4 | A100 / 多卡 |
入门级(适合 1.8B 模型):
| 组件 | 规格 | 参考价格 |
|------|------|---------|
| GPU | NVIDIA RTX 3060 12GB | ¥2000-2500 |
| RAM | 16GB DDR4 | ¥300 |
| 存储 | 256GB SSD(模型存储) | ¥150 |
这个配置可以流畅运行 HY-MT 1.8B,翻译一部 90 分钟电影的字幕约需 3-5 分钟。
进阶级(适合 7B 模型):
| 组件 | 规格 | 参考价格 |
|------|------|---------|
| GPU | NVIDIA RTX 4070 Ti 12GB | ¥5000-6000 |
| RAM | 32GB DDR4/DDR5 | ¥600 |
| 存储 | 512GB SSD | ¥300 |
最低门槛:RTX 3060 6GB 即可运行 1.8B INT4 量化模型
性价比最佳:RTX 3060 12GB,可运行所有 1.8B 变体和 7B INT4
也就是说:普通的办公笔记本基本等于是没法用。
混元 1.8B 国内很多人在手机上跑了,量化成 Q4_K_M(GGUF)就行了。他们的主要需求是断网也能翻译,也能和外国人交流,所以都是短文本的场景,刚好够用。
是的,要注意应用场景。