+
14
-

回答

可以,这些模型在 2026 年 3 月刚刚开源,专为边缘设备优化,支持多模态(文字+图片+视频)、256K 长上下文201 种语言,而且 0.8B~4B 版本特别适合手机离线部署,9B 也能在高端机上跑。

主流方式总结(2026 年 3 月最实用路径):

安卓MNN LLM Chat / MLC LLM / llama.cpp app(如 Termux + llama.cpp)0.8B ~ 9B (Q4~Q6)20–60 t/s(视机型)★★☆☆☆最成熟,GPU/NPU 加速好,免费开源
安卓Off Grid (Play Store)0.8B ~ 4B30–50 t/s★☆☆☆☆一键安装,MIT 许可,视觉+语音支持
iOSLM Studio Mobile / Locally AI0.8B ~ 4B (MLX 优化)25–45 t/s(iPhone 15 Pro+)★★☆☆☆App Store 直接下,MLX 框架极致优化
iOSMLX Chat / Off Grid (App Store)0.8B ~ 9B (高端机)20–40 t/s★★☆☆☆支持 TestFlight 版,视觉+推理开关
两者通用MNN LLM App (阿里官方)Qwen3 系列全家桶中等偏上★★☆☆☆官方出品,支持 Qwen3.5 系列,iOS/Android 都有

安卓手机安装步骤(最推荐:MNN LLM Chat 或 Off Grid)

方式一:直接用现成 App(最简单)

Google Play 搜索 "Off Grid Local AI""MNN LLM" 下载(2026 年已有正式版)。

打开 App → 浏览模型列表 → 搜索 “Qwen3.5” → 选择 0.8B / 2B / 4B(推荐 Q4_K_M 或 Q5_K_M 量化版,文件 0.5–3GB)。

下载完成后直接聊天,支持拍照输入图片、开启/关闭 reasoning 模式。

优点:无需 root、无需电脑,全程离线,隐私 100% 本地。

方式二:Termux + llama.cpp(更灵活,能跑 9B)

安装 Termux(F-Droid 或官网)。

输入命令安装 llama.cpp 并下载 GGUF 模型(从 Hugging Face unsloth/Qwen3.5-*-GGUF 仓库)。

运行 ./llama-cli --model qwen3.5-4b-q5_k_m.gguf 即可聊天。

适合想自定义 prompt 或跑 agent 的用户。

推荐机型:骁龙 8 Gen 2+ 或天玑 9200+ 以上,8GB+ RAM 跑 4B 很丝滑,16GB+ 可尝试 9B。

苹果 iPhone 安装步骤(最推荐:LM Studio Mobile 或 MLX 优化版)

方式一:App Store 直接安装(最简单)

打开 App Store 搜索 "LM Studio""Locally AI"(2026 年已有官方移动版)。

安装后 → 连接 Hugging Face(可开 VPN 加速下载)→ 搜索 “Qwen3.5-2B-MLX” 或 “Qwen3.5-4B-MLX-4bit”。

下载模型(约 1–4GB)→ 加载后即可离线聊天,支持相机拍照输入视觉任务。

支持一键开关 thinking/reasoning 模式(小模型默认关闭以省电)。

方式二:TestFlight + MLX Chat(更前沿)

安装 TestFlight → 加入 Qwen/MLX 社区 TestFlight 链接(Reddit / Hugging Face 常有)。

下载 MLX 优化的 Qwen3.5 权重 → 导入 App。

iPhone 15 Pro / 16 / 17 系列跑 2B~4B 非常快(30–45 t/s),9B 在高端机勉强可跑。

推荐机型:iPhone 15 Pro 及以上(A17 Pro 芯片),至少 256GB 存储(模型+缓存占 5–10GB)。

通用注意事项

模型下载源:Hugging Face → 搜索 “Qwen/Qwen3.5” 或 “unsloth/Qwen3.5-*-GGUF/MLX” 集合。

量化选择:手机优先 Q4_K_M / Q5_K_M(平衡速度与质量),高端机可用 Q6。

性能预期

0.8B/2B:极快、省电,适合日常聊天、翻译、总结。

4B:最强性价比,接近上一代 30B 水平。

9B:推理/代码/多模态最强,但吃内存和电。

隐私:全部本地运行,数据不离机。

电池与发热:低电量会降频,建议 ≥50% 电量使用;长时间跑建议接充电。

一句话总结:2026 年 Qwen3.5 小模型已经让普通手机真正成为离线 AI 助手,安卓用 MNN/Off Grid、iOS 用 LM Studio/MLX 最省心,几分钟就能跑起来。想体验最强小模型,直接从 4B 开始!

网友回复

我知道答案,我要回答