+
50
-

ollama如何设置并发数和同时运行多个大模型?

ollama如何设置并发数和同时运行多个大模型?


网友回复

+
0
-

升级ollama到ollama v0.1.33 版本

下载地址:https://github.com/ollama/ollama/releases

set OLLAMA_NUM_PARALLEL=2
set OLLAMA_MAX_LOADED_MODELS=2
ollama serve
ollama run llama3

OLLAMA_NUM_PARALLEL=2表示api接口请求并发为2,数值越大对内存的要求就越高

OLLAMA_MAX_LOADED_MODELS=2表示同时运行的模型数量

我知道答案,我要回答