升级ollama到ollama v0.1.33 版本
下载地址:https://github.com/ollama/ollama/releases
set OLLAMA_NUM_PARALLEL=2 set OLLAMA_MAX_LOADED_MODELS=2 ollama serve ollama run llama3
OLLAMA_NUM_PARALLEL=2表示api接口请求并发为2,数值越大对内存的要求就越高
OLLAMA_MAX_LOADED_MODELS=2表示同时运行的模型数量
网友回复