setting n_ctx to 0

gonzafirewall · gonzafirewall · commit c4d44a5d1828 · 2024-04-22T15:34:18.000-03:00
diff --git a/ai_worker/main.py b/ai_worker/main.py
@@ -292,6 +292,7 @@ async def load_model(self, name):
  
         settings = LlamaSettings(model=model_path, n_gpu_layers=await self.guess_layers(model_path), seed=-1,
                                  embedding=True, cache=True, port=8181,
+                                 n_ctx=0,
                                  main_gpu=self.conf.main_gpu, tensor_split=sp)
         self.llama = create_llama_app(settings)
         assert self.llama, "Load llama failed.   Try lowering layers."