simplify API

ngxson · ngxson · commit 22039aadae19 · 2025-11-29T18:14:07.000+01:00
diff --git a/tools/server/server-context.cpp b/tools/server/server-context.cpp
@@ -609,6 +609,16 @@ extern "C" {
 
     // initialize slots and server-related data
     void server_context::init() {
+
+        // wiring up the task queue callbacks
+        queue_tasks.on_new_task([this](server_task && task) {
+            this->process_single_task(std::move(task));
+        });
+        queue_tasks.on_update_slots([this]() {
+            this->update_slots();
+        });
+
+        // setup slots
         SRV_INF("initializing slots, n_slots = %d\n", params_base.n_parallel);
 
         const int n_ctx_train = llama_model_n_ctx_train(model);
diff --git a/tools/server/server-context.h b/tools/server/server-context.h
@@ -151,6 +151,16 @@ struct server_context {
     // initialize slots and server-related data
     void init();
 
+    // request the server to stop
+    void terminate() {
+        queue_tasks.terminate();
+    }
+
+    // this call will block main thread until termination
+    void start_loop() {
+        queue_tasks.start_loop();
+    }
+
     server_slot * get_slot_by_id(int id);
 
     server_slot * get_available_slot(const server_task & task);
diff --git a/tools/server/server.cpp b/tools/server/server.cpp
@@ -161,7 +161,7 @@ int main(int argc, char ** argv) {
     auto clean_up = [&ctx_http, &ctx_server]() {
         SRV_INF("%s: cleaning up before exit...\n", __func__);
         ctx_http.stop();
-        ctx_server.queue_results.terminate();
+        ctx_server.terminate();
         llama_backend_free();
     };
 
@@ -189,17 +189,9 @@ int main(int argc, char ** argv) {
 
     LOG_INF("%s: model loaded\n", __func__);
 
-    ctx_server.queue_tasks.on_new_task([&ctx_server](server_task && task) {
-        ctx_server.process_single_task(std::move(task));
-    });
-
-    ctx_server.queue_tasks.on_update_slots([&ctx_server]() {
-        ctx_server.update_slots();
-    });
-
     shutdown_handler = [&](int) {
         // this will unblock start_loop()
-        ctx_server.queue_tasks.terminate();
+        ctx_server.terminate();
     };
 
     // TODO: refactor in common/console
@@ -219,8 +211,8 @@ int main(int argc, char ** argv) {
 
     LOG_INF("%s: server is listening on %s\n", __func__, ctx_http.listening_address.c_str());
     LOG_INF("%s: starting the main loop...\n", __func__);
-    // this call blocks the main thread until queue_tasks.terminate() is called
-    ctx_server.queue_tasks.start_loop();
+    // this call blocks the main thread until ctx_server.terminate() is called
+    ctx_server.start_loop();
 
     clean_up();
     if (ctx_http.thread.joinable()) {