raullenchai · samuelfaj · Apr 25, 2026 · Apr 25, 2026 · Apr 25, 2026 · Apr 25, 2026
diff --git a/pyproject.toml b/pyproject.toml
@@ -61,6 +61,10 @@ vision = [
 embeddings = [
     "mlx-embeddings>=0.0.5",
 ]
+# JANG/JANGTQ model support via jang-tools.
+jang = [
+    "jang[mlx]>=2.1.5; python_version >= '3.11'",
+]
 # Gradio chat UI
 chat = [
     "gradio>=4.0.0",

diff --git a/tests/test_chat_tool_retry.py b/tests/test_chat_tool_retry.py
@@ -0,0 +1,13 @@
+from vllm_mlx.routes.chat import _looks_like_deferred_tool_use
+
+
+def test_deferred_tool_use_detects_intent_text():
+    assert _looks_like_deferred_tool_use("Let me write the files individually.")
+
+
+def test_deferred_tool_use_detects_raw_write_file_tail():
+    assert _looks_like_deferred_tool_use('", "path": "/tmp/tsconfig.json"}')
+
+
+def test_deferred_tool_use_ignores_plain_answer():
+    assert not _looks_like_deferred_tool_use("The API exposes users and products.")
diff --git a/tests/test_cli_tui_ready.py b/tests/test_cli_tui_ready.py
@@ -0,0 +1,41 @@
+import json
+import urllib.error
+
+from vllm_mlx.cli import _wait_for_server_ready
+
+
+class _FakeResponse:
+    def __init__(self, payload):
+        self._payload = payload
+
+    def __enter__(self):
+        return self
+
+    def __exit__(self, *exc):
+        return None
+
+    def read(self):
+        return json.dumps(self._payload).encode("utf-8")
+
+
+def test_wait_for_server_ready_waits_until_model_loaded(monkeypatch):
+    responses = [
+        urllib.error.URLError("not listening"),
+        {"status": "healthy", "model_loaded": False},
+        {"status": "healthy", "model_loaded": True},
+    ]
+    sleeps = []
+
+    def fake_urlopen(url, timeout):
+        next_response = responses.pop(0)
+        if isinstance(next_response, Exception):
+            raise next_response
+        return _FakeResponse(next_response)
+
+    monkeypatch.setattr("urllib.request.urlopen", fake_urlopen)
+    monkeypatch.setattr("time.sleep", lambda seconds: sleeps.append(seconds))
+
+    _wait_for_server_ready("http://127.0.0.1:8010", timeout_s=5)
+
+    assert sleeps == [0.25, 0.25]
+    assert responses == []