PrimeIntellect-ai · hallerite · May 12, 2026 · May 12, 2026
diff --git a/renderers/client.py b/renderers/client.py
@@ -263,8 +263,15 @@ def _build_qwen_vl_features(
 
     image_items = mm_data.mm_items.get("image") or []
     if image_items:
-        pixel_values = torch.cat([it["pixel_values"] for it in image_items], dim=0)
-        image_grid_thw = torch.cat([it["image_grid_thw"] for it in image_items], dim=0)
+        # mm_items now ship numpy arrays (the renderer is torch-free);
+        # convert at this vLLM-glue boundary where torch is already a
+        # hard dependency.
+        pixel_values = torch.cat(
+            [torch.as_tensor(it["pixel_values"]) for it in image_items], dim=0
+        )
+        image_grid_thw = torch.cat(
+            [torch.as_tensor(it["image_grid_thw"]) for it in image_items], dim=0
+        )
         hf_inputs = BatchFeature(
             data={"pixel_values": pixel_values, "image_grid_thw": image_grid_thw}
         )

diff --git a/renderers/kimi_k25.py b/renderers/kimi_k25.py
@@ -621,7 +621,7 @@ def _process_image(self, part: dict[str, Any]):
         img_proc = proc.image_processor
         # Kimi's vision processor takes a media-dict shape, not raw PIL.
         media_item = {"type": "image", "image": pil}
-        out = img_proc.preprocess([media_item], return_tensors="pt")
+        out = img_proc.preprocess([media_item], return_tensors="np")
         # Patch count via the processor's own calculator (matches the
         # model's per-patch attention count); kept for debugging.
         num_patches = int(img_proc.media_tokens_calculator(media_item))

diff --git a/renderers/qwen35.py b/renderers/qwen35.py
@@ -182,7 +182,7 @@ def _process_image(self, part: dict[str, Any]):
             out, num_image_tokens = cached
             return pil, out, num_image_tokens, h
         proc = self._get_processor()
-        out = proc.image_processor(images=[pil], return_tensors="pt")
+        out = proc.image_processor(images=[pil], return_tensors="np")
         grid_thw = out["image_grid_thw"][0]
         merge_size = proc.image_processor.merge_size
         num_image_tokens = int(grid_thw.prod()) // (merge_size * merge_size)

diff --git a/renderers/qwen3_vl.py b/renderers/qwen3_vl.py
@@ -357,7 +357,7 @@ def _process_image(self, part: dict[str, Any]):
             out, num_image_tokens = cached
             return pil, out, num_image_tokens, h
         proc = self._get_processor()
-        out = proc.image_processor(images=[pil], return_tensors="pt")
+        out = proc.image_processor(images=[pil], return_tensors="np")
         grid_thw = out["image_grid_thw"][0]
         merge_size = proc.image_processor.merge_size
         num_image_tokens = int(grid_thw.prod()) // (merge_size * merge_size)