GoogleCloudPlatform · syeda-anjum · May 19, 2026 · May 19, 2026 · May 20, 2026
diff --git a/...ke/base/use-cases/inference-ref-arch/online-inference-gpu/vllm-with-hf-model.md b/...ke/base/use-cases/inference-ref-arch/online-inference-gpu/vllm-with-hf-model.md
@@ -50,25 +50,25 @@ This example is built on top of the
   - **Gemma 4 E2B Instruction-Tuned**:
 
     ```shell
-    export HF_MODEL_ID="google/gemma-4-e2b"
+    export HF_MODEL_ID="google/gemma-4-e2b-it"
     ```
 
   - **Gemma 4 E4B Instruction-Tuned**:
 
     ```shell
-    export HF_MODEL_ID="google/gemma-4-e4b"
+    export HF_MODEL_ID="google/gemma-4-e4b-it"
     ```
 
   - **Gemma 4 26B A4B Instruction-Tuned**:
 
     ```shell
-    export HF_MODEL_ID="google/gemma-4-26b-a4b"
+    export HF_MODEL_ID="google/gemma-4-26B-A4B-it"
     ```
 
   - **Gemma 4 31B Instruction-Tuned**:
 
     ```shell
-    export HF_MODEL_ID="google/gemma-4-31b"
+    export HF_MODEL_ID="google/gemma-4-31b-it"
     ```
 
   - **Gemma 3 1B Instruction-Tuned**:
@@ -188,10 +188,10 @@ This example is built on top of the
 
     | Model                          | l4  | h100 | h200 | RTX Pro 6000 |
     | ------------------------------ | --- | ---- | ---- | ------------ |
-    | gemma-4-e2b                    | ✅  | ❌   | ❌   | ❌           |
-    | gemma-4-e4b                    | ✅  | ❌   | ❌   | ❌           |
-    | gemma-4-26b-a4b                | ✅  | ✅   | ❌   | ✅           |
-    | gemma-4-31b                    | ✅  | ✅   | ❌   | ✅           |
+    | gemma-4-e2b-it                 | ✅  | ❌   | ❌   | ❌           |
+    | gemma-4-e4b-it                 | ✅  | ❌   | ❌   | ❌           |
+    | gemma-4-26b-a4b-it             | ✅  | ✅   | ❌   | ✅           |
+    | gemma-4-31b-it                 | ✅  | ✅   | ❌   | ✅           |
     | gemma-3-1b-it                  | ✅  | ❌   | ❌   | ❌           |
     | gemma-3-4b-it                  | ✅  | ❌   | ❌   | ❌           |
     | gemma-3-27b-it                 | ✅  | ✅   | ✅   | ✅           |

diff --git a/...ke/base/use-cases/inference-ref-arch/online-inference-tpu/vllm-with-hf-model.md b/...ke/base/use-cases/inference-ref-arch/online-inference-tpu/vllm-with-hf-model.md
@@ -44,13 +44,13 @@ This example is built on top of the
   - **Gemma 4 26B A4B Instruction-Tuned**:
 
     ```shell
-    export HF_MODEL_ID="google/gemma-4-26b-a4b"
+    export HF_MODEL_ID="google/gemma-4-26B-A4B-it"
     ```
 
   - **Gemma 4 31B Instruction-Tuned**:
 
     ```shell
-    export HF_MODEL_ID="google/gemma-4-31b"
+    export HF_MODEL_ID="google/gemma-4-31b-it"
     ```
 
   - **Gemma 3 1B Instruction-Tuned**:
@@ -150,14 +150,14 @@ This example is built on top of the
 
   - Select an accelerator.
 
-    | Model           | v5e | v6e |
-    | --------------- | --- | --- |
-    | gemma-4-26b-a4b | ❌  | ✅  |
-    | gemma-4-31b     | ❌  | ✅  |
-    | gemma-3-1b-it   | ✅  | ❌  |
-    | gemma-3-4b-it   | ✅  | ❌  |
-    | gemma-3-27b-it  | ✅  | ✅  |
-    | qwen3-32b       | ✅  | ✅  |
+    | Model              | v5e | v6e |
+    | ------------------ | --- | --- |
+    | gemma-4-26b-a4b-it | ❌  | ✅  |
+    | gemma-4-31b-it     | ❌  | ✅  |
+    | gemma-3-1b-it      | ✅  | ❌  |
+    | gemma-3-4b-it      | ✅  | ❌  |
+    | gemma-3-27b-it     | ✅  | ✅  |
+    | qwen3-32b          | ✅  | ✅  |
 
     - **v5e**:
 

diff --git a/...m/h100-gemma-4-26b-a4b/kustomization.yaml → ...100-gemma-4-26b-a4b-it/kustomization.yaml b/...m/h100-gemma-4-26b-a4b/kustomization.yaml → ...100-gemma-4-26b-a4b-it/kustomization.yaml
diff --git a/...0-gemma-4-26b-a4b/patch-nodeselector.yaml → ...emma-4-26b-a4b-it/patch-nodeselector.yaml b/...0-gemma-4-26b-a4b/patch-nodeselector.yaml → ...emma-4-26b-a4b-it/patch-nodeselector.yaml
diff --git a/...h100-gemma-4-26b-a4b/patch-resources.yaml → ...0-gemma-4-26b-a4b-it/patch-resources.yaml b/...h100-gemma-4-26b-a4b/patch-resources.yaml → ...0-gemma-4-26b-a4b-it/patch-resources.yaml
diff --git a/...h100-gemma-4-26b-a4b/patch-vllm-args.yaml → ...0-gemma-4-26b-a4b-it/patch-vllm-args.yaml b/...h100-gemma-4-26b-a4b/patch-vllm-args.yaml → ...0-gemma-4-26b-a4b-it/patch-vllm-args.yaml
diff --git a/...f-arch/kubernetes-manifests/online-inference-gpu/vllm/h100-gemma-4-26b-a4b-it/runtime.env b/...f-arch/kubernetes-manifests/online-inference-gpu/vllm/h100-gemma-4-26b-a4b-it/runtime.env
@@ -0,0 +1,6 @@
+APP_LABEL=vllm-h100-gemma-4-26b-it
+GPU_MEMORY_UTILIZATION=0.92
+MAX_MODEL_LEN=131072
+MODEL_ID=google/gemma-4-26B-A4B-it
+MODEL_NAME=gemma-4-26b-a4b-it
+TENSOR_PARALLEL_SIZE=1
diff --git a/...-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/h100-gemma-4-26b-a4b/runtime.env b/...-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/h100-gemma-4-26b-a4b/runtime.env
diff --git a/.../vllm/h100-gemma-4-31b/kustomization.yaml → ...lm/h100-gemma-4-31b-it/kustomization.yaml b/.../vllm/h100-gemma-4-31b/kustomization.yaml → ...lm/h100-gemma-4-31b-it/kustomization.yaml
diff --git a/.../h100-gemma-4-31b/patch-nodeselector.yaml → ...00-gemma-4-31b-it/patch-nodeselector.yaml b/.../h100-gemma-4-31b/patch-nodeselector.yaml → ...00-gemma-4-31b-it/patch-nodeselector.yaml
diff --git a/...llm/h100-gemma-4-31b/patch-resources.yaml → .../h100-gemma-4-31b-it/patch-resources.yaml b/...llm/h100-gemma-4-31b/patch-resources.yaml → .../h100-gemma-4-31b-it/patch-resources.yaml
diff --git a/...llm/h100-gemma-4-31b/patch-vllm-args.yaml → .../h100-gemma-4-31b-it/patch-vllm-args.yaml b/...llm/h100-gemma-4-31b/patch-vllm-args.yaml → .../h100-gemma-4-31b-it/patch-vllm-args.yaml
diff --git a/...e-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/h100-gemma-4-31b-it/runtime.env b/...e-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/h100-gemma-4-31b-it/runtime.env
@@ -0,0 +1,6 @@
+APP_LABEL=vllm-h100-gemma-4-31b-it
+GPU_MEMORY_UTILIZATION=0.92
+MAX_MODEL_LEN=131072
+MODEL_ID=google/gemma-4-31b-it
+MODEL_NAME=gemma-4-31b-it
+TENSOR_PARALLEL_SIZE=1
diff --git a/...ence-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/h100-gemma-4-31b/runtime.env b/...ence-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/h100-gemma-4-31b/runtime.env
diff --git a/...llm/l4-gemma-4-26b-a4b/kustomization.yaml → .../l4-gemma-4-26b-a4b-it/kustomization.yaml b/...llm/l4-gemma-4-26b-a4b/kustomization.yaml → .../l4-gemma-4-26b-a4b-it/kustomization.yaml
diff --git a/...4-gemma-4-26b-a4b/patch-nodeselector.yaml → ...emma-4-26b-a4b-it/patch-nodeselector.yaml b/...4-gemma-4-26b-a4b/patch-nodeselector.yaml → ...emma-4-26b-a4b-it/patch-nodeselector.yaml
diff --git a/...m/l4-gemma-4-26b-a4b/patch-resources.yaml → ...4-gemma-4-26b-a4b-it/patch-resources.yaml b/...m/l4-gemma-4-26b-a4b/patch-resources.yaml → ...4-gemma-4-26b-a4b-it/patch-resources.yaml
diff --git a/...m/l4-gemma-4-26b-a4b/patch-vllm-args.yaml → ...4-gemma-4-26b-a4b-it/patch-vllm-args.yaml b/...m/l4-gemma-4-26b-a4b/patch-vllm-args.yaml → ...4-gemma-4-26b-a4b-it/patch-vllm-args.yaml
diff --git a/...ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-26b-a4b-it/runtime.env b/...ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-26b-a4b-it/runtime.env
@@ -0,0 +1,6 @@
+APP_LABEL=vllm-l4-gemma-4-26b-it
+GPU_MEMORY_UTILIZATION=0.80
+MAX_MODEL_LEN=131072
+MODEL_ID=google/gemma-4-26B-A4B-it
+MODEL_NAME=gemma-4-26b-a4b-it
+TENSOR_PARALLEL_SIZE=4
diff --git a/...ce-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-26b-a4b/runtime.env b/...ce-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-26b-a4b/runtime.env
diff --git a/...pu/vllm/l4-gemma-4-31b/kustomization.yaml → ...vllm/l4-gemma-4-31b-it/kustomization.yaml b/...pu/vllm/l4-gemma-4-31b/kustomization.yaml → ...vllm/l4-gemma-4-31b-it/kustomization.yaml
diff --git a/...lm/l4-gemma-4-31b/patch-nodeselector.yaml → ...l4-gemma-4-31b-it/patch-nodeselector.yaml b/...lm/l4-gemma-4-31b/patch-nodeselector.yaml → ...l4-gemma-4-31b-it/patch-nodeselector.yaml
diff --git a/.../vllm/l4-gemma-4-31b/patch-resources.yaml → ...lm/l4-gemma-4-31b-it/patch-resources.yaml b/.../vllm/l4-gemma-4-31b/patch-resources.yaml → ...lm/l4-gemma-4-31b-it/patch-resources.yaml
diff --git a/.../vllm/l4-gemma-4-31b/patch-vllm-args.yaml → ...lm/l4-gemma-4-31b-it/patch-vllm-args.yaml b/.../vllm/l4-gemma-4-31b/patch-vllm-args.yaml → ...lm/l4-gemma-4-31b-it/patch-vllm-args.yaml
diff --git a/...nce-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-31b-it/runtime.env b/...nce-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-31b-it/runtime.env
@@ -0,0 +1,6 @@
+APP_LABEL=vllm-l4-gemma-4-31b-it
+GPU_MEMORY_UTILIZATION=0.80
+MAX_MODEL_LEN=131072
+MODEL_ID=google/gemma-4-31b-it
+MODEL_NAME=gemma-4-31b-it
+TENSOR_PARALLEL_SIZE=4
diff --git a/...erence-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-31b/runtime.env b/...erence-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-31b/runtime.env
diff --git a/...pu/vllm/l4-gemma-4-e2b/kustomization.yaml → ...vllm/l4-gemma-4-e2b-it/kustomization.yaml b/...pu/vllm/l4-gemma-4-e2b/kustomization.yaml → ...vllm/l4-gemma-4-e2b-it/kustomization.yaml
diff --git a/...lm/l4-gemma-4-e2b/patch-nodeselector.yaml → ...l4-gemma-4-e2b-it/patch-nodeselector.yaml b/...lm/l4-gemma-4-e2b/patch-nodeselector.yaml → ...l4-gemma-4-e2b-it/patch-nodeselector.yaml
diff --git a/.../vllm/l4-gemma-4-e2b/patch-resources.yaml → ...lm/l4-gemma-4-e2b-it/patch-resources.yaml b/.../vllm/l4-gemma-4-e2b/patch-resources.yaml → ...lm/l4-gemma-4-e2b-it/patch-resources.yaml
diff --git a/.../vllm/l4-gemma-4-e2b/patch-vllm-args.yaml → ...lm/l4-gemma-4-e2b-it/patch-vllm-args.yaml b/.../vllm/l4-gemma-4-e2b/patch-vllm-args.yaml → ...lm/l4-gemma-4-e2b-it/patch-vllm-args.yaml
diff --git a/...nce-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-e2b-it/runtime.env b/...nce-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-e2b-it/runtime.env
@@ -0,0 +1,6 @@
+APP_LABEL=vllm-l4-gemma-4-e2b-it
+GPU_MEMORY_UTILIZATION=0.89
+MAX_MODEL_LEN=1024
+MODEL_ID=google/gemma-4-e2b-it
+MODEL_NAME=gemma-4-e2b-it
+TENSOR_PARALLEL_SIZE=1
diff --git a/...erence-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-e2b/runtime.env b/...erence-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-e2b/runtime.env
diff --git a/...pu/vllm/l4-gemma-4-e4b/kustomization.yaml → ...vllm/l4-gemma-4-e4b-it/kustomization.yaml b/...pu/vllm/l4-gemma-4-e4b/kustomization.yaml → ...vllm/l4-gemma-4-e4b-it/kustomization.yaml
diff --git a/...lm/l4-gemma-4-e4b/patch-nodeselector.yaml → ...l4-gemma-4-e4b-it/patch-nodeselector.yaml b/...lm/l4-gemma-4-e4b/patch-nodeselector.yaml → ...l4-gemma-4-e4b-it/patch-nodeselector.yaml
diff --git a/.../vllm/l4-gemma-4-e4b/patch-resources.yaml → ...lm/l4-gemma-4-e4b-it/patch-resources.yaml b/.../vllm/l4-gemma-4-e4b/patch-resources.yaml → ...lm/l4-gemma-4-e4b-it/patch-resources.yaml
diff --git a/.../vllm/l4-gemma-4-e4b/patch-vllm-args.yaml → ...lm/l4-gemma-4-e4b-it/patch-vllm-args.yaml b/.../vllm/l4-gemma-4-e4b/patch-vllm-args.yaml → ...lm/l4-gemma-4-e4b-it/patch-vllm-args.yaml
diff --git a/...nce-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-e4b-it/runtime.env b/...nce-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-e4b-it/runtime.env
@@ -0,0 +1,6 @@
+APP_LABEL=vllm-l4-gemma-4-e4b-it
+GPU_MEMORY_UTILIZATION=0.89
+MAX_MODEL_LEN=2048
+MODEL_ID=google/gemma-4-e4b-it
+MODEL_NAME=gemma-4-e4b-it
+TENSOR_PARALLEL_SIZE=1
diff --git a/...erence-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-e4b/runtime.env b/...erence-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/l4-gemma-4-e4b/runtime.env
diff --git a/...o-6000-gemma-4-26b-a4b/kustomization.yaml → ...000-gemma-4-26b-a4b-it/kustomization.yaml b/...o-6000-gemma-4-26b-a4b/kustomization.yaml → ...000-gemma-4-26b-a4b-it/kustomization.yaml
diff --git a/...0-gemma-4-26b-a4b/patch-nodeselector.yaml → ...emma-4-26b-a4b-it/patch-nodeselector.yaml b/...0-gemma-4-26b-a4b/patch-nodeselector.yaml → ...emma-4-26b-a4b-it/patch-nodeselector.yaml
diff --git a/...6000-gemma-4-26b-a4b/patch-resources.yaml → ...0-gemma-4-26b-a4b-it/patch-resources.yaml b/...6000-gemma-4-26b-a4b/patch-resources.yaml → ...0-gemma-4-26b-a4b-it/patch-resources.yaml
diff --git a/...6000-gemma-4-26b-a4b/patch-vllm-args.yaml → ...0-gemma-4-26b-a4b-it/patch-vllm-args.yaml b/...6000-gemma-4-26b-a4b/patch-vllm-args.yaml → ...0-gemma-4-26b-a4b-it/patch-vllm-args.yaml
diff --git a/...ubernetes-manifests/online-inference-gpu/vllm/rtx-pro-6000-gemma-4-26b-a4b-it/runtime.env b/...ubernetes-manifests/online-inference-gpu/vllm/rtx-pro-6000-gemma-4-26b-a4b-it/runtime.env
@@ -0,0 +1,6 @@
+APP_LABEL=vllm-rtx-pro-6000-gemma-4-26b-it
+GPU_MEMORY_UTILIZATION=0.92
+MAX_MODEL_LEN=51200
+MODEL_ID=google/gemma-4-26B-A4B-it
+MODEL_NAME=gemma-4-26b-a4b-it
+TENSOR_PARALLEL_SIZE=1
diff --git a/...h/kubernetes-manifests/online-inference-gpu/vllm/rtx-pro-6000-gemma-4-26b-a4b/runtime.env b/...h/kubernetes-manifests/online-inference-gpu/vllm/rtx-pro-6000-gemma-4-26b-a4b/runtime.env
diff --git a/...x-pro-6000-gemma-4-31b/kustomization.yaml → ...ro-6000-gemma-4-31b-it/kustomization.yaml b/...x-pro-6000-gemma-4-31b/kustomization.yaml → ...ro-6000-gemma-4-31b-it/kustomization.yaml
diff --git a/...-6000-gemma-4-31b/patch-nodeselector.yaml → ...00-gemma-4-31b-it/patch-nodeselector.yaml b/...-6000-gemma-4-31b/patch-nodeselector.yaml → ...00-gemma-4-31b-it/patch-nodeselector.yaml
diff --git a/...pro-6000-gemma-4-31b/patch-resources.yaml → ...-6000-gemma-4-31b-it/patch-resources.yaml b/...pro-6000-gemma-4-31b/patch-resources.yaml → ...-6000-gemma-4-31b-it/patch-resources.yaml
diff --git a/...pro-6000-gemma-4-31b/patch-vllm-args.yaml → ...-6000-gemma-4-31b-it/patch-vllm-args.yaml b/...pro-6000-gemma-4-31b/patch-vllm-args.yaml → ...-6000-gemma-4-31b-it/patch-vllm-args.yaml
diff --git a/...ch/kubernetes-manifests/online-inference-gpu/vllm/rtx-pro-6000-gemma-4-31b-it/runtime.env b/...ch/kubernetes-manifests/online-inference-gpu/vllm/rtx-pro-6000-gemma-4-31b-it/runtime.env
@@ -0,0 +1,6 @@
+APP_LABEL=vllm-rtx-pro-6000-gemma-4-31b-it
+GPU_MEMORY_UTILIZATION=0.92
+MAX_MODEL_LEN=51200
+MODEL_ID=google/gemma-4-31b-it
+MODEL_NAME=gemma-4-31b-it
+TENSOR_PARALLEL_SIZE=1
diff --git a/...-arch/kubernetes-manifests/online-inference-gpu/vllm/rtx-pro-6000-gemma-4-31b/runtime.env b/...-arch/kubernetes-manifests/online-inference-gpu/vllm/rtx-pro-6000-gemma-4-31b/runtime.env
diff --git a/...se-cases/inference-ref-arch/kubernetes-manifests/online-inference-tpu/base/deployment.env b/...se-cases/inference-ref-arch/kubernetes-manifests/online-inference-tpu/base/deployment.env
@@ -0,0 +1,3 @@
+INFERENCE_KUBERNETES_NAMESPACE=inf-bench-01-online-tpu
+INFERENCE_KUBERNETES_SERVICE_ACCOUNT=inf-bench-01-online-tpu
+MODEL_BUCKET_NAME=accelerated-platforms-dev-inf-bench-01-hf-hub-models
diff --git a/...lm/v6e-gemma-4-26b-a4b/kustomization.yaml → ...v6e-gemma-4-26b-a4b-it/kustomization.yaml b/...lm/v6e-gemma-4-26b-a4b/kustomization.yaml → ...v6e-gemma-4-26b-a4b-it/kustomization.yaml
diff --git a/...e-gemma-4-26b-a4b/patch-nodeselector.yaml → ...emma-4-26b-a4b-it/patch-nodeselector.yaml b/...e-gemma-4-26b-a4b/patch-nodeselector.yaml → ...emma-4-26b-a4b-it/patch-nodeselector.yaml
diff --git a/.../v6e-gemma-4-26b-a4b/patch-resources.yaml → ...e-gemma-4-26b-a4b-it/patch-resources.yaml b/.../v6e-gemma-4-26b-a4b/patch-resources.yaml → ...e-gemma-4-26b-a4b-it/patch-resources.yaml
diff --git a/.../v6e-gemma-4-26b-a4b/patch-vllm-args.yaml → ...e-gemma-4-26b-a4b-it/patch-vllm-args.yaml b/.../v6e-gemma-4-26b-a4b/patch-vllm-args.yaml → ...e-gemma-4-26b-a4b-it/patch-vllm-args.yaml
diff --git a/...ef-arch/kubernetes-manifests/online-inference-tpu/vllm/v6e-gemma-4-26b-a4b-it/runtime.env b/...ef-arch/kubernetes-manifests/online-inference-tpu/vllm/v6e-gemma-4-26b-a4b-it/runtime.env
@@ -0,0 +1,6 @@
+APP_LABEL=vllm-v6e-gemma-4-26b-it
+GPU_MEMORY_UTILIZATION=0.95
+MAX_MODEL_LEN=16384
+MODEL_ID=google/gemma-4-26B-A4B-it
+MODEL_NAME=gemma-4-26b-a4b-it
+TENSOR_PARALLEL_SIZE=4
diff --git a/...e-ref-arch/kubernetes-manifests/online-inference-tpu/vllm/v6e-gemma-4-26b-a4b/runtime.env b/...e-ref-arch/kubernetes-manifests/online-inference-tpu/vllm/v6e-gemma-4-26b-a4b/runtime.env
diff --git a/...u/vllm/v6e-gemma-4-31b/kustomization.yaml → ...llm/v6e-gemma-4-31b-it/kustomization.yaml b/...u/vllm/v6e-gemma-4-31b/kustomization.yaml → ...llm/v6e-gemma-4-31b-it/kustomization.yaml
diff --git a/...m/v6e-gemma-4-31b/patch-nodeselector.yaml → ...6e-gemma-4-31b-it/patch-nodeselector.yaml b/...m/v6e-gemma-4-31b/patch-nodeselector.yaml → ...6e-gemma-4-31b-it/patch-nodeselector.yaml
diff --git a/...vllm/v6e-gemma-4-31b/patch-resources.yaml → ...m/v6e-gemma-4-31b-it/patch-resources.yaml b/...vllm/v6e-gemma-4-31b/patch-resources.yaml → ...m/v6e-gemma-4-31b-it/patch-resources.yaml
diff --git a/...vllm/v6e-gemma-4-31b/patch-vllm-args.yaml → ...m/v6e-gemma-4-31b-it/patch-vllm-args.yaml b/...vllm/v6e-gemma-4-31b/patch-vllm-args.yaml → ...m/v6e-gemma-4-31b-it/patch-vllm-args.yaml
diff --git a/...ce-ref-arch/kubernetes-manifests/online-inference-tpu/vllm/v6e-gemma-4-31b-it/runtime.env b/...ce-ref-arch/kubernetes-manifests/online-inference-tpu/vllm/v6e-gemma-4-31b-it/runtime.env
@@ -0,0 +1,6 @@
+APP_LABEL=vllm-v6e-gemma-4-31b-it
+GPU_MEMORY_UTILIZATION=0.95
+MAX_MODEL_LEN=16384
+MODEL_ID=google/gemma-4-31b-it
+MODEL_NAME=gemma-4-31b-it
+TENSOR_PARALLEL_SIZE=4
diff --git a/...rence-ref-arch/kubernetes-manifests/online-inference-tpu/vllm/v6e-gemma-4-31b/runtime.env b/...rence-ref-arch/kubernetes-manifests/online-inference-tpu/vllm/v6e-gemma-4-31b/runtime.env