update

yma11 · yma11 · commit 4d6fe6619952 · 2025-10-31T03:51:14.000Z
Signed-off-by: Yan Ma &lt;yan.ma@intel.com&gt;
diff --git a/vllm/_ipex_ops.py b/vllm/_ipex_ops.py
@@ -281,8 +281,8 @@ def flash_attn_varlen_func(
         out: torch.Tensor | None = None,
         block_table: torch.Tensor | None = None,
         alibi_slopes: torch.Tensor | None = None,
-        window_size: torch.Tensor | None = None,
-        softcap: torch.Tensor | None = 0.0,
+        window_size: list[int] | None = None,
+        softcap: float | None = 0.0,
         seqused_k: torch.Tensor | None = None,
         cu_seqlens_k: torch.Tensor | None = None,
         # passed in qwen vl
diff --git a/vllm/attention/layer.py b/vllm/attention/layer.py
@@ -127,21 +127,18 @@ def maybe_get_vit_flash_attn_backend(
         assert attn_backend == _Backend.FLASH_ATTN, (
             "XPU platform only supports FLASH_ATTN as vision attention backend."
         )
+        use_upstream_fa = False
     else:
         return _Backend.TORCH_SDPA, None
 
     if attn_backend in {_Backend.FLASH_ATTN, _Backend.ROCM_AITER_FA}:
         if attn_backend == _Backend.ROCM_AITER_FA:
             from aiter import flash_attn_varlen_func
-        elif current_platform.is_xpu():
-            from vllm._ipex_ops import ipex_ops as ops
-
-            flash_attn_varlen_func = ops.flash_attn_varlen_func
         else:
             if use_upstream_fa:
                 from flash_attn import flash_attn_varlen_func
             else:
-                from vllm.vllm_flash_attn import flash_attn_varlen_func
+                from vllm.attention.utils.fa_utils import flash_attn_varlen_func
     else:
         flash_attn_varlen_func = None
 
diff --git a/vllm/attention/ops/vit_attn_wrappers.py b/vllm/attention/ops/vit_attn_wrappers.py
@@ -15,7 +15,6 @@
 import einops
 import torch
 
-from vllm.platforms import current_platform
 from vllm.utils.torch_utils import direct_register_custom_op
 
 
@@ -67,15 +66,11 @@ def flash_attn_maxseqlen_wrapper(
 ) -> torch.Tensor:
     if is_rocm_aiter:
         from aiter import flash_attn_varlen_func
-    elif current_platform.is_xpu():
-        from vllm._ipex_ops import ipex_ops as ops
-
-        flash_attn_varlen_func = ops.flash_attn_varlen_func
     else:
         if use_upstream_fa:
             from flash_attn import flash_attn_varlen_func
         else:
-            from vllm.vllm_flash_attn import flash_attn_varlen_func
+            from vllm.attention.utils.fa_utils import flash_attn_varlen_func
     q, k, v = (einops.rearrange(x, "b s ... -> (b s) ...") for x in [q, k, v])
     output = flash_attn_varlen_func(
         q,
diff --git a/vllm/model_executor/models/qwen2_5_vl.py b/vllm/model_executor/models/qwen2_5_vl.py
@@ -364,6 +364,8 @@ def __init__(
 
         if current_platform.is_rocm() and self.attn_backend == _Backend.FLASH_ATTN:
             self.use_upstream_fa = True
+        if current_platform.is_xpu():
+            self.use_upstream_fa = False
         self.is_flash_attn_backend = self.attn_backend in {
             _Backend.FLASH_ATTN,
             _Backend.ROCM_AITER_FA,