mayank31398
diff --git a/‎Makefile
+1-1 b/‎Makefile
+1-1
diff --git a/‎cute_kernels/__init__.py
+2 b/‎cute_kernels/__init__.py
+2
diff --git a/‎cute_kernels/cache.yml
+424 b/‎cute_kernels/cache.yml
+424
diff --git a/‎cute_kernels/cutotune/tuner.py
+1-1 b/‎cute_kernels/cutotune/tuner.py
+1-1
diff --git a/‎cute_kernels/kernels/__init__.py
+1 b/‎cute_kernels/kernels/__init__.py
+1
diff --git a/‎cute_kernels/kernels/fused_residual_add_rmsnorm/__init__.py
+119 b/‎cute_kernels/kernels/fused_residual_add_rmsnorm/__init__.py
+119
diff --git a/‎cute_kernels/kernels/fused_residual_add_rmsnorm/backward.py
+53 b/‎cute_kernels/kernels/fused_residual_add_rmsnorm/backward.py
+53
diff --git a/‎cute_kernels/kernels/fused_residual_add_rmsnorm/forward.py
+48 b/‎cute_kernels/kernels/fused_residual_add_rmsnorm/forward.py
+48
diff --git a/‎cute_kernels/kernels/fused_residual_add_rmsnorm/torch_implementation.py
+15 b/‎cute_kernels/kernels/fused_residual_add_rmsnorm/torch_implementation.py
+15
diff --git a/‎cute_kernels/kernels/fused_residual_add_rmsnorm/triton_implementation/__init__.py
+2 b/‎cute_kernels/kernels/fused_residual_add_rmsnorm/triton_implementation/__init__.py
+2
@@ -14,4 +14,4 @@ style:
 	pre-commit run --all-files
 
 cutotune-cache:
-	DEBUG_CUTOTUNE=1 LOAD_CUTOTUNE_CACHE=0 TORCH_CUDA_ARCH_LIST=9.0 python tools/build_cutotune_cache.py
+	DEBUG_CUTOTUNE=1 LOAD_CUTOTUNE_CACHE=1 TORCH_CUDA_ARCH_LIST=9.0 python tools/build_cutotune_cache.py
@@ -23,6 +23,8 @@
     embedding_torch,
     fused_linear_cross_entropy_cute,
     fused_linear_cross_entropy_torch,
+    fused_residual_add_rmsnorm_cute,
+    fused_residual_add_rmsnorm_torch,
     gemm_cute,
     gemm_torch,
     linear_cute,
 
@@ -75,7 +75,7 @@ def __call__(self, *args, **kwargs) -> Any:
             if _DEBUG_CUTOTUNE and (not torch.distributed.is_initialized() or torch.distributed.get_rank() == 0):
                 print(
                     f"config {best_config} achieved the best time ({best_time} sec) for {lookup_key} for "
-                    "function {self.function.__name__}"
+                    f"function {self.function.__name__}"
                 )
 
         output = self.function(
 
@@ -3,6 +3,7 @@
 from .cross_entropy import cross_entropy_cute, cross_entropy_torch
 from .embedding import embedding_cute, embedding_torch
 from .fused_linear_cross_entropy import fused_linear_cross_entropy_cute, fused_linear_cross_entropy_torch
+from .fused_residual_add_rmsnorm import fused_residual_add_rmsnorm_cute, fused_residual_add_rmsnorm_torch
 from .gemm import gemm_cute, gemm_torch
 from .linear import linear_cute, linear_torch
 from .rmsnorm import rmsnorm_cute, rmsnorm_torch
 
@@ -0,0 +1,119 @@
+import torch
+
+from ...cutotune import CutoTuneParameter
+from ...utils import ensure_contiguous
+from .backward import _backward
+from .forward import _forward
+from .torch_implementation import fused_residual_add_rmsnorm_torch
+
+
+class _FusedResidualAddRMSNorm_Cute(torch.autograd.Function):
+    @staticmethod
+    @ensure_contiguous
+    def forward(
+        ctx,
+        x: torch.Tensor,
+        residual: torch.Tensor,
+        weight: torch.Tensor | None,
+        eps: float | None,
+        multiplier: float | None,
+        memory_efficient: bool,
+        kernel_backend_forward: str,
+        kernel_backend_backward: str,
+        BLOCK_SIZE_B_forward: int,
+        BLOCK_SIZE_B_backward: int,
+        BLOCK_SIZE_H_forward: int,
+        BLOCK_SIZE_H_backward: int,
+    ) -> tuple[torch.Tensor]:
+        if weight is not None:
+            assert weight.dim() == 1, "weight should be 1D"
+            assert weight.size(-1) == x.size(-1), "hidden size for x and weight tensor is different"
+            assert weight.type() == x.type(), "tensors weight and y should have same dtype"
+
+        is_x_1d = x.dim() == 1
+        if is_x_1d:
+            x = x.unsqueeze(0)
+
+        if eps is None:
+            eps = torch.finfo(x.dtype).eps
+
+        output, added_x_residual, rmsnorm_denominator = _forward(
+            x=x,
+            residual=residual,
+            weight=weight,
+            eps=eps,
+            multiplier=multiplier,
+            memory_efficient=memory_efficient,
+            kernel_backend=kernel_backend_forward,
+            BLOCK_SIZE_B=BLOCK_SIZE_B_forward,
+            BLOCK_SIZE_H=BLOCK_SIZE_H_forward,
+        )
+
+        ctx.save_for_backward(added_x_residual, weight, rmsnorm_denominator)
+
+        if is_x_1d:
+            output = output.squeeze(0)
+            added_x_residual = added_x_residual.squeeze(0)
+
+        ctx.is_x_1d = is_x_1d
+        ctx.kernel_backend_backward = kernel_backend_backward
+        ctx.eps = eps
+        ctx.multiplier = multiplier
+        ctx.BLOCK_SIZE_B_backward = BLOCK_SIZE_B_backward
+        ctx.BLOCK_SIZE_H_backward = BLOCK_SIZE_H_backward
+
+        return output, added_x_residual
+
+    @staticmethod
+    @ensure_contiguous
+    def backward(ctx, output_grad: torch.Tensor, added_x_residual_grad: torch.Tensor) -> tuple[torch.Tensor | None]:
+        added_x_residual, weight, rmsnorm_denominator = ctx.saved_tensors
+
+        x_grad, residual_grad, weight_grad = _backward(
+            added_x_residual=added_x_residual,
+            weight=weight,
+            eps=ctx.eps,
+            multiplier=ctx.multiplier,
+            rmsnorm_denominator=rmsnorm_denominator,
+            output_grad=output_grad,
+            added_x_residual_grad=added_x_residual_grad,
+            kernel_backend=ctx.kernel_backend_backward,
+            BLOCK_SIZE_B=ctx.BLOCK_SIZE_B_backward,
+            BLOCK_SIZE_H=ctx.BLOCK_SIZE_H_backward,
+        )
+
+        if ctx.is_x_1d:
+            x_grad = x_grad.squeeze(0)
+            residual_grad = residual_grad.squeeze(0)
+
+        return x_grad, residual_grad, weight_grad, *[None] * 9
+
+
+def fused_residual_add_rmsnorm_cute(
+    x: torch.Tensor,
+    residual: torch.Tensor,
+    weight: torch.Tensor | None,
+    eps: float | None,
+    multiplier: float | None = None,
+    memory_efficient: bool = False,
+    kernel_backend_forward: str = CutoTuneParameter(),
+    kernel_backend_backward: str = CutoTuneParameter(),
+    BLOCK_SIZE_B_forward: int = CutoTuneParameter(),
+    BLOCK_SIZE_B_backward: int = CutoTuneParameter(),
+    BLOCK_SIZE_H_forward: int = CutoTuneParameter(),
+    BLOCK_SIZE_H_backward: int = CutoTuneParameter(),
+) -> tuple[torch.Tensor]:
+    return _FusedResidualAddRMSNorm_Cute.apply(
+        x,
+        residual,
+        weight,
+        eps,
+        multiplier,
+        memory_efficient,
+        kernel_backend_forward,
+        kernel_backend_backward,
+        BLOCK_SIZE_B_forward,
+        BLOCK_SIZE_B_backward,
+        BLOCK_SIZE_H_forward,
+        BLOCK_SIZE_H_backward,
+    )
@@ -0,0 +1,53 @@
+import torch
+
+from ...constants import MAX_TRITON_BLOCK_SIZE
+from ...cutotune import cutotune
+from ...math import get_next_power_of_2
+from ..rmsnorm.parameters import get_cutotune_parameters
+from .triton_implementation import fused_residual_add_rmsnorm_backward_triton
+
+
+@cutotune(**get_cutotune_parameters(triggers={"added_x_residual.dtype"}))
+def _backward(
+    added_x_residual: torch.Tensor,
+    weight: torch.Tensor | None,
+    eps: float,
+    multiplier: float | None,
+    rmsnorm_denominator: torch.Tensor,
+    output_grad: torch.Tensor,
+    added_x_residual_grad: torch.Tensor,
+    kernel_backend: str,
+    BLOCK_SIZE_B: int,
+    BLOCK_SIZE_H: int,
+) -> tuple[torch.Tensor | None]:
+    hidden_size = added_x_residual.size(-1)
+
+    x_grad = torch.empty_like(added_x_residual)
+    residual_grad = torch.empty_like(added_x_residual)
+    weight_grad = None if weight is None else torch.zeros_like(weight, dtype=torch.float32)
+
+    if kernel_backend == "triton":
+        BLOCK_SIZE_H = get_next_power_of_2(hidden_size)
+        assert BLOCK_SIZE_H <= MAX_TRITON_BLOCK_SIZE
+
+        fused_residual_add_rmsnorm_backward_triton(
+            added_x_residual=added_x_residual,
+            weight=weight,
+            output_grad=output_grad,
+            added_x_residual_grad=added_x_residual_grad,
+            rmsnorm_denominator=rmsnorm_denominator,
+            x_grad=x_grad,
+            residual_grad=residual_grad,
+            weight_grad=weight_grad,
+            eps=eps,
+            multiplier=multiplier,
+            BLOCK_SIZE_B=BLOCK_SIZE_B,
+            BLOCK_SIZE_H=BLOCK_SIZE_H,
+        )
+    else:
+        raise ValueError(f"unexpected kernel_backend ({kernel_backend})")
+
+    if weight_grad is not None:
+        weight_grad = weight_grad.type_as(weight)
+
+    return x_grad, residual_grad, weight_grad
@@ -0,0 +1,48 @@
+import torch
+
+from ...constants import MAX_TRITON_BLOCK_SIZE
+from ...cutotune import cutotune
+from ...math import get_next_power_of_2
+from ...utils import get_num_elements_and_hidden_size
+from ..rmsnorm.parameters import get_cutotune_parameters
+from .triton_implementation import fused_residual_add_rmsnorm_forward_triton
+
+
+@cutotune(**get_cutotune_parameters())
+def _forward(
+    x: torch.Tensor,
+    residual: torch.Tensor,
+    weight: torch.Tensor | None,
+    eps: float,
+    multiplier: float | None,
+    memory_efficient: bool,
+    kernel_backend: str,
+    BLOCK_SIZE_B: int,
+    BLOCK_SIZE_H: int,
+) -> tuple[torch.Tensor | None]:
+    num_elements, hidden_size = get_num_elements_and_hidden_size(x)
+
+    output = torch.empty_like(x)
+    added_x_residual = torch.empty_like(x)
+    rmsnorm_denominator = None if memory_efficient else torch.empty(num_elements, device=x.device, dtype=torch.float32)
+
+    if kernel_backend == "triton":
+        BLOCK_SIZE_H = get_next_power_of_2(hidden_size)
+        assert BLOCK_SIZE_H <= MAX_TRITON_BLOCK_SIZE
+
+        fused_residual_add_rmsnorm_forward_triton(
+            x=x,
+            residual=residual,
+            weight=weight,
+            output=output,
+            eps=eps,
+            multiplier=multiplier,
+            added_x_residual=added_x_residual,
+            rmsnorm_denominator=rmsnorm_denominator,
+            BLOCK_SIZE_B=BLOCK_SIZE_B,
+            BLOCK_SIZE_H=BLOCK_SIZE_H,
+        )
+    else:
+        raise ValueError(f"unexpected kernel_backend ({kernel_backend})")
+
+    return output, added_x_residual, rmsnorm_denominator
@@ -0,0 +1,15 @@
+import torch
+import torch.nn.functional as F
+
+
+def fused_residual_add_rmsnorm_torch(
+    x: torch.Tensor, residual: torch.Tensor, weight: torch.Tensor | None, eps: float, multiplier: float | None = None
+) -> tuple[torch.Tensor]:
+    if multiplier is not None:
+        x = x * multiplier
+
+    x = x + residual
+    residual = x
+    x = F.rms_norm(x, (x.size(-1),), weight=weight, eps=eps)
+
+    return x, residual
@@ -0,0 +1,2 @@
+from .backward import fused_residual_add_rmsnorm_backward_triton
+from .forward import fused_residual_add_rmsnorm_forward_triton
Original file line number	Diff line number	Diff line change
`@@ -75,7 +75,7 @@ def __call__(self, args, *kwargs) -> Any:`
`75`	`75`	`if _DEBUG_CUTOTUNE and (not torch.distributed.is_initialized() or torch.distributed.get_rank() == 0):`
`76`	`76`	`print(`
`77`	`77`	`f"config {best_config} achieved the best time ({best_time} sec) for {lookup_key} for "`
`78`		`- "function {self.function.__name__}"`
	`78`	`+ f"function {self.function.__name__}"`
`79`	`79`	`)`
`80`	`80`
`81`	`81`	`output = self.function(`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,2 @@`
	`1`	`+from .backward import fused_residual_add_rmsnorm_backward_triton`
	`2`	`+from .forward import fused_residual_add_rmsnorm_forward_triton`