ROCm
diff --git a/‎example/ck_tile/17_grouped_gemm/quant_grouped_gemm.cpp‎
Lines changed: 12 additions & 7 deletions b/‎example/ck_tile/17_grouped_gemm/quant_grouped_gemm.cpp‎
Lines changed: 12 additions & 7 deletions
diff --git a/‎example/ck_tile/17_grouped_gemm/quant_grouped_gemm.hpp‎
Lines changed: 38 additions & 7 deletions b/‎example/ck_tile/17_grouped_gemm/quant_grouped_gemm.hpp‎
Lines changed: 38 additions & 7 deletions
diff --git a/‎example/ck_tile/17_grouped_gemm/quant_run_grouped_gemm_example.inc‎
Lines changed: 33 additions & 5 deletions b/‎example/ck_tile/17_grouped_gemm/quant_run_grouped_gemm_example.inc‎
Lines changed: 33 additions & 5 deletions
diff --git a/‎include/ck_tile/ops/gemm/pipeline/wp_pipeline_agmem_bgmem_creg_v2.hpp‎
Lines changed: 1 addition & 1 deletion b/‎include/ck_tile/ops/gemm/pipeline/wp_pipeline_agmem_bgmem_creg_v2.hpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎include/ck_tile/ops/gemm_quant/kernel/gemm_quant_kernel.hpp‎
Lines changed: 4 additions & 0 deletions b/‎include/ck_tile/ops/gemm_quant/kernel/gemm_quant_kernel.hpp‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎include/ck_tile/ops/gemm_quant/kernel/grouped_gemm_quant_kernel.hpp‎
Lines changed: 79 additions & 4 deletions b/‎include/ck_tile/ops/gemm_quant/kernel/grouped_gemm_quant_kernel.hpp‎
Lines changed: 79 additions & 4 deletions
diff --git a/‎include/ck_tile/ops/gemm_quant/pipeline/gemm_wp_bquant_pipeline_ag_bg_cr_v2.hpp‎
Lines changed: 27 additions & 0 deletions b/‎include/ck_tile/ops/gemm_quant/pipeline/gemm_wp_bquant_pipeline_ag_bg_cr_v2.hpp‎
Lines changed: 27 additions & 0 deletions
diff --git a/‎test/ck_tile/grouped_gemm_quant/CMakeLists.txt‎
Lines changed: 9 additions & 2 deletions b/‎test/ck_tile/grouped_gemm_quant/CMakeLists.txt‎
Lines changed: 9 additions & 2 deletions
@@ -49,7 +49,7 @@ float grouped_gemm_tileloop(const ck_tile::stream_config& s,
                                                              GemmConfig::kPadN,
                                                              GemmConfig::kPadK,
                                                              false, // PreshuffleQuant
-                                                             false, // PreshuffleB
+                                                             GemmConfig::PreshuffleB, // PreshuffleB
                                                              ALayout,
                                                              BLayout,
                                                              CLayout,
@@ -58,7 +58,7 @@ float grouped_gemm_tileloop(const ck_tile::stream_config& s,
                                                              BQLayout,
                                                              GemmConfig::TransposeC,
                                                              GemmConfig::DoubleSmemBuffer,
-                                                             true>;
+                                                             true>; // Persistence
 
     float ave_time{0};
 
@@ -86,10 +86,14 @@ float grouped_gemm_tileloop(const ck_tile::stream_config& s,
                                                           BDataType,
                                                           scheduler>>::type;
 
-        using GemmPipeline =
-            typename std::conditional<QuantMode == ck_tile::QuantType::BQuantGrouped,
-                                      ck_tile::BQuantGemmPipelineAgBgCrCompV3<QuantGemmProblem>,
-                                      ck_tile::GemmPipelineAgBgCrCompV3<QuantGemmProblem>>::type;
+        using GemmPipeline = std::conditional_t<
+            QuantMode == ck_tile::QuantType::RowColQuant ||
+                QuantMode == ck_tile::QuantType::TensorQuant,
+            ck_tile::GemmPipelineAgBgCrCompV3<QuantGemmProblem>,
+            std::conditional_t<GemmConfig::PreshuffleB == true,
+                               ck_tile::WPQuantBPipelineAgBgCrV2<QuantGemmProblem>,
+                               ck_tile::BQuantGemmPipelineAgBgCrCompV3<QuantGemmProblem>>>;
+
         using GemmEpilogue = ck_tile::CShuffleEpilogue<
             ck_tile::CShuffleEpilogueProblem<ADataType,
                                              BDataType,
@@ -141,5 +145,6 @@ float grouped_gemm_tileloop(const ck_tile::stream_config& s,
 
 int main(int argc, char* argv[])
 {
-    return !run_grouped_gemm_example<GemmConfigComputeV3_2>(argc, argv);
+    int result1 = !run_grouped_gemm_example<GemmConfigPreshuffleB_Bquant_prefill>(argc, argv);
+    return result1;
 }
@@ -10,9 +10,6 @@
 #include "ck_tile/ops/gemm.hpp"
 #include "ck_tile/ops/elementwise/unary_element_wise_operation.hpp"
 
-#define CK_TILE_PIPELINE_COMPUTE_V3 1
-#define CK_TILE_PIPELINE_BQUANT_COMPUTE_V3 2
-
 template <typename PrecType, ck_tile::index_t M_Warp_Tile>
 constexpr ck_tile::index_t get_k_warp_tile()
 {
@@ -31,6 +28,22 @@ constexpr ck_tile::index_t get_k_warp_tile()
 #endif
 }
 
+template <typename PrecType, ck_tile::index_t M_Warp_Tile>
+constexpr ck_tile::index_t get_k_from_preshuffled_warp_tile()
+{
+#if defined(CK_GFX950_SUPPORT)
+    if constexpr(M_Warp_Tile == 32)
+        return sizeof(PrecType) == 2 ? 16 : 64;
+    else
+        return sizeof(PrecType) == 2 ? 32 : 128;
+#else
+    if constexpr(M_Warp_Tile == 32)
+        return sizeof(PrecType) == 2 ? 16 : 32;
+    else
+        return sizeof(PrecType) == 2 ? 32 : 64;
+#endif
+}
+
 template <typename DataType>
 struct GemmTypeConfig;
 
@@ -67,8 +80,9 @@ struct GemmConfigBase
     static constexpr ck_tile::index_t TileParitionerGroupNum = 8;
     static constexpr ck_tile::index_t TileParitionerM01      = 4;
     static constexpr auto Scheduler                 = ck_tile::GemmPipelineScheduler::Intrawave;
-    static constexpr ck_tile::index_t Pipeline      = CK_TILE_PIPELINE_COMPUTE_V3;
     static constexpr ck_tile::index_t NumWaveGroups = 1;
+    static constexpr bool DoubleSmemBuffer          = false;
+    static constexpr bool PreshuffleB               = false;
 };
 
 template <typename PrecType>
@@ -85,10 +99,26 @@ struct GemmConfigComputeV3_2 : public GemmConfigBase
     static constexpr ck_tile::index_t M_Warp_Tile = 32;
     static constexpr ck_tile::index_t N_Warp_Tile = 32;
     static constexpr ck_tile::index_t K_Warp_Tile = get_k_warp_tile<PrecType, M_Warp_Tile>();
+};
+
+template <typename PrecType>
+struct GemmConfigPreshuffleB_Bquant_prefill : public GemmConfigBase
+{
+    static constexpr ck_tile::index_t M_Tile = 128;
+    static constexpr ck_tile::index_t N_Tile = 128;
+    static constexpr ck_tile::index_t K_Tile = 128 / sizeof(PrecType);
+
+    static constexpr ck_tile::index_t M_Warp = 1;
+    static constexpr ck_tile::index_t N_Warp = 4;
+    static constexpr ck_tile::index_t K_Warp = 1;
 
-    static constexpr bool DoubleSmemBuffer = false;
+    static constexpr ck_tile::index_t M_Warp_Tile = 16;
+    static constexpr ck_tile::index_t N_Warp_Tile = 16;
+    static constexpr ck_tile::index_t K_Warp_Tile =
+        get_k_from_preshuffled_warp_tile<PrecType, M_Warp_Tile>();
 
-    static constexpr int kBlockPerCu = 1;
+    static constexpr bool PreshuffleB      = true;
+    static constexpr bool DoubleSmemBuffer = true;
 };
 
 using grouped_gemm_kargs = ck_tile::QuantGroupedGemmHostArgs;
@@ -118,7 +148,8 @@ auto create_args(int argc, char* argv[])
         .insert("repeat", "100", "number of iterations to benchmark the kernel.")
         .insert("group_count", "8", "group count.")
         .insert("kbatch", "1", "kbatch for SplitK")
-        .insert("quant_mode", "bquant", "Choose bquant (default), tensor, or rowcol");
+        .insert("quant_mode", "bquant", "Choose bquant (default), tensor, or rowcol")
+        .insert("init", "0", "0. Random, 2. One(s) (Constant)");
 
     bool result = arg_parser.parse(argc, argv);
     return std::make_tuple(result, arg_parser);
 
@@ -163,6 +163,7 @@ int run_grouped_gemm_example_with_layouts(int argc,
     const int repeat                      = arg_parser.get_int("repeat");
     const int warmup                      = arg_parser.get_int("warmup");
     const int kbatch                      = arg_parser.get_int("kbatch");
+    const int init_method                 = arg_parser.get_int("init");
     bool validate                         = arg_parser.get_bool("validate");
     const ck_tile::index_t QuantGroupSize = 128;
 
@@ -203,6 +204,7 @@ int run_grouped_gemm_example_with_layouts(int argc,
 
         for(int i = 0; i < group_count; i++)
         {
+
             Ms.push_back(256 + 256 * i);
             Ns.push_back(256 + 512 * i);
             Ks.push_back(512 + 128 * i);
@@ -280,6 +282,12 @@ int run_grouped_gemm_example_with_layouts(int argc,
             stride_AQs[i] = 1; // Tensor quantization: tensor shape [1]
             stride_BQs[i] = 1; // Tensor quantization: tensor shape [1]
         }
+        else if constexpr(QuantMode == ck_tile::QuantType::BQuantGrouped)
+        {
+            stride_AQs[i] = 0; // No A quantization
+            stride_BQs[i] =
+                ck_tile::get_default_stride(BQK, N, stride_BQs[i], is_row_major(bq_layout));
+        }
 
         a_m_k_tensors.push_back(ck_tile::HostTensor<ADataType>(
             ck_tile::host_tensor_descriptor(M, K, stride_As[i], is_row_major(a_layout))));
@@ -313,10 +321,20 @@ int run_grouped_gemm_example_with_layouts(int argc,
                   << " b_k_n: " << b_k_n_tensors[i].mDesc << " c_m_n: " << c_m_n_tensors[i].mDesc
                   << " aq: " << aq_tensors[i].mDesc << " bq: " << bq_tensors[i].mDesc << std::endl;
 
-        ck_tile::FillUniformDistribution<ADataType>{-1.f, 1.f}(a_m_k_tensors[i]);
-        ck_tile::FillUniformDistribution<BDataType>{-1.f, 1.f}(b_k_n_tensors[i]);
-        ck_tile::FillUniformDistribution<AQDataType>{-1.f, 1.f}(aq_tensors[i]);
-        ck_tile::FillUniformDistribution<BQDataType>{-1.f, 1.f}(bq_tensors[i]);
+        if(init_method == 2)
+        {
+            ck_tile::FillUniformDistribution<ADataType>{1.f, 1.f}(a_m_k_tensors[i]);
+            ck_tile::FillUniformDistribution<BDataType>{1.f, 1.f}(b_k_n_tensors[i]);
+            ck_tile::FillUniformDistribution<AQDataType>{1.f, 1.f}(aq_tensors[i]);
+            ck_tile::FillUniformDistribution<BQDataType>{1.f, 1.f}(bq_tensors[i]);
+        }
+        else
+        {
+            ck_tile::FillUniformDistribution<ADataType>{-1.f, 1.f}(a_m_k_tensors[i]);
+            ck_tile::FillUniformDistribution<BDataType>{-1.f, 1.f}(b_k_n_tensors[i]);
+            ck_tile::FillUniformDistribution<AQDataType>{-1.f, 1.f}(aq_tensors[i]);
+            ck_tile::FillUniformDistribution<BQDataType>{-1.f, 1.f}(bq_tensors[i]);
+        }
 
         a_m_k_dev_buf.push_back(std::make_unique<ck_tile::DeviceMem>(
             a_m_k_tensors[i].get_element_space_size_in_bytes()));
@@ -329,8 +347,18 @@ int run_grouped_gemm_example_with_layouts(int argc,
         bq_dev_buf.push_back(
             std::make_unique<ck_tile::DeviceMem>(bq_tensors[i].get_element_space_size_in_bytes()));
 
+        if constexpr(GemmConfig::PreshuffleB && QuantMode == ck_tile::QuantType::BQuantGrouped)
+        {
+            ck_tile::HostTensor<BDataType> b_shuffle_host =
+                ck_tile::shuffle_b<GemmConfig>(b_k_n_tensors[i]);
+            b_k_n_dev_buf[i]->ToDevice(b_shuffle_host.data());
+        }
+        else
+        {
+            b_k_n_dev_buf[i]->ToDevice(b_k_n_tensors[i].data());
+        }
+
         a_m_k_dev_buf[i]->ToDevice(a_m_k_tensors[i].data());
-        b_k_n_dev_buf[i]->ToDevice(b_k_n_tensors[i].data());
         aq_dev_buf[i]->ToDevice(aq_tensors[i].data());
         bq_dev_buf[i]->ToDevice(bq_tensors[i].data());
         c_m_n_dev_buf[i]->SetZero();
 
@@ -20,7 +20,7 @@ struct BaseWeightPreshufflePipelineAGmemBGmemCRegV2
 
     CK_TILE_HOST_DEVICE static constexpr auto TransposeC() { return Problem::TransposeC; }
 
-    CK_TILE_HOST static constexpr bool BlockHasHotloop(index_t num_loop)
+    CK_TILE_HOST_DEVICE static constexpr bool BlockHasHotloop(index_t num_loop)
     {
         return num_loop > PrefetchStages;
     }
 
@@ -483,6 +483,7 @@ struct QuantGemmKernel
                                                    const QuantGemmKernelArgs& kargs,
                                                    const SplitKBatchOffset& splitk_batch_offset)
     {
+
         static_assert(!TilePartitioner::BlockGemmShape::PermuteA, "Not implemented!");
         const auto& a_tensor_view = [&]() {
             if constexpr(std::is_same_v<ALayout, tensor_layout::gemm::RowMajor>)
@@ -790,6 +791,7 @@ struct QuantGemmKernel
         }();
         if constexpr(PreshuffleB)
         {
+
             return make_tuple(a_pad_view, aq_pad_view, b_flat_view, bq_pad_view, c_pad_view);
         }
         else
@@ -802,6 +804,7 @@ struct QuantGemmKernel
     CK_TILE_DEVICE static auto
     MakeGemmTileWindows(const PadView& views, const index_t i_m, const index_t i_n)
     {
+
         const auto& a_pad_view     = views.at(I0);
         const auto& aq_pad_view    = views.at(I1);
         const auto& b_pad_view     = views.at(I2);
@@ -867,6 +870,7 @@ struct QuantGemmKernel
         const auto& b_block_window = [&]() {
             if constexpr(PreshuffleB)
             {
+
                 return make_tile_window(
                     b_pad_view,
                     make_tuple(number<GemmPipeline::flatNPerWarp>{},
 
@@ -317,13 +317,88 @@ struct QuantGroupedGemmKernel
         const BQDataType* bq_ptr = static_cast<const BQDataType*>(kargs.bq_ptr);
         CDataType* c_ptr         = static_cast<CDataType*>(kargs.c_ptr);
 
-        static_assert(GemmPipeline::DoubleSmemBuffer == false,
-                      "DoubleSmemBuffer needs to be false");
         // allocate LDS
         __shared__ char smem_ptr_0[GetSmemSize()];
 
-        RunGemmWithPipelineSelection(
-            a_ptr, b_ptr, aq_ptr, bq_ptr, c_ptr, smem_ptr_0, kargs, splitk_batch_offset, i_m, i_n);
+        // Only for BQuantGrouped DoubleSmemBuffer is supported
+        if constexpr(GemmPipeline::DoubleSmemBuffer == true &&
+                     kQuantType == QuantType::BQuantGrouped)
+        {
+
+            __shared__ char smem_ptr_1[GetSmemSize()];
+            RunGemmWithPipelineSelection2LDS(a_ptr,
+                                             b_ptr,
+                                             aq_ptr,
+                                             bq_ptr,
+                                             c_ptr,
+                                             smem_ptr_0,
+                                             smem_ptr_1,
+                                             kargs,
+                                             splitk_batch_offset,
+                                             i_m,
+                                             i_n);
+        }
+        else
+        {
+
+            RunGemmWithPipelineSelection(a_ptr,
+                                         b_ptr,
+                                         aq_ptr,
+                                         bq_ptr,
+                                         c_ptr,
+                                         smem_ptr_0,
+                                         kargs,
+                                         splitk_batch_offset,
+                                         i_m,
+                                         i_n);
+        }
+    }
+
+    template <memory_operation_enum DstInMemOp = memory_operation_enum::set>
+    CK_TILE_DEVICE static void
+    RunGemmWithPipelineSelection2LDS(const ADataType* a_ptr,
+                                     const BDataType* b_ptr,
+                                     const AQDataType* aq_ptr,
+                                     const BQDataType* bq_ptr,
+                                     CDataType* c_ptr,
+                                     void* smem_ptr_0,
+                                     void* smem_ptr_1,
+                                     const QuantGroupedGemmKernelArgs& kargs,
+                                     const typename Base::SplitKBatchOffset& splitk_batch_offset,
+                                     const index_t block_idx_m,
+                                     const index_t block_idx_n)
+    {
+        static_assert(kQuantType == QuantType::BQuantGrouped, "kQuantType must be BQuantGrouped");
+        // Create Gemm tensor views, pad views and tile windows
+        const auto& gemm_tensor_views_tuple =
+            Base::template MakeGemmTensorViews<EpiloguePipeline::MemoryOperation>(
+                a_ptr, b_ptr, aq_ptr, bq_ptr, c_ptr, kargs, splitk_batch_offset);
+
+        const auto& gemm_pad_views = Base::MakeGemmPadViews(gemm_tensor_views_tuple);
+        auto gemm_tile_windows =
+            Base::MakeGemmTileWindows(gemm_pad_views, block_idx_m, block_idx_n);
+
+        const index_t num_loop = __builtin_amdgcn_readfirstlane(
+            TilePartitioner::GetLoopNum(splitk_batch_offset.splitted_k));
+        const TailNumber tail_num = GemmPipeline::GetBlockLoopTailNum(num_loop);
+
+        // Run GEMM cooperatively by whole workgroup.
+        const auto& a_block_window = gemm_tile_windows.at(Base::I0);
+        const auto& b_block_window = gemm_tile_windows.at(Base::I2);
+
+        const auto& bq_block_window = gemm_tile_windows.at(Base::I3);
+        const auto& c_block_tile    = GemmPipeline{}.template operator()(a_block_window,
+                                                                      b_block_window,
+                                                                      bq_block_window,
+                                                                      num_loop,
+                                                                      tail_num,
+                                                                      smem_ptr_0,
+                                                                      smem_ptr_1);
+
+        // Run Epilogue Pipeline
+        auto& c_block_window = gemm_tile_windows.at(Base::I4);
+
+        EpiloguePipeline{}(c_block_window, c_block_tile, c_block_window, smem_ptr_0);
     }
 
     /**
 
@@ -458,6 +458,7 @@ struct WPQuantBPipelineAgBgCrV2 : public WeightPreshufflePipelineAGmemBGmemCRegV
                                    void* p_smem_ping,
                                    void* p_smem_pong) const
     {
+
         return operator()<TailNum>(
             a_dram_block_window_tmp,
             [](const ADataType& a) { return a; },
@@ -467,5 +468,31 @@ struct WPQuantBPipelineAgBgCrV2 : public WeightPreshufflePipelineAGmemBGmemCRegV
             p_smem_ping,
             p_smem_pong);
     }
+
+    template <typename ADramBlockWindowTmp,
+              typename BFlatBlockWindowTmp,
+              typename BQDramBlockWindowTmp>
+    CK_TILE_DEVICE auto operator()(const ADramBlockWindowTmp& a_dram_block_window_tmp,
+                                   const BFlatBlockWindowTmp& b_flat_dram_block_window_tmp,
+                                   const BQDramBlockWindowTmp& bq_dram_block_window_tmp,
+                                   index_t num_loop,
+                                   TailNumber tail_number,
+                                   void* p_smem_ping,
+                                   void* p_smem_pong) const
+    {
+        const auto RunPipeline = [&](auto bool_val, auto tail_num_) {
+            (void)bool_val; // Suppress unused parameter warning
+            constexpr auto tail_num = tail_num_.value;
+            return operator()<tail_num>(
+                a_dram_block_window_tmp,
+                [](const ADataType& a) { return a; },
+                b_flat_dram_block_window_tmp,
+                bq_dram_block_window_tmp,
+                num_loop,
+                p_smem_ping,
+                p_smem_pong);
+        };
+        return Base::TailHandler(RunPipeline, true, tail_number);
+    }
 };
 } // namespace ck_tile
@@ -4,7 +4,14 @@ if(CK_USE_OCP_FP8)
 endif()
 
 if(GPU_TARGETS MATCHES "gfx94|gfx95")
-    add_gtest_executable(test_ck_tile_grouped_gemm_quant test_grouped_gemm_quant.cpp)
-    target_compile_options(test_ck_tile_grouped_gemm_quant PRIVATE ${EXAMPLE_GEMM_COMPILE_OPTIONS})
+    # Split into three separate test executables for faster parallel compilation
+    add_gtest_executable(test_ck_tile_grouped_gemm_quant_rowcol test_grouped_gemm_quant_rowcol.cpp)
+    target_compile_options(test_ck_tile_grouped_gemm_quant_rowcol PRIVATE ${EXAMPLE_GEMM_COMPILE_OPTIONS})
+
+    add_gtest_executable(test_ck_tile_grouped_gemm_quant_tensor test_grouped_gemm_quant_tensor.cpp)
+    target_compile_options(test_ck_tile_grouped_gemm_quant_tensor PRIVATE ${EXAMPLE_GEMM_COMPILE_OPTIONS})
+
+    add_gtest_executable(test_ck_tile_grouped_gemm_quant_bquant test_grouped_gemm_quant_bquant.cpp)
+    target_compile_options(test_ck_tile_grouped_gemm_quant_bquant PRIVATE ${EXAMPLE_GEMM_COMPILE_OPTIONS})
 endif()
Original file line number	Diff line number	Diff line change
`@@ -20,7 +20,7 @@ struct BaseWeightPreshufflePipelineAGmemBGmemCRegV2`
`20`	`20`
`21`	`21`	`CK_TILE_HOST_DEVICE static constexpr auto TransposeC() { return Problem::TransposeC; }`
`22`	`22`
`23`		`- CK_TILE_HOST static constexpr bool BlockHasHotloop(index_t num_loop)`
	`23`	`+ CK_TILE_HOST_DEVICE static constexpr bool BlockHasHotloop(index_t num_loop)`
`24`	`24`	`{`
`25`	`25`	`return num_loop > PrefetchStages;`
`26`	`26`	`}`
Original file line number	Diff line number	Diff line change
`@@ -483,6 +483,7 @@ struct QuantGemmKernel`
`483`	`483`	`const QuantGemmKernelArgs& kargs,`
`484`	`484`	`const SplitKBatchOffset& splitk_batch_offset)`
`485`	`485`	`{`
	`486`	`+`
`486`	`487`	`static_assert(!TilePartitioner::BlockGemmShape::PermuteA, "Not implemented!");`
`487`	`488`	`const auto& a_tensor_view = [&]() {`
`488`	`489`	`if constexpr(std::is_same_v<ALayout, tensor_layout::gemm::RowMajor>)`
`@@ -790,6 +791,7 @@ struct QuantGemmKernel`
`790`	`791`	`}();`
`791`	`792`	`if constexpr(PreshuffleB)`
`792`	`793`	`{`
	`794`	`+`
`793`	`795`	`return make_tuple(a_pad_view, aq_pad_view, b_flat_view, bq_pad_view, c_pad_view);`
`794`	`796`	`}`
`795`	`797`	`else`
`@@ -802,6 +804,7 @@ struct QuantGemmKernel`
`802`	`804`	`CK_TILE_DEVICE static auto`
`803`	`805`	`MakeGemmTileWindows(const PadView& views, const index_t i_m, const index_t i_n)`
`804`	`806`	`{`
	`807`	`+`
`805`	`808`	`const auto& a_pad_view = views.at(I0);`
`806`	`809`	`const auto& aq_pad_view = views.at(I1);`
`807`	`810`	`const auto& b_pad_view = views.at(I2);`
`@@ -867,6 +870,7 @@ struct QuantGemmKernel`
`867`	`870`	`const auto& b_block_window = [&]() {`
`868`	`871`	`if constexpr(PreshuffleB)`
`869`	`872`	`{`
	`873`	`+`
`870`	`874`	`return make_tile_window(`
`871`	`875`	`b_pad_view,`
`872`	`876`	`make_tuple(number<GemmPipeline::flatNPerWarp>{},`