[DAP] Support both f32 and f64 type for 'dap.fir' operation.

taiqzheng · taiqzheng · commit 3c7c907e67e2 · 2025-01-09T08:45:54.000Z
diff --git a/benchmarks/AudioProcessing/Operations/FIROp/CMakeLists.txt b/benchmarks/AudioProcessing/Operations/FIROp/CMakeLists.txt
@@ -1,94 +1,38 @@
-#-------------------------------------------------------------------------------
-# Generate MLIRFIRScalar
-#-------------------------------------------------------------------------------
-
-add_custom_command(
-  OUTPUT mlir-fir.o
-  COMMAND 
-    ${BUDDY_MLIR_BUILD_DIR}/bin/buddy-opt 
-      ${BUDDY_SOURCE_DIR}/benchmarks/AudioProcessing/Operations/FIROp/MLIRFIR.mlir
-      -convert-scf-to-cf
-      -llvm-request-c-wrappers
-      -convert-arith-to-llvm
-      -finalize-memref-to-llvm
-      -convert-func-to-llvm
-      -reconcile-unrealized-casts |
-    ${LLVM_MLIR_BINARY_DIR}/mlir-translate -mlir-to-llvmir |
-    ${LLVM_MLIR_BINARY_DIR}/llc 
-      -mtriple=${BUDDY_OPT_TRIPLE} 
-      -mattr=${BUDDY_OPT_ATTR} 
-      -filetype=obj 
-      -o ${BUDDY_BINARY_DIR}/../benchmarks/AudioProcessing/Operations/FIROp/mlir-fir.o
-  DEPENDS
-    ${BUDDY_MLIR_BUILD_DIR}/bin/buddy-opt
-    ${LLVM_MLIR_BINARY_DIR}/mlir-translate
-    ${LLVM_MLIR_BINARY_DIR}/llc 
-)
-
-add_library(MLIRFIRScalar STATIC mlir-fir.o)
-set_target_properties(MLIRFIRScalar PROPERTIES LINKER_LANGUAGE CXX)
-
-#-------------------------------------------------------------------------------
-# Generate MLIRFIRTiledVectorization
-#-------------------------------------------------------------------------------
-
-add_custom_command(
-  OUTPUT fir-tile-vectorization.o
-  COMMAND 
-    ${BUDDY_MLIR_BUILD_DIR}/bin/buddy-opt 
-      ${BUDDY_SOURCE_DIR}/benchmarks/AudioProcessing/Operations/FIROp/MLIRFIRTiledVectorization.mlir
-      -convert-scf-to-cf
-      -convert-vector-to-llvm
-      -llvm-request-c-wrappers
-      -convert-arith-to-llvm
-      -finalize-memref-to-llvm
-      -convert-func-to-llvm
-      -reconcile-unrealized-casts |
-    ${LLVM_MLIR_BINARY_DIR}/mlir-translate -mlir-to-llvmir |
-    ${LLVM_MLIR_BINARY_DIR}/llc 
-      -mtriple=${BUDDY_OPT_TRIPLE} 
-      -mattr=${BUDDY_OPT_ATTR} 
-      -filetype=obj 
-      -o ${BUDDY_BINARY_DIR}/../benchmarks/AudioProcessing/Operations/FIROp/fir-tile-vectorization.o
-  DEPENDS
-    ${BUDDY_MLIR_BUILD_DIR}/bin/buddy-opt
-    ${LLVM_MLIR_BINARY_DIR}/mlir-translate
-    ${LLVM_MLIR_BINARY_DIR}/llc 
-)
-
-add_library(MLIRFIRTiledVectorization STATIC fir-tile-vectorization.o)
-set_target_properties(MLIRFIRTiledVectorization PROPERTIES LINKER_LANGUAGE CXX)
-
 #-------------------------------------------------------------------------------
 # Generate MLIRFIRVectorization
 #-------------------------------------------------------------------------------
 
-add_custom_command(
-  OUTPUT fir-vectorization.o
-  COMMAND 
-    ${BUDDY_MLIR_BUILD_DIR}/bin/buddy-opt 
-      ${BUDDY_SOURCE_DIR}/benchmarks/AudioProcessing/Operations/FIROp/MLIRFIRVectorization.mlir
-      -convert-scf-to-cf
-      -convert-vector-to-llvm
-      -llvm-request-c-wrappers
-      -convert-arith-to-llvm
-      -finalize-memref-to-llvm
-      -convert-func-to-llvm
-      -reconcile-unrealized-casts |
-    ${LLVM_MLIR_BINARY_DIR}/mlir-translate -mlir-to-llvmir |
-    ${LLVM_MLIR_BINARY_DIR}/llc 
-      -mtriple=${BUDDY_OPT_TRIPLE} 
-      -mattr=${BUDDY_OPT_ATTR} 
-      -filetype=obj 
-      -o ${BUDDY_BINARY_DIR}/../benchmarks/AudioProcessing/Operations/FIROp/fir-vectorization.o
-  DEPENDS
-    ${BUDDY_MLIR_BUILD_DIR}/bin/buddy-opt
-    ${LLVM_MLIR_BINARY_DIR}/mlir-translate
-    ${LLVM_MLIR_BINARY_DIR}/llc 
-)
-
-add_library(MLIRFIRVectorization STATIC fir-vectorization.o)
-set_target_properties(MLIRFIRVectorization PROPERTIES LINKER_LANGUAGE CXX)
+function(build_fir_vectorization type)
+  add_custom_command(
+    OUTPUT fir-vectorization-${type}.o
+    COMMAND
+      cat ${BUDDY_SOURCE_DIR}/benchmarks/AudioProcessing/Operations/FIROp/MLIRFIRVectorization.mlir |
+      sed 's/TYPE_PLACEHOLDER/${type}/g' |
+      ${BUDDY_MLIR_BUILD_DIR}/bin/buddy-opt
+        -convert-scf-to-cf
+        -convert-vector-to-llvm
+        -llvm-request-c-wrappers
+        -convert-arith-to-llvm
+        -finalize-memref-to-llvm
+        -convert-func-to-llvm
+        -reconcile-unrealized-casts |
+      ${LLVM_MLIR_BINARY_DIR}/mlir-translate -mlir-to-llvmir |
+      ${LLVM_MLIR_BINARY_DIR}/llc 
+        -mtriple=${BUDDY_OPT_TRIPLE} 
+        -mattr=${BUDDY_OPT_ATTR} 
+        -filetype=obj 
+        -o ${BUDDY_BINARY_DIR}/../benchmarks/AudioProcessing/Operations/FIROp/fir-vectorization-${type}.o
+    DEPENDS
+      ${BUDDY_MLIR_BUILD_DIR}/bin/buddy-opt
+      ${LLVM_MLIR_BINARY_DIR}/mlir-translate
+      ${LLVM_MLIR_BINARY_DIR}/llc 
+  )
+  add_library(MLIRFIRVectorization${type} STATIC fir-vectorization-${type}.o)
+  set_target_properties(MLIRFIRVectorization${type} PROPERTIES LINKER_LANGUAGE CXX)
+endfunction()
+
+build_fir_vectorization(f32)
+build_fir_vectorization(f64)
 
 #-------------------------------------------------------------------------------
 # Generate dap-op-fir-benchmark
@@ -105,9 +49,8 @@ target_link_libraries(dap-op-fir-benchmark PRIVATE
   # Third-party library
   kfr_io
   # MLIR hand-written benchmark
-  MLIRFIRScalar
-  MLIRFIRTiledVectorization
-  MLIRFIRVectorization
+  MLIRFIRVectorizationf32
+  MLIRFIRVectorizationf64
   # Buddy DAP library
   BuddyLibDAP
   # LLVM/MLIR library
diff --git a/benchmarks/AudioProcessing/Operations/FIROp/MLIRFIR.mlir b/benchmarks/AudioProcessing/Operations/FIROp/MLIRFIR.mlir
@@ -14,7 +14,8 @@
 //
 //===----------------------------------------------------------------------===//
 //
-// This file provides the MLIR Fir function.
+// This file implements the scalar version of the Fir function, following the 
+// same algorithm as Buddy's scalar version DAP pass: `--lower-dap`.
 //
 //===----------------------------------------------------------------------===//
 
diff --git a/benchmarks/AudioProcessing/Operations/FIROp/MLIRFIRTiledVectorization.mlir b/benchmarks/AudioProcessing/Operations/FIROp/MLIRFIRTiledVectorization.mlir
@@ -14,7 +14,9 @@
 //
 //===----------------------------------------------------------------------===//
 //
-// This file provides the vectorized MLIR FIR function with tiling.
+// This file implements the vectorized FIR function using a tiling technique. 
+// following the same algorithm as Buddy's vectorize DAP pass:
+//    `--vectorize-dap="fir-vec-size=16 fir-tile-size=2048"`
 //
 //===----------------------------------------------------------------------===//
 
@@ -110,7 +112,7 @@ func.func @fir_tiled_vectorization(%input : memref<?xf32>, %kernel : memref<?xf3
       scf.for %i = %address to %upbound step %vl_step {
         %in_vec = vector.load %input[%i] : memref<?xf32>, vector<16xf32>
         %out_index = arith.addi %i, %n : index
-        %out_vec = vector.load %output[%out_index] : memref<?xf32>, vector<16xf32>  // 需要计算output的偏移量
+        %out_vec = vector.load %output[%out_index] : memref<?xf32>, vector<16xf32>
         %fma_vec = vector.fma %k_vec, %in_vec, %out_vec : vector<16xf32>
         vector.store %fma_vec, %output[%out_index] : memref<?xf32>, vector<16xf32>
       }
diff --git a/benchmarks/AudioProcessing/Operations/FIROp/MLIRFIRVectorization.mlir b/benchmarks/AudioProcessing/Operations/FIROp/MLIRFIRVectorization.mlir
@@ -14,17 +14,18 @@
 //
 //===----------------------------------------------------------------------===//
 //
-// This file provides the vectorized MLIR FIR function (without tiling).
+// This file implements the vectorized MLIR FIR function (without tiling), 
+// with a fixed vector size of 16.
 //
 //===----------------------------------------------------------------------===//
 
-func.func @fir_vectorization(%input : memref<?xf32>, %kernel : memref<?xf32>, 
-                             %output : memref<?xf32>) -> () {
+func.func @fir_vector_TYPE_PLACEHOLDER(%input : memref<?xTYPE_PLACEHOLDER>, 
+    %kernel : memref<?xTYPE_PLACEHOLDER>, %output : memref<?xTYPE_PLACEHOLDER>) -> () {
   // 1. Get the total length of the workload.
   %c0 = arith.constant 0 : index
   %c1 = arith.constant 1 : index
-  %input_size = memref.dim %input, %c0 : memref<?xf32>
-  %kernel_size = memref.dim %kernel, %c0 : memref<?xf32>
+  %input_size = memref.dim %input, %c0 : memref<?xTYPE_PLACEHOLDER>
+  %kernel_size = memref.dim %kernel, %c0 : memref<?xTYPE_PLACEHOLDER>
 
   // 2. Set the iteration step (vector size).
   %vl_step = arith.constant 16 : index
@@ -40,30 +41,30 @@ func.func @fir_vectorization(%input : memref<?xf32>, %kernel : memref<?xf32>,
   // 4. Loop through each kernel element
   scf.for %n = %c0 to %kernel_size step %c1 
     iter_args(%upbound = %upbound_init) -> (index) {
-    %k_elem = memref.load %kernel[%n] : memref<?xf32>
-    %k_vec = vector.splat %k_elem : vector<16xf32>
+    %k_elem = memref.load %kernel[%n] : memref<?xTYPE_PLACEHOLDER>
+    %k_vec = vector.splat %k_elem : vector<16xTYPE_PLACEHOLDER>
 
     // 5. Perform the vectorization body.
     %iter_idx = scf.for %i = %c0 to %upbound step %vl_step 
         iter_args(%iter_init = %c0) -> (index) {
-      %in_vec = vector.load %input[%i] : memref<?xf32>, vector<16xf32>
+      %in_vec = vector.load %input[%i] : memref<?xTYPE_PLACEHOLDER>, vector<16xTYPE_PLACEHOLDER>
       %out_index = arith.addi %i, %n : index
-      %out_vec = vector.load %output[%out_index] : memref<?xf32>, vector<16xf32>
-      %fma_vec = vector.fma %k_vec, %in_vec, %out_vec : vector<16xf32>
-      vector.store %fma_vec, %output[%out_index] : memref<?xf32>, vector<16xf32>
+      %out_vec = vector.load %output[%out_index] : memref<?xTYPE_PLACEHOLDER>, vector<16xTYPE_PLACEHOLDER>
+      %fma_vec = vector.fma %k_vec, %in_vec, %out_vec : vector<16xTYPE_PLACEHOLDER>
+      vector.store %fma_vec, %output[%out_index] : memref<?xTYPE_PLACEHOLDER>, vector<16xTYPE_PLACEHOLDER>
       %i_next = arith.addi %i, %vl_step : index
       scf.yield %i_next : index
     }
 
     // 6. Process the remainder of the elements with scalar operations.
     %upbound_scalar = arith.addi %upbound, %vl_step_minus_1 : index
     scf.for %i = %iter_idx to %upbound_scalar step %c1 {
-      %in_elem = memref.load %input[%i] : memref<?xf32>
+      %in_elem = memref.load %input[%i] : memref<?xTYPE_PLACEHOLDER>
       %out_index = arith.addi %i, %n : index
-      %out_elem = memref.load %output[%out_index] : memref<?xf32>
-      %mul_elem = arith.mulf %in_elem, %k_elem : f32
-      %add_elem = arith.addf %mul_elem, %out_elem : f32
-      memref.store %add_elem, %output[%out_index] : memref<?xf32>
+      %out_elem = memref.load %output[%out_index] : memref<?xTYPE_PLACEHOLDER>
+      %mul_elem = arith.mulf %in_elem, %k_elem : TYPE_PLACEHOLDER
+      %add_elem = arith.addf %mul_elem, %out_elem : TYPE_PLACEHOLDER
+      memref.store %add_elem, %output[%out_index] : memref<?xTYPE_PLACEHOLDER>
     }
 
     %upbound_next = arith.subi %upbound, %c1 : index
diff --git a/benchmarks/AudioProcessing/Operations/FIROp/Main.cpp b/benchmarks/AudioProcessing/Operations/FIROp/Main.cpp
diff --git a/benchmarks/AudioProcessing/Operations/FIROp/Utils.hpp b/benchmarks/AudioProcessing/Operations/FIROp/Utils.hpp