Reshard func results and data flow ops also when corresponding return operand and func result have different meshes.

Google-ML-Automation · copybara-github · commit 8432f8cdea34 · 2025-03-19T08:03:30.000-07:00
Unless both are fully replicated.

PiperOrigin-RevId: 737622545
diff --git a/shardy/dialect/sdy/transforms/export/insert_explicit_reshards.cc b/shardy/dialect/sdy/transforms/export/insert_explicit_reshards.cc
@@ -712,11 +712,9 @@ bool shouldReshard(TensorShardingAttr sourceSharding,
 void insertExplicitReshardsToTargetSharding(OpOperand* opOperand,
                                             TensorShardingAttr targetSharding,
                                             IRRewriter& rewriter,
-                                            StringRef meshName,
                                             const bool insertAfterOperand) {
   Value operand = opOperand->get();
-  TensorShardingAttr operandSharding =
-      getOrCreateSharding(operand, meshName, /*closedIfMissing=*/true);
+  TensorShardingAttr operandSharding = getSharding(operand);
   if (shouldReshard(operandSharding, targetSharding)) {
     if (insertAfterOperand) {
       rewriter.setInsertionPointAfterValue(operand);
@@ -725,26 +723,26 @@ void insertExplicitReshardsToTargetSharding(OpOperand* opOperand,
         operand.getLoc(), operand,
         targetSharding
             ? targetSharding
+            // Since it should reshard and `targetSharding` is empty,
+            // `operandSharding` is guaranteed to be nonempty.
             : TensorShardingAttr::getFullyClosedLike(operandSharding));
     opOperand->set(reshardOp);
   }
 }
 
 void insertExplicitReshardsOnFuncReturn(Operation* op, func::FuncOp& funcOp,
-                                        IRRewriter& rewriter,
-                                        StringRef meshName) {
+                                        IRRewriter& rewriter) {
   rewriter.setInsertionPoint(op);
   for (const auto& [index, opOperand] : llvm::enumerate(op->getOpOperands())) {
     insertExplicitReshardsToTargetSharding(
         /*opOperand=*/&opOperand,
         /*targetSharding=*/getFuncResultSharding(funcOp, index), rewriter,
-        meshName, /*insertAfterOperand=*/false);
+        /*insertAfterOperand=*/false);
   }
 }
 
 void insertExplicitReshardsOnDataFlowOp(ShardableDataFlowOpInterface& op,
-                                        IRRewriter& rewriter,
-                                        StringRef meshName) {
+                                        IRRewriter& rewriter) {
   for (Value owner : llvm::concat<Value>(op.getOpResultEdgeOwners(),
                                          op.getBlockArgumentEdgeOwners())) {
     TensorShardingAttr ownerSharding = op.transformTargetSharding(
@@ -753,7 +751,7 @@ void insertExplicitReshardsOnDataFlowOp(ShardableDataFlowOpInterface& op,
     for (OpOperand* sourceOpOperand : op.getEdgeSources(owner)) {
       insertExplicitReshardsToTargetSharding(
           /*opOperand=*/sourceOpOperand,
-          /*targetSharding=*/ownerSharding, rewriter, meshName,
+          /*targetSharding=*/ownerSharding, rewriter,
           /*insertAfterOperand=*/true);
     }
   }
@@ -769,6 +767,21 @@ struct InsertExplicitReshardsPass
     SymbolTable symbolTable(funcOp->getParentOfType<ModuleOp>());
 
     funcOp.walk([&](Operation* op) {
+      // TODO(enver): Does not need to be part of the walk on the func, instead
+      // get the terminatior with getBodyTerminator.
+      if (isa<func::ReturnOp>(op)) {
+        insertExplicitReshardsOnFuncReturn(op, funcOp, rewriter);
+        return;
+      }
+
+      // TODO(enver): Prefer resharding the owner when multiple sources are
+      // sharded in the same way.
+      if (auto shardableDataFlowOp =
+              dyn_cast<ShardableDataFlowOpInterface>(op)) {
+        insertExplicitReshardsOnDataFlowOp(shardableDataFlowOp, rewriter);
+        return;
+      }
+
       SmallVector<TensorShardingAttr> inShardings =
           getShardings(op->getOperands());
       SmallVector<TensorShardingAttr> outShardings =
@@ -784,22 +797,6 @@ struct InsertExplicitReshardsPass
         return;
       }
 
-      // TODO(enver): Does not need to be part of the walk on the func, instead
-      // get the terminatior with getBodyTerminator.
-      if (isa<func::ReturnOp>(op)) {
-        insertExplicitReshardsOnFuncReturn(op, funcOp, rewriter, *meshName);
-        return;
-      }
-
-      // TODO(enver): Prefer resharding the owner when multiple sources are
-      // sharded in the same way.
-      if (auto shardableDataFlowOp =
-              dyn_cast<ShardableDataFlowOpInterface>(op)) {
-        insertExplicitReshardsOnDataFlowOp(shardableDataFlowOp, rewriter,
-                                           *meshName);
-        return;
-      }
-
       // NOTE: Creating a sharding rule requires data flow edges are present.
       OpShardingRuleAttr shardingRule =
           getOrCreateShardingRule(op, /*conservativePropagation=*/false,
diff --git a/shardy/dialect/sdy/transforms/export/test/insert_explicit_reshards.mlir b/shardy/dialect/sdy/transforms/export/test/insert_explicit_reshards.mlir
@@ -1,8 +1,11 @@
 // RUN: sdy_opt %s -sdy-insert-explicit-reshards | FileCheck %s
 
 sdy.mesh @mesh = <["x"=4, "y"=2]>
+sdy.mesh @mesh_xt = <["x"=2, "t"=4]>
 sdy.mesh @mesh_xyz = <["x"=4, "y"=2, "z"=4]>
 sdy.mesh @mesh_xyzt = <["x"=4, "y"=4, "z"=4, "t"=8]>
+sdy.mesh @mesh_iota = <["x"=2, "y"=2]>
+sdy.mesh @mesh_non_iota = <["x"=2, "y"=2], device_ids=[3, 2, 1, 0]>
 
 // CHECK-LABEL: func @funcop_result_sharding_does_not_match
 func.func @funcop_result_sharding_does_not_match(%arg0: tensor<8x16xf32> {sdy.sharding = #sdy.sharding<@mesh, [{"x"}, {}]>}) -> (tensor<8x16xf32> {sdy.sharding = #sdy.sharding<@mesh, [{}, {"x"}]>}) {
@@ -11,6 +14,41 @@ func.func @funcop_result_sharding_does_not_match(%arg0: tensor<8x16xf32> {sdy.sh
   return %arg0 : tensor<8x16xf32>
 }
 
+// CHECK-LABEL: func @funcop_result_unsharded_but_different_meshes_between_return_and_func_result
+func.func @funcop_result_unsharded_but_different_meshes_between_return_and_func_result(%arg0: tensor<8x16xf32> {sdy.sharding = #sdy.sharding<@mesh, [{}, {}]>}) -> (tensor<8x16xf32> {sdy.sharding = #sdy.sharding<@mesh_xt, [{}, {}]>}) {
+  // CHECK-NOT: sdy.reshard
+  return %arg0 : tensor<8x16xf32>
+}
+
+// CHECK-LABEL: func @funcop_result_sharding_matches_but_different_meshes_between_return_and_func_result
+func.func @funcop_result_sharding_matches_but_different_meshes_between_return_and_func_result(%arg0: tensor<8x16xf32> {sdy.sharding = #sdy.sharding<@mesh, [{"x"}, {}]>}) -> (tensor<8x16xf32> {sdy.sharding = #sdy.sharding<@mesh_xt, [{"x"}, {}]>}) {
+  // CHECK: %[[RESHARD:.*]] = sdy.reshard %arg0 <@mesh_xt, [{"x"}, {}]> : tensor<8x16xf32>
+  // CHECK: return %[[RESHARD]] : tensor<8x16xf32>
+  return %arg0 : tensor<8x16xf32>
+}
+
+// CHECK-LABEL: func @funcop_result_sharding_does_not_match_different_meshes_between_return_and_func_result
+func.func @funcop_result_sharding_does_not_match_different_meshes_between_return_and_func_result(%arg0: tensor<8x16xf32> {sdy.sharding = #sdy.sharding<@mesh, [{"x"}, {}]>}) -> (tensor<8x16xf32> {sdy.sharding = #sdy.sharding<@mesh_xt, [{}, {"t"}]>}) {
+  // CHECK: %[[RESHARD:.*]] = sdy.reshard %arg0 <@mesh_xt, [{}, {"t"}]> : tensor<8x16xf32>
+  // CHECK: return %[[RESHARD]] : tensor<8x16xf32>
+  return %arg0 : tensor<8x16xf32>
+}
+
+// CHECK-LABEL: func @funcop_result_sharding_does_not_match_different_meshes_between_return_and_func_result_multiple_results
+func.func @funcop_result_sharding_does_not_match_different_meshes_between_return_and_func_result_multiple_results(%arg0: tensor<8x32xf32> {sdy.sharding = #sdy.sharding<@mesh, [{}, {"y"}]>}, %arg1: tensor<32x16xf32> {sdy.sharding = #sdy.sharding<@mesh_xt, [{"t"}, {}]>}) -> (tensor<8x32xf32> {sdy.sharding = #sdy.sharding<@mesh_xt, [{"x"}, {}]>}, tensor<32x16xf32> {sdy.sharding = #sdy.sharding<@mesh, [{}, {"x"}]>}) {
+  // CHECK: %[[RESHARD1:.*]] = sdy.reshard %arg0 <@mesh_xt, [{"x"}, {}]> : tensor<8x32xf32>
+  // CHECK: %[[RESHARD2:.*]] = sdy.reshard %arg1 <@mesh, [{}, {"x"}]> : tensor<32x16xf32>
+  // CHECK: return %[[RESHARD1]], %[[RESHARD2]] : tensor<8x32xf32>, tensor<32x16xf32>
+  return %arg0, %arg1 : tensor<8x32xf32>, tensor<32x16xf32>
+}
+
+// CHECK-LABEL: func @funcop_result_identical_sharding_but_different_meshes_between_return_and_func_result
+func.func @funcop_result_identical_sharding_but_different_meshes_between_return_and_func_result(%arg0: tensor<8x16xf32> {sdy.sharding = #sdy.sharding<@mesh, [{"x":(1)2}, {"y"}]>}) -> (tensor<8x16xf32> {sdy.sharding = #sdy.sharding<@mesh_xt, [{"x"}, {"t":(2)2}]>}) {
+  // CHECK: %[[RESHARD:.*]] = sdy.reshard %arg0 <@mesh_xt, [{"x"}, {"t":(2)2}]> : tensor<8x16xf32>
+  // CHECK: return %[[RESHARD]] : tensor<8x16xf32>
+  return %arg0 : tensor<8x16xf32>
+}
+
 // CHECK-LABEL: func @funcop_result_sharding_does_not_match_funcop_result_empty
 func.func @funcop_result_sharding_does_not_match_funcop_result_empty(%arg0: tensor<8x16xf32> {sdy.sharding = #sdy.sharding<@mesh, [{"x"}, {}]>}) -> tensor<8x16xf32> {
   // CHECK: %[[RESHARD:.*]] = sdy.reshard %arg0 <@mesh, [{}, {}]> : tensor<8x16xf32>
@@ -1628,3 +1666,22 @@ func.func @optimization_barrier(%arg0: tensor<210xf32> {sdy.sharding = #sdy.shar
   %2 = stablehlo.negate %1 {sdy.sharding= #sdy.sharding_per_value<[<@mesh, [{"y"}]>]>} : tensor<210xf32>
   return %2 : tensor<210xf32>
 }
+
+// CHECK-LABEL: func @optimization_barrier_different_meshes
+func.func @optimization_barrier_different_meshes(%arg0: tensor<210xf32> {sdy.sharding = #sdy.sharding<@mesh, [{"x"}]>}) -> (tensor<210xf32> {sdy.sharding = #sdy.sharding<@mesh_xt, [{"x"}]>}) {
+  // CHECK: %[[RESHARD:.*]] = sdy.reshard %arg0 <@mesh_xt, [{"x"}]> : tensor<210xf32>
+  // CHECK-NEXT: stablehlo.optimization_barrier {sdy.sharding = #sdy.sharding_per_value<[<@mesh_xt, [{"x"}]>]>} %[[RESHARD]]
+  %1 = stablehlo.optimization_barrier {sdy.sharding = #sdy.sharding_per_value<[<@mesh_xt, [{"x"}]>]>} %arg0 : tensor<210xf32>
+  %2 = stablehlo.negate %1 {sdy.sharding= #sdy.sharding_per_value<[<@mesh_xt, [{"x"}]>]>} : tensor<210xf32>
+  return %2 : tensor<210xf32>
+}
+
+// CHECK-LABEL: func @optimization_barrier_meshes_different_device_order
+func.func @optimization_barrier_meshes_different_device_order(%arg0: tensor<210xf32> {sdy.sharding = #sdy.sharding<@mesh_iota, [{"x"}]>}) -> (tensor<210xf32> {sdy.sharding = #sdy.sharding<@mesh_non_iota, [{"x"}]>}) {
+  // CHECK: %[[RESHARD:.*]] = sdy.reshard %arg0 <@mesh_non_iota, [{"x"}]> : tensor<210xf32>
+  // CHECK-NEXT: stablehlo.optimization_barrier {sdy.sharding = #sdy.sharding_per_value<[<@mesh_non_iota, [{"x"}]>]>} %[[RESHARD]]
+  %1 = stablehlo.optimization_barrier {sdy.sharding = #sdy.sharding_per_value<[<@mesh_non_iota, [{"x"}]>]>} %arg0 : tensor<210xf32>
+  %2 = stablehlo.negate %1 {sdy.sharding= #sdy.sharding_per_value<[<@mesh_non_iota, [{"x"}]>]>} : tensor<210xf32>
+  return %2 : tensor<210xf32>
+}
+