fix managed pg allreduce

tushar00jain · tushar00jain · commit 7e5dda168acd · 2025-07-28T21:18:18.000-07:00
Summary:
managed pg allreduce should just call manager's allreduce
diff --git a/torchft/process_group.py b/torchft/process_group.py
@@ -1101,23 +1101,7 @@ def __init__(self, manager: "Manager") -> None:
         self._manager = manager
 
     def allreduce(self, tensors: List[torch.Tensor], opts: object) -> Work:
-        # Ensure we have a valid quorum and are configured before trying to do
-        # any work.
-        self._manager.wait_quorum()
-
-        if self._manager.errored() is not None:
-            return _DummyWork(tensors)
-        try:
-            work = super().allreduce(tensors, opts)
-        except Exception as e:
-            self._manager.report_error(e)
-            return _DummyWork(tensors)
-
-        return _ManagedWork(
-            self._manager,
-            work,
-            tensors,
-        )
+        return self._manager.allreduce(tensors)
 
     def size(self) -> int:
         return self._manager.num_participants()