rapidsai · Sep 2, 2022
diff --git a/‎ci/gpu/build.sh
+2-2 b/‎ci/gpu/build.sh
+2-2
diff --git a/‎ucp/benchmarks/backends/base.py
+84 b/‎ucp/benchmarks/backends/base.py
+84
diff --git a/‎ucp/benchmarks/backends/ucp_async.py
+146 b/‎ucp/benchmarks/backends/ucp_async.py
+146
diff --git a/‎ucp/benchmarks/backends/ucp_core.py
+291 b/‎ucp/benchmarks/backends/ucp_core.py
+291
diff --git a/‎ucp/benchmarks/send_recv.py
+59-103 b/‎ucp/benchmarks/send_recv.py
+59-103
diff --git a/‎ucp/benchmarks/send_recv_core.py
-561 b/‎ucp/benchmarks/send_recv_core.py
-561
@@ -101,8 +101,8 @@ function run_tests() {
     py.test --cache-clear -vs ucp/_libs/tests
 
     gpuci_logger "Run local benchmark"
-    python -m ucp.benchmarks.send_recv -o cupy --server-dev 0 --client-dev 0 --reuse-alloc
-    python -m ucp.benchmarks.send_recv_core -o cupy --server-dev 0 --client-dev 0 --reuse-alloc
+    python -m ucp.benchmarks.send_recv -o cupy --server-dev 0 --client-dev 0 --reuse-alloc --backend ucp-async
+    python -m ucp.benchmarks.send_recv -o cupy --server-dev 0 --client-dev 0 --reuse-alloc --backend ucp-core
     python -m ucp.benchmarks.cudf_merge --chunks-per-dev 4 --chunk-size 10000 --rmm-init-pool-size 2097152
 }
 
 
@@ -0,0 +1,84 @@
+from abc import ABC, abstractmethod
+from argparse import Namespace
+from queue import Queue
+from typing import Any
+
+
+class BaseServer(ABC):
+    @abstractmethod
+    def __init__(self, args: Namespace, xp: Any, queue: Queue):
+        """
+        Benchmark server.
+
+        Parameters
+        ----------
+        args: argparse.Namespace
+            Parsed command-line arguments that will be used as parameters during
+            the `run` method.
+        xp: module
+            Module implementing the NumPy API to use for data generation.
+        queue: Queue
+            Queue object where server will put the port it is listening at.
+        """
+        pass
+
+    @abstractmethod
+    def run(self):
+        """
+        Run the benchmark server.
+
+        The server is executed as follows:
+        1. Start the listener and put port where it is listening into the queue
+           registered in constructor;
+        2. Setup any additional context (Active Message registration, memory buffers
+           to reuse, etc.);
+        3. Transfer data back-and-forth with client;
+        4. Shutdown server.
+        """
+        pass
+
+
+class BaseClient(ABC):
+    @abstractmethod
+    def __init__(
+        self, args: Namespace, xp: Any, queue: Queue, server_address: str, port: int
+    ):
+        """
+        Benchmark client.
+
+        Parameters
+        ----------
+        args
+            Parsed command-line arguments that will be used as parameters during
+            the `run` method.
+        xp
+            Module implementing the NumPy API to use for data generation.
+        queue
+            Queue object where to put timing results.
+        server_address
+            Hostname or IP address where server is listening at.
+        port
+            Port where server is listening at.
+        """
+        pass
+
+    @abstractmethod
+    def run(self):
+        """
+        Run the benchmark client.
+
+        The client is executed as follows:
+        1. Connects to listener;
+        2. Setup any additional context (Active Message registration, memory buffers
+           to reuse, etc.);
+        3. Transfer data back-and-forth with server;
+        4. Shutdown client;
+        5. Put timing results into the queue registered in constructor.
+        """
+        pass
+
+    def print_backend_specific_config(self):
+        """
+        Pretty print configuration specific to backend implementation.
+        """
+        pass
@@ -0,0 +1,146 @@
+import asyncio
+from argparse import Namespace
+from queue import Queue
+from time import monotonic
+from typing import Any
+
+import ucp
+from ucp._libs.arr import Array
+from ucp._libs.utils import print_key_value
+from ucp.benchmarks.backends.base import BaseClient, BaseServer
+
+
+def register_am_allocators(args: Namespace):
+    """
+    Register Active Message allocator in worker to correct memory type if the
+    benchmark is set to use the Active Message API.
+
+    Parameters
+    ----------
+    args
+        Parsed command-line arguments that will be used as parameters during to
+        determine whether the caller is using the Active Message API and what
+        memory type.
+    """
+    if not args.enable_am:
+        return
+
+    import numpy as np
+
+    ucp.register_am_allocator(lambda n: np.empty(n, dtype=np.uint8), "host")
+
+    if args.object_type == "cupy":
+        import cupy as cp
+
+        ucp.register_am_allocator(lambda n: cp.empty(n, dtype=cp.uint8), "cuda")
+    elif args.object_type == "rmm":
+        import rmm
+
+        ucp.register_am_allocator(lambda n: rmm.DeviceBuffer(size=n), "cuda")
+
+
+class UCXPyAsyncServer(BaseServer):
+    def __init__(self, args: Namespace, xp: Any, queue: Queue):
+        self.args = args
+        self.xp = xp
+        self.queue = queue
+
+    async def run(self):
+        ucp.init()
+
+        register_am_allocators(self.args)
+
+        async def server_handler(ep):
+            if not self.args.enable_am:
+                msg_recv_list = []
+                if self.args.reuse_alloc:
+                    t = Array(self.xp.zeros(self.args.n_bytes, dtype="u1"))
+                    for _ in range(self.args.n_iter + self.args.n_warmup_iter):
+                        msg_recv_list.append(t)
+                else:
+                    for _ in range(self.args.n_iter + self.args.n_warmup_iter):
+                        msg_recv_list.append(
+                            self.xp.zeros(self.args.n_bytes, dtype="u1")
+                        )
+
+                assert msg_recv_list[0].nbytes == self.args.n_bytes
+
+            for i in range(self.args.n_iter + self.args.n_warmup_iter):
+                if self.args.enable_am is True:
+                    recv = await ep.am_recv()
+                    await ep.am_send(recv)
+                else:
+                    await ep.recv(msg_recv_list[i])
+                    await ep.send(msg_recv_list[i])
+            await ep.close()
+            lf.close()
+
+        lf = ucp.create_listener(server_handler, port=self.args.port)
+        self.queue.put(lf.port)
+
+        while not lf.closed():
+            await asyncio.sleep(0.5)
+
+
+class UCXPyAsyncClient(BaseClient):
+    def __init__(
+        self, args: Namespace, xp: Any, queue: Queue, server_address: str, port: int
+    ):
+        self.args = args
+        self.xp = xp
+        self.queue = queue
+        self.server_address = server_address
+        self.port = port
+
+    async def run(self):
+        ucp.init()
+
+        register_am_allocators(self.args)
+
+        ep = await ucp.create_endpoint(self.server_address, self.port)
+
+        if self.args.enable_am:
+            msg = self.xp.arange(self.args.n_bytes, dtype="u1")
+        else:
+            msg_send_list = []
+            msg_recv_list = []
+            if self.args.reuse_alloc:
+                t1 = Array(self.xp.arange(self.args.n_bytes, dtype="u1"))
+                t2 = Array(self.xp.zeros(self.args.n_bytes, dtype="u1"))
+                for i in range(self.args.n_iter + self.args.n_warmup_iter):
+                    msg_send_list.append(t1)
+                    msg_recv_list.append(t2)
+            else:
+                for i in range(self.args.n_iter + self.args.n_warmup_iter):
+                    msg_send_list.append(self.xp.arange(self.args.n_bytes, dtype="u1"))
+                    msg_recv_list.append(self.xp.zeros(self.args.n_bytes, dtype="u1"))
+
+            assert msg_send_list[0].nbytes == self.args.n_bytes
+            assert msg_recv_list[0].nbytes == self.args.n_bytes
+
+        if self.args.cuda_profile:
+            self.xp.cuda.profiler.start()
+        times = []
+        for i in range(self.args.n_iter + self.args.n_warmup_iter):
+            start = monotonic()
+            if self.args.enable_am:
+                await ep.am_send(msg)
+                await ep.am_recv()
+            else:
+                await ep.send(msg_send_list[i])
+                await ep.recv(msg_recv_list[i])
+            stop = monotonic()
+            if i >= self.args.n_warmup_iter:
+                times.append(stop - start)
+        if self.args.cuda_profile:
+            self.xp.cuda.profiler.stop()
+        self.queue.put(times)
+
+    def print_backend_specific_config(self):
+        print_key_value(
+            key="Transfer API", value=f"{'AM' if self.args.enable_am else 'TAG'}"
+        )
+        print_key_value(key="UCX_TLS", value=f"{ucp.get_config()['TLS']}")
+        print_key_value(
+            key="UCX_NET_DEVICES", value=f"{ucp.get_config()['NET_DEVICES']}"
+        )
@@ -0,0 +1,291 @@
+from argparse import Namespace
+from queue import Queue
+from threading import Lock
+from time import monotonic
+from typing import Any
+
+import ucp
+from ucp._libs import ucx_api
+from ucp._libs.arr import Array
+from ucp._libs.utils import print_key_value
+from ucp._libs.utils_test import (
+    blocking_am_recv,
+    blocking_am_send,
+    blocking_recv,
+    blocking_send,
+    non_blocking_recv,
+    non_blocking_send,
+)
+from ucp.benchmarks.backends.base import BaseClient, BaseServer
+
+WireupMessage = bytearray(b"wireup")
+
+
+def register_am_allocators(args: Namespace, worker: ucx_api.UCXWorker):
+    """
+    Register Active Message allocator in worker to correct memory type if the
+    benchmark is set to use the Active Message API.
+
+    Parameters
+    ----------
+    args
+        Parsed command-line arguments that will be used as parameters during to
+        determine whether the caller is using the Active Message API and what
+        memory type.
+    worker
+        UCX-Py core Worker object where to register the allocator.
+    """
+    if not args.enable_am:
+        return
+
+    import numpy as np
+
+    worker.register_am_allocator(
+        lambda n: np.empty(n, dtype=np.uint8), ucx_api.AllocatorType.HOST
+    )
+
+    if args.object_type == "cupy":
+        import cupy as cp
+
+        worker.register_am_allocator(
+            lambda n: cp.empty(n, dtype=cp.uint8), ucx_api.AllocatorType.CUDA
+        )
+    elif args.object_type == "rmm":
+        import rmm
+
+        worker.register_am_allocator(
+            lambda n: rmm.DeviceBuffer(size=n), ucx_api.AllocatorType.CUDA
+        )
+
+
+class UCXPyCoreServer(BaseServer):
+    def __init__(self, args: Namespace, xp: Any, queue: Queue):
+        self.args = args
+        self.xp = xp
+        self.queue = queue
+
+    def run(self):
+        self.ep = None
+
+        ctx = ucx_api.UCXContext(
+            feature_flags=(
+                ucx_api.Feature.AM if self.args.enable_am else ucx_api.Feature.TAG,
+            )
+        )
+        worker = ucx_api.UCXWorker(ctx)
+
+        register_am_allocators(self.args, worker)
+
+        op_lock = Lock()
+        finished = [0]
+        outstanding = [0]
+
+        def op_started():
+            with op_lock:
+                outstanding[0] += 1
+
+        def op_completed():
+            with op_lock:
+                outstanding[0] -= 1
+                finished[0] += 1
+
+        def _send_handle(request, exception, msg):
+            # Notice, we pass `msg` to the handler in order to make sure
+            # it doesn't go out of scope prematurely.
+            assert exception is None
+            op_completed()
+
+        def _tag_recv_handle(request, exception, ep, msg):
+            assert exception is None
+            req = ucx_api.tag_send_nb(
+                ep, msg, msg.nbytes, tag=0, cb_func=_send_handle, cb_args=(msg,)
+            )
+            if req is None:
+                op_completed()
+
+        def _am_recv_handle(recv_obj, exception, ep):
+            assert exception is None
+            msg = Array(recv_obj)
+            ucx_api.am_send_nbx(
+                ep, msg, msg.nbytes, cb_func=_send_handle, cb_args=(msg,)
+            )
+
+        def _listener_handler(conn_request, msg):
+            self.ep = ucx_api.UCXEndpoint.create_from_conn_request(
+                worker,
+                conn_request,
+                endpoint_error_handling=True,
+            )
+
+            # Wireup before starting to transfer data
+            if self.args.enable_am is True:
+                ucx_api.am_recv_nb(self.ep, cb_func=_am_recv_handle, cb_args=(self.ep,))
+            else:
+                wireup = Array(bytearray(len(WireupMessage)))
+                op_started()
+                ucx_api.tag_recv_nb(
+                    worker,
+                    wireup,
+                    wireup.nbytes,
+                    tag=0,
+                    cb_func=_tag_recv_handle,
+                    cb_args=(self.ep, wireup),
+                )
+
+            for i in range(self.args.n_iter + self.args.n_warmup_iter):
+                if self.args.enable_am is True:
+                    ucx_api.am_recv_nb(
+                        self.ep, cb_func=_am_recv_handle, cb_args=(self.ep,)
+                    )
+                else:
+                    if not self.args.reuse_alloc:
+                        msg = Array(self.xp.zeros(self.args.n_bytes, dtype="u1"))
+
+                    op_started()
+                    ucx_api.tag_recv_nb(
+                        worker,
+                        msg,
+                        msg.nbytes,
+                        tag=0,
+                        cb_func=_tag_recv_handle,
+                        cb_args=(self.ep, msg),
+                    )
+
+        if not self.args.enable_am and self.args.reuse_alloc:
+            msg = Array(self.xp.zeros(self.args.n_bytes, dtype="u1"))
+        else:
+            msg = None
+
+        listener = ucx_api.UCXListener(
+            worker=worker,
+            port=self.args.port or 0,
+            cb_func=_listener_handler,
+            cb_args=(msg,),
+        )
+        self.queue.put(listener.port)
+
+        while outstanding[0] == 0:
+            worker.progress()
+
+        # +1 to account for wireup message
+        if self.args.delay_progress:
+            while finished[0] < self.args.n_iter + self.args.n_warmup_iter + 1 and (
+                outstanding[0] >= self.args.max_outstanding
+                or finished[0] + self.args.max_outstanding
+                >= self.args.n_iter + self.args.n_warmup_iter + 1
+            ):
+                worker.progress()
+        else:
+            while finished[0] != self.args.n_iter + self.args.n_warmup_iter + 1:
+                worker.progress()
+
+        del self.ep
+
+
+class UCXPyCoreClient(BaseClient):
+    def __init__(
+        self, args: Namespace, xp: Any, queue: Queue, server_address: str, port: int
+    ):
+        self.args = args
+        self.xp = xp
+        self.queue = queue
+        self.server_address = server_address
+        self.port = port
+
+    def run(self):
+        ctx = ucx_api.UCXContext(
+            feature_flags=(
+                ucx_api.Feature.AM
+                if self.args.enable_am is True
+                else ucx_api.Feature.TAG,
+            )
+        )
+        worker = ucx_api.UCXWorker(ctx)
+        register_am_allocators(self.args, worker)
+        ep = ucx_api.UCXEndpoint.create(
+            worker,
+            self.server_address,
+            self.port,
+            endpoint_error_handling=True,
+        )
+
+        send_msg = self.xp.arange(self.args.n_bytes, dtype="u1")
+        if self.args.reuse_alloc:
+            recv_msg = self.xp.zeros(self.args.n_bytes, dtype="u1")
+
+        if self.args.enable_am:
+            blocking_am_send(worker, ep, send_msg)
+            blocking_am_recv(worker, ep)
+        else:
+            wireup_recv = bytearray(len(WireupMessage))
+            blocking_send(worker, ep, WireupMessage)
+            blocking_recv(worker, ep, wireup_recv)
+
+        op_lock = Lock()
+        finished = [0]
+        outstanding = [0]
+
+        def maybe_progress():
+            while outstanding[0] >= self.args.max_outstanding:
+                worker.progress()
+
+        def op_started():
+            with op_lock:
+                outstanding[0] += 1
+
+        def op_completed():
+            with op_lock:
+                outstanding[0] -= 1
+                finished[0] += 1
+
+        if self.args.cuda_profile:
+            self.xp.cuda.profiler.start()
+
+        times = []
+        last_iter = self.args.n_iter + self.args.n_warmup_iter - 1
+        for i in range(self.args.n_iter + self.args.n_warmup_iter):
+            start = monotonic()
+
+            if self.args.enable_am:
+                blocking_am_send(worker, ep, send_msg)
+                blocking_am_recv(worker, ep)
+            else:
+                if not self.args.reuse_alloc:
+                    recv_msg = self.xp.zeros(self.args.n_bytes, dtype="u1")
+
+                if self.args.delay_progress:
+                    non_blocking_recv(worker, ep, recv_msg, op_started, op_completed)
+                    non_blocking_send(worker, ep, send_msg, op_started, op_completed)
+                    maybe_progress()
+                else:
+                    blocking_send(worker, ep, send_msg)
+                    blocking_recv(worker, ep, recv_msg)
+
+            if i == last_iter and self.args.delay_progress:
+                while finished[0] != 2 * (self.args.n_iter + self.args.n_warmup_iter):
+                    worker.progress()
+
+            stop = monotonic()
+            if i >= self.args.n_warmup_iter:
+                times.append(stop - start)
+
+        if self.args.cuda_profile:
+            self.xp.cuda.profiler.stop()
+
+        self.queue.put(times)
+
+    def print_backend_specific_config(self):
+        delay_progress_str = (
+            f"True ({self.args.max_outstanding})"
+            if self.args.delay_progress is True
+            else "False"
+        )
+
+        print_key_value(
+            key="Transfer API", value=f"{'AM' if self.args.enable_am else 'TAG'}"
+        )
+        print_key_value(key="Delay progress", value=f"{delay_progress_str}")
+        print_key_value(key="UCX_TLS", value=f"{ucp.get_config()['TLS']}")
+        print_key_value(
+            key="UCX_NET_DEVICES", value=f"{ucp.get_config()['NET_DEVICES']}"
+        )
@@ -21,7 +21,6 @@
 import asyncio
 import multiprocessing as mp
 import os
-from time import perf_counter as clock
 
 import ucp
 from ucp._libs.utils import (
@@ -30,29 +29,16 @@
     print_key_value,
     print_separator,
 )
+from ucp.benchmarks.backends.ucp_async import (
+    UCXPyAsyncClient,
+    UCXPyAsyncServer,
+)
+from ucp.benchmarks.backends.ucp_core import UCXPyCoreClient, UCXPyCoreServer
 from ucp.utils import get_event_loop
 
 mp = mp.get_context("spawn")
 
 
-def register_am_allocators(args):
-    if not args.enable_am:
-        return
-
-    import numpy as np
-
-    ucp.register_am_allocator(lambda n: np.empty(n, dtype=np.uint8), "host")
-
-    if args.object_type == "cupy":
-        import cupy as cp
-
-        ucp.register_am_allocator(lambda n: cp.empty(n, dtype=cp.uint8), "cuda")
-    elif args.object_type == "rmm":
-        import rmm
-
-        ucp.register_am_allocator(lambda n: rmm.DeviceBuffer(size=n), "cuda")
-
-
 def server(queue, args):
     if args.server_cpu_affinity >= 0:
         os.sched_setaffinity(0, [args.server_cpu_affinity])
@@ -77,43 +63,16 @@ def server(queue, args):
         xp.cuda.runtime.setDevice(args.server_dev)
         xp.cuda.set_allocator(rmm.rmm_cupy_allocator)
 
-    ucp.init()
-
-    register_am_allocators(args)
-
-    async def run():
-        async def server_handler(ep):
-
-            if not args.enable_am:
-                msg_recv_list = []
-                if not args.reuse_alloc:
-                    for _ in range(args.n_iter + args.n_warmup_iter):
-                        msg_recv_list.append(xp.zeros(args.n_bytes, dtype="u1"))
-                else:
-                    t = xp.zeros(args.n_bytes, dtype="u1")
-                    for _ in range(args.n_iter + args.n_warmup_iter):
-                        msg_recv_list.append(t)
-
-                assert msg_recv_list[0].nbytes == args.n_bytes
+    if args.backend == "ucp-async":
+        server = UCXPyAsyncServer(args, xp, queue)
+    elif args.backend == "ucp-core":
+        server = UCXPyCoreServer(args, xp, queue)
 
-            for i in range(args.n_iter + args.n_warmup_iter):
-                if args.enable_am is True:
-                    recv = await ep.am_recv()
-                    await ep.am_send(recv)
-                else:
-                    await ep.recv(msg_recv_list[i])
-                    await ep.send(msg_recv_list[i])
-            await ep.close()
-            lf.close()
-
-        lf = ucp.create_listener(server_handler, port=args.port)
-        queue.put(lf.port)
-
-        while not lf.closed():
-            await asyncio.sleep(0.5)
-
-    loop = get_event_loop()
-    loop.run_until_complete(run())
+    if asyncio.iscoroutinefunction(server.run):
+        loop = get_event_loop()
+        loop.run_until_complete(server.run())
+    else:
+        server.run()
 
 
 def client(queue, port, server_address, args):
@@ -142,53 +101,19 @@ def client(queue, port, server_address, args):
         xp.cuda.runtime.setDevice(args.client_dev)
         xp.cuda.set_allocator(rmm.rmm_cupy_allocator)
 
-    ucp.init()
-
-    register_am_allocators(args)
-
-    async def run():
-        ep = await ucp.create_endpoint(server_address, port)
-
-        if args.enable_am:
-            msg = xp.arange(args.n_bytes, dtype="u1")
-        else:
-            msg_send_list = []
-            msg_recv_list = []
-            if not args.reuse_alloc:
-                for i in range(args.n_iter + args.n_warmup_iter):
-                    msg_send_list.append(xp.arange(args.n_bytes, dtype="u1"))
-                    msg_recv_list.append(xp.zeros(args.n_bytes, dtype="u1"))
-            else:
-                t1 = xp.arange(args.n_bytes, dtype="u1")
-                t2 = xp.zeros(args.n_bytes, dtype="u1")
-                for i in range(args.n_iter + args.n_warmup_iter):
-                    msg_send_list.append(t1)
-                    msg_recv_list.append(t2)
-            assert msg_send_list[0].nbytes == args.n_bytes
-            assert msg_recv_list[0].nbytes == args.n_bytes
-
-        if args.cuda_profile:
-            xp.cuda.profiler.start()
-        times = []
-        for i in range(args.n_iter + args.n_warmup_iter):
-            start = clock()
-            if args.enable_am:
-                await ep.am_send(msg)
-                await ep.am_recv()
-            else:
-                await ep.send(msg_send_list[i])
-                await ep.recv(msg_recv_list[i])
-            stop = clock()
-            if i >= args.n_warmup_iter:
-                times.append(stop - start)
-        if args.cuda_profile:
-            xp.cuda.profiler.stop()
-        queue.put(times)
-
-    loop = get_event_loop()
-    loop.run_until_complete(run())
+    if args.backend == "ucp-async":
+        client = UCXPyAsyncClient(args, xp, queue, server_address, port)
+    elif args.backend == "ucp-core":
+        client = UCXPyCoreClient(args, xp, queue, server_address, port)
+
+    if asyncio.iscoroutinefunction(client.run):
+        loop = get_event_loop()
+        loop.run_until_complete(client.run())
+    else:
+        client.run()
 
     times = queue.get()
+
     assert len(times) == args.n_iter
     bw_avg = format_bytes(2 * args.n_iter * args.n_bytes / sum(times))
     bw_med = format_bytes(2 * args.n_bytes / np.median(times))
@@ -201,9 +126,7 @@ async def run():
     print_key_value(key="Bytes", value=f"{format_bytes(args.n_bytes)}")
     print_key_value(key="Object type", value=f"{args.object_type}")
     print_key_value(key="Reuse allocation", value=f"{args.reuse_alloc}")
-    print_key_value(key="Transfer API", value=f"{'AM' if args.enable_am else 'TAG'}")
-    print_key_value(key="UCX_TLS", value=f"{ucp.get_config()['TLS']}")
-    print_key_value(key="UCX_NET_DEVICES", value=f"{ucp.get_config()['NET_DEVICES']}")
+    client.print_backend_specific_config()
     print_separator(separator="=")
     if args.object_type == "numpy":
         print_key_value(key="Device(s)", value="CPU-only")
@@ -375,12 +298,45 @@ def parse_args():
         action="store_true",
         help="Disable detailed report per iteration.",
     )
+    parser.add_argument(
+        "-l",
+        "--backend",
+        default="ucp-async",
+        type=str,
+        help="Backend Library (-l) to use, options are: 'ucp-async' (default) and "
+        "'ucp-core'.",
+    )
+    parser.add_argument(
+        "--delay-progress",
+        default=False,
+        action="store_true",
+        help="Only applies to 'ucp-core' backend: delay ucp_worker_progress calls "
+        "until a minimum number of outstanding operations is reached, implies "
+        "non-blocking send/recv. The --max-outstanding argument may be used to "
+        "control number of maximum outstanding operations. (Default: disabled)",
+    )
+    parser.add_argument(
+        "--max-outstanding",
+        metavar="N",
+        default=32,
+        type=int,
+        help="Only applies to 'ucp-core' backend: number of maximum outstanding "
+        "operations, see --delay-progress. (Default: 32)",
+    )
 
     args = parser.parse_args()
+
     if args.cuda_profile and args.object_type == "numpy":
         raise RuntimeError(
             "`--cuda-profile` requires `--object_type=cupy` or `--object_type=rmm`"
         )
+
+    if not any([args.backend == b for b in ["ucp-async", "ucp-core"]]):
+        raise RuntimeError(f"Unknown backend {args.backend}")
+
+    if args.backend != "ucp-core" and args.delay_progress:
+        raise RuntimeError("`--delay-progress` requires `--backend=ucp-core`")
+
     return args
Original file line number	Diff line number	Diff line change
`@@ -101,8 +101,8 @@ function run_tests() {`
`101`	`101`	`py.test --cache-clear -vs ucp/_libs/tests`
`102`	`102`
`103`	`103`	`gpuci_logger "Run local benchmark"`
`104`		`- python -m ucp.benchmarks.send_recv -o cupy --server-dev 0 --client-dev 0 --reuse-alloc`
`105`		`- python -m ucp.benchmarks.send_recv_core -o cupy --server-dev 0 --client-dev 0 --reuse-alloc`
	`104`	`+ python -m ucp.benchmarks.send_recv -o cupy --server-dev 0 --client-dev 0 --reuse-alloc --backend ucp-async`
	`105`	`+ python -m ucp.benchmarks.send_recv -o cupy --server-dev 0 --client-dev 0 --reuse-alloc --backend ucp-core`
`106`	`106`	`python -m ucp.benchmarks.cudf_merge --chunks-per-dev 4 --chunk-size 10000 --rmm-init-pool-size 2097152`
`107`	`107`	`}`
`108`	`108`