feat: Add support for `max_inflight_requests` parameter to prevent unbounded memory growth in ensemble models #455

pskiran1 · 2025-10-13T17:21:29Z

This PR adds support for a max_inflight_requests parameter to prevent unbounded memory growth in ensemble models by implementing backpressure control. The feature limits concurrent in-flight responses from ensemble steps to downstream consumers.

Problem

When a fast decoupled producer (e.g., DALI video decoder generating 200 frames instantly) feeds a slow consumer (e.g., image classification taking 200ms per frame), responses pile up in memory waiting to be processed. This causes unbounded memory growth (25-35GB observed for a single request).

Solution

The new parameter blocks the producer when the downstream consumer has too many pending responses (configured limit reached), implementing backpressure control. Example configuration:

ensemble_scheduling {
  max_inflight_requests: 4
  step [
    {
  ...

CI: triton-inference-server/server#8458

Copilot

Pull Request Overview

This PR adds support for a max_ensemble_inflight_responses parameter to prevent unbounded memory growth in ensemble models by implementing backpressure control. The feature limits concurrent inflight responses from ensemble steps to downstream consumers.

Adds backpressure configuration parameter parsing with validation
Implements producer blocking mechanism when downstream consumers are overloaded
Tracks inflight response counts per step with proper synchronization

Reviewed Changes

Copilot reviewed 2 out of 2 changed files in this pull request and generated 3 comments.

File	Description
src/ensemble_scheduler/ensemble_scheduler.h	Adds max_inflight_responses_ field to EnsembleInfo struct
src/ensemble_scheduler/ensemble_scheduler.cc	Implements backpressure logic with tracking, blocking, and configuration parsing

_{Tip: Customize your code reviews with copilot-instructions.md. Create the file or learn how to get started.}

src/ensemble_scheduler/ensemble_scheduler.cc

Co-authored-by: Copilot <[email protected]>

whoisj

I have concerns here. This change creates an array of mutex + condition-variables that independently track, what I assume are, producer/consumer channels.
this seems overly complex to me.

why not use a simple integer to track the number of active vs capacity, and a single mutex + cv to handle interactions with those values?

Finally, does this guard against output overflows, where too many requests have completed but downstream models are incapable to consuming those outputs?

src/ensemble_scheduler/ensemble_scheduler.cc

yinggeh · 2025-10-15T09:43:31Z

Need documentation and show the use case.

src/ensemble_scheduler/ensemble_scheduler.cc

…into spolisetty/tri-26-triton-dali-ensemble-model-memory-issue

src/ensemble_scheduler/ensemble_scheduler.cc

src/ensemble_scheduler/ensemble_scheduler.h

Co-authored-by: Yingge He <[email protected]>

Update

9a9815e

pskiran1 requested a review from Copilot October 13, 2025 17:21

Copilot AI reviewed Oct 13, 2025

View reviewed changes

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

pskiran1 and others added 2 commits October 13, 2025 23:32

Update src/ensemble_scheduler/ensemble_scheduler.cc

4c81624

Co-authored-by: Copilot <[email protected]>

Update

7b5af66

pskiran1 mentioned this pull request Oct 13, 2025

ci: Add support for max_inflight_requests parameter to prevent unbounded memory growth in ensemble models triton-inference-server/server#8458

Open

20 tasks

whoisj reviewed Oct 13, 2025

View reviewed changes

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

pskiran1 requested review from tanmayv25 and yinggeh October 14, 2025 05:44

pskiran1 added 2 commits October 14, 2025 15:28

Update

9558ae8

Update error message

90cbb7a

whoisj reviewed Oct 14, 2025

View reviewed changes

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

Update Parameter validation

4befcd9

yinggeh reviewed Oct 15, 2025

View reviewed changes

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

yinggeh reviewed Oct 15, 2025

View reviewed changes

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

pskiran1 added 2 commits October 18, 2025 00:22

Move max_inflight_responses to config.proto

2bff78b

Update

ea4187b

pskiran1 changed the title ~~feat: Add support for max_ensemble_inflight_responses parameter to prevent unbounded memory growth in ensemble models~~ feat: Add support for max_inflight_responses parameter to prevent unbounded memory growth in ensemble models Oct 17, 2025

pskiran1 mentioned this pull request Oct 17, 2025

feat: Add support for max_inflight_requests parameter to prevent unbounded memory growth in ensemble models triton-inference-server/common#141

Open

pskiran1 added 2 commits October 18, 2025 02:32

Move blocking logic to EnsembleContext::ScheduleSteps()

1e155bb

Fix pre-commit

3c0e83d

pskiran1 requested a review from yinggeh October 17, 2025 21:08

yinggeh reviewed Oct 24, 2025

View reviewed changes

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

yinggeh reviewed Oct 24, 2025

View reviewed changes

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

pskiran1 added 2 commits October 24, 2025 20:31

Update

2cd6c7b

Merge branch 'main' of https://github.com/triton-inference-server/core …

34f0486

…into spolisetty/tri-26-triton-dali-ensemble-model-memory-issue

whoisj previously approved these changes Oct 24, 2025

View reviewed changes

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

pskiran1 changed the title ~~feat: Add support for max_inflight_responses parameter to prevent unbounded memory growth in ensemble models~~ feat: Add support for max_inflight_requests parameter to prevent unbounded memory growth in ensemble models Oct 24, 2025

pskiran1 requested a review from yinggeh October 24, 2025 16:00

Update comment

58eaa55

pskiran1 dismissed whoisj’s stale review via 58eaa55 October 24, 2025 16:13

Fix pre-commit

35d6700

yinggeh reviewed Oct 27, 2025

View reviewed changes

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

pskiran1 added 2 commits October 28, 2025 22:45

Enhancements

f1ff2f7

Update

2685d49

pskiran1 requested a review from yinggeh October 28, 2025 17:26

yinggeh reviewed Oct 28, 2025

View reviewed changes

src/ensemble_scheduler/ensemble_scheduler.cc Show resolved Hide resolved

pskiran1 requested a review from yinggeh October 30, 2025 05:08

yinggeh reviewed Oct 30, 2025

View reviewed changes

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

Update

381b847

yinggeh reviewed Oct 31, 2025

View reviewed changes

src/ensemble_scheduler/ensemble_scheduler.cc Outdated Show resolved Hide resolved

src/ensemble_scheduler/ensemble_scheduler.cc Show resolved Hide resolved

Update

53ec733

pskiran1 requested a review from yinggeh October 31, 2025 11:36

yinggeh reviewed Oct 31, 2025

View reviewed changes

src/ensemble_scheduler/ensemble_scheduler.h Outdated Show resolved Hide resolved

pskiran1 and others added 3 commits November 1, 2025 00:14

Update src/ensemble_scheduler/ensemble_scheduler.h

b165755

Co-authored-by: Yingge He <[email protected]>

Update

caf637c

Update

9187e19

pskiran1 requested a review from yinggeh October 31, 2025 20:01

yinggeh approved these changes Oct 31, 2025

View reviewed changes

feat: Add support for max_inflight_requests parameter to prevent unbounded memory growth in ensemble models #455

Are you sure you want to change the base?

feat: Add support for max_inflight_requests parameter to prevent unbounded memory growth in ensemble models #455

Conversation

pskiran1 commented Oct 13, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Problem

Solution

Uh oh!

Copilot AI left a comment

Choose a reason for hiding this comment

Pull Request Overview

Reviewed Changes

Uh oh!

Uh oh!

Uh oh!

Uh oh!

whoisj left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

yinggeh commented Oct 15, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Milestone

Development

Uh oh!

4 participants

feat: Add support for `max_inflight_requests` parameter to prevent unbounded memory growth in ensemble models #455

feat: Add support for `max_inflight_requests` parameter to prevent unbounded memory growth in ensemble models #455

pskiran1 commented Oct 13, 2025 •

edited

Loading