可以问一下如何复现在 Leaderboard 的结果吗？ #248

librola · 2026-06-30T11:47:57Z

librola
Jun 30, 2026

您好，我是 Code review 方面的研究者，正在做一些 code review 方向的研究。

想请教如何复现你们在 https://alibaba.github.io/open-code-review/#/benchmark 这个里面列出的结果？

我之前在研究你们开源在 https://github.com/alibaba/aacr-bench/ 的代码时，遇到了一个数据集中列出的题目的 target_commit 无法找到的问题，希望麻烦您抽时间看一下：alibaba/aacr-bench#4

此外，我看到你们在 Paper 中提到，用于评估语义对比的模型是 Qwen3-235B-A22B-Instruct-2507，我想问一下你们在这个 leaderboard 的评测中仍然是使用的这个模型吗？

还有就是我看 https://github.com/alibaba/aacr-bench/blob/main/dataset/positive_samples.json 这个里面列出来的 pr 似乎只有 196 个，而非 README 和 leaderboard 中提到的 200 个？

最后，求问一下现在 https://github.com/alibaba/aacr-bench/ 中的数据和代码是最新的吗，和你们测试 Leaderboard 上结果所使用的同步吗？（实不相瞒，此前我尝试用这里的代码复现 GLM-4.7 和 Deepseek-V3.2 的成绩，但是一直无法和 Paper 中的结果对上，故希望请教一下细节）

感谢！

stay-foolish-forever · 2026-06-30T18:21:44Z

stay-foolish-forever
Jun 30, 2026

@librola 你好,非常感谢你对 AACR-Bench 的关注,也很高兴有 code review 方向的研究者关注到这个工作!

1. 关于正例 PR 数量为 196 而非 200

数据集中同时提供了正例(positive_samples.json)和负例(negative_samples.json)。我们在标注过程中总共覆盖了 200 个 PR,其中有 4 个 PR 的所有评审意见均被判定为错误评审意见,因此它们只出现在负例中,正例中仅保留了 196 个 PR。README 和 Leaderboard 中提到的 200 指的是标注覆盖的 PR 总数,这一点我们会在后续文档中进一步澄清说明。

2. 关于 Leaderboard 结果的复现与评测代码

由于 Claude Code 和 Codex 在本仓库最初开源之后才提供了官方的 review 支持,我们基于较新版本的 Claude Code 和 Codex 重新运行了评测,因此 Leaderboard 上的部分结果与当前仓库中的代码并不完全一致。当前仓库并未提供最新版的评测代码,我们正在整理最新的评测代码,并将在后续于开源主页中公开 Leaderboard 评测结果所使用的评测代码,届时你可以基于其复现对应结果。在此之前如果复现过程中遇到任何问题,也欢迎继续在 issue 或 discussion 中交流。

感谢你的理解与耐心!

0 replies

librola · 2026-07-01T04:44:39Z

librola
Jul 1, 2026
Author

@stay-foolish-forever 感谢回复，期待后续开源。

可以提前问一下最新使用的 judge model 是什么吗？我这边想开展一些小实验，希望能尽可能跟官方对齐。

另外可以麻烦看一下 aacr-bench 的这个 issue 吗，这个是我复现时遇到的最大问题，就是有部分 pr 的 target_commit 不存在，所以完全没法进行 review： alibaba/aacr-bench#4

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

可以问一下如何复现在 Leaderboard 的结果吗？ #248

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Select a reply

Uh oh!

Uh oh!

可以问一下如何复现在 Leaderboard 的结果吗？ #248

Uh oh!

librola Jun 30, 2026

Replies: 2 comments

Uh oh!

stay-foolish-forever Jun 30, 2026

Uh oh!

Uh oh!

librola Jul 1, 2026 Author

librola
Jun 30, 2026

stay-foolish-forever
Jun 30, 2026

librola
Jul 1, 2026
Author