Replies: 2 comments
-
|
@librola 你好,非常感谢你对 AACR-Bench 的关注,也很高兴有 code review 方向的研究者关注到这个工作! 1. 关于正例 PR 数量为 196 而非 200 数据集中同时提供了正例(positive_samples.json)和负例(negative_samples.json)。我们在标注过程中总共覆盖了 200 个 PR,其中有 4 个 PR 的所有评审意见均被判定为错误评审意见,因此它们只出现在负例中,正例中仅保留了 196 个 PR。README 和 Leaderboard 中提到的 200 指的是标注覆盖的 PR 总数,这一点我们会在后续文档中进一步澄清说明。 2. 关于 Leaderboard 结果的复现与评测代码 由于 Claude Code 和 Codex 在本仓库最初开源之后才提供了官方的 review 支持,我们基于较新版本的 Claude Code 和 Codex 重新运行了评测,因此 Leaderboard 上的部分结果与当前仓库中的代码并不完全一致。当前仓库并未提供最新版的评测代码,我们正在整理最新的评测代码,并将在后续于开源主页中公开 Leaderboard 评测结果所使用的评测代码,届时你可以基于其复现对应结果。在此之前如果复现过程中遇到任何问题,也欢迎继续在 issue 或 discussion 中交流。 感谢你的理解与耐心! |
Beta Was this translation helpful? Give feedback.
-
|
@stay-foolish-forever 感谢回复,期待后续开源。 可以提前问一下最新使用的 judge model 是什么吗?我这边想开展一些小实验,希望能尽可能跟官方对齐。 另外可以麻烦看一下 aacr-bench 的这个 issue 吗,这个是我复现时遇到的最大问题,就是有部分 pr 的 target_commit 不存在,所以完全没法进行 review: alibaba/aacr-bench#4 |
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
-
您好,我是 Code review 方面的研究者,正在做一些 code review 方向的研究。
想请教如何复现你们在 https://alibaba.github.io/open-code-review/#/benchmark 这个里面列出的结果?
我之前在研究你们开源在 https://github.com/alibaba/aacr-bench/ 的代码时,遇到了一个数据集中列出的题目的 target_commit 无法找到的问题,希望麻烦您抽时间看一下:alibaba/aacr-bench#4
此外,我看到你们在 Paper 中提到,用于评估语义对比的模型是 Qwen3-235B-A22B-Instruct-2507,我想问一下你们在这个 leaderboard 的评测中仍然是使用的这个模型吗?
还有就是我看 https://github.com/alibaba/aacr-bench/blob/main/dataset/positive_samples.json 这个里面列出来的 pr 似乎只有 196 个,而非 README 和 leaderboard 中提到的 200 个?
最后,求问一下现在 https://github.com/alibaba/aacr-bench/ 中的数据和代码是最新的吗,和你们测试 Leaderboard 上结果所使用的同步吗?(实不相瞒,此前我尝试用这里的代码复现 GLM-4.7 和 Deepseek-V3.2 的成绩,但是一直无法和 Paper 中的结果对上,故希望请教一下细节)
感谢!
Beta Was this translation helpful? Give feedback.
All reactions