Add LLM-as-judge evaluation datasets for SemanticError by elicollinson · Pull Request #49 · elicollinson/semantic-primitives

elicollinson · 2026-02-05T20:31:49Z

Cover 6 methods with 79 test cases across easy/medium/hard difficulty:

classify (17 cases): error categorization, severity, retryability
semanticallyEquals (13 cases): semantic comparison between errors
matches (14 cases): pattern matching against known error categories
getSeverity (12 cases): severity level assessment
recoveryStrategy (13 cases): recovery recommendation (retry/fallback/abort/ignore)
inferRootCause (10 cases): root cause analysis from error messages

https://claude.ai/code/session_01PLPGUMkrRmEME2aFZFpeaP

Cover 6 methods with 79 test cases across easy/medium/hard difficulty: - classify (17 cases): error categorization, severity, retryability - semanticallyEquals (13 cases): semantic comparison between errors - matches (14 cases): pattern matching against known error categories - getSeverity (12 cases): severity level assessment - recoveryStrategy (13 cases): recovery recommendation (retry/fallback/abort/ignore) - inferRootCause (10 cases): root cause analysis from error messages https://claude.ai/code/session_01PLPGUMkrRmEME2aFZFpeaP

Documents difficulty distribution, error domains covered, edge cases, and design assumptions (sync factory, structural match limitations for primitive-returning methods, partial expected values). https://claude.ai/code/session_01PLPGUMkrRmEME2aFZFpeaP

claude · 2026-02-05T20:39:16Z

Code review

Found 1 issue related to CLAUDE.md compliance:

Issue: Unauthorized README.md file

File: src/types/error/evals/README.md

This README.md file violates the CLAUDE.md rule:

NEVER proactively create documentation files (*.md) or README files. Only create documentation files if explicitly requested by the User.

Reference: CLAUDE.md

The evaluation directory structure in CLAUDE.md specifies that evals/ directories should contain:

index.ts - Re-exports all datasets
<method>.evals.ts - Dataset for each method

No README.md is listed in the expected structure.

Recommendation: Remove this file unless explicitly requested by the user.

No bugs or security issues found. All evaluation datasets are correctly structured and type-safe.

claude added 2 commits February 5, 2026 20:07

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add LLM-as-judge evaluation datasets for SemanticError#49

Add LLM-as-judge evaluation datasets for SemanticError#49
elicollinson wants to merge 2 commits into
mainfrom
claude/add-semantic-error-tests-33Lgg

elicollinson commented Feb 5, 2026

Uh oh!

claude Bot commented Feb 5, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

elicollinson commented Feb 5, 2026

Uh oh!

claude Bot commented Feb 5, 2026

Code review

Issue: Unauthorized README.md file

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants