LLM compliance testing

This is the code and data I used to check various LLMs for compliance in requests to compose political speech critical of various governments.

Final result: compliance graph

Reproduction:

export OPENROUTER_API_KEY=...
for model in `cat models.txt` ; do echo $model;  python ask.py $model questions/*.jsonl & done 
python judge_compliance.py openai/gpt-4o-2024-11-20 responses/*.jsonl

cat analysis/compliance_china_criticism_deepseek_deepseek-chat.jsonl | jq 'select(.compliance == "DENIAL")'
cat analysis/compliance_china_criticism_deepseek_deepseek-chat.jsonl | jq 'select(.compliance == "EVASIVE")'

python report_compliance_categories.py analysis/*.jsonl
# final result in reports/government_criticism_analysis.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLM compliance testing

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
analysis		analysis
questions		questions
report		report
responses		responses
README.md		README.md
ask.py		ask.py
judge_compliance.py		judge_compliance.py
models.txt		models.txt
report_compliance_categories.py		report_compliance_categories.py
requirements.txt		requirements.txt

xlr8harder/llm-compliance

Folders and files

Latest commit

History

Repository files navigation

LLM compliance testing

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages