huggingface
diff --git a/‎community_tasks/arabic_evals.py
Lines changed: 0 additions & 20 deletions b/‎community_tasks/arabic_evals.py
Lines changed: 0 additions & 20 deletions
diff --git a/‎community_tasks/french_evals.py
Lines changed: 0 additions & 2 deletions b/‎community_tasks/french_evals.py
Lines changed: 0 additions & 2 deletions
diff --git a/‎community_tasks/serbian_eval.py
Lines changed: 0 additions & 3 deletions b/‎community_tasks/serbian_eval.py
Lines changed: 0 additions & 3 deletions
diff --git a/‎community_tasks/turkic_evals.py
Lines changed: 0 additions & 1 deletion b/‎community_tasks/turkic_evals.py
Lines changed: 0 additions & 1 deletion
diff --git a/‎docs/source/saving-and-reading-results.mdx
Lines changed: 0 additions & 1 deletion b/‎docs/source/saving-and-reading-results.mdx
Lines changed: 0 additions & 1 deletion
diff --git a/‎examples/custom_tasks_templates/custom_yourbench_task.py
Lines changed: 0 additions & 1 deletion b/‎examples/custom_tasks_templates/custom_yourbench_task.py
Lines changed: 0 additions & 1 deletion
diff --git a/‎examples/custom_tasks_templates/custom_yourbench_task_mcq.py
Lines changed: 1 addition & 2 deletions b/‎examples/custom_tasks_templates/custom_yourbench_task_mcq.py
Lines changed: 1 addition & 2 deletions
diff --git a/‎examples/custom_tasks_tests.py
Lines changed: 0 additions & 2 deletions b/‎examples/custom_tasks_tests.py
Lines changed: 0 additions & 2 deletions
diff --git a/‎examples/nanotron/custom_evaluation_tasks.py
Lines changed: 0 additions & 20 deletions b/‎examples/nanotron/custom_evaluation_tasks.py
Lines changed: 0 additions & 20 deletions
@@ -111,7 +111,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            trust_dataset=True,
             version=0,
         )
 
@@ -173,7 +172,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            trust_dataset=True,
             version=0,
         )
 
@@ -238,7 +236,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            trust_dataset=True,
             version=0,
         )
 
@@ -294,7 +291,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            trust_dataset=True,
             version=0,
         )
 
@@ -351,7 +347,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            trust_dataset=True,
             version=0,
         )
 
@@ -393,7 +388,6 @@ def arabic_exams_pfn(line, task_name: str = None):
     few_shots_split="validation",
     few_shots_select="sequential",
     metrics=[Metrics.loglikelihood_acc_norm],
-    trust_dataset=True,
     version=0,
 )
 
@@ -451,7 +445,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            trust_dataset=True,
             version=0,
         )
 
@@ -471,7 +464,6 @@ def __init__(
     few_shots_split="validation",
     few_shots_select="sequential",
     metrics=[Metrics.loglikelihood_acc_norm],
-    trust_dataset=True,
     version=0,
 )
 
@@ -488,7 +480,6 @@ def __init__(
     few_shots_split="validation",
     few_shots_select="sequential",
     metrics=[Metrics.loglikelihood_acc_norm],
-    trust_dataset=True,
     version=0,
 )
 
@@ -505,7 +496,6 @@ def __init__(
     few_shots_split="validation",
     few_shots_select="sequential",
     metrics=[Metrics.loglikelihood_acc_norm],
-    trust_dataset=True,
     version=0,
 )
 
@@ -522,7 +512,6 @@ def __init__(
     few_shots_split="validation",
     few_shots_select="sequential",
     metrics=[Metrics.loglikelihood_acc_norm],
-    trust_dataset=True,
     version=0,
 )
 
@@ -539,7 +528,6 @@ def __init__(
     few_shots_split="validation",
     few_shots_select="sequential",
     metrics=[Metrics.loglikelihood_acc_norm],
-    trust_dataset=True,
     version=0,
 )
 
@@ -556,7 +544,6 @@ def __init__(
     few_shots_split="validation",
     few_shots_select="sequential",
     metrics=[Metrics.loglikelihood_acc_norm],
-    trust_dataset=True,
     version=0,
 )
 
@@ -594,7 +581,6 @@ def boolq_arabic_pfn(line, task_name: str = None):
     few_shots_split="validation",
     few_shots_select="sequential",
     metrics=[Metrics.loglikelihood_acc_norm],
-    trust_dataset=True,
     version=0,
 )
 
@@ -629,7 +615,6 @@ def copa_arabic_pfn(line, task_name: str = None):
     few_shots_split="validation",
     few_shots_select="sequential",
     metrics=[Metrics.loglikelihood_acc_norm],
-    trust_dataset=True,
     version=0,
 )
 
@@ -673,7 +658,6 @@ def hellaswag_arabic_pfn(line, task_name: str = None):
     few_shots_split="validation",
     few_shots_select="sequential",
     metrics=[Metrics.loglikelihood_acc_norm],
-    trust_dataset=True,
     version=0,
 )
 
@@ -710,7 +694,6 @@ def toxigen_arabic_pfn(line, task_name: str = None):
     few_shots_split="validation",
     few_shots_select="sequential",
     metrics=[Metrics.loglikelihood_acc_norm],
-    trust_dataset=True,
     version=0,
 )
 
@@ -761,7 +744,6 @@ def sciq_arabic_pfn(line, task_name: str = None):
     few_shots_split="validation",
     few_shots_select="sequential",
     metrics=[Metrics.loglikelihood_acc_norm],
-    trust_dataset=True,
     version=0,
 )
 
@@ -826,7 +808,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            trust_dataset=True,
             version=0,
         )
 
@@ -1038,7 +1019,6 @@ def process_judge_response(response) -> float:
     hf_avail_splits=["train"],
     evaluation_splits=["train"],
     metrics=[wrapped_judge],
-    trust_dataset=True,
     generation_size=200,
     stop_sequence=[],
     version=0,
 
@@ -121,7 +121,6 @@ def prompt_bac_fr(line, task_name: str = None):
     generation_size=1,
     metrics=[Metrics.loglikelihood_acc],
     stop_sequence=["\n"],
-    trust_dataset=True,
     version=0,
 )
 
@@ -139,7 +138,6 @@ def prompt_bac_fr(line, task_name: str = None):
     generation_size=1,
     metrics=[Metrics.quasi_exact_match_math, Metrics.exact_match],
     stop_sequence=["\n"],
-    trust_dataset=True,
     version=0,
 )
 
 
@@ -283,10 +283,7 @@ def create_task_config(
         few_shots_select="sequential",
         metric=metric,
         generation_size=generation_size,
-        # Since we use trust_dataset, we have to be careful about what is inside the dataset
-        # script. We thus lock the revision to ensure that the script doesn't change
         hf_revision=HFSubsets.HF_REVISION.value,
-        trust_dataset=True,
         version=0,
     )
 
 
@@ -136,7 +136,6 @@ def __init__(
             suite=["community"],
             generation_size=-1,
             stop_sequence=None,
-            trust_dataset=False,
             version=0,
         )
 
 
@@ -182,7 +182,6 @@ The detail file contains the following columns:
       ],
       "original_num_docs": 1319,
       "effective_num_docs": 1,
-      "trust_dataset": true,
       "must_remove_duplicate_docs": null,
       "version": 0
     }
 
@@ -258,7 +258,6 @@ def yourbench_prompt(line, task_name: str = ""):
     generation_size=8192,
     metrics=[Metrics.yourbench_metrics],
     stop_sequence=[],
-    trust_dataset=True,
     version=0,
 )
 
 
@@ -94,8 +94,7 @@ def yourbench_prompt(line, task_name: str = ""):
     few_shots_split=None,
     few_shots_select=None,
     generation_size=8192,
-    metric=[Metrics.yourbench_metrics],
-    trust_dataset=True,
+    metrics=[Metrics.yourbench_metrics],
     version=0,
 )
 
 
@@ -38,7 +38,6 @@
     generation_size=512,
     metrics=[Metrics.expr_gold_metric],
     stop_sequence=None,
-    trust_dataset=True,
     version=0,
 )
 
@@ -55,7 +54,6 @@
     generation_size=2048,
     metrics=[Metrics.gpqa_instruct_pass_at_1_1n],
     stop_sequence=[],  # no stop sequence, will use eos token
-    trust_dataset=True,
     version=0,
 )
 
 
@@ -90,7 +90,6 @@ def preprocess(text):
         hf_repo="hellaswag",
         hf_subset="default",
         metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
-        trust_dataset=True,
         stop_sequence=["\n"],
     ),
     LightevalTaskConfig(
@@ -99,7 +98,6 @@ def preprocess(text):
         hf_repo="winogrande",
         hf_subset="winogrande_xl",
         metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
-        trust_dataset=True,
         stop_sequence=["\n"],
     ),
     LightevalTaskConfig(
@@ -108,7 +106,6 @@ def preprocess(text):
         hf_repo="piqa",
         hf_subset="plain_text",
         metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
-        trust_dataset=True,
         stop_sequence=["\n"],
     ),
     LightevalTaskConfig(
@@ -118,7 +115,6 @@ def preprocess(text):
         hf_subset="default",
         hf_avail_splits=["train", "validation"],
         metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
-        trust_dataset=True,
         stop_sequence=["\n"],
     ),
     LightevalTaskConfig(
@@ -127,7 +123,6 @@ def preprocess(text):
         hf_repo="openbookqa",
         hf_subset="main",
         metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
-        trust_dataset=True,
         stop_sequence=["\n"],
     ),
     LightevalTaskConfig(
@@ -138,7 +133,6 @@ def preprocess(text):
         evaluation_splits=["test"],
         generation_size=1,
         metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
-        trust_dataset=True,
         stop_sequence=["\n"],
     ),
     LightevalTaskConfig(
@@ -149,7 +143,6 @@ def preprocess(text):
         evaluation_splits=["test"],
         generation_size=1,
         metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
-        trust_dataset=True,
         stop_sequence=["\n"],
     ),
     LightevalTaskConfig(
@@ -158,7 +151,6 @@ def preprocess(text):
         hf_repo="commonsense_qa",
         hf_subset="default",
         metric=[Metrics.loglikelihood_acc, Metrics.loglikelihood_acc_norm_nospace],
-        trust_dataset=True,
         stop_sequence=["\n"],
     ),
 ]
@@ -189,7 +181,6 @@ def natural_questions_prompt(line, task_name: str = None):
         hf_subset="rc.nocontext",
         metric=[Metrics.quasi_exact_match],
         generation_size=20,
-        trust_dataset=True,
         stop_sequence=["\n", ".", ","],
     ),
     LightevalTaskConfig(
@@ -199,7 +190,6 @@ def natural_questions_prompt(line, task_name: str = None):
         hf_subset="default",
         metric=[Metrics.quasi_exact_match],
         generation_size=20,
-        trust_dataset=True,
         stop_sequence=["\n", ".", ","],
     ),
 ]
@@ -228,7 +218,6 @@ def boolq_prompt(line, task_name: str = None):
         hf_repo="super_glue",
         hf_subset="boolq",
         metric=[Metrics.target_perplexity],
-        trust_dataset=True,
         stop_sequence=["\n"],
     ),
     LightevalTaskConfig(
@@ -238,7 +227,6 @@ def boolq_prompt(line, task_name: str = None):
         hf_subset="deault",
         metric=[Metrics.quasi_exact_match],
         generation_size=20,
-        trust_dataset=True,
         stop_sequence=["\n", ".", ","],
     ),
 ]
@@ -266,7 +254,6 @@ def __init__(
         few_shots_select=None,
         suite=["custom"],
         generation_size=40,
-        trust_dataset=True,
         stop_sequence=None,
     ):
         super().__init__(
@@ -281,7 +268,6 @@ def __init__(
             few_shots_select=few_shots_select,
             suite=suite,
             generation_size=generation_size,
-            trust_dataset=trust_dataset,
             stop_sequence=(stop_sequence if stop_sequence is not None else ["\n"]),
         )
 
@@ -365,7 +351,6 @@ def __init__(
         few_shots_select=None,
         suite=None,
         generation_size=-1,
-        trust_dataset=True,
         stop_sequence=None,
     ):
         super().__init__(
@@ -380,7 +365,6 @@ def __init__(
             few_shots_select=few_shots_select,
             suite=suite,
             generation_size=generation_size,
-            trust_dataset=trust_dataset,
             stop_sequence=(stop_sequence if stop_sequence is not None else ["\n"]),
         )
 
@@ -478,7 +462,6 @@ def __init__(
         few_shots_select=None,
         suite=None,
         generation_size=4,
-        trust_dataset=True,
         stop_sequence=None,
     ):
         super().__init__(
@@ -493,7 +476,6 @@ def __init__(
             few_shots_select=few_shots_select,
             suite=suite,
             generation_size=generation_size,
-            trust_dataset=trust_dataset,
             stop_sequence=(stop_sequence if stop_sequence is not None else ["\n"]),
         )
 
@@ -610,7 +592,6 @@ def __init__(
         few_shots_select=None,
         suite=None,
         generation_size=-1,
-        trust_dataset=True,
         stop_sequence=None,
     ):
         super().__init__(
@@ -625,7 +606,6 @@ def __init__(
             few_shots_select=few_shots_select,
             suite=suite,
             generation_size=generation_size,
-            trust_dataset=trust_dataset,
             stop_sequence=(stop_sequence if stop_sequence is not None else ["\n"]),
         )
Original file line number	Diff line number	Diff line change
`@@ -121,7 +121,6 @@ def prompt_bac_fr(line, task_name: str = None):`
`121`	`121`	`generation_size=1,`
`122`	`122`	`metrics=[Metrics.loglikelihood_acc],`
`123`	`123`	`stop_sequence=["\n"],`
`124`		`- trust_dataset=True,`
`125`	`124`	`version=0,`
`126`	`125`	`)`
`127`	`126`
`@@ -139,7 +138,6 @@ def prompt_bac_fr(line, task_name: str = None):`
`139`	`138`	`generation_size=1,`
`140`	`139`	`metrics=[Metrics.quasi_exact_match_math, Metrics.exact_match],`
`141`	`140`	`stop_sequence=["\n"],`
`142`		`- trust_dataset=True,`
`143`	`141`	`version=0,`
`144`	`142`	`)`
`145`	`143`
Original file line number	Diff line number	Diff line change
`@@ -136,7 +136,6 @@ def __init__(`
`136`	`136`	`suite=["community"],`
`137`	`137`	`generation_size=-1,`
`138`	`138`	`stop_sequence=None,`
`139`		`- trust_dataset=False,`
`140`	`139`	`version=0,`
`141`	`140`	`)`
`142`	`141`
Original file line number	Diff line number	Diff line change
`@@ -182,7 +182,6 @@ The detail file contains the following columns:`
`182`	`182`	`],`
`183`	`183`	`"original_num_docs": 1319,`
`184`	`184`	`"effective_num_docs": 1,`
`185`		`- "trust_dataset": true,`
`186`	`185`	`"must_remove_duplicate_docs": null,`
`187`	`186`	`"version": 0`
`188`	`187`	`}`
Original file line number	Diff line number	Diff line change
`@@ -258,7 +258,6 @@ def yourbench_prompt(line, task_name: str = ""):`
`258`	`258`	`generation_size=8192,`
`259`	`259`	`metrics=[Metrics.yourbench_metrics],`
`260`	`260`	`stop_sequence=[],`
`261`		`- trust_dataset=True,`
`262`	`261`	`version=0,`
`263`	`262`	`)`
`264`	`263`
Original file line number	Diff line number	Diff line change
`@@ -94,8 +94,7 @@ def yourbench_prompt(line, task_name: str = ""):`
`94`	`94`	`few_shots_split=None,`
`95`	`95`	`few_shots_select=None,`
`96`	`96`	`generation_size=8192,`
`97`		`- metric=[Metrics.yourbench_metrics],`
`98`		`- trust_dataset=True,`
	`97`	`+ metrics=[Metrics.yourbench_metrics],`
`99`	`98`	`version=0,`
`100`	`99`	`)`
`101`	`100`
Original file line number	Diff line number	Diff line change
`@@ -38,7 +38,6 @@`
`38`	`38`	`generation_size=512,`
`39`	`39`	`metrics=[Metrics.expr_gold_metric],`
`40`	`40`	`stop_sequence=None,`
`41`		`- trust_dataset=True,`
`42`	`41`	`version=0,`
`43`	`42`	`)`
`44`	`43`
`@@ -55,7 +54,6 @@`
`55`	`54`	`generation_size=2048,`
`56`	`55`	`metrics=[Metrics.gpqa_instruct_pass_at_1_1n],`
`57`	`56`	`stop_sequence=[], # no stop sequence, will use eos token`
`58`		`- trust_dataset=True,`
`59`	`57`	`version=0,`
`60`	`58`	`)`
`61`	`59`