adapter-hub
diff --git a/‎src/transformers/adapters/utils.py
+3-2 b/‎src/transformers/adapters/utils.py
+3-2
diff --git a/‎src/transformers/commands/add_new_model_like.py
+7-2 b/‎src/transformers/commands/add_new_model_like.py
+7-2
diff --git a/‎src/transformers/integrations.py
+4-2 b/‎src/transformers/integrations.py
+4-2
diff --git a/‎src/transformers/modeling_utils.py
+4-2 b/‎src/transformers/modeling_utils.py
+4-2
diff --git a/‎src/transformers/models/big_bird/modeling_big_bird.py
+5-3 b/‎src/transformers/models/big_bird/modeling_big_bird.py
+5-3
diff --git a/‎src/transformers/models/bigbird_pegasus/modeling_bigbird_pegasus.py
+5-3 b/‎src/transformers/models/bigbird_pegasus/modeling_bigbird_pegasus.py
+5-3
diff --git a/‎src/transformers/models/convbert/modeling_convbert.py
+66-66 b/‎src/transformers/models/convbert/modeling_convbert.py
+66-66
diff --git a/‎src/transformers/models/donut/convert_donut_to_pytorch.py
+12-12 b/‎src/transformers/models/donut/convert_donut_to_pytorch.py
+12-12
diff --git a/‎src/transformers/models/flava/modeling_flava.py
+17-6 b/‎src/transformers/models/flava/modeling_flava.py
+17-6
diff --git a/‎src/transformers/models/layoutlmv2/tokenization_layoutlmv2.py
+1-2 b/‎src/transformers/models/layoutlmv2/tokenization_layoutlmv2.py
+1-2
diff --git a/‎src/transformers/models/layoutlmv3/tokenization_layoutlmv3.py
+1-2 b/‎src/transformers/models/layoutlmv3/tokenization_layoutlmv3.py
+1-2
diff --git a/‎src/transformers/models/marian/convert_marian_tatoeba_to_pytorch.py
+12-2 b/‎src/transformers/models/marian/convert_marian_tatoeba_to_pytorch.py
+12-2
diff --git a/‎src/transformers/models/markuplm/tokenization_markuplm.py
+1-2 b/‎src/transformers/models/markuplm/tokenization_markuplm.py
+1-2
@@ -722,8 +722,9 @@ def resolve_adapter_path(
             except Exception as ex:
                 logger.info(ex)
                 raise EnvironmentError(
-                    "Unable to load adapter {} from any source. Please check the name of the adapter or the source."
-                    .format(adapter_name_or_path)
+                    "Unable to load adapter {} from any source. Please check the name of the adapter or the source.".format(
+                        adapter_name_or_path
+                    )
                 )
     else:
         raise ValueError("Unable to identify {} as a valid module location.".format(adapter_name_or_path))
 
@@ -438,9 +438,14 @@ def duplicate_module(
         # Special cases
         if "PRETRAINED_CONFIG_ARCHIVE_MAP = {" in obj:
             # docstyle-ignore
-            obj = f"{new_model_patterns.model_upper_cased}_PRETRAINED_CONFIG_ARCHIVE_MAP = " + "{" + f"""
+            obj = (
+                f"{new_model_patterns.model_upper_cased}_PRETRAINED_CONFIG_ARCHIVE_MAP = "
+                + "{"
+                + f"""
     "{new_model_patterns.checkpoint}": "https://huggingface.co/{new_model_patterns.checkpoint}/resolve/main/config.json",
-""" + "}\n"
+"""
+                + "}\n"
+            )
             new_objects.append(obj)
             continue
         elif "PRETRAINED_MODEL_ARCHIVE_LIST = [" in obj:
 
@@ -1046,11 +1046,13 @@ def __del__(self):
 
 class NeptuneMissingConfiguration(Exception):
     def __init__(self):
-        super().__init__("""
+        super().__init__(
+            """
         ------ Unsupported ---- We were not able to create new runs. You provided a custom Neptune run to
         `NeptuneCallback` with the `run` argument. For the integration to work fully, provide your `api_token` and
         `project` by saving them as environment variables or passing them to the callback.
-        """)
+        """
+        )
 
 
 class NeptuneCallback(TrainerCallback):
 
@@ -2423,11 +2423,13 @@ def from_pretrained(cls, pretrained_model_name_or_path: Optional[Union[str, os.P
                     key: device_map[key] for key in device_map.keys() if key not in modules_to_not_convert
                 }
                 if "cpu" in device_map_without_lm_head.values() or "disk" in device_map_without_lm_head.values():
-                    raise ValueError("""
+                    raise ValueError(
+                        """
                         Some modules are dispatched on the CPU or the disk. Make sure you have enough GPU RAM to fit
                         the quantized model. If you have set a value for `max_memory` you should increase that. To have
                         an idea of the modules that are set on the CPU or RAM you can print model.hf_device_map.
-                        """)
+                        """
+                    )
                 del device_map_without_lm_head
 
         if from_tf:
 
@@ -927,9 +927,11 @@ def bigbird_block_sparse_attention(
             attention_probs[:, :, -2 * from_block_size : -from_block_size, :to_block_size] = second_last_attn_weights[
                 :, :, :, :to_block_size
             ]  # 1st key block (global)
-            attention_probs[:, :, -2 * from_block_size : -from_block_size, -3 * to_block_size :] = (
-                second_last_attn_weights[:, :, :, to_block_size : 4 * to_block_size]
-            )  # last three blocks (global + sliding)
+            attention_probs[
+                :, :, -2 * from_block_size : -from_block_size, -3 * to_block_size :
+            ] = second_last_attn_weights[
+                :, :, :, to_block_size : 4 * to_block_size
+            ]  # last three blocks (global + sliding)
             # random keys
             for p1, i1, w1 in zip(range(bsz), rand_attn, second_last_attn_weights):
                 # p1, i1, w1 corresponds to batch_dim i.e. following operation is done for each sequence in batch
 
@@ -745,9 +745,11 @@ def bigbird_block_sparse_attention(
             attention_probs[:, :, -2 * from_block_size : -from_block_size, :to_block_size] = second_last_attn_weights[
                 :, :, :, :to_block_size
             ]  # 1st key block (global)
-            attention_probs[:, :, -2 * from_block_size : -from_block_size, -3 * to_block_size :] = (
-                second_last_attn_weights[:, :, :, to_block_size : 4 * to_block_size]
-            )  # last three blocks (global + sliding)
+            attention_probs[
+                :, :, -2 * from_block_size : -from_block_size, -3 * to_block_size :
+            ] = second_last_attn_weights[
+                :, :, :, to_block_size : 4 * to_block_size
+            ]  # last three blocks (global + sliding)
             # random keys
             for p1, i1, w1 in zip(range(bsz), rand_attn, second_last_attn_weights):
                 # p1, i1, w1 corresponds to batch_dim i.e. following operation is done for each sequence in batch
 
@@ -88,72 +88,72 @@ def load_tf_weights_in_convbert(model, config, tf_checkpoint_path):
         group_dense_name = "dense"
 
     for j in range(config.num_hidden_layers):
-        param_mapping[f"encoder.layer.{j}.attention.self.query.weight"] = (
-            f"electra/encoder/layer_{j}/attention/self/query/kernel"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.self.query.bias"] = (
-            f"electra/encoder/layer_{j}/attention/self/query/bias"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.self.key.weight"] = (
-            f"electra/encoder/layer_{j}/attention/self/key/kernel"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.self.key.bias"] = (
-            f"electra/encoder/layer_{j}/attention/self/key/bias"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.self.value.weight"] = (
-            f"electra/encoder/layer_{j}/attention/self/value/kernel"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.self.value.bias"] = (
-            f"electra/encoder/layer_{j}/attention/self/value/bias"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.self.key_conv_attn_layer.depthwise.weight"] = (
-            f"electra/encoder/layer_{j}/attention/self/conv_attn_key/depthwise_kernel"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.self.key_conv_attn_layer.pointwise.weight"] = (
-            f"electra/encoder/layer_{j}/attention/self/conv_attn_key/pointwise_kernel"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.self.key_conv_attn_layer.bias"] = (
-            f"electra/encoder/layer_{j}/attention/self/conv_attn_key/bias"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.self.conv_kernel_layer.weight"] = (
-            f"electra/encoder/layer_{j}/attention/self/conv_attn_kernel/kernel"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.self.conv_kernel_layer.bias"] = (
-            f"electra/encoder/layer_{j}/attention/self/conv_attn_kernel/bias"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.self.conv_out_layer.weight"] = (
-            f"electra/encoder/layer_{j}/attention/self/conv_attn_point/kernel"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.self.conv_out_layer.bias"] = (
-            f"electra/encoder/layer_{j}/attention/self/conv_attn_point/bias"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.output.dense.weight"] = (
-            f"electra/encoder/layer_{j}/attention/output/dense/kernel"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.output.LayerNorm.weight"] = (
-            f"electra/encoder/layer_{j}/attention/output/LayerNorm/gamma"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.output.dense.bias"] = (
-            f"electra/encoder/layer_{j}/attention/output/dense/bias"
-        )
-        param_mapping[f"encoder.layer.{j}.attention.output.LayerNorm.bias"] = (
-            f"electra/encoder/layer_{j}/attention/output/LayerNorm/beta"
-        )
-        param_mapping[f"encoder.layer.{j}.intermediate.dense.weight"] = (
-            f"electra/encoder/layer_{j}/intermediate/{group_dense_name}/kernel"
-        )
-        param_mapping[f"encoder.layer.{j}.intermediate.dense.bias"] = (
-            f"electra/encoder/layer_{j}/intermediate/{group_dense_name}/bias"
-        )
-        param_mapping[f"encoder.layer.{j}.output.dense.weight"] = (
-            f"electra/encoder/layer_{j}/output/{group_dense_name}/kernel"
-        )
-        param_mapping[f"encoder.layer.{j}.output.dense.bias"] = (
-            f"electra/encoder/layer_{j}/output/{group_dense_name}/bias"
-        )
-        param_mapping[f"encoder.layer.{j}.output.LayerNorm.weight"] = (
-            f"electra/encoder/layer_{j}/output/LayerNorm/gamma"
-        )
+        param_mapping[
+            f"encoder.layer.{j}.attention.self.query.weight"
+        ] = f"electra/encoder/layer_{j}/attention/self/query/kernel"
+        param_mapping[
+            f"encoder.layer.{j}.attention.self.query.bias"
+        ] = f"electra/encoder/layer_{j}/attention/self/query/bias"
+        param_mapping[
+            f"encoder.layer.{j}.attention.self.key.weight"
+        ] = f"electra/encoder/layer_{j}/attention/self/key/kernel"
+        param_mapping[
+            f"encoder.layer.{j}.attention.self.key.bias"
+        ] = f"electra/encoder/layer_{j}/attention/self/key/bias"
+        param_mapping[
+            f"encoder.layer.{j}.attention.self.value.weight"
+        ] = f"electra/encoder/layer_{j}/attention/self/value/kernel"
+        param_mapping[
+            f"encoder.layer.{j}.attention.self.value.bias"
+        ] = f"electra/encoder/layer_{j}/attention/self/value/bias"
+        param_mapping[
+            f"encoder.layer.{j}.attention.self.key_conv_attn_layer.depthwise.weight"
+        ] = f"electra/encoder/layer_{j}/attention/self/conv_attn_key/depthwise_kernel"
+        param_mapping[
+            f"encoder.layer.{j}.attention.self.key_conv_attn_layer.pointwise.weight"
+        ] = f"electra/encoder/layer_{j}/attention/self/conv_attn_key/pointwise_kernel"
+        param_mapping[
+            f"encoder.layer.{j}.attention.self.key_conv_attn_layer.bias"
+        ] = f"electra/encoder/layer_{j}/attention/self/conv_attn_key/bias"
+        param_mapping[
+            f"encoder.layer.{j}.attention.self.conv_kernel_layer.weight"
+        ] = f"electra/encoder/layer_{j}/attention/self/conv_attn_kernel/kernel"
+        param_mapping[
+            f"encoder.layer.{j}.attention.self.conv_kernel_layer.bias"
+        ] = f"electra/encoder/layer_{j}/attention/self/conv_attn_kernel/bias"
+        param_mapping[
+            f"encoder.layer.{j}.attention.self.conv_out_layer.weight"
+        ] = f"electra/encoder/layer_{j}/attention/self/conv_attn_point/kernel"
+        param_mapping[
+            f"encoder.layer.{j}.attention.self.conv_out_layer.bias"
+        ] = f"electra/encoder/layer_{j}/attention/self/conv_attn_point/bias"
+        param_mapping[
+            f"encoder.layer.{j}.attention.output.dense.weight"
+        ] = f"electra/encoder/layer_{j}/attention/output/dense/kernel"
+        param_mapping[
+            f"encoder.layer.{j}.attention.output.LayerNorm.weight"
+        ] = f"electra/encoder/layer_{j}/attention/output/LayerNorm/gamma"
+        param_mapping[
+            f"encoder.layer.{j}.attention.output.dense.bias"
+        ] = f"electra/encoder/layer_{j}/attention/output/dense/bias"
+        param_mapping[
+            f"encoder.layer.{j}.attention.output.LayerNorm.bias"
+        ] = f"electra/encoder/layer_{j}/attention/output/LayerNorm/beta"
+        param_mapping[
+            f"encoder.layer.{j}.intermediate.dense.weight"
+        ] = f"electra/encoder/layer_{j}/intermediate/{group_dense_name}/kernel"
+        param_mapping[
+            f"encoder.layer.{j}.intermediate.dense.bias"
+        ] = f"electra/encoder/layer_{j}/intermediate/{group_dense_name}/bias"
+        param_mapping[
+            f"encoder.layer.{j}.output.dense.weight"
+        ] = f"electra/encoder/layer_{j}/output/{group_dense_name}/kernel"
+        param_mapping[
+            f"encoder.layer.{j}.output.dense.bias"
+        ] = f"electra/encoder/layer_{j}/output/{group_dense_name}/bias"
+        param_mapping[
+            f"encoder.layer.{j}.output.LayerNorm.weight"
+        ] = f"electra/encoder/layer_{j}/output/LayerNorm/gamma"
         param_mapping[f"encoder.layer.{j}.output.LayerNorm.bias"] = f"electra/encoder/layer_{j}/output/LayerNorm/beta"
 
     for param in model.named_parameters():
 
@@ -106,22 +106,22 @@ def convert_state_dict(orig_state_dict, model):
                 orig_state_dict[
                     f"encoder.encoder.layers.{layer_num}.blocks.{block_num}.attention.self.query.weight"
                 ] = val[:dim, :]
-                orig_state_dict[f"encoder.encoder.layers.{layer_num}.blocks.{block_num}.attention.self.key.weight"] = (
-                    val[dim : dim * 2, :]
-                )
+                orig_state_dict[
+                    f"encoder.encoder.layers.{layer_num}.blocks.{block_num}.attention.self.key.weight"
+                ] = val[dim : dim * 2, :]
                 orig_state_dict[
                     f"encoder.encoder.layers.{layer_num}.blocks.{block_num}.attention.self.value.weight"
                 ] = val[-dim:, :]
             else:
-                orig_state_dict[f"encoder.encoder.layers.{layer_num}.blocks.{block_num}.attention.self.query.bias"] = (
-                    val[:dim]
-                )
-                orig_state_dict[f"encoder.encoder.layers.{layer_num}.blocks.{block_num}.attention.self.key.bias"] = (
-                    val[dim : dim * 2]
-                )
-                orig_state_dict[f"encoder.encoder.layers.{layer_num}.blocks.{block_num}.attention.self.value.bias"] = (
-                    val[-dim:]
-                )
+                orig_state_dict[
+                    f"encoder.encoder.layers.{layer_num}.blocks.{block_num}.attention.self.query.bias"
+                ] = val[:dim]
+                orig_state_dict[
+                    f"encoder.encoder.layers.{layer_num}.blocks.{block_num}.attention.self.key.bias"
+                ] = val[dim : dim * 2]
+                orig_state_dict[
+                    f"encoder.encoder.layers.{layer_num}.blocks.{block_num}.attention.self.value.bias"
+                ] = val[-dim:]
         elif "attn_mask" in key or key in ["encoder.model.norm.weight", "encoder.model.norm.bias"]:
             # HuggingFace implementation doesn't use attn_mask buffer
             # and model doesn't use final LayerNorms for the encoder
 
@@ -775,11 +775,14 @@ def forward(self, hidden_states: torch.Tensor):
 
 FLAVA_TEXT_INPUTS_DOCSTRING = FLAVA_TEXT_INPUTS_DOCSTRING_BASE + FLAVA_INPUTS_DOCSTRING_COMMON
 
-FLAVA_MULTIMODAL_INPUTS_DOCSTRING = r"""
+FLAVA_MULTIMODAL_INPUTS_DOCSTRING = (
+    r"""
     Args:
         hidden_states (`torch.FloatTensor` of shape `(batch_size, image_num_patches + text_seq_len, hidden_size)`):
             The concatenated hidden states of unimodal encoders.
-""" + FLAVA_INPUTS_DOCSTRING_COMMON
+"""
+    + FLAVA_INPUTS_DOCSTRING_COMMON
+)
 
 FLAVA_MODEL_INPUTS_DOCSTRING_BASE = r"""
     Args:
@@ -1260,7 +1263,9 @@ def get_text_features(
         ...     text=["a photo of a cat", "a photo of a dog"], max_length=77, padding="max_length", return_tensors="pt"
         ... )
         >>> text_features = model.get_text_features(**inputs)
-        ```""".format(_CHECKPOINT_FOR_DOC)
+        ```""".format(
+            _CHECKPOINT_FOR_DOC
+        )
         text_outputs = self.text_model(
             input_ids=input_ids,
             attention_mask=attention_mask,
@@ -1309,7 +1314,9 @@ def get_image_features(
         >>> inputs = processor(images=image, return_tensors="pt")
 
         >>> image_features = model.get_image_features(**inputs)
-        ```""".format(_CHECKPOINT_FOR_DOC)
+        ```""".format(
+            _CHECKPOINT_FOR_DOC
+        )
         image_outputs = self.image_model(
             pixel_values=pixel_values,
             bool_masked_pos=bool_masked_pos,
@@ -1574,7 +1581,9 @@ def get_codebook_indices(self, pixel_values: torch.Tensor) -> torch.Tensor:
 
         >>> outputs = model.get_codebook_indices(**inputs)
         ```
-        """.format(_CHECKPOINT_FOR_CODEBOOK_DOC)
+        """.format(
+            _CHECKPOINT_FOR_CODEBOOK_DOC
+        )
         z_logits = self.blocks(pixel_values)
         return torch.argmax(z_logits, axis=1)
 
@@ -1609,7 +1618,9 @@ def forward(self, pixel_values: torch.FloatTensor) -> torch.Tensor:
         >>> print(outputs.shape)
         (1, 196)
         ```
-        """.format(_CHECKPOINT_FOR_CODEBOOK_DOC)
+        """.format(
+            _CHECKPOINT_FOR_CODEBOOK_DOC
+        )
         if len(pixel_values.shape) != 4:
             raise ValueError(f"input shape {pixel_values.shape} is not 4d")
         if pixel_values.shape[1] != self.input_channels:
 
@@ -1213,8 +1213,7 @@ def truncate_sequences(
                 )
                 if truncation_strategy == TruncationStrategy.ONLY_FIRST:
                     error_msg = (
-                        error_msg
-                        + "Please select another truncation strategy than "
+                        error_msg + "Please select another truncation strategy than "
                         f"{truncation_strategy}, for instance 'longest_first' or 'only_second'."
                     )
                 logger.error(error_msg)
 
@@ -1345,8 +1345,7 @@ def truncate_sequences(
                 )
                 if truncation_strategy == TruncationStrategy.ONLY_FIRST:
                     error_msg = (
-                        error_msg
-                        + "Please select another truncation strategy than "
+                        error_msg + "Please select another truncation strategy than "
                         f"{truncation_strategy}, for instance 'longest_first' or 'only_second'."
                     )
                 logger.error(error_msg)
 
@@ -236,14 +236,24 @@ def write_model_card(self, model_dict, dry_run=False) -> str:
 * OPUS readme: [README.md]({readme_url})
 """
 
-        content = f"""
+        content = (
+            f"""
 * model: {model_dict['modeltype']}
 * source language code{src_multilingual*'s'}: {', '.join(a2_src_tags)}
 * target language code{tgt_multilingual*'s'}: {', '.join(a2_tgt_tags)}
 * dataset: opus {backtranslated_data}
 * release date: {model_dict['release-date']}
 * pre-processing: {model_dict['pre-processing']}
-""" + multilingual_data + tuned + download + langtoken + datainfo + testset + testscores + scorestable
+"""
+            + multilingual_data
+            + tuned
+            + download
+            + langtoken
+            + datainfo
+            + testset
+            + testscores
+            + scorestable
+        )
 
         content = FRONT_MATTER_TEMPLATE.format(lang_tags) + extra_markdown + content
 
 
@@ -1315,8 +1315,7 @@ def truncate_sequences(
                 )
                 if truncation_strategy == TruncationStrategy.ONLY_FIRST:
                     error_msg = (
-                        error_msg
-                        + "Please select another truncation strategy than "
+                        error_msg + "Please select another truncation strategy than "
                         f"{truncation_strategy}, for instance 'longest_first' or 'only_second'."
                     )
                 logger.error(error_msg)
Original file line number	Diff line number	Diff line change
`@@ -1213,8 +1213,7 @@ def truncate_sequences(`
`1213`	`1213`	`)`
`1214`	`1214`	`if truncation_strategy == TruncationStrategy.ONLY_FIRST:`
`1215`	`1215`	`error_msg = (`
`1216`		`- error_msg`
`1217`		`- + "Please select another truncation strategy than "`
	`1216`	`+ error_msg + "Please select another truncation strategy than "`
`1218`	`1217`	`f"{truncation_strategy}, for instance 'longest_first' or 'only_second'."`
`1219`	`1218`	`)`
`1220`	`1219`	`logger.error(error_msg)`
Original file line number	Diff line number	Diff line change
`@@ -1345,8 +1345,7 @@ def truncate_sequences(`
`1345`	`1345`	`)`
`1346`	`1346`	`if truncation_strategy == TruncationStrategy.ONLY_FIRST:`
`1347`	`1347`	`error_msg = (`
`1348`		`- error_msg`
`1349`		`- + "Please select another truncation strategy than "`
	`1348`	`+ error_msg + "Please select another truncation strategy than "`
`1350`	`1349`	`f"{truncation_strategy}, for instance 'longest_first' or 'only_second'."`
`1351`	`1350`	`)`
`1352`	`1351`	`logger.error(error_msg)`
Original file line number	Diff line number	Diff line change
`@@ -1315,8 +1315,7 @@ def truncate_sequences(`
`1315`	`1315`	`)`
`1316`	`1316`	`if truncation_strategy == TruncationStrategy.ONLY_FIRST:`
`1317`	`1317`	`error_msg = (`
`1318`		`- error_msg`
`1319`		`- + "Please select another truncation strategy than "`
	`1318`	`+ error_msg + "Please select another truncation strategy than "`
`1320`	`1319`	`f"{truncation_strategy}, for instance 'longest_first' or 'only_second'."`
`1321`	`1320`	`)`
`1322`	`1321`	`logger.error(error_msg)`