Fix Gliner slowness

gabriel-piles · gabriel-piles · commit e2d9f5b0d585 · 2025-10-10T15:49:09.000+02:00
diff --git a/src/trainable_entity_extractor/adapters/extractors/GlinerDateExtractor.py b/src/trainable_entity_extractor/adapters/extractors/GlinerDateExtractor.py
@@ -1,5 +1,6 @@
 import json
 from dateparser.search import search_dates
+from gliner import GLiNER
 
 
 class GlinerDateExtractor:
@@ -53,3 +54,7 @@ def extract_dates(self, text: str):
         entities = self.remove_overlapping_entities(entities)
         date_times = [d[1] for e in entities for d in search_dates(e["text"])]
         return date_times
+
+    @staticmethod
+    def get_model():
+        return GLiNER.from_pretrained("urchade/gliner_multi-v2.1")
diff --git a/src/trainable_entity_extractor/adapters/extractors/pdf_to_text_extractor/methods/GlinerFirstDateMethod.py b/src/trainable_entity_extractor/adapters/extractors/pdf_to_text_extractor/methods/GlinerFirstDateMethod.py
@@ -1,7 +1,5 @@
 import re
-
-from gliner import GLiNER
-
+from trainable_entity_extractor.adapters.extractors.GlinerDateExtractor import GlinerDateExtractor
 from trainable_entity_extractor.adapters.extractors.ToTextExtractorMethod import ToTextExtractorMethod
 from trainable_entity_extractor.domain.ExtractionData import ExtractionData
 from trainable_entity_extractor.domain.PdfDataSegment import PdfDataSegment
@@ -17,7 +15,7 @@ def train(self, extraction_data: ExtractionData):
         self.save_json("languages.json", list(set(languages)))
 
     def predict(self, prediction_samples_data: PredictionSamplesData) -> list[str]:
-        gliner_model = GLiNER.from_pretrained("urchade/gliner_multi-v2.1")
+        gliner_model = GlinerDateExtractor.get_model()
         predictions_samples = prediction_samples_data.prediction_samples
         predictions = [""] * len(predictions_samples)
         languages = self.load_json("languages.json")
diff --git a/src/trainable_entity_extractor/adapters/extractors/pdf_to_text_extractor/methods/SpaceFixerGlinerFirstDateMethod.py b/src/trainable_entity_extractor/adapters/extractors/pdf_to_text_extractor/methods/SpaceFixerGlinerFirstDateMethod.py
diff --git a/src/trainable_entity_extractor/adapters/extractors/text_to_text_extractor/methods/GlinerDateParserMethod.py b/src/trainable_entity_extractor/adapters/extractors/text_to_text_extractor/methods/GlinerDateParserMethod.py
@@ -1,5 +1,3 @@
-from gliner import GLiNER
-
 from trainable_entity_extractor.domain.ExtractionData import ExtractionData
 from trainable_entity_extractor.domain.PredictionSamplesData import PredictionSamplesData
 from trainable_entity_extractor.adapters.extractors.ToTextExtractorMethod import ToTextExtractorMethod
@@ -31,7 +29,7 @@ def get_date(model, tags_texts: list[str]):
         return None
 
     def train(self, extraction_data: ExtractionData):
-        gliner_model = GLiNER.from_pretrained("urchade/gliner_multi-v2.1")
+        gliner_model = GlinerDateExtractor.get_model()
 
         gliner_date_extractor = GlinerDateExtractor(gliner_model)
 
@@ -46,7 +44,7 @@ def train(self, extraction_data: ExtractionData):
         self.save_json(self.IS_VALID_EXECUTION_FILE_NAME, "true")
 
     def predict(self, prediction_samples_data: PredictionSamplesData) -> list[str]:
-        gliner_model = GLiNER.from_pretrained("urchade/gliner_multi-v2.1")
+        gliner_model = GlinerDateExtractor.get_model()
 
         if self.load_json(self.IS_VALID_EXECUTION_FILE_NAME) == "false":
             return [""] * len(prediction_samples_data.prediction_samples)