fix: language detector proportion_in_each_language giving results hig…

…her than 1 (already fixed but brought back accidentally)
adbar · Sep 17, 2024 · 0071258 · 0071258
1 parent e1fb6a0
commit 0071258
Show file tree

Hide file tree

Showing 2 changed files with 20 additions and 8 deletions.
diff --git a/simplemma/language_detector.py b/simplemma/language_detector.py
@@ -189,14 +189,18 @@ def proportion_in_target_languages(
         Returns:
             float: The proportion of text in the target language(s).
         """
-        return sum(
-            percentage
-            for (
-                lang_code,
-                percentage,
-            ) in self.proportion_in_each_language(text).items()
-            if lang_code != "unk"
-        )
+        tokens = self._token_sampler.sample_text(text)
+        if len(tokens) == 0:
+            return 0
+
+        in_target = 0
+        for token in tokens:
+            for lang_code in self._lang:
+                candidate = self._lemmatization_strategy.get_lemma(token, lang_code)
+                if candidate is not None:
+                    in_target += 1
+                    break
+        return in_target / len(tokens)
 
     def main_language(
         self,

diff --git a/tests/test_language_detector.py b/tests/test_language_detector.py
@@ -114,6 +114,14 @@ def test_in_target_language() -> None:
         == 1.0
     )
 
+    langs = ("en", "de")
+    text = "It was a true gift"
+    assert (
+        LanguageDetector(lang=langs).proportion_in_target_languages(text)
+        == in_target_language(text, lang=langs)
+        == 1.0
+    )
+
 
 def test_main_language():
     text = "Dieser Satz ist auf Deutsch."