process-text: improve corrupt PDF handling

chapmanjacobd · Nov 13, 2024 · c83385e · c83385e
1 parent bb3e8a9
commit c83385e
Show file tree

Hide file tree

Showing 2 changed files with 9 additions and 3 deletions.
diff --git a/xklb/mediafiles/process_media.py b/xklb/mediafiles/process_media.py
@@ -389,7 +389,8 @@ def process_media() -> None:
                         with suppress(processes.UnplayableFile):
                             m["duration"] = processes.FFProbe(new_path).duration
 
-                    new_free_space += (m.get("compressed_size") or m["size"]) - m["new_size"]
+                    if not os.path.exists(m["path"]):
+                        new_free_space += (m.get("compressed_size") or m["size"]) - m["new_size"]
 
                 if args.database:
                     with suppress(sqlite3.OperationalError), args.db.conn:

diff --git a/xklb/mediafiles/process_text.py b/xklb/mediafiles/process_text.py
@@ -125,8 +125,13 @@ def process_path(args, path):
         if args.simulate:
             log.info("Running OCR on %s", path)
         else:
-            if not ocrmypdf.pdfa.file_claims_pdfa(Path(path))["pass"]:
-                path = convert_to_text_pdf(args, path)
+            import pikepdf
+
+            try:
+                if not ocrmypdf.pdfa.file_claims_pdfa(Path(path))["pass"]:
+                    path = convert_to_text_pdf(args, path)
+            except pikepdf.PdfError:
+                log.exception("[%s]: could not open as PDF", path)
 
     ext = path_utils.ext(path)