Spaces:

nelsonjq
/

pdf2tmx

Sleeping

App Files Files Community

nelsonjq commited on Jan 20

Commit

00d6aea

verified ·

1 Parent(s): 7518e72

debug hide resolve conflicts

Browse files

Files changed (1) hide show

utils.py +15 -15

utils.py CHANGED Viewed

@@ -41,29 +41,28 @@ def align_text(txt1: str, txt2: str, lang1: str, lang2: str) -> pd.DataFrame:
                      normalize_embeddings=True,
                      show_progress_bar=True)
-    conflicts_to_solve, rest = resolver.get_all_conflicts(db_path, min_chain_length=2, max_conflicts_len=6, batch_id=-1)
-    resolver.get_statistics(conflicts_to_solve)
-    resolver.get_statistics(rest)
     steps = 3
     batch_id = -1
-    for i in range(steps):
-        conflicts, rest = resolver.get_all_conflicts(db_path, min_chain_length=2 + i, max_conflicts_len=6 * (i + 1), batch_id=batch_id)
-        resolver.resolve_all_conflicts(db_path, conflicts, model_name, show_logs=False)
-        vis_helper.visualize_alignment_by_db(db_path, output_path="img_test1.png", lang_name_from=lang1, lang_name_to=lang2, batch_size=400, size=(600, 600), plt_show=True)
-        if len(rest) == 0:
-            break
     paragraphs_dict, par_ids, meta_info, sent_counter_dict = reader.get_paragraphs(db_path)
-    paragraphs_from = paragraphs_dict[lang1]
-    paragraphs_to = paragraphs_dict[lang2]
     # Debug prints to understand the structure
-    print("paragraphs_from:", paragraphs_from)
-    print("paragraphs_to:", paragraphs_to)
     data = []
     for from_paragraph, to_paragraph in zip(paragraphs_from, paragraphs_to):
@@ -74,6 +73,7 @@ def align_text(txt1: str, txt2: str, lang1: str, lang2: str) -> pd.DataFrame:
         for from_line, to_line in zip(from_paragraph, to_paragraph):
             data.append({"From": from_line, "To": to_line})
     df = pd.DataFrame(data)
     return df

                      normalize_embeddings=True,
                      show_progress_bar=True)
+    #conflicts_to_solve, rest = resolver.get_all_conflicts(db_path, min_chain_length=2, max_conflicts_len=6, batch_id=-1)
+    #resolver.get_statistics(conflicts_to_solve)
+    #resolver.get_statistics(rest)
     steps = 3
     batch_id = -1
+    #for i in range(steps):
+     #   conflicts, rest = resolver.get_all_conflicts(db_path, min_chain_length=2 + i, max_conflicts_len=6 * (i + 1), batch_id=batch_id)
+      #  resolver.resolve_all_conflicts(db_path, conflicts, model_name, show_logs=False)
+       # vis_helper.visualize_alignment_by_db(db_path, output_path="img_test1.png", lang_name_from=lang1, lang_name_to=lang2, batch_size=400, size=(600, 600), plt_show=True)
+        #if len(rest) == 0:
+         #   break
     paragraphs_dict, par_ids, meta_info, sent_counter_dict = reader.get_paragraphs(db_path)
     # Debug prints to understand the structure
+    print("paragraphs_dict keys:", paragraphs_dict.keys())
+    paragraphs_from = paragraphs_dict["from"]
+    paragraphs_to = paragraphs_dict["to"]
     data = []
     for from_paragraph, to_paragraph in zip(paragraphs_from, paragraphs_to):
         for from_line, to_line in zip(from_paragraph, to_paragraph):
             data.append({"From": from_line, "To": to_line})
     df = pd.DataFrame(data)
     return df