Spaces:

daniel-wojahn
/

ttm-webapp-hf

Sleeping

App Files Files Community

daniel-wojahn commited on 16 days ago

Commit

988e855

1 Parent(s): bda2b5b

tfidf remove; css fixes

Browse files

Files changed (6) hide show

Tibetan Text Metrics Report.html +553 -0
app.py +18 -22
pipeline/differential_viz.py +53 -70
pipeline/metrics.py +2 -48
pipeline/stopwords_bo.py +1 -1
pipeline/stopwords_lite_bo.py +1 -1

Tibetan Text Metrics Report.html ADDED Viewed

	@@ -0,0 +1,553 @@

+    <!DOCTYPE html>
+    <html>
+    <head>
+        <title>Structural Analysis Report - Chapter all_chapters</title>
+        <style>
+            body { font-family: Arial, sans-serif; margin: 20px; }
+            .report { max-width: 1200px; margin: 0 auto; }
+            .comparison { border: 1px solid #ddd; margin: 20px 0; padding: 15px; }
+            .changes { display: flex; gap: 20px; }
+            .change-type { flex: 1; padding: 10px; border: 1px solid #eee; }
+            .insertion { background-color: #e8f5e8; }
+            .deletion { background-color: #ffe8e8; }
+            .modification { background-color: #fff3e0; }
+            .highlight { background-color: yellow; padding: 2px 4px; }
+        </style>
+    </head>
+    <body>
+        <div class="report">
+            <h1>Structural Analysis Report - Chapter all_chapters</h1>
+            <div class="comparison">
+                <h2>Bailey.txt vs Dolanji_16.txt</h2>
+                <div class="scores">
+                    <p><strong>Structural Similarity:</strong> 0.00</p>
+                    <p><strong>Alignment Score:</strong> 0.03</p>
+                </div>
+                <div class="changes">
+                    <div class="change-type insertion">
+                        <h3>Insertions (889)</h3>
+            <div class="change">
+                <span class="highlight">དགྲ་འདུལ་བ་ལ་དགོས་ཏེ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">རྒྱལ་རིགས་བསྟན་བཅོས་དྲངས་པ་ལས།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">འཇིག་རྟེན་གྱི་ཁ་དཔེར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཐོག་མ་ནས་དྲག་འདུལ་མི་བརྩོམ་པར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">གོ་བ་བསྐོན།</span>
+            </div>
+            <p>... and 884 more</p>
+                    </div>
+                    <div class="change-type deletion">
+                        <h3>Deletions (681)</h3>
+            <div class="change">
+                <span class="highlight">གཡུལ་ཕན་ཚུན་མཉམ་པའི་དགྲ་འམ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">གསེར་ཡིག་གི་འགྲུལ་བཙུགས་ཏེ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཞི་རྒྱས་དབང་དྲག་གང་འགྲོ་གང་ཟབ་བལྟ་དགོས་པ་བཞིན་མི་སྣ་གསེར་ཡིག་གིས་ཀྱང་།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">རང་གི་དཔོན་ཁུང་གི་དོན་བསྒྲུབ་བྱ་གཙོ་བོར་གཟུང་།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">དྲག་པོ་མཐའ་སྐྱེལ་དུ་སོང་ན་ལེགས་ཉེས་སྤྱི་མར་ཡོད་པའི།</span>
+            </div>
+            <p>... and 676 more</p>
+                    </div>
+                    <div class="change-type modification">
+                        <h3>Modifications (203)</h3>
+            <div class="change">
+                <span class="highlight">དང་པོ་དཔའ་བོ་སྟག་གི་ཞལ་ལྕེ་ནི་དགྲ་འདུལ་བ་ལ་དགོས་ཏེ།</span> →
+                <span class="highlight">དང་པོ་དཔའ་བོ་སྟག་གི་ཞལ་ལྕེ་ནི།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">དེ་ཡང་འདུལ་བ་ལུང་དུ་རྒྱལ་རིགས་ཀྱི་བསྟན་བཅོས་དྲངས་པར།</span> →
+                <span class="highlight">དེ་ཡང་འདུལ་བ་ལུང་དུ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">མཁས་པ་རྣམས་ནི་གཞོམ་པ་དང་།</span> →
+                <span class="highlight">མཁས་པ་རྣམས་ནི་གཞམ་པ་དང་།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">དཔུང་གི་དོན་རྣམས་བསྒྲུབ་པར་བྱེད།</span> →
+                <span class="highlight">དཔུང་གི་དོན་རྣམས་བསྒྲུབ་པར་བྱ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཅེས་གསུང་པ་ལྟར།</span> →
+                <span class="highlight">ཅེས་གསུངས་པ་ལྟར།</span>
+            </div>
+            <p>... and 198 more</p>
+                    </div>
+                </div>
+            </div>
+            <div class="comparison">
+                <h2>Bailey.txt vs Leiden_16.txt</h2>
+                <div class="scores">
+                    <p><strong>Structural Similarity:</strong> 0.00</p>
+                    <p><strong>Alignment Score:</strong> 0.04</p>
+                </div>
+                <div class="changes">
+                    <div class="change-type insertion">
+                        <h3>Insertions (807)</h3>
+            <div class="change">
+                <span class="highlight">དགྲ་འདུལ་བ་ལ་དགོས་ཏེ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཐོག་མར་དྲག་པོ་མཐའ་སྐྱེལ་ཡ་འུད་མི་བསྲེ་བར་འཇིག་རྟེན་གྱི་ཁ་དཔེར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">བྱ་མ་འཕུར་བ་སྒོ་ང་ལོན་པའི་དཔེ་ལྟར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">མཁས་པ་རྣམས་ནི་གཞོམ་པའི་དོན།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">རྒྱལ་སྲིད་ལྟ་བུའི་སྟོབས་དང་གཡུལ་ཕན་ཚུན་སྙོམས་པའི་དགྲ་འམ།</span>
+            </div>
+            <p>... and 802 more</p>
+                    </div>
+                    <div class="change-type deletion">
+                        <h3>Deletions (706)</h3>
+            <div class="change">
+                <span class="highlight">ཐོག་མར་དྲག་པོ་མཐར་སྐྱེལ་ཡ་འུད་དང་མི་བསྲེ་བར་འཇིག་རྟེན་གྱི་ཁ་དཔེར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">བྱ་མ་འཕུར་སྒོང་ང་ལོན་པའི་དཔེ་ལྟར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">མཁས་པ་རྣམས་ནི་གཞལ་པའི་དོན།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">རྒྱལ་སྲིད་ལྟ་བུའི་སྟོབས་དང་།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">གཡུལ་ཕན་ཚུན་མཉམ་པའི་དགྲ་འམ།</span>
+            </div>
+            <p>... and 701 more</p>
+                    </div>
+                    <div class="change-type modification">
+                        <h3>Modifications (170)</h3>
+            <div class="change">
+                <span class="highlight">དང་པོ་དཔའ་བོ་སྟག་གི་ཞལ་ལྕེ་ནི་དགྲ་འདུལ་བ་ལ་དགོས་ཏེ།</span> →
+                <span class="highlight">དང་པོ་དཔའ་བོ་སྟག་གི་ཞལ་ལྕེ་ནི།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">དེ་ཡང་འདུལ་བ་ལུང་དུ་རྒྱལ་རིགས་ཀྱི་བསྟན་བཅོས་དྲངས་པར།</span> →
+                <span class="highlight">དེ་ཡང་འདུལ་བ་ལུང་དུ་རྒྱལ་རིགས་ཀྱི་བསྟན་བཅོས་གྲངས་སར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">མཁས་པ་རྣམས་ནི་གཞོམ་པ་དང་།</span> →
+                <span class="highlight">མཁས་པ་རྣམས་ནི་གཞོམས་པ་དང་།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཀུན་���ུ་སྤྱད་དང་ལྔ་པར་ནི།</span> →
+                <span class="highlight">ཀུན་ཏུ་དཔྱད་དང་ལྔ་པར་ནི།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">དཔུང་གི་དོན་རྣམས་བསྒྲུབ་པར་བྱེད།</span> →
+                <span class="highlight">དཔུང་གི་དོན་རྣམས་འགྲུབ་པར་བྱེད།</span>
+            </div>
+            <p>... and 165 more</p>
+                    </div>
+                </div>
+            </div>
+            <div class="comparison">
+                <h2>Bailey.txt vs Ngari 8.txt</h2>
+                <div class="scores">
+                    <p><strong>Structural Similarity:</strong> 0.00</p>
+                    <p><strong>Alignment Score:</strong> 0.00</p>
+                </div>
+                <div class="changes">
+                    <div class="change-type insertion">
+                        <h3>Insertions (275)</h3>
+            <div class="change">
+                <span class="highlight">གཉིས་པ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">གསུམ་པ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">བཞི་པ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">བཀའ་ཁྲིམས་རིན་ཆེན་འབྱུང་གནས་ལས་ཐོག་པའི།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">བཞུ་ཤེས་བདེན་མཛུག་བྱེད་པའི་རི་བོང་འཛིན།</span>
+            </div>
+            <p>... and 270 more</p>
+                    </div>
+                    <div class="change-type deletion">
+                        <h3>Deletions (827)</h3>
+            <div class="change">
+                <span class="highlight">དེ་ཡང་འདུལ་བ་ལུང་དུ་རྒྱལ་རིགས་ཀྱི་བསྟན་བཅོས་དྲངས་པར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">མཁས་པ་རྣམས་ནི་གཞོམ་པ་དང་།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">རབ་ཏུ་སྦྱིན་དང་བསླུ་བ་དང་།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཀུན་ཏུ་སྤྱད་དང་ལྔ་པར་ནི།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཅེས་གསུང་པ་ལྟར།</span>
+            </div>
+            <p>... and 822 more</p>
+                    </div>
+                    <div class="change-type modification">
+                        <h3>Modifications (90)</h3>
+            <div class="change">
+                <span class="highlight">དང་པོ་དཔའ་བོ་སྟག་གི་ཞལ་ལྕེ་ནི་དགྲ་འདུལ་བ་ལ་དགོས་ཏེ།</span> →
+                <span class="highlight">དང་པོ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">དཔུང་གི་དོན་རྣམས་བསྒྲུབ་པར་བྱེད།</span> →
+                <span class="highlight">ཞེས་པ་ལྟར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཐོག་མར་དྲག་པོ་མཐར་སྐྱེལ་ཡ་འུད་དང་མི་བསྲེ་བར་འཇིག་རྟེན་གྱི་ཁ་དཔེར།</span> →
+                <span class="highlight">དོད་མི་མཉམ་ན་གདོང་ཤེར་མི་བྱེད་པ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཁེ་ཉེན་སྒྲགས་གོ་བ་དཀོན[*བཀོན]།</span> →
+                <span class="highlight">□□ཆད་པ་ཞུ་མི་རྣམ་ལ་ཐལ་ཆ་མི་བྱེད།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">བསམ་པ་ཆེ་བར་བཟུང་།</span> →
+                <span class="highlight">ལྔ་པ།</span>
+            </div>
+            <p>... and 85 more</p>
+                    </div>
+                </div>
+            </div>
+            <div class="comparison">
+                <h2>Dolanji_16.txt vs Leiden_16.txt</h2>
+                <div class="scores">
+                    <p><strong>Structural Similarity:</strong> 0.00</p>
+                    <p><strong>Alignment Score:</strong> 0.06</p>
+                </div>
+                <div class="changes">
+                    <div class="change-type insertion">
+                        <h3>Insertions (772)</h3>
+            <div class="change">
+                <span class="highlight">དགྲ་ལ་ཕ་རོལ་གྱི་འདུལ་ཐབས་ལ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཐོག་མར་དྲག་པོ་མཐའ་སྐྱེལ་ཡ་འུད་མི་བསྲེ་བར་འཇིག་རྟེན་གྱི་ཁ་དཔེར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ནང་ཅོག་ག་གྲོ་མོའི་ཚང་མ་ཐོར་བ་དགོས་ཟེར་བ་ལྟར་དང་།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">བྱ་མ་འཕུར་བ་སྒོ་ང་ལོན་པའི་དཔེ་ལྟར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">མཁས་པ་རྣམས་ནི་གཞོམ་པའི་དོན།</span>
+            </div>
+            <p>... and 767 more</p>
+                    </div>
+                    <div class="change-type deletion">
+                        <h3>Deletions (879)</h3>
+            <div class="change">
+                <span class="highlight">རྒྱལ་རིགས་བསྟན་བཅོས་དྲངས་པ་ལས།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">དགྲ་ཕ་རོལ་པོའི་འདུལ་ཐབས་ལ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཐོག་མར་དྲག་པོ་མཐར་སྐྱེལ་ཡ་བུད་དང་མི་བསྲེ་བར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ནང་ཅོ་ག་བྲོ་མོའི་ཚང་མ་འཐོར་བ་དགོས་ཟེར་བ་ལྟར་དང་།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">བྱ་མ་ཕུར་སྒོང་ལོན་པའི་དཔེ་ལྟར།</span>
+            </div>
+            <p>... and 874 more</p>
+                    </div>
+                    <div class="change-type modification">
+                        <h3>Modifications (178)</h3>
+            <div class="change">
+                <span class="highlight">དེ་ཡང་འདུལ་བ་ལུང་དུ།</span> →
+                <span class="highlight">དེ་ཡང་འདུལ་བ་ལུང་དུ་རྒྱལ་རིགས་ཀྱི་བསྟན་བཅོས་གྲངས་སར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">མཁས་པ་རྣམས་ནི་གཞམ་པ་དང་།</span> →
+                <span class="highlight">མཁས་པ་རྣམས་ནི་གཞོམས་པ་དང་།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཀུན་ཏུ་སྤྱད་དང་ལྔ་པར་ནི།</span> →
+                <span class="highlight">ཀུན་ཏུ་དཔྱད་དང་ལྔ་པར་ནི།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">དཔུང་གི་དོན་རྣམས་བསྒྲུབ་པར་བྱ།</span> →
+                <span class="highlight">དཔུང་གི་དོན་རྣམས་འགྲུབ་པར་བྱེད།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཕྱི་པདྨ་དཀར་པོའི་རྒྱ་མ་ཞིག</span> →
+                <span class="highlight">ཕྱི་པདྨ་དཀར་པོའི་རྒྱ་མ་ཞིག་པ།</span>
+            </div>
+            <p>... and 173 more</p>
+                    </div>
+                </div>
+            </div>
+            <div class="comparison">
+                <h2>Dolanji_16.txt vs Ngari 8.txt</h2>
+                <div class="scores">
+                    <p><strong>Structural Similarity:</strong> 0.00</p>
+                    <p><strong>Alignment Score:</strong> 0.00</p>
+                </div>
+                <div class="changes">
+                    <div class="change-type insertion">
+                        <h3>Insertions (296)</h3>
+            <div class="change">
+                <span class="highlight">གཉིས་པ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">གསུམ་པ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">བཀའ་ཁྲིམས་རིན་ཆེན་འབྱུང་གནས་ལས་ཐོག་པའི།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">དྲང་པོའི་བདུད་རྩི་དཀར་སྤྲོ་བ་ཡི།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">མརྫུན་པའི་སྣང་ཡོད་རབ་ཏུ་གཞོམ་པར་བགྱི།</span>
+            </div>
+            <p>... and 291 more</p>
+                    </div>
+                    <div class="change-type deletion">
+                        <h3>Deletions (1056)</h3>
+            <div class="change">
+                <span class="highlight">དེ་ཡང་འདུལ་བ་ལུང་དུ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">མཁས་པ་རྣམས་ནི་གཞམ་པ་དང་།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">རབ་ཏུ་སྦྱིན་དང་བསླུ་བ་དང་།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཀུན་ཏུ་སྤྱད་དང་ལྔ་པར་ནི།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཅེས་གསུངས་པ་ལྟར།</span>
+            </div>
+            <p>... and 1051 more</p>
+                    </div>
+                    <div class="change-type modification">
+                        <h3>Modifications (72)</h3>
+            <div class="change">
+                <span class="highlight">དང་པོ་དཔའ་བོ་སྟག་གི་ཞལ་ལྕེ་ནི།</span> →
+                <span class="highlight">དང་པོ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">དགྲ་འདུལ་བ་ལ་དགོས་ཏེ།</span> →
+                <span class="highlight">བཞི་པ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">རྒྱལ་རིགས་བསྟན་བཅོས་དྲངས་པ་ལས།</span> →
+                <span class="highlight">བཞུ་ཤེས་བདེན་མཛུག་བྱེད་པའི་རི་བོང་འཛིན།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">དཔུང་གི་དོན་རྣམས་བསྒྲུབ་པར་བྱ།</span> →
+                <span class="highlight">ཞེས་པ་ལྟར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཐོག་མར་དྲག་པོ་མཐར་སྐྱེལ་ཡ་བུད་དང་མི་བསྲེ་བར།</span> →
+                <span class="highlight">དོད་མི་མཉམ་ན་གདོང་ཤེར་མི་བྱེད་པ།</span>
+            </div>
+            <p>... and 67 more</p>
+                    </div>
+                </div>
+            </div>
+            <div class="comparison">
+                <h2>Leiden_16.txt vs Ngari 8.txt</h2>
+                <div class="scores">
+                    <p><strong>Structural Similarity:</strong> 0.00</p>
+                    <p><strong>Alignment Score:</strong> 0.00</p>
+                </div>
+                <div class="changes">
+                    <div class="change-type insertion">
+                        <h3>Insertions (292)</h3>
+            <div class="change">
+                <span class="highlight">གཉིས་པ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">གསུམ་��།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">བཀའ་ཁྲིམས་རིན་ཆེན་འབྱུང་གནས་ལས་ཐོག་པའི།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">བཞུ་ཤེས་བདེན་མཛུག་བྱེད་པའི་རི་བོང་འཛིན།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">དྲང་པོའི་བདུད་རྩི་དཀར་སྤྲོ་བ་ཡི།</span>
+            </div>
+            <p>... and 287 more</p>
+                    </div>
+                    <div class="change-type deletion">
+                        <h3>Deletions (945)</h3>
+            <div class="change">
+                <span class="highlight">དེ་ཡང་འདུལ་བ་ལུང་དུ་རྒྱལ་རིགས་ཀྱི་བསྟན་བཅོས་གྲངས་སར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">མཁས་པ་རྣམས་ནི་གཞོམས་པ་དང་།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">རབ་ཏུ་སྦྱིན་དང་བསླུ་བ་དང་།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཀུན་ཏུ་དཔྱད་དང་ལྔ་པར་ནི།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཅེས་གསུངས་པ་ལྟར།</span>
+            </div>
+            <p>... and 940 more</p>
+                    </div>
+                    <div class="change-type modification">
+                        <h3>Modifications (76)</h3>
+            <div class="change">
+                <span class="highlight">དང་པོ་དཔའ་བོ་སྟག་གི་ཞལ་ལྕེ་ནི།</span> →
+                <span class="highlight">དང་པོ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">དགྲ་འདུལ་བ་ལ་དགོས་ཏེ།</span> →
+                <span class="highlight">བཞི་པ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">དཔུང་གི་དོན་རྣམས་འགྲུབ་པར་བྱེད།</span> →
+                <span class="highlight">ཞེས་པ་ལྟར།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">ཐོག་མར་དྲག་པོ་མཐའ་སྐྱེལ་ཡ་འུད་མི་བསྲེ་བར་འཇིག་རྟེན་གྱི་ཁ་དཔེར།</span> →
+                <span class="highlight">དོད་མི་མཉམ་ན་གདོང་ཤེར་མི་བྱེད་པ།</span>
+            </div>
+            <div class="change">
+                <span class="highlight">འདྲ་བ་མཉམ་པོར་གྲུ་བཞིར་དྲོས་ཟེར་བ་ལྟར།</span> →
+                <span class="highlight">དགེ་ལོགས་ལོ་ཐོག་རྒྱས་པ་ཉིད་དུབགྱི་ཞེས།</span>
+            </div>
+            <p>... and 71 more</p>
+                    </div>
+                </div>
+            </div>
+        </div>
+    </body>
+    </html>

app.py CHANGED Viewed

@@ -148,8 +148,7 @@ def main_interface():
             "Jaccard Similarity (%)": "Jaccard Similarity (%): Higher scores (darker) mean more shared unique words.",
             "Normalized LCS": "Normalized LCS: Higher scores (darker) mean longer shared sequences of words.",
             "Semantic Similarity": "Semantic Similarity (using word embeddings/experimental): Higher scores (darker) mean more similar meanings.",
-            "TF-IDF Cosine Sim": "TF-IDF Cosine Similarity: Higher scores (darker) mean texts share more important, distinctive vocabulary.",
-            "Word Counts": "Word Counts: Shows the number of words in each segment after tokenization."
         }
         metric_tooltips = {
@@ -209,28 +208,28 @@ Each segment is represented as a vector of these TF-IDF scores, and the cosine s
         with gr.Tabs(elem_id="heatmap-tab-group"):
             # Structural Analysis Tab
             with gr.Tab("Structural Analysis"):
-                with gr.Accordion("Understanding Structural Differences", open=False, elem_classes="structural-analysis-info"):
-                    gr.Markdown("""
-                    ### Structural Analysis for Legal Manuscripts
-                    This enhanced analysis provides detailed insights into structural differences between chapters, specifically designed for Tibetan legal manuscript comparison.
-                    **Features:**
-                    - **Change Detection**: Identifies insertions, deletions, and modifications
-                    - **Structural Alignment**: Shows how chapters map structurally
-                    - **Differential Highlighting**: Highlights significant textual variations
-                    - **Per-Chapter Analysis**: Detailed comparison for each chapter pair
-                    **Usage:**
-                    Results appear automatically when texts are processed. Use the export buttons to save detailed reports for philological analysis.
-                    """)
                 # Structural analysis outputs
-                structural_heatmap = gr.Plot(label="Structural Changes Heatmap", show_label=False, elem_classes="structural-heatmap")
                 structural_report = gr.HTML(label="Differential Analysis Report")
                 structural_export = gr.File(label="Export Structural Analysis Report", file_types=[".html", ".md", ".json"])
-            # Process all metrics including Word Counts in a unified way
-            for metric_key, descriptive_title in heatmap_titles.items():
                 with gr.Tab(metric_key):
                     # Set CSS class based on metric type
                     if metric_key == "Jaccard Similarity (%)":
@@ -242,9 +241,6 @@ Each segment is represented as a vector of these TF-IDF scores, and the cosine s
                     elif metric_key == "Semantic Similarity":
                         css_class = "metric-info-accordion semantic-info"
                         accordion_title = "Understanding Meaning Similarity"
-                    elif metric_key == "TF-IDF Cosine Sim":
-                        css_class = "metric-info-accordion tfidf-info"
-                        accordion_title = "Understanding Term Importance"
                     elif metric_key == "Word Counts":
                         css_class = "metric-info-accordion wordcount-info"
                         accordion_title = "Understanding Text Length"

             "Jaccard Similarity (%)": "Jaccard Similarity (%): Higher scores (darker) mean more shared unique words.",
             "Normalized LCS": "Normalized LCS: Higher scores (darker) mean longer shared sequences of words.",
             "Semantic Similarity": "Semantic Similarity (using word embeddings/experimental): Higher scores (darker) mean more similar meanings.",
+            "Word Counts": "Word Counts: Bar chart showing the number of words in each segment after tokenization.",
         }
         metric_tooltips = {
         with gr.Tabs(elem_id="heatmap-tab-group"):
             # Structural Analysis Tab
             with gr.Tab("Structural Analysis"):
+                gr.Markdown("""
+                ### Structural Analysis for Tibetan Legal Manuscripts
+                This tab provides detailed chapter-level structural analysis for Tibetan legal manuscript comparison.
+                **Features:**
+                - **Differential Highlighting**: Highlights significant textual variations
+                - **Per-Chapter Analysis**: Detailed comparison for each chapter pair
+                **Usage:**
+                Results appear automatically when texts are processed. Use the export buttons to save detailed reports for philological analysis.
+                """)
                 # Structural analysis outputs
+                structural_heatmap = gr.Plot(label="Structural Changes Summary", show_label=False, elem_classes="structural-heatmap")
                 structural_report = gr.HTML(label="Differential Analysis Report")
                 structural_export = gr.File(label="Export Structural Analysis Report", file_types=[".html", ".md", ".json"])
+            # Process metrics excluding TF-IDF
+            metrics_to_display = {k: v for k, v in heatmap_titles.items() if k != "TF-IDF Cosine Sim"}
+            for metric_key, descriptive_title in metrics_to_display.items():
                 with gr.Tab(metric_key):
                     # Set CSS class based on metric type
                     if metric_key == "Jaccard Similarity (%)":
                     elif metric_key == "Semantic Similarity":
                         css_class = "metric-info-accordion semantic-info"
                         accordion_title = "Understanding Meaning Similarity"
                     elif metric_key == "Word Counts":
                         css_class = "metric-info-accordion wordcount-info"
                         accordion_title = "Understanding Text Length"

pipeline/differential_viz.py CHANGED Viewed

@@ -6,7 +6,6 @@ Provides enhanced heatmaps with structural change highlighting.
 import plotly.graph_objects as go
 from typing import Dict, List
 import pandas as pd
-from plotly.subplots import make_subplots
 from .structural_analysis import detect_structural_changes, generate_structural_alignment
@@ -59,81 +58,65 @@ def create_differential_heatmap(texts_dict: Dict[str, str],
     enhanced_df = pd.DataFrame(enhanced_data)
-    # Create subplots for different aspects
-    fig = make_subplots(
-        rows=2, cols=2,
-        subplot_titles=('Structural Changes', 'Modifications', 'Insertions/Deletions', 'Alignment Quality'),
-        specs=[[{"secondary_y": True}, {"secondary_y": True}],
-               [{"secondary_y": True}, {"secondary_y": True}]]
-    )
-    # Structural changes heatmap
-    pivot_changes = enhanced_df.pivot(index='Chapter', columns='Text Pair', values='structural_changes')
-    fig.add_trace(
-        go.Heatmap(
-            z=pivot_changes.values,
-            x=pivot_changes.columns,
-            y=pivot_changes.index,
-            colorscale='Reds',
-            name='Structural Changes',
-            showscale=True,
-            colorbar=dict(title="Changes", x=0.45)
-        ),
-        row=1, col=1
-    )
-    # Modifications heatmap
-    pivot_mods = enhanced_df.pivot(index='Chapter', columns='Text Pair', values='modification_score')
-    fig.add_trace(
-        go.Heatmap(
-            z=pivot_mods.values,
-            x=pivot_mods.columns,
-            y=pivot_mods.index,
-            colorscale='Blues',
-            name='Modifications',
-            showscale=True,
-            colorbar=dict(title="Mods", x=1.0)
-        ),
-        row=1, col=2
-    )
-    # Insertions/Deletions combined heatmap
-    pivot_ins_del = enhanced_df.pivot(index='Chapter', columns='Text Pair', values='insertion_score')
-    pivot_del = enhanced_df.pivot(index='Chapter', columns='Text Pair', values='deletion_score')
-    combined = pivot_ins_del + pivot_del
-    fig.add_trace(
-        go.Heatmap(
-            z=combined.values,
-            x=combined.columns,
-            y=combined.index,
-            colorscale='Greens',
-            name='Insertions+Deletions',
-            showscale=True,
-            colorbar=dict(title="Ins+Del", x=0.45)
-        ),
-        row=2, col=1
-    )
-    # Alignment quality heatmap
-    pivot_align = enhanced_df.pivot(index='Chapter', columns='Text Pair', values='alignment_quality')
-    fig.add_trace(
-        go.Heatmap(
-            z=pivot_align.values,
-            x=pivot_align.columns,
-            y=pivot_align.index,
-            colorscale='Viridis',
-            name='Alignment Quality',
-            showscale=True,
-            colorbar=dict(title="Quality", x=1.0)
         ),
-        row=2, col=2
-    )
     fig.update_layout(
-        title=f"Structural Analysis - Chapter {chapter_key}",
-        height=800,
-        showlegend=False
     )
     return fig

 import plotly.graph_objects as go
 from typing import Dict, List
 import pandas as pd
 from .structural_analysis import detect_structural_changes, generate_structural_alignment
     enhanced_df = pd.DataFrame(enhanced_data)
+    # Create a clean table with numbers and percentages
+    summary_table = []
+    for row in enhanced_data:
+        text_pair = row['Text Pair']
+        chapter = row['Chapter']
+        # Calculate percentages
+        total_changes = row['structural_changes']
+        modifications = row['modification_score']
+        insertions_deletions = row['insertion_score'] + row['deletion_score']
+        alignment_quality = row['alignment_quality']
+        # Create summary row
+        summary_row = {
+            'Text Pair': text_pair,
+            'Chapter': chapter,
+            'Total Changes': total_changes,
+            'Modifications': modifications,
+            'Insertions/Deletions': insertions_deletions,
+            'Alignment Quality': f"{alignment_quality:.1f}%",
+            'Significant Differences': row['significant_differences']
+        }
+        summary_table.append(summary_row)
+    # Create DataFrame for table display
+    summary_df = pd.DataFrame(summary_table)
+    # Create a simple table with styling
+    fig = go.Figure(data=[go.Table(
+        header=dict(
+            values=['Text Pair', 'Chapter', 'Total Changes', 'Modifications',
+                   'Insertions/Deletions', 'Alignment Quality', 'Significant Differences'],
+            font=dict(size=12, color='white'),
+            fill_color='darkblue',
+            align='left'
         ),
+        cells=dict(
+            values=[
+                summary_df['Text Pair'],
+                summary_df['Chapter'],
+                summary_df['Total Changes'],
+                summary_df['Modifications'],
+                summary_df['Insertions/Deletions'],
+                summary_df['Alignment Quality'],
+                summary_df['Significant Differences']
+            ],
+            font=dict(size=11),
+            align='left',
+            fill_color=['lightgrey' if i % 2 == 0 else 'white'
+                       for i in range(len(summary_df))]
+        )
+    )])
     fig.update_layout(
+        title="Structural Analysis Summary",
+        height=400,
+        margin=dict(l=10, r=10, t=40, b=10)
     )
     return fig

pipeline/metrics.py CHANGED Viewed

@@ -8,9 +8,7 @@ from .fasttext_embedding import generate_embeddings as generate_fasttext_embeddi
 from .hf_embedding import generate_embeddings as generate_hf_embeddings
 import logging
-from sklearn.feature_extraction.text import TfidfVectorizer
-from .stopwords_bo import TIBETAN_STOPWORDS
-from .stopwords_lite_bo import TIBETAN_STOPWORDS_LITE
 # Attempt to import the Cython-compiled fast_lcs module
 try:
@@ -255,42 +253,6 @@ def compute_all_metrics(
         logger.info(f"Built FastText corpus term frequency map with {len(term_freq_corpus_for_fasttext)} unique tokens.")
         logger.info(f"Built FastText document frequency map with {len(document_frequency_map_for_fasttext)} unique tokens across {total_num_documents_for_fasttext} documents.")
-    # TF-IDF Vectorization and Cosine Similarity Calculation
-    if corpus_for_sklearn_tfidf:
-        try:
-            # Using a dummy tokenizer and preprocessor as input is already tokenized (as space-separated strings)
-            # and we don't want further case changes or token modifications for Tibetan.
-            # Select appropriate stopwords list based on user preference
-            if use_stopwords:
-                # Choose between regular and lite stopwords list
-                if use_lite_stopwords:
-                    stopwords_to_use = TIBETAN_STOPWORDS_LITE
-                else:
-                    stopwords_to_use = TIBETAN_STOPWORDS
-            else:
-                # If stopwords are disabled, use an empty list
-                stopwords_to_use = []
-            vectorizer = TfidfVectorizer(
-                tokenizer=lambda x: x.split(),
-                preprocessor=lambda x: x,
-                token_pattern=None,
-                stop_words=stopwords_to_use
-            )
-            tfidf_matrix = vectorizer.fit_transform(corpus_for_sklearn_tfidf)
-            # Calculate pairwise cosine similarity on the TF-IDF matrix
-            # This gives a square matrix where cosine_sim_matrix[i, j] is the similarity between doc i and doc j
-            cosine_sim_matrix = cosine_similarity(tfidf_matrix)
-        except ValueError as e:
-            if "empty vocabulary" in str(e):
-                # If vocabulary is empty after stopword removal, create a zero matrix
-                n = len(corpus_for_sklearn_tfidf)
-                cosine_sim_matrix = np.zeros((n, n))
-            else:
-                # Re-raise other ValueError
-                raise
-    else:
         # Handle case with no texts or all empty texts
         n = len(files) if files else 0
         cosine_sim_matrix = np.zeros((n, n))
@@ -347,15 +309,7 @@ def compute_all_metrics(
                 "Jaccard Similarity (%)": jaccard_percent,
                 "Normalized LCS": norm_lcs,
                 # Pass tokens1 and tokens2 to compute_semantic_similarity
-                "Semantic Similarity": semantic_sim,
-                "TF-IDF Cosine Sim": (
-                    0.0 if both_only_stopwords else
-                    cosine_sim_matrix[i, j]
-                    if cosine_sim_matrix.size > 0
-                    and i < cosine_sim_matrix.shape[0]
-                    and j < cosine_sim_matrix.shape[1]
-                    else np.nan
-                ),
             }
         )
     return pd.DataFrame(results)

 from .hf_embedding import generate_embeddings as generate_hf_embeddings
 import logging
 # Attempt to import the Cython-compiled fast_lcs module
 try:
         logger.info(f"Built FastText corpus term frequency map with {len(term_freq_corpus_for_fasttext)} unique tokens.")
         logger.info(f"Built FastText document frequency map with {len(document_frequency_map_for_fasttext)} unique tokens across {total_num_documents_for_fasttext} documents.")
         # Handle case with no texts or all empty texts
         n = len(files) if files else 0
         cosine_sim_matrix = np.zeros((n, n))
                 "Jaccard Similarity (%)": jaccard_percent,
                 "Normalized LCS": norm_lcs,
                 # Pass tokens1 and tokens2 to compute_semantic_similarity
+                "Semantic Similarity": semantic_sim
             }
         )
     return pd.DataFrame(results)

pipeline/stopwords_bo.py CHANGED Viewed

@@ -64,7 +64,7 @@ _ALL_STOPWORDS_CATEGORIZED = (
     INTERJECTIONS_EXCLAMATIONS
 )
-# Final flat list of unique stopwords for TfidfVectorizer (as a list)
 TIBETAN_STOPWORDS = list(set(_ALL_STOPWORDS_CATEGORIZED))
 # Final set of unique stopwords for efficient Jaccard/LCS filtering (as a set)

     INTERJECTIONS_EXCLAMATIONS
 )
+# Final flat list of unique stopwords
 TIBETAN_STOPWORDS = list(set(_ALL_STOPWORDS_CATEGORIZED))
 # Final set of unique stopwords for efficient Jaccard/LCS filtering (as a set)

pipeline/stopwords_lite_bo.py CHANGED Viewed

@@ -27,7 +27,7 @@ _ALL_STOPWORDS_CATEGORIZED_LITE = (
     MORE_PARTICLES_SUFFIXES_LITE
 )
-# Final flat list of unique stopwords for TfidfVectorizer (as a list)
 TIBETAN_STOPWORDS_LITE = list(set(_ALL_STOPWORDS_CATEGORIZED_LITE))
 # Final set of unique stopwords for efficient Jaccard/LCS filtering (as a set)

     MORE_PARTICLES_SUFFIXES_LITE
 )
+# Final flat list of unique stopwords
 TIBETAN_STOPWORDS_LITE = list(set(_ALL_STOPWORDS_CATEGORIZED_LITE))
 # Final set of unique stopwords for efficient Jaccard/LCS filtering (as a set)