Spaces:

CCockrum
/

LOC-Metadate-Analyzer

Running

CCockrum commited on Apr 25

Commit

909496d

verified ·

1 Parent(s): e911334

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -210,14 +210,16 @@ if fetch_data:
                 st.success("All records are complete!")
             st.subheader("Suggested Metadata Enhancements")
-            filled_descriptions = metadata_df[metadata_df['description'].notnull()]['description'].astype(str)
             if len(filled_descriptions) > 1:
                 try:
                     tfidf = TfidfVectorizer(stop_words='english')
                     tfidf_matrix = tfidf.fit_transform(filled_descriptions)
                     suggestions = []
-                    for idx, row in incomplete_records.iterrows():
-                        if pd.notna(row['description']):
                             desc_vec = tfidf.transform([str(row['description'])])
                             sims = cosine_similarity(desc_vec, tfidf_matrix).flatten()
                             top_idx = sims.argmax()

                 st.success("All records are complete!")
             st.subheader("Suggested Metadata Enhancements")
+            incomplete_with_desc = incomplete_records[incomplete_records['description'].notnull()]
+        reference_df = metadata_df[metadata_df['subject'].notnull() & metadata_df['description'].notnull()]
+        tfidf_matrix = tfidf.fit_transform(reference_df['description'])
             if len(filled_descriptions) > 1:
                 try:
                     tfidf = TfidfVectorizer(stop_words='english')
                     tfidf_matrix = tfidf.fit_transform(filled_descriptions)
                     suggestions = []
+                    for idx, row in incomplete_with_desc.iterrows():
+                        if pd.isna(row['subject']) and pd.notna(row['description']):
                             desc_vec = tfidf.transform([str(row['description'])])
                             sims = cosine_similarity(desc_vec, tfidf_matrix).flatten()
                             top_idx = sims.argmax()