Spaces:

MVPilgrim
/

SemanticSearchPOC

Running

App Files Files Community

MVPilgrim commited on Jun 10, 2024

Commit

2b6582c

1 Parent(s): 0f87433

debug

Browse files

Files changed (1) hide show

app.py +8 -7

app.py CHANGED Viewed

@@ -141,20 +141,20 @@ try:
             webpageTitles.append(title)
             max_tokens = 1000
             tokenizer = Tokenizer.from_pretrained("bert-base-uncased")
-            logger.debug(f"### tokenizer: {tokenizer}")
             splitter = HuggingFaceTextSplitter(tokenizer, trim_chunks=True)
             chunksOnePage = splitter.chunks(page_content, chunk_capacity=50)
             chunks = []
             for chnk in chunksOnePage:
-                logger.debug(f"#### chnk in file: {chnk}")
                 chunks.append(chnk)
-                logger.debug(f"chunks: {chunks}")
             webpageChunks.append(chunks)
             webpageChunksDocNames.append(filename + "Chunks")
-            logger.debug(f"### filename, title: {filename}, {title}")
-            logger.debug(f"### webpageDocNames: {webpageDocNames}")
         logger.info("#### Read and chunk input text files exited.")
@@ -281,6 +281,7 @@ try:
     ###########################################################
     # Create document and chunks objects in the database.
     if 'wpCollectionLoaded' not in st.session_state:
         logger.info("#### Create page/doc db objects.")
         for i, className in enumerate(webpageDocNames):
@@ -289,7 +290,7 @@ try:
             # Create Webpage Object
             page_content = page_contentArray[i]
             # Insert the document.
-            wpCollectionObj_uuid = wpCollection.data.insert(
               {
                 "name": className,
                 "title": title,
@@ -311,7 +312,7 @@ try:
                 "chunk_index": i2,
                 "references":
                 {
-                  "webpage": wpCollectionObj_uuid
                 }
               }
             )

             webpageTitles.append(title)
             max_tokens = 1000
             tokenizer = Tokenizer.from_pretrained("bert-base-uncased")
+            logger.info(f"### tokenizer: {tokenizer}")
             splitter = HuggingFaceTextSplitter(tokenizer, trim_chunks=True)
             chunksOnePage = splitter.chunks(page_content, chunk_capacity=50)
             chunks = []
             for chnk in chunksOnePage:
+                logger.info(f"#### chnk in file: {chnk}")
                 chunks.append(chnk)
+                logger.info(f"chunks: {chunks}")
             webpageChunks.append(chunks)
             webpageChunksDocNames.append(filename + "Chunks")
+            logger.info(f"### filename, title: {filename}, {title}")
+            logger.info(f"### webpageDocNames: {webpageDocNames}")
         logger.info("#### Read and chunk input text files exited.")
     ###########################################################
     # Create document and chunks objects in the database.
+    wpCollectionObj_uuid = []
     if 'wpCollectionLoaded' not in st.session_state:
         logger.info("#### Create page/doc db objects.")
         for i, className in enumerate(webpageDocNames):
             # Create Webpage Object
             page_content = page_contentArray[i]
             # Insert the document.
+            wpCollectionObj_uuid[i] = wpCollection.data.insert(
               {
                 "name": className,
                 "title": title,
                 "chunk_index": i2,
                 "references":
                 {
+                  "webpage": wpCollectionObj_uuid[i2]
                 }
               }
             )