Spaces:

MVPilgrim
/

SemanticSearchPOC

Running

App Files Files Community

MVPilgrim commited on Jun 6, 2024

Commit

7fea130

1 Parent(s): 13aea45

debug

Browse files

Files changed (1) hide show

app.py +50 -48

app.py CHANGED Viewed

@@ -27,7 +27,7 @@ try:
         weaviate_logger = logging.getLogger("httpx")
         weaviate_logger.setLevel(logging.WARNING)
         logger = logging.getLogger(__name__)
-        logging.basicConfig(level=logging.DEBUG)
         st.session_state.weaviate_logger = weaviate_logger
         st.session_state.logger = logger
     else:
@@ -36,7 +36,7 @@ try:
     def runStartup():
-        logger.debug("### Running startup.sh")
         result = ""
         try:
             #result = subprocess.run("/app/startup.sh",shell=False,capture_output=None,text=None,timeout=300)
@@ -47,15 +47,15 @@ try:
             time.sleep(180)
         except Exception as e:
             emsg = str(e)
-            logger.error(f"subprocess.run  EXCEPTION. e: {emsg}")
             try:
                 with open("/app/startup.log", "r") as file:
                     content = file.read()
                     print(content)
             except Exception as e2:
                 emsg = str(e2)
-                logger.error(f"#### Displaying startup.log EXCEPTION. e2: {emsg}")
-        logger.debug("### Running startup.sh complete")
     if 'runStartup' not in st.session_state:
         st.session_state.runStartup = True
         runStartup()
@@ -65,14 +65,14 @@ try:
     ######################################################################
     # MAINLINE
     #
-    logger.info("#### MAINLINE ENTERED.")
     # Function to load the CSS file
     def load_css(file_name):
-        logger.debug("#### load_css entered.")
         with open(file_name) as f:
             st.markdown(f'<style>{f.read()}</style>', unsafe_allow_html=True)
-        logger.debug("#### load_css exited.")
     # Load the custom CSS
     if 'load_css' not in st.session_state:
@@ -95,7 +95,7 @@ try:
     # Connect to the Weaviate vector database.
     #if 'client' not in st.session_state:
     if 'client' not in st.session_state:
-        logger.debug("#### Create Weaviate db client connection.")
         client = weaviate.WeaviateClient(
             connection_params=ConnectionParams.from_params(
                 http_host="localhost",
@@ -111,7 +111,7 @@ try:
         )
         client.connect()
         st.session_state.client = client
-        logger.debug("#### Create Weaviate db client connection exited.")
     else:
         client = st.session_state.client
@@ -120,9 +120,9 @@ try:
     # Read each text input file, parse it into a document,
     # chunk it, collect chunks and document name.
     if not client.collections.exists("Documents") or not client.collections.exists("Chunks") :
-        logger.debug("#### Read and chunk input text files.")
         for filename in os.listdir(pathString):
-            logger.info(filename)
             path = Path(pathString + "/" + filename)
             filename = filename.rstrip(".html")
             webpageDocNames.append(filename)
@@ -139,21 +139,21 @@ try:
             webpageTitles.append(title)
             max_tokens = 1000
             tokenizer = Tokenizer.from_pretrained("bert-base-uncased")
-            logger.debug(f"### tokenizer: {tokenizer}")
             splitter = HuggingFaceTextSplitter(tokenizer, trim_chunks=True)
             chunksOnePage = splitter.chunks(page_content, chunk_capacity=50)
             chunks = []
             for chnk in chunksOnePage:
-                logger.debug(f"#### chnk in file: {chnk}")
                 chunks.append(chnk)
-                logger.debug(f"chunks: {chunks}")
             webpageChunks.append(chunks)
             webpageChunksDocNames.append(filename + "Chunks")
-            logger.debug(f"### filename, title: {filename}, {title}")
-            logger.debug(f"### webpageDocNames: {webpageDocNames}")
-        logger.debug("#### Read and chunk input text files exited.")
@@ -162,7 +162,7 @@ try:
     #wpCollection = createWebpageCollection()
     #wpChunkCollection = createChunksCollection()
     if not client.collections.exists("Documents"):
-        logger.debug("#### createWebpageCollection() entered.")
         #client.collections.delete("Documents")
         class_obj = {
           "class": "Documents",
@@ -211,11 +211,11 @@ try:
             ]
         }
         wpCollection = client.collections.create_from_dict(class_obj)
-        logger.debug("#### createWebpageCollection() exited.")
     if not client.collections.exists("Chunks"):
-        logger.debug("#### createChunksCollection() entered.")
         #client.collections.delete("Chunks")
         class_obj = {
             "class": "Chunks",
@@ -263,16 +263,16 @@ try:
             ]
         }
         wpChunkCollection = client.collections.create_from_dict(class_obj)
-        logger.debug("#### createChunksCollection() exited.")
     ###########################################################
     # Create document and chunks objects in the database.
     if not client.collections.exists("Documents") :
-        logger.debug("#### Create page/doc db objects.")
         for i, className in enumerate(webpageDocNames):
             title = webpageTitles[i]
-            logger.debug(f"## className, title: {className}, {title}")
             # Create Webpage Object
             page_content = page_contentArray[i]
             # Insert the document.
@@ -283,10 +283,10 @@ try:
                 "content": page_content
               }
             )
-        logger.debug("#### Create page/doc/db/objects exited.")
     if not client.collections.exists("Chunks") :
-        logger.debug("#### Create chunk db objects.")
         # Insert the chunks for the document.
         for i2, chunk in enumerate(webpageChunks[i]):
             chunk_uuid = wpChunkCollection.data.insert(
@@ -300,14 +300,14 @@ try:
                 }
               }
             )
-        logger.debug("#### Create chunk db objects exited.")
     #################################################################
     # Initialize the LLM.
     model_path = "/app/llama-2-7b-chat.Q4_0.gguf"
     if 'llm' not in st.session_state:
-        logger.debug("### Initializing LLM.")
         llm = Llama(model_path,
                     #*,
                     n_gpu_layers=0,
@@ -349,45 +349,46 @@ try:
                     verbose=True
                    )
         st.session_state.llm = llm
-        logger.debug("### Initializing LLM exited.")
     else:
         llm = st.session_state.llm
     def getRagData(promptText):
-        logger.info("#### getRagData() entered.")
         ###############################################################################
         # Initial the the sentence transformer and encode the query prompt.
-        logger.info(f"#### Encode text query prompt to create vectors. {text}")
         model = SentenceTransformer('/app/multi-qa-MiniLM-L6-cos-v1')
         vector = model.encode(promptText)
         vectorList = []
-        logger.debug("#### Print vectors.")
         for vec in vector:
             vectorList.append(vec)
-        logger.debug(f"vectorList: {vectorList[2]}")
         # Fetch chunks and print chunks.
-        logger.info("#### Retrieve semchunks from db using vectors from prompt.")
         semChunks = wpChunkCollection.query.near_vector(
             near_vector=vectorList,
             distance=0.7,
             limit=3
         )
-        logger.debug(f"### semChunks[0]: {semChunks}")
         # Print chunks, corresponding document and document title.
         ragData = ""
-        logger.info("#### Print individual retrieved chunks.")
         for chunk in enumerate(semChunks.objects):
-            logger.info(f"#### chunk: {chunk}")
             ragData = ragData + "\n" + chunk[0]
             webpage_uuid = chunk[1].properties['references']['webpage']
-            logger.info(f"webpage_uuid: {webpage_uuid}")
             wpFromChunk = wpCollection.query.fetch_object_by_id(webpage_uuid)
-            logger.info(f"### wpFromChunk title: {wpFromChunk.properties['title']}")
         #collection = client.collections.get("Chunks")
         return  ragData
@@ -426,7 +427,7 @@ try:
     def runLLM(prompt):
         logger = st.session_state.logger
-        logger.debug("### runLLM entered.")
         max_tokens = 1000
         temperature = 0.3
@@ -443,7 +444,8 @@ try:
            stop=stop,
         )
         result = modelOutput["choices"][0]["text"].strip()
-        logger.debug("### runLLM exited.")
         return(result)
     def setPrompt(pprompt,ragFlag):
@@ -459,14 +461,14 @@ try:
         else:
             userPrompt = pprompt
         #prompt = f""" <s> [INST] <<SYS>> {systemTextArea.value} </SYS>> Q: {userPrompt} A: [/INST]"""
-        logger.debug("setPrompt exited.")
         return userPrompt
     def on_submitButton_clicked():
         logger = st.session_state.logger
-        logger.debug("### on_submitButton_clicked entered.")
-        logger.debug("\n### on_submitButton_clicked")
         st.session_state.sysTAtext = st.session_state.sysTA
         logger.info(f"sysTAtext: {st.session_state.sysTAtext}")
@@ -478,7 +480,7 @@ try:
         st.session_state.rspTA = st.session_state.rspTAtext
         logger.info(f"rspTAtext: {st.session_state.rspTAtext}")
-        logger.debug("### on_submitButton_clicked exited.")
     with st.sidebar:
@@ -489,10 +491,10 @@ try:
 except Exception as e:
     try:
         emsg = str(e)
-        logger.error(f"Program-wide EXCEPTION. e: {emsg}")
         with open("/app/startup.log", "r") as file:
             content = file.read()
-            print(content)
     except Exception as e2:
         emsg = str(e2)
-        logger.error(f"#### Displaying startup.log EXCEPTION. e2: {emsg}")

         weaviate_logger = logging.getLogger("httpx")
         weaviate_logger.setLevel(logging.WARNING)
         logger = logging.getLogger(__name__)
+        logging.basicConfig(level=logging.INFO)
         st.session_state.weaviate_logger = weaviate_logger
         st.session_state.logger = logger
     else:
     def runStartup():
+        logger.INFO("### Running startup.sh")
         result = ""
         try:
             #result = subprocess.run("/app/startup.sh",shell=False,capture_output=None,text=None,timeout=300)
             time.sleep(180)
         except Exception as e:
             emsg = str(e)
+            logger.ERROR(f"subprocess.run  EXCEPTION. e: {emsg}")
             try:
                 with open("/app/startup.log", "r") as file:
                     content = file.read()
                     print(content)
             except Exception as e2:
                 emsg = str(e2)
+                logger.ERROR(f"#### Displaying startup.log EXCEPTION. e2: {emsg}")
+        logger.INFO("### Running startup.sh complete")
     if 'runStartup' not in st.session_state:
         st.session_state.runStartup = True
         runStartup()
     ######################################################################
     # MAINLINE
     #
+    logger.INFO("#### MAINLINE ENTERED.")
     # Function to load the CSS file
     def load_css(file_name):
+        logger.INFO("#### load_css entered.")
         with open(file_name) as f:
             st.markdown(f'<style>{f.read()}</style>', unsafe_allow_html=True)
+        logger.INFO("#### load_css exited.")
     # Load the custom CSS
     if 'load_css' not in st.session_state:
     # Connect to the Weaviate vector database.
     #if 'client' not in st.session_state:
     if 'client' not in st.session_state:
+        logger.INFO("#### Create Weaviate db client connection.")
         client = weaviate.WeaviateClient(
             connection_params=ConnectionParams.from_params(
                 http_host="localhost",
         )
         client.connect()
         st.session_state.client = client
+        logger.INFO("#### Create Weaviate db client connection exited.")
     else:
         client = st.session_state.client
     # Read each text input file, parse it into a document,
     # chunk it, collect chunks and document name.
     if not client.collections.exists("Documents") or not client.collections.exists("Chunks") :
+        logger.INFO("#### Read and chunk input text files.")
         for filename in os.listdir(pathString):
+            logger.DEBUG(filename)
             path = Path(pathString + "/" + filename)
             filename = filename.rstrip(".html")
             webpageDocNames.append(filename)
             webpageTitles.append(title)
             max_tokens = 1000
             tokenizer = Tokenizer.from_pretrained("bert-base-uncased")
+            logger.DEBUG(f"### tokenizer: {tokenizer}")
             splitter = HuggingFaceTextSplitter(tokenizer, trim_chunks=True)
             chunksOnePage = splitter.chunks(page_content, chunk_capacity=50)
             chunks = []
             for chnk in chunksOnePage:
+                logger.DEBUG(f"#### chnk in file: {chnk}")
                 chunks.append(chnk)
+                logger.DEBUG(f"chunks: {chunks}")
             webpageChunks.append(chunks)
             webpageChunksDocNames.append(filename + "Chunks")
+            logger.DEBUG(f"### filename, title: {filename}, {title}")
+            logger.DEBUG(f"### webpageDocNames: {webpageDocNames}")
+        logger.INFO("#### Read and chunk input text files exited.")
     #wpCollection = createWebpageCollection()
     #wpChunkCollection = createChunksCollection()
     if not client.collections.exists("Documents"):
+        logger.INFO("#### createWebpageCollection() entered.")
         #client.collections.delete("Documents")
         class_obj = {
           "class": "Documents",
             ]
         }
         wpCollection = client.collections.create_from_dict(class_obj)
+        logger.INFO("#### createWebpageCollection() exited.")
     if not client.collections.exists("Chunks"):
+        logger.INFO("#### createChunksCollection() entered.")
         #client.collections.delete("Chunks")
         class_obj = {
             "class": "Chunks",
             ]
         }
         wpChunkCollection = client.collections.create_from_dict(class_obj)
+        logger.INFO("#### createChunksCollection() exited.")
     ###########################################################
     # Create document and chunks objects in the database.
     if not client.collections.exists("Documents") :
+        logger.INFO("#### Create page/doc db objects.")
         for i, className in enumerate(webpageDocNames):
             title = webpageTitles[i]
+            logger.DEBUG(f"## className, title: {className}, {title}")
             # Create Webpage Object
             page_content = page_contentArray[i]
             # Insert the document.
                 "content": page_content
               }
             )
+        logger.INFO("#### Create page/doc/db/objects exited.")
     if not client.collections.exists("Chunks") :
+        logger.INFO("#### Create chunk db objects.")
         # Insert the chunks for the document.
         for i2, chunk in enumerate(webpageChunks[i]):
             chunk_uuid = wpChunkCollection.data.insert(
                 }
               }
             )
+        logger.INFO("#### Create chunk db objects exited.")
     #################################################################
     # Initialize the LLM.
     model_path = "/app/llama-2-7b-chat.Q4_0.gguf"
     if 'llm' not in st.session_state:
+        logger.INFO("### Initializing LLM.")
         llm = Llama(model_path,
                     #*,
                     n_gpu_layers=0,
                     verbose=True
                    )
         st.session_state.llm = llm
+        logger.INFO("### Initializing LLM exited.")
     else:
         llm = st.session_state.llm
     def getRagData(promptText):
+        logger.INFO("#### getRagData() entered.")
         ###############################################################################
         # Initial the the sentence transformer and encode the query prompt.
+        logger.DEBUG(f"#### Encode text query prompt to create vectors. {text}")
         model = SentenceTransformer('/app/multi-qa-MiniLM-L6-cos-v1')
         vector = model.encode(promptText)
         vectorList = []
+        logger.DEBUG("#### Print vectors.")
         for vec in vector:
             vectorList.append(vec)
+        logger.DEBUG(f"vectorList: {vectorList[2]}")
         # Fetch chunks and print chunks.
+        logger.DEBUG("#### Retrieve semchunks from db using vectors from prompt.")
         semChunks = wpChunkCollection.query.near_vector(
             near_vector=vectorList,
             distance=0.7,
             limit=3
         )
+        logger.DEBUG(f"### semChunks[0]: {semChunks}")
         # Print chunks, corresponding document and document title.
         ragData = ""
+        logger.DEBUG("#### Print individual retrieved chunks.")
         for chunk in enumerate(semChunks.objects):
+            logger.INFO(f"#### chunk: {chunk}")
             ragData = ragData + "\n" + chunk[0]
             webpage_uuid = chunk[1].properties['references']['webpage']
+            logger.INFO(f"webpage_uuid: {webpage_uuid}")
             wpFromChunk = wpCollection.query.fetch_object_by_id(webpage_uuid)
+            logger.INFO(f"### wpFromChunk title: {wpFromChunk.properties['title']}")
         #collection = client.collections.get("Chunks")
+        logger.INFO("#### getRagData() exited.")
         return  ragData
     def runLLM(prompt):
         logger = st.session_state.logger
+        logger.INFO("### runLLM entered.")
         max_tokens = 1000
         temperature = 0.3
            stop=stop,
         )
         result = modelOutput["choices"][0]["text"].strip()
+        logger.INFO(f"### llmResult: {result}")
+        logger.INFO("### runLLM exited.")
         return(result)
     def setPrompt(pprompt,ragFlag):
         else:
             userPrompt = pprompt
         #prompt = f""" <s> [INST] <<SYS>> {systemTextArea.value} </SYS>> Q: {userPrompt} A: [/INST]"""
+        logger.INFO("setPrompt exited.")
+        logger.INFO(f"### userPrompt: {userPrompt}")
         return userPrompt
     def on_submitButton_clicked():
         logger = st.session_state.logger
+        logger.INFO("### on_submitButton_clicked entered.")
         st.session_state.sysTAtext = st.session_state.sysTA
         logger.info(f"sysTAtext: {st.session_state.sysTAtext}")
         st.session_state.rspTA = st.session_state.rspTAtext
         logger.info(f"rspTAtext: {st.session_state.rspTAtext}")
+        logger.INFO("### on_submitButton_clicked exited.")
     with st.sidebar:
 except Exception as e:
     try:
         emsg = str(e)
+        logger.ERROR(f"Program-wide EXCEPTION. e: {emsg}")
         with open("/app/startup.log", "r") as file:
             content = file.read()
+            logger.DEBUG(content)
     except Exception as e2:
         emsg = str(e2)
+        logger.ERROR(f"#### Displaying startup.log EXCEPTION. e2: {emsg}")