Spaces:

nateevo
/

avianca-asesor

Paused

andreinigo commited on Feb 21, 2023

Commit

2c7c144

1 Parent(s): 76e7bed

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -19,19 +19,27 @@ def proper_query(query):
     response = openai.Completion.create(
         engine="text-davinci-003", prompt=prompt, max_tokens=1000, temperature=0.3)
     return response.choices[0].text
-embeddings = OpenAIEmbeddings()
-#transform a column of a csv into a list
-df = pd.read_csv('reglamento-avianca.csv')
-text = df['text'].tolist()
 text_splitter = RecursiveCharacterTextSplitter(
-    # Set a really small chunk size, just to show.
-    chunk_size = 1000,
-    chunk_overlap  = 0,
-    length_function = len,
 )
-texts = text_splitter.split_text(text)
 docsearch = FAISS.from_texts(texts, embeddings)

     response = openai.Completion.create(
         engine="text-davinci-003", prompt=prompt, max_tokens=1000, temperature=0.3)
     return response.choices[0].text
+def ingest_docs():
+    """Get documents from the input folder"""
+    #loader = ReadTheDocsLoader("input/reglamento-avianca.txt")
+with open('input/reglamento-avianca.txt', 'r', encoding="utf-8") as file:
+    text = file.read()
+    document_split = text.split('\"\n\"\n')
+    docs = []
+    metadatas = []
+    for i in range(len(document_split)):
+        docs.append(document_split[i])
 text_splitter = RecursiveCharacterTextSplitter(
+    chunk_size=1000,
+    chunk_overlap=0,
 )
+embeddings = OpenAIEmbeddings()
+texts = text_splitter.split_text(docs)
 docsearch = FAISS.from_texts(texts, embeddings)