Spaces:

Namitg02
/

datasetcreation

Runtime error

Namitg02 commited on Jun 3, 2024

Commit

d1608e1

verified ·

1 Parent(s): 7c830c3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,11 +2,12 @@ from datasets import load_dataset
 from datasets import Dataset
 from langchain.docstore.document import Document as LangchainDocument
 from sentence_transformers import SentenceTransformer
-from langchain_community.document_loaders import WebBaseLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain_community.document_loaders import PyPDFLoader, DirectoryLoader
 from sentence_transformers import SentenceTransformer
 from huggingface_hub import Repository, upload_file
 from datasets import Dataset
@@ -14,14 +15,20 @@ import pandas as pd
 import os
 HF_TOKEN = os.getenv('HF_Token')
-url = "https://www.webmd.com/"
-loader = WebBaseLoader(url)
-document = loader.load()
 def create_vector_db():
     # split the document into chunks
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=256, chunk_overlap=50)
     texts = text_splitter.split_documents(document)

 from datasets import Dataset
 from langchain.docstore.document import Document as LangchainDocument
 from sentence_transformers import SentenceTransformer
+#from langchain_community.document_loaders import WebBaseLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.document_loaders import TextLoader, DirectoryLoader
 from sentence_transformers import SentenceTransformer
 from huggingface_hub import Repository, upload_file
 from datasets import Dataset
 import os
+DATA_PATH='./data'
 HF_TOKEN = os.getenv('HF_Token')
+#dataset = load_dataset("Namitg02/Test", split='train', streaming=False)
+##url = "https://www.webmd.com/"
+#loader = WebBaseLoader(url)
+#document = loader.load()
 def create_vector_db():
+    loader = DirectoryLoader(DATA_PATH, glob='*.md', loader_cls=TextLoader, show_progress=True)
+    documents =loader.load()
     # split the document into chunks
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=256, chunk_overlap=50)
     texts = text_splitter.split_documents(document)