Spaces:

singhdevendra58
/

DocQA

Running

File size: 4,857 Bytes

import streamlit as st
from langchain.document_loaders import PyPDFLoader, Docx2txtLoader, TextLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chains import ConversationalRetrievalChain
from langchain.llms import OpenAI
import os
import tempfile
from doc_qa import  embeddings,llm
from doc_qa_1 import embeddings,doc_qa

def start_message(doc_name):
    st.success("✅ ドキュメントのアップロードが完了しました！")
    st.markdown(f"### 📄 アップロードされました: `{doc_name}`")
    st.markdown("これで文書に関する質問ができます。 💬")
    st.markdown("例えば、次のような質問ができます。:")
    st.markdown("- この文書は何について書かれていますか？")
    st.markdown("- 重要なポイントを要約してください。")
    st.markdown("- 著者は誰ですか？")
    st.markdown("はじめるには、下に質問を入力してください。!")

# Function to load individual file
def load_file(file, suffix):
    with tempfile.NamedTemporaryFile(delete=False, suffix=suffix) as temp_file:
        temp_file.write(file.read())
        temp_file_path = temp_file.name

    if suffix == ".pdf":
        loader = PyPDFLoader(temp_file_path)
    elif suffix == ".docx":
        loader = Docx2txtLoader(temp_file_path)
    elif suffix == ".txt":
        loader = TextLoader(temp_file_path)
    else:
        return []

    return loader.load()
st.set_page_config(
    page_title="QA Assistant",
    page_icon="https://yourdomain.com/logo.png",
    layout="centered"
)
# Title
st.title("📄 ドキュメント質問応答支援ツール")

# Step 1: Upload document
if "file_uploaded" not in st.session_state:
    st.session_state.file_uploaded = False
    st.markdown("""
    👋 こちらへようこそ！私は文書の内容を理解するためのインテリジェントアシスタントです。

あなたは以下のことができます：

PDF、DOCX、TXTファイルをアップロード

文書の内容について質問

要約、重要ポイント、または具体的な詳細の取得

🛠️ 質問の例：
この文書は何について書かれていますか？

主要なポイントを要約してください。

著者は誰ですか？

重要な日付や締め切りは何ですか？

結論や推奨事項は何ですか？

📂 まず、1つ以上の文書をアップロードしてください。
💬 その後、下に質問を入力しましょう！
    """)
if "messages" not in st.session_state:
    st.session_state.messages = []


flag = 0
# Upload multiple files
with st.sidebar:
    uploaded_files = st.file_uploader("PDF、DOCX、またはTXTファイルをアップロードしてください。", type=["pdf", "docx", "txt"], accept_multiple_files=True)
    # Load and process documents
    file_names=[]
    if uploaded_files:
        all_docs = []
        for file in uploaded_files:
            suffix = os.path.splitext(file.name)[1]
            docs = load_file(file, suffix)
            all_docs.extend(docs)
            file_names.append(file.name)

        # Split and embed documents
        text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
        split_docs = text_splitter.split_documents(all_docs)
        #embeddings = OpenAIEmbeddings()
        vectorstore = FAISS.from_documents(split_docs, embeddings)

        # Setup ConversationalRetrievalChain
        qa_chain = ConversationalRetrievalChain.from_llm(
            llm=llm,
            retriever=vectorstore.as_retriever(),
            return_source_documents=False
        )
        start_message('\n'.join(file_names))
        flag = 1

# Initialize session state
if "chat_history" not in st.session_state:
    st.session_state.chat_history = []

for msg in st.session_state.messages:
    st.chat_message(msg["role"]).write(msg["content"])

if flag==1:
    if user_query := st.chat_input():
        st.session_state.messages.append({"role": "user", "content": user_query})
        with st.chat_message("user"):
            st.markdown(f"**Q:** {user_query}")
        result=doc_qa(user_query,vectorstore)
        st.session_state.messages.append({"role": "assistant", "content": result["answer"]})
        with st.chat_message("assistant"):
            st.markdown(f"**A:** {result["answer"]}")
        st.session_state.chat_history.append((user_query, result["answer"]))

        # # Display conversation history
        # if st.session_state.chat_history:
        #     st.markdown("### 🗨️ Chat History")
        #     for i, (q, a) in enumerate(st.session_state.chat_history, 1):
        #         st.markdown(f"**Q{i}:** {q}")
        #         st.markdown(f"**A{i}:** {a}")