Spaces:

VlaTal
/

harry_potter_assistant

Sleeping

App Files Files Community

VlaTal commited on Jan 22

Commit

17dcbf0

•

1 Parent(s): 0d3862a

init

Browse files

Files changed (3) hide show

app.py +153 -0
files_to_load/Harry_Potter.pdf +0 -0
requirements.txt +175 -0

app.py ADDED Viewed

	@@ -0,0 +1,153 @@

+__import__('pysqlite3')
+import sys
+sys.modules['sqlite3'] = sys.modules.pop('pysqlite3')
+import os
+import pprint
+from dotenv import load_dotenv
+from typing import List, Tuple, Optional, Union
+from loguru import logger as log
+import tiktoken
+from langchain.chains import RetrievalQA
+from langchain.prompts import PromptTemplate
+from langchain.text_splitter import Document
+from langchain.output_parsers import PydanticOutputParser
+from langchain_openai import AzureOpenAIEmbeddings
+from langchain_openai import AzureChatOpenAI
+from langchain_community.vectorstores import Chroma
+from langchain.document_loaders.pdf import PyPDFLoader
+from langchain.text_splitter import CharacterTextSplitter
+from pydantic import BaseModel, Field
+import streamlit as st
+import logging
+logging.basicConfig()
+logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.INFO)
+def _calc_tokens(splits: List[Document]) -> int:
+    tokens = 0
+    for doc in splits:
+        encoding = tiktoken.get_encoding('cl100k_base')
+        tokens += len(encoding.encode(doc.page_content))
+    return tokens
+class LineList(BaseModel):
+    lines: List[str] = Field(description="Lines of text")
+class LineListOutputParser(PydanticOutputParser):
+    def __init__(self) -> None:
+        super().__init__(pydantic_object=LineList)
+    def parse(self, text: str) -> LineList:
+        lines = text.strip().split("\n")
+        return LineList(lines=lines)
+class Assistant:
+    def __init__(self):
+        load_dotenv()
+        self.db_dir = 'docs/chroma/'
+        self.embedding = AzureOpenAIEmbeddings(azure_deployment="ada_dev")
+        self.llm = AzureChatOpenAI(
+            azure_deployment="35_turbo",
+            model_name="gpt-35-turbo",
+            temperature=0
+        )
+        os.environ["AZURE_OPENAI_API_KEY"] = st.secrets["AZURE_OPENAI_API_KEY"]
+        os.environ["OPENAI_API_TYPE"] = st.secrets["OPENAI_API_TYPE"]
+        os.environ["OPENAI_API_VERSION"] = st.secrets["OPENAI_API_VERSION"]
+        os.environ["AZURE_OPENAI_ENDPOINT"] = st.secrets["AZURE_OPENAI_ENDPOINT"]
+        self.make_template()
+    def run(self):
+        st.title('Гаррі Поттер асистент')
+        instruction = st.text_input('Питання', '')
+        if st.button('Згенерувати відповідь'):
+            result, docs = self.stuff_search(instruction)
+            st.subheader('Відповідь')
+            st.text(result)
+            st.header('Знайдені чанки')
+            for doc in docs:
+                st.subheader(f'Сторінка {doc.metadata.get("page")}')
+                st.text(doc.page_content)
+    def make_template(self):
+        template = """Ти ШІ консультант. Твоя задача відповідати на запитання користувачів. Запитання будуть про книгу "Гаррі Поттер та філософський камінь". Додатково тобі будуть надані частини тексту з книги в якості контексту, з яких ти повинен надати відповідь. Ти повинен використовувати для відповіді лише наданий контекст і не додумувати нічого від себе. Якщо в частинах тексту немає відповідної інформації, щоб надати відповідь - вибачся та скажи, що не знаєш відповіді. ВАЖЛИВО відповідати виключно УКРАЇНСЬКОЮ мовою.
+        Контекст:
+        {context}
+        Запитання: {question}
+        Відповідь:"""
+        self.prompt = PromptTemplate.from_template(template)
+    def load_pdf(self, file_name: str) -> List[Document]:
+        log.info("Loading pdf")
+        loader = PyPDFLoader(f"files_to_load/{file_name}")
+        return loader.load()
+    def split_documents(self, pages: List[dict]) -> Union[List[Document], None]:
+        log.info("Splitting pdf")
+        text_splitter = CharacterTextSplitter(
+            separator="\n",
+            chunk_size=1000,
+            chunk_overlap=150,
+            length_function=len
+        )
+        return text_splitter.split_documents(pages)
+    def save_in_db(self, splits: List[Document]):
+        log.info("Saving chunks in db")
+        if len(splits) == 0:
+            log.warning(
+                "There are no splits to save in db. Please provide them in arguments or call the split_documents(headers_to_split, pages) method")
+            return None
+        vectordb = Chroma.from_documents(
+            documents=splits,
+            embedding=self.embedding,
+            persist_directory=self.db_dir
+        )
+        log.info(f"{vectordb._collection.count()} rows were saved")
+        log.info(f"{_calc_tokens(splits)} tokens were affected")
+        return True
+    def stuff_search(self, question: str):
+        vectordb = Chroma(persist_directory=self.db_dir,
+                          embedding_function=self.embedding)
+        qa_chain = RetrievalQA.from_chain_type(
+            self.llm,
+            retriever=vectordb.as_retriever(),
+            return_source_documents=True,
+            chain_type_kwargs={"prompt": self.prompt}
+        )
+        result = qa_chain({"query": question})
+        log.info(f'Questing: {question}')
+        log.info(f'Result: {result["result"]}')
+        log.info("DOCUMENTS:")
+        for doc in result["source_documents"]:
+            log.info(doc)
+        return result["result"], result["source_documents"]
+if __name__ == "__main__":
+    assistant = Assistant()
+    vectordb = Chroma(persist_directory="docs/chroma/",
+                    embedding_function=assistant.embedding)
+    if(len(vectordb.get().get("documents")) == 0):
+        pdf = assistant.load_pdf("Harry_Potter.pdf")
+        splits = assistant.split_documents(pdf)
+        assistant.save_in_db(splits)
+    assistant.run()

files_to_load/Harry_Potter.pdf ADDED Viewed

Binary file (608 kB). View file

requirements.txt ADDED Viewed

	@@ -0,0 +1,175 @@

+aiofiles==23.2.1
+aiohttp==3.9.1
+aiosignal==1.3.1
+altair==5.2.0
+annotated-types==0.6.0
+anyio==4.2.0
+asgiref==3.7.2
+asttokens==2.4.1
+attrs==23.2.0
+backoff==2.2.1
+bcrypt==4.1.2
+blinker==1.7.0
+build==1.0.3
+cachetools==5.3.2
+certifi==2023.11.17
+charset-normalizer==3.3.2
+chroma-hnswlib==0.7.3
+chromadb==0.4.22
+click==8.1.7
+colorama==0.4.6
+coloredlogs==15.0.1
+comm==0.2.1
+contourpy==1.2.0
+cycler==0.12.1
+dataclasses-json==0.6.3
+debugpy==1.8.0
+decorator==5.1.1
+Deprecated==1.2.14
+distro==1.9.0
+executing==2.0.1
+fastapi==0.109.0
+ffmpy==0.3.1
+filelock==3.13.1
+flatbuffers==23.5.26
+fonttools==4.47.2
+frozenlist==1.4.1
+fsspec==2023.12.2
+gitdb==4.0.11
+GitPython==3.1.41
+google-auth==2.26.2
+googleapis-common-protos==1.62.0
+gradio==4.15.0
+gradio_client==0.8.1
+greenlet==3.0.3
+grpcio==1.60.0
+h11==0.14.0
+httpcore==1.0.2
+httptools==0.6.1
+httpx==0.26.0
+huggingface-hub==0.20.2
+humanfriendly==10.0
+idna==3.6
+importlib-metadata==6.11.0
+importlib-resources==6.1.1
+ipykernel==6.29.0
+ipython==8.20.0
+jedi==0.19.1
+Jinja2==3.1.3
+jsonpatch==1.33
+jsonpointer==2.4
+jsonschema==4.21.1
+jsonschema-specifications==2023.12.1
+jupyter_client==8.6.0
+jupyter_core==5.7.1
+kiwisolver==1.4.5
+kubernetes==29.0.0
+langchain==0.1.1
+langchain-community==0.0.13
+langchain-core==0.1.13
+langchain-openai==0.0.3
+langsmith==0.0.83
+loguru==0.7.2
+markdown-it-py==3.0.0
+MarkupSafe==2.1.4
+marshmallow==3.20.2
+matplotlib==3.8.2
+matplotlib-inline==0.1.6
+mdurl==0.1.2
+mmh3==4.1.0
+monotonic==1.6
+mpmath==1.3.0
+multidict==6.0.4
+mypy-extensions==1.0.0
+nest-asyncio==1.5.9
+numpy==1.26.3
+oauthlib==3.2.2
+onnxruntime==1.16.3
+openai==1.9.0
+opentelemetry-api==1.22.0
+opentelemetry-exporter-otlp-proto-common==1.22.0
+opentelemetry-exporter-otlp-proto-grpc==1.22.0
+opentelemetry-instrumentation==0.43b0
+opentelemetry-instrumentation-asgi==0.43b0
+opentelemetry-instrumentation-fastapi==0.43b0
+opentelemetry-proto==1.22.0
+opentelemetry-sdk==1.22.0
+opentelemetry-semantic-conventions==0.43b0
+opentelemetry-util-http==0.43b0
+orjson==3.9.12
+overrides==7.6.0
+packaging==23.2
+pandas==2.2.0
+parso==0.8.3
+pillow==10.2.0
+platformdirs==4.1.0
+posthog==3.3.2
+prompt-toolkit==3.0.43
+protobuf==4.25.2
+psutil==5.9.8
+pulsar-client==3.4.0
+pure-eval==0.2.2
+pyarrow==14.0.2
+pyasn1==0.5.1
+pyasn1-modules==0.3.0
+pydantic==2.5.3
+pydantic_core==2.14.6
+pydeck==0.8.1b0
+pydub==0.25.1
+Pygments==2.17.2
+pyparsing==3.1.1
+pypdf==4.0.0
+PyPika==0.48.9
+pysqlite3-binary==0.5.2.post1
+pyproject_hooks==1.0.0
+pyreadline3==3.4.1
+python-dateutil==2.8.2
+python-dotenv==1.0.0
+python-multipart==0.0.6
+pytz==2023.3.post1
+PyYAML==6.0.1
+pyzmq==25.1.2
+referencing==0.32.1
+regex==2023.12.25
+requests==2.31.0
+requests-oauthlib==1.3.1
+rich==13.7.0
+rpds-py==0.17.1
+rsa==4.9
+ruff==0.1.14
+semantic-version==2.10.0
+shellingham==1.5.4
+six==1.16.0
+smmap==5.0.1
+sniffio==1.3.0
+SQLAlchemy==2.0.25
+stack-data==0.6.3
+starlette==0.35.1
+streamlit==1.30.0
+sympy==1.12
+tenacity==8.2.3
+tiktoken==0.5.2
+tokenizers==0.15.0
+toml==0.10.2
+tomlkit==0.12.0
+toolz==0.12.0
+tornado==6.4
+tqdm==4.66.1
+traitlets==5.14.1
+typer==0.9.0
+typing-inspect==0.9.0
+typing_extensions==4.9.0
+tzdata==2023.4
+tzlocal==5.2
+urllib3==2.1.0
+uvicorn==0.26.0
+validators==0.22.0
+watchdog==3.0.0
+watchfiles==0.21.0
+wcwidth==0.2.13
+websocket-client==1.7.0
+websockets==11.0.3
+win32-setctime==1.1.0
+wrapt==1.16.0
+yarl==1.9.4
+zipp==3.17.0