Spaces:

Sebbe33
/

token_test

Runtime error

Sebbe33 commited on Jan 25

Commit

d40b082

verified ·

1 Parent(s): c7e7db3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,13 +2,7 @@ import streamlit as st
 from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter, Language
 import tiktoken
-#
-# BEISPIELHAFTE CODE-SNIPPETS
-# ===========================
-# Da das Original-Beispiel auf "code_snippets" verweist, kannst du hier
-# eigene Code-Beispiele oder Strings einfügen. Für die Demo setzen wir
-# einfach ein paar Strings ein.
-#
 CHARACTER_LENGTH = "length_function=lambda x: len(x)"
 TOKEN_LENGTH = """enc = tiktoken.get_encoding("cl100k_base")
 length_function = lambda text: len(enc.encode(text))
@@ -35,15 +29,8 @@ LANGUAGE = """RecursiveCharacterTextSplitter.from_language(
 """
 # Streamlit UI
-st.title("Text Splitter Playground")
-st.info("""\
-Splitte einen Text in Teilstücke (Chunks), basierend auf deinen Einstellungen:
-- **Chunk Size**: Maximalgröße eines Teilstücks (in Zeichen oder Tokens)
-- **Chunk Overlap**: Überlappung zwischen den Teilstücken
-- **Length Function**: Gibt an, ob die Teilstück-Größe in Zeichen oder Tokens gemessen werden soll
-- **Splitter Choice**: Definiert den Text-Splitter (Charakter-basiert, rekursiv oder basierend auf einer Sprache)
-""")
 col1, col2, col3, col4 = st.columns([1, 1, 1, 2])

 from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter, Language
 import tiktoken
 CHARACTER_LENGTH = "length_function=lambda x: len(x)"
 TOKEN_LENGTH = """enc = tiktoken.get_encoding("cl100k_base")
 length_function = lambda text: len(enc.encode(text))
 """
 # Streamlit UI
+st.title("Token Chunk Splitter Test")
 col1, col2, col3, col4 = st.columns([1, 1, 1, 2])