Spaces:
Runtime error
Runtime error
Update app.py
Browse files
app.py
CHANGED
@@ -2,13 +2,7 @@ import streamlit as st
|
|
2 |
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter, Language
|
3 |
import tiktoken
|
4 |
|
5 |
-
|
6 |
-
# BEISPIELHAFTE CODE-SNIPPETS
|
7 |
-
# ===========================
|
8 |
-
# Da das Original-Beispiel auf "code_snippets" verweist, kannst du hier
|
9 |
-
# eigene Code-Beispiele oder Strings einfügen. Für die Demo setzen wir
|
10 |
-
# einfach ein paar Strings ein.
|
11 |
-
#
|
12 |
CHARACTER_LENGTH = "length_function=lambda x: len(x)"
|
13 |
TOKEN_LENGTH = """enc = tiktoken.get_encoding("cl100k_base")
|
14 |
length_function = lambda text: len(enc.encode(text))
|
@@ -35,15 +29,8 @@ LANGUAGE = """RecursiveCharacterTextSplitter.from_language(
|
|
35 |
"""
|
36 |
|
37 |
# Streamlit UI
|
38 |
-
st.title("
|
39 |
-
|
40 |
-
Splitte einen Text in Teilstücke (Chunks), basierend auf deinen Einstellungen:
|
41 |
-
|
42 |
-
- **Chunk Size**: Maximalgröße eines Teilstücks (in Zeichen oder Tokens)
|
43 |
-
- **Chunk Overlap**: Überlappung zwischen den Teilstücken
|
44 |
-
- **Length Function**: Gibt an, ob die Teilstück-Größe in Zeichen oder Tokens gemessen werden soll
|
45 |
-
- **Splitter Choice**: Definiert den Text-Splitter (Charakter-basiert, rekursiv oder basierend auf einer Sprache)
|
46 |
-
""")
|
47 |
|
48 |
col1, col2, col3, col4 = st.columns([1, 1, 1, 2])
|
49 |
|
|
|
2 |
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter, Language
|
3 |
import tiktoken
|
4 |
|
5 |
+
|
|
|
|
|
|
|
|
|
|
|
|
|
6 |
CHARACTER_LENGTH = "length_function=lambda x: len(x)"
|
7 |
TOKEN_LENGTH = """enc = tiktoken.get_encoding("cl100k_base")
|
8 |
length_function = lambda text: len(enc.encode(text))
|
|
|
29 |
"""
|
30 |
|
31 |
# Streamlit UI
|
32 |
+
st.title("Token Chunk Splitter Test")
|
33 |
+
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
34 |
|
35 |
col1, col2, col3, col4 = st.columns([1, 1, 1, 2])
|
36 |
|