Spaces:

Orion-zhen
/

gguf-api

Sleeping

App Files Files Community

Orion-zhen commited on 10 days ago

Commit

f527df5

verified ·

1 Parent(s): 64cbfb9

Update Dockerfile

Browse files

Files changed (1) hide show

Dockerfile +11 -19

Dockerfile CHANGED Viewed

@@ -1,4 +1,4 @@
-FROM debian:stable-slim
 ENV DEBIAN_FRONTEND=noninteractive
@@ -8,7 +8,6 @@ ARG QUANT="Q4_K_M"
 ARG SERVED_NAME="qwen-nano"
 ARG PARALLEL=4
 ARG CTX_SIZE=8192
-ARG KV_CACHE_QUANT="q8_0"
 ARG EMBEDDING_ONLY=0
 ARG RERANK_ONLY=0
@@ -18,8 +17,8 @@ ENV LLAMA_ARG_CTX_SIZE=${CTX_SIZE}
 ENV LLAMA_ARG_BATCH=512
 ENV LLAMA_ARG_N_PARALLEL=${PARALLEL}
 ENV LLAMA_ARG_FLASH_ATTN=1
-ENV LLAMA_ARG_CACHE_TYPE_K="${KV_CACHE_QUANT}"
-ENV LLAMA_ARG_CACHE_TYPE_V="${KV_CACHE_QUANT}"
 ENV LLAMA_ARG_MLOCK=1
 ENV LLAMA_ARG_N_GPU_LAYERS=0
 ENV LLAMA_ARG_HOST="0.0.0.0"
@@ -28,26 +27,15 @@ ENV LLAMA_ARG_ALIAS="${SERVED_NAME}"
 ENV LLAMA_ARG_EMBEDDINGS=${EMBEDDING_ONLY}
 ENV LLAMA_ARG_RERANKING=${RERANK_ONLY}
-RUN apt-get update && \
-    apt-get install -y --no-install-recommends \
-    git \
-    curl \
-    cmake \
-    ccache \
-    pkg-config \
-    build-essential \
-    ca-certificates  \
-    libboost-system-dev \
-    libcurl4-openssl-dev \
-    libboost-filesystem-dev && \
-    rm -rf /var/lib/apt/lists/*
 RUN mkdir -p /app && mkdir -p /.cache
 # cache dir for llama.cpp to download models
 RUN chmod -R 777 /.cache
 WORKDIR /app
-RUN git clone https://github.com/ggml-org/llama.cpp.git
 # RUN git clone https://github.com/ikawrakow/ik_llama.cpp.git llama.cpp
 WORKDIR /app/llama.cpp
 RUN cmake -B build \
@@ -57,6 +45,10 @@ RUN cmake -B build \
           -DLLAMA_BUILD_EXAMPLES=ON \
           -DGGML_ALL_WARNINGS=OFF \
           -DGGML_ALL_WARNINGS_3RD_PARTY=OFF \
           -DCMAKE_BUILD_TYPE=Release
 RUN cmake --build build --config Release --target llama-server -j $(nproc)
@@ -64,4 +56,4 @@ WORKDIR /app
 EXPOSE 7860
-CMD ["/app/llama.cpp/build/bin/llama-server", "--verbose-prompt"]

+FROM archlinux:latest
 ENV DEBIAN_FRONTEND=noninteractive
 ARG SERVED_NAME="qwen-nano"
 ARG PARALLEL=4
 ARG CTX_SIZE=8192
 ARG EMBEDDING_ONLY=0
 ARG RERANK_ONLY=0
 ENV LLAMA_ARG_BATCH=512
 ENV LLAMA_ARG_N_PARALLEL=${PARALLEL}
 ENV LLAMA_ARG_FLASH_ATTN=1
+ENV LLAMA_ARG_CACHE_TYPE_K="q8_0"
+ENV LLAMA_ARG_CACHE_TYPE_V="q4_1"
 ENV LLAMA_ARG_MLOCK=1
 ENV LLAMA_ARG_N_GPU_LAYERS=0
 ENV LLAMA_ARG_HOST="0.0.0.0"
 ENV LLAMA_ARG_EMBEDDINGS=${EMBEDDING_ONLY}
 ENV LLAMA_ARG_RERANKING=${RERANK_ONLY}
+RUN pacman -Syu --noconfirm --overwrite '*'
+RUN pacman -S base-devel git git-lfs cmake curl openblas openblas64 blas64-openblas python gcc-libs glibc
 RUN mkdir -p /app && mkdir -p /.cache
 # cache dir for llama.cpp to download models
 RUN chmod -R 777 /.cache
 WORKDIR /app
+RUN git clone --depth 1 --single-branch --branch master https://github.com/ggml-org/llama.cpp.git
 # RUN git clone https://github.com/ikawrakow/ik_llama.cpp.git llama.cpp
 WORKDIR /app/llama.cpp
 RUN cmake -B build \
           -DLLAMA_BUILD_EXAMPLES=ON \
           -DGGML_ALL_WARNINGS=OFF \
           -DGGML_ALL_WARNINGS_3RD_PARTY=OFF \
+          -DGGML_BLAS=ON \
+          -DGGML_BLAS_VENDOR=OpenBLAS \
+          -DGGML_NATIVE=ON \
+          -Wno-dev \
           -DCMAKE_BUILD_TYPE=Release
 RUN cmake --build build --config Release --target llama-server -j $(nproc)
 EXPOSE 7860
+CMD ["/app/llama.cpp/build/bin/llama-server", "--verbose-prompt", "--swa-full"]