Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

No Swagger UI on localhost:3000 #22

Open
FBR65 opened this issue Mar 25, 2024 · 6 comments
Open

No Swagger UI on localhost:3000 #22

FBR65 opened this issue Mar 25, 2024 · 6 comments

Comments

@FBR65
Copy link

FBR65 commented Mar 25, 2024

Hi,

the completition works, but you can't reach Swagger UI on Port 3000.

(look: https://docs.bentoml.org/en/latest/use-cases/large-language-models/vllm.html
-> The server is active at http://localhost:3000/. You can interact with it in different ways.
-> Swagger UI
-> Visit http://localhost:3000/, scroll down to Service APIs, and click Try it out. In the Request body box, enter your prompt and click Execute.)

You recieve:

{"detail":"Not Found"}

@larme
Copy link
Member

larme commented Mar 26, 2024

@ITZRei the newest commit should solve this. Thanks for reporting!

@FBR65
Copy link
Author

FBR65 commented Mar 28, 2024

Hi, I'm getting still

{"detail":"Not Found"}

when calling Swagger UI in Browser.

The curl works fine:

curl -X 'POST' 'http://localhost:3000/generate' -H 'accept: text/event-stream' -H 'Content-Type: application/json' -d '{
"user_prompt": "Albert Einstein (* 14. März 1879 in Ulm; † 18. April 1955 in Princeton, New Jersey) war ein schweizerisch-US-amerikanischer theoretischer Physiker deutscher Herkunft. Der Wissenschaftler jüdischer Abstammung hatte bis 1896 die württembergische Staatsbürgerschaft, ab 1901 die Schweizer Staatsbürgerschaft und ab 1940 zusätzlich die US-amerikanische. Preußischer Staatsangehöriger war er von 1914 bis 1934. Einstein gilt als einer der bedeutendsten Physiker der Wissenschaftsgeschichte und weltweit als einer der bekanntesten Wissenschaftler der Neuzeit. Seine Forschungen zur Struktur von Materie, Raum und Zeit sowie zum Wesen der Gravitation veränderten maßgeblich das zuvor geltende newtonsche Weltbild. 1999 wurde Albert Einstein in einer durch die Fachzeitschrift Physics World durchgeführten Umfrage unter führenden Physikern vor Isaac Newton, James Clerk Maxwell, Niels Bohr und Werner Heisenberg zum bedeutendsten Physiker aller Zeiten gewählt. Einsteins Hauptwerk, die Relativitätstheorie, machte ihn weltberühmt. Im Jahr 1905 erschien seine Arbeit mit dem Titel Zur Elektrodynamik bewegter Körper, deren Inhalt heute als Spezielle Relativitätstheorie bezeichnet wird. 1915 publizierte er die Allgemeine Relativitätstheorie. Auch zur Quantenphysik leistete er wesentliche Beiträge. „Für seine Verdienste um die Theoretische Physik, besonders für seine Entdeckung des Gesetzes des photoelektrischen Effekts“, erhielt er den Nobelpreis des Jahres 1921, der ihm 1922 überreicht wurde. Seine theoretischen Arbeiten spielten – im Gegensatz zur weit verbreiteten Meinung – beim Bau der Atombombe und der Entwicklung der Kernenergie nur eine indirekte Rolle.",
"system_prompt":"Du bist ein Spezialist im Zusammenfassen von Texten. Fasse den nachfolgenden Text kurz zusemmen:",
"max_tokens": 4096
}'


2024-03-28T06:18:10+0000 [WARNING] [cli] Converting 'VLLM' to lowercase: 'vllm'.
2024-03-28T06:18:18+0000 [WARNING] [cli] Converting 'VLLM' to lowercase: 'vllm'.
2024-03-28T06:18:20+0000 [INFO] [cli] Starting production HTTP BentoServer from "service2:VLLM" listening on http://localhost:3000 (Press CTRL+C to quit)
WARNING 03-28 06:18:27 config.py:193] gptq quantization is not fully optimized yet. The speed can be slower than non-quantized models.
INFO 03-28 06:18:27 llm_engine.py:87] Initializing an LLM engine with config: model='/home/reifr1z/models/leo-hessianai-70B-chat-GPTQ', tokenizer='/home/reifr1z/models/leo-hessianai-70B-chat-GPTQ', tokenizer_mode=auto, revision=None, tokenizer_revision=None, trust_remote_code=False, dtype=torch.float16, max_seq_len=8192, download_dir=None, load_format=auto, tensor_parallel_size=1, disable_custom_all_reduce=False, quantization=gptq, enforce_eager=False, kv_cache_dtype=auto, device_config=cuda, seed=0)
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
INFO 03-28 06:26:12 llm_engine.py:357] # GPU blocks: 6242, # CPU blocks: 819
INFO 03-28 06:26:14 model_runner.py:684] Capturing the model for CUDA graphs. This may lead to unexpected consequences if the model is not static. To run the model in eager mode, set 'enforce_eager=True' or use '--enforce-eager' in the CLI.
INFO 03-28 06:26:14 model_runner.py:688] CUDA graphs can take additional 1~3 GiB memory per GPU. If you are running out of memory, consider decreasing gpu_memory_utilization or enforcing eager mode. You can also reduce the max_num_seqs as needed to decrease memory usage.
INFO 03-28 06:26:27 model_runner.py:756] Graph capturing finished in 13 secs.
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
INFO 03-28 06:26:29 serving_chat.py:302] Using default chat template:
INFO 03-28 06:26:29 serving_chat.py:302] {% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}{{'<|im_start|>' + message['role'] + '
INFO 03-28 06:26:29 serving_chat.py:302] ' + message['content'] + '<|im_end|>' + '
INFO 03-28 06:26:29 serving_chat.py:302] '}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant
INFO 03-28 06:26:29 serving_chat.py:302] ' }}{% endif %}
2024-03-28T06:26:29+0000 [INFO] [entry_service:VLLM_OpenAI:1] 10.0.36.5:59724 (scheme=http,method=GET,path=/,type=,length=) (status=404,type=application/json,length=22) 0.357ms (trace=e3e70682c2094cac629f6fbed82c07cd,span=0a5d2f346baa9455,sampled=0,service.name=VLLM_OpenAI)
2024-03-28T06:26:47+0000 [INFO] [entry_service:VLLM_OpenAI:1] 10.0.36.5:60310 (scheme=http,method=GET,path=/,type=,length=) (status=404,type=application/json,length=22) 0.204ms (trace=d4713d60c8a70639eb1167b367a9c378,span=f7c1bd874da5e709,sampled=0,service.name=VLLM_OpenAI)
2024-03-28T06:26:47+0000 [INFO] [entry_service:VLLM_OpenAI:1] 10.0.36.5:60310 (scheme=http,method=GET,path=/favicon.ico,type=,length=) (status=404,type=application/json,length=22) 0.197ms (trace=23a7711a8133287637ebdcd9e87a1613,span=23c6612f48268673,sampled=0,service.name=VLLM_OpenAI)
INFO 03-28 06:29:31 async_llm_engine.py:436] Received request 219e4d7d013c4894aeb620f34f4f9ee3: prompt: '[INST]\nDu bist ein Spezialist im Zusammenfassen von Texten. Fasse den nachfolgenden Text kurz zusemmen:\n\nAlbert Einstein (* 14. März 1879 in Ulm; † 18. April 1955 in Princeton, New Jersey) war ein schweizerisch-US-amerikanischer theoretischer Physiker deutscher Herkunft. Der Wissenschaftler jüdischer Abstammung hatte bis 1896 die württembergische Staatsbürgerschaft, ab 1901 die Schweizer Staatsbürgerschaft und ab 1940 zusätzlich die US-amerikanische. Preußischer Staatsangehöriger war er von 1914 bis 1934. Einstein gilt als einer der bedeutendsten Physiker der Wissenschaftsgeschichte und weltweit als einer der bekanntesten Wissenschaftler der Neuzeit. Seine Forschungen zur Struktur von Materie, Raum und Zeit sowie zum Wesen der Gravitation veränderten maßgeblich das zuvor geltende newtonsche Weltbild. 1999 wurde Albert Einstein in einer durch die Fachzeitschrift Physics World durchgeführten Umfrage unter führenden Physikern vor Isaac Newton, James Clerk Maxwell, Niels Bohr und Werner Heisenberg zum bedeutendsten Physiker aller Zeiten gewählt. Einsteins Hauptwerk, die Relativitätstheorie, machte ihn weltberühmt. Im Jahr 1905 erschien seine Arbeit mit dem Titel Zur Elektrodynamik bewegter Körper, deren Inhalt heute als Spezielle Relativitätstheorie bezeichnet wird. 1915 publizierte er die Allgemeine Relativitätstheorie. Auch zur Quantenphysik leistete er wesentliche Beiträge. „Für seine Verdienste um die Theoretische Physik, besonders für seine Entdeckung des Gesetzes des photoelektrischen Effekts“, erhielt er den Nobelpreis des Jahres 1921, der ihm 1922 überreicht wurde. Seine theoretischen Arbeiten spielten – im Gegensatz zur weit verbreiteten Meinung – beim Bau der Atombombe und der Entwicklung der Kernenergie nur eine indirekte Rolle. [/INST] ', prefix_pos: None,sampling_params: SamplingParams(n=1, best_of=1, presence_penalty=0.0, frequency_penalty=0.0, repetition_penalty=1.0, temperature=1.0, top_p=1.0, top_k=-1, min_p=0.0, seed=None, use_beam_search=False, length_penalty=1.0, early_stopping=False, stop=[], stop_token_ids=[], include_stop_str_in_output=False, ignore_eos=False, max_tokens=4096, logprobs=None, prompt_logprobs=None, skip_special_tokens=True, spaces_between_special_tokens=True), prompt_token_ids: None, lora_request: None.
INFO 03-28 06:29:31 metrics.py:213] Avg prompt throughput: 2.8 tokens/s, Avg generation throughput: 0.0 tokens/s, Running: 1 reqs, Swapped: 0 reqs, Pending: 0 reqs, GPU KV cache usage: 0.5%, CPU KV cache usage: 0.0%
INFO 03-28 06:29:34 async_llm_engine.py:110] Finished request 219e4d7d013c4894aeb620f34f4f9ee3.
2024-03-28T06:29:34+0000 [INFO] [entry_service:VLLM_OpenAI:1] 127.0.0.1:58648 (scheme=http,method=POST,path=/generate,type=application/json,length=1857) (status=200,type=text/event-stream; charset=utf-8,length=) 3498.897ms (trace=88561712e8e5216afcbd04c340212ef7,span=b4862b21fb97d435,sampled=0,service.name=VLLM_OpenAI)

@larme
Copy link
Member

larme commented Mar 29, 2024

@ITZRei That's strange. May I ask which model are you using and what's the BentoML version? In my test the swagger page is displayed correctly.

@FBR65
Copy link
Author

FBR65 commented Mar 29, 2024

Hi, it‘s TheBloke/leo-hessianai-70B-GPTQ

@larme
Copy link
Member

larme commented Mar 29, 2024

Are you using the latest codes in main branch?

@FBR65
Copy link
Author

FBR65 commented Apr 2, 2024

Hi, sorry for the delay. I'm using Version 1.2.9, that should be the latest.

I've attached the Code I'm using.

service.txt

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants