Fix API issues

2025-06-07 14:17:09 -04:00 · 2025-05-18 12:45:01 -07:00 · 2025-05-18 12:45:01 -07:00 · 83bfd5c64b
commit 83bfd5c64b
parent 126b3a768f
1 changed files with 10 additions and 8 deletions
--- a/extensions/openai/script.py
+++ b/extensions/openai/script.py
@ -114,8 +114,8 @@ async def openai_completions(request: Request, request_data: CompletionRequest):
    if request_data.stream:
        async def generator():
-            try:
+            async with streaming_semaphore:
-                async with streaming_semaphore:
+                try:
                    response = OAIcompletions.stream_completions(to_dict(request_data), is_legacy=is_legacy)
                    async for resp in iterate_in_threadpool(response):
                        disconnected = await request.is_disconnected()
@ -123,8 +123,9 @@ async def openai_completions(request: Request, request_data: CompletionRequest):
                            break
                        yield {"data": json.dumps(resp)}
-            finally:
+                finally:
-                return
+                    stop_everything_event()
                    return
        return EventSourceResponse(generator())  # SSE streaming
@ -145,8 +146,8 @@ async def openai_chat_completions(request: Request, request_data: ChatCompletion
    if request_data.stream:
        async def generator():
-            try:
+            async with streaming_semaphore:
-                async with streaming_semaphore:
+                try:
                    response = OAIcompletions.stream_chat_completions(to_dict(request_data), is_legacy=is_legacy)
                    async for resp in iterate_in_threadpool(response):
                        disconnected = await request.is_disconnected()
@ -154,8 +155,9 @@ async def openai_chat_completions(request: Request, request_data: ChatCompletion
                            break
                        yield {"data": json.dumps(resp)}
-            finally:
+                finally:
-                return
+                    stop_everything_event()
                    return
        return EventSourceResponse(generator())  # SSE streaming