From f84d3cad46d62aef10a19a3bfe6e65336046d885 Mon Sep 17 00:00:00 2001 From: chaoke <101492509+8baby8@users.noreply.github.com> Date: Fri, 24 May 2024 09:10:02 +0800 Subject: [PATCH] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index cd7aade81..addd66949 100644 --- a/README.md +++ b/README.md @@ -76,7 +76,7 @@ Paddle Inference针对大模型Prompt阶段与Token Generation阶段的计算特 ### 大模型部署:实时感知负载动态插入请求,最大化硬件利用率 -由于大模型生成场景解码阶段耗时较长,且不同Query下生成长度不一,为了最大化服务吞吐,我们在FastDeploy服务框架结合推理引擎实现了动态插入技术,科实时感知服务负载,动态插入用户请求最大化推理硬件利用率。 +由于大模型生成场景解码阶段耗时较长,且不同Query下生成长度不一,为了最大化服务吞吐,我们在FastDeploy服务框架结合推理引擎实现了动态插入技术,可实时感知服务负载,动态插入用户请求最大化推理硬件利用率。

大模型服务部署