basetenlabs · joostinyi · Oct 14, 2024 · Oct 14, 2024 · Oct 15, 2024 · Oct 15, 2024
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "truss"
-version = "0.9.44"
+version = "0.9.45rc006"
 description = "A seamless bridge from model development to model delivery"
 license = "MIT"
 readme = "README.md"

diff --git a/truss/config/trt_llm.py b/truss/config/trt_llm.py
@@ -23,6 +23,7 @@ class TrussTRTLLMModel(str, Enum):
     MISTRAL = "mistral"
     DEEPSEEK = "deepseek"
     WHISPER = "whisper"
+    QWEN = "qwen"
 
 
 class TrussTRTLLMQuantizationType(str, Enum):
@@ -58,10 +59,9 @@ class CheckpointRepository(BaseModel):
 
 class TrussTRTLLMBuildConfiguration(BaseModel):
     base_model: TrussTRTLLMModel
-    max_input_len: int
-    max_output_len: int
-    max_batch_size: int
-    max_num_tokens: Optional[int] = None
+    max_seq_len: int
+    max_batch_size: Optional[int] = 256
+    max_num_tokens: Optional[int] = 8192
     max_beam_width: int = 1
     max_prompt_embedding_table_size: int = 0
     checkpoint_repository: CheckpointRepository
@@ -75,7 +75,6 @@ class TrussTRTLLMBuildConfiguration(BaseModel):
     plugin_configuration: TrussTRTLLMPluginConfiguration = (
         TrussTRTLLMPluginConfiguration()
     )
-    use_fused_mlp: bool = False
     kv_cache_free_gpu_mem_fraction: float = 0.9
     num_builder_gpus: Optional[int] = None
     enable_chunked_context: bool = False

diff --git a/truss/constants.py b/truss/constants.py
@@ -106,7 +106,7 @@
 
 REGISTRY_BUILD_SECRET_PREFIX = "DOCKER_REGISTRY_"
 
-TRTLLM_BASE_IMAGE = "baseten/briton-server:5fa9436e_v0.0.11"
+TRTLLM_BASE_IMAGE = "baseten/briton-server:v0.13.0"
 TRTLLM_PYTHON_EXECUTABLE = "/usr/bin/python3"
 BASE_TRTLLM_REQUIREMENTS = [
     "grpcio==1.62.3",

diff --git a/truss/test_data/test_trt_llm_truss/config.yaml b/truss/test_data/test_trt_llm_truss/config.yaml
@@ -4,10 +4,9 @@ resources:
   use_gpu: True
 trt_llm:
   build:
-    max_input_len: 1000
+    max_seq_len: 1000
     max_batch_size: 1
     max_beam_width: 1
-    max_output_len: 1000
     base_model: llama
     checkpoint_repository:
       repo: TinyLlama/TinyLlama-1.1B-Chat-v1.0

diff --git a/truss/tests/conftest.py b/truss/tests/conftest.py
@@ -389,8 +389,7 @@ def modify_handle(h: TrussHandle):
             content["trt_llm"] = {
                 "build": {
                     "base_model": "llama",
-                    "max_input_len": 1024,
-                    "max_output_len": 1024,
+                    "max_seq_len": 2048,
                     "max_batch_size": 512,
                     "checkpoint_repository": {
                         "source": "HF",

diff --git a/truss/tests/test_config.py b/truss/tests/test_config.py
@@ -52,8 +52,7 @@ def trtllm_config(default_config) -> Dict[str, Any]:
     trtllm_config["trt_llm"] = {
         "build": {
             "base_model": "llama",
-            "max_input_len": 1024,
-            "max_output_len": 1024,
+            "max_seq_len": 2048,
             "max_batch_size": 512,
             "checkpoint_repository": {
                 "source": "HF",