Efficiently Serving Many Transformer Adapters #5449

smellslikeml · 2023-03-04T02:38:16Z

smellslikeml
Mar 4, 2023

Transformer adapters are used for efficient fine-tuning, can we optimize tritonserver for serving inference for many adapters in a way which efficiently shares memory for models?

smellslikeml · 2023-09-07T19:25:00Z

smellslikeml
Sep 7, 2023
Author

Recently found Batched LoRAs

For those interested in running with Triton, here is an implementation

0 replies

smellslikeml · 2023-11-15T19:55:20Z

smellslikeml
Nov 15, 2023
Author

Now we have S-LoRA
https://github.com/S-LoRA/S-LoRA

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Efficiently Serving Many Transformer Adapters #5449

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

Efficiently Serving Many Transformer Adapters #5449

Uh oh!

smellslikeml Mar 4, 2023

Replies: 2 comments

Uh oh!

smellslikeml Sep 7, 2023 Author

Uh oh!

smellslikeml Nov 15, 2023 Author

smellslikeml
Mar 4, 2023

smellslikeml
Sep 7, 2023
Author

smellslikeml
Nov 15, 2023
Author