[BugFix] Throw a runtime error for quantized models & inference=VLLM #1212

kaisopos · 2025-01-23T02:40:09Z

Description

Throw a runtime error when instantiating a {judge, evaluation, inference} config that includes a "BitsAndBytes" quantized model and a VLLM inference engine. I am aware this does NOT cover all possible use cases (users may use an inference engine directly without a config) but my hope is that it covers most cases.

Related issues

Fixes # (issue)

Before submitting

This PR only changes documentation. (You can ignore the following checks in that case)
Did you read the contributor guideline Pull Request guidelines?
Did you link the issue(s) related to this PR in the section above?
Did you add / update tests where needed?

Reviewers

At least one review from a member of oumi-ai/oumi-staff is required.

src/oumi/core/configs/inference_config.py

src/oumi/inference/vllm_inference_engine.py

Throw runtime error for quantized models and VLLM

b52399c

kaisopos requested review from oelachqar, taenin and wizeng23 January 23, 2025 02:40

taenin reviewed Jan 23, 2025

View reviewed changes

src/oumi/core/configs/inference_config.py Outdated Show resolved Hide resolved

kaisopos and others added 4 commits January 22, 2025 19:28

statement fix

588527e

simplify

6b11bf0

Merge branch 'main' into kostas/runtime_error_vllm_quantized_model

cd8a75a

small change

27f9207

oelachqar approved these changes Jan 23, 2025

View reviewed changes

oelachqar reviewed Jan 23, 2025

View reviewed changes

src/oumi/inference/vllm_inference_engine.py Outdated Show resolved Hide resolved

small change

e5db8c2

kaisopos merged commit 7e36dd5 into main Jan 23, 2025
2 checks passed

kaisopos deleted the kostas/runtime_error_vllm_quantized_model branch January 23, 2025 04:46

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[BugFix] Throw a runtime error for quantized models & inference=VLLM #1212

[BugFix] Throw a runtime error for quantized models & inference=VLLM #1212

kaisopos commented Jan 23, 2025

[BugFix] Throw a runtime error for quantized models & inference=VLLM #1212

[BugFix] Throw a runtime error for quantized models & inference=VLLM #1212

Conversation

kaisopos commented Jan 23, 2025

Description

Related issues

Before submitting

Reviewers