Cálculo do uso de memória VRAM do modelo#

Para melhor planejar o uso da memória de vídeo, o Xinference oferece uma ferramenta para calcular o uso de memória do modelo: cal-model-mem

Algoritmo proveniente de: RahulSChand/gpu_poor

model_mem, kv_cache, overhead, active_mem

Exemplo: para calcular o uso de memória de vídeo do modelo qwen1.5-chat, execute o seguinte comando de exemplo:

xinference cal-model-mem -s 7 -q Int4 -f gptq -c 16384 -n qwen1.5-chat

model_name: qwen1.5-chat
kv_cache_dtype: 16
model size: 7.0 B
quant: Int4
context: 16384
gpu mem usage:
  model mem: 4139 MB
  kv_cache: 8192 MB
  overhead: 650 MB
  active: 17024 MB
  total: 30005 MB (30 GB)

gramática#

–size-in-billions {model_size}
- -s {model_size}
Define o tamanho do modelo. Especifica o tamanho do modelo em bilhões de parâmetros. O formato do parâmetro aceita formas como 1_8 e 1.8. Por exemplo, 7 representa um tamanho de modelo de 7.0B.
–quantization {precision}
- -q {precision} (opcional)
Especifica a configuração de quantização do modelo. Por exemplo: o parâmetro Int4 indica o uso de quantização INT4.
–model-name {model_name}
- -n {model_name} (Optional)
Especifique o nome do modelo. Se este parâmetro for fornecido, a configuração do modelo será obtida do huggingface/modelscope; se não for especificado, os parâmetros de camada padrão serão usados para uma estimativa aproximada.
–context-length {context_length}
- -c {context_length}
Especifica o comprimento máximo de contexto do modelo.
–model-format {format}
- -f {format}
Especifica o formato do modelo, por exemplo: pytorch, ggmlv3, etc.

Nota

Utilize a variável de ambiente HF_ENDPOINT para definir o Endpoint do servidor HuggingFace. Por exemplo, quando a rede estiver instável, pode-se escolher hf-mirror como Endpoint. Para mais informações, consulte este documento.