Guia de Carregamento de Modelos#
Este documento tem como objetivo fornecer uma explicação funcional sobre o carregamento de modelos.
réplica#
O parâmetro “cópias” (ou “replicas”) é utilizado para especificar o número de instâncias do modelo a serem carregadas. Por exemplo, se você possui duas GPUs e cada placa pode conter uma réplica do modelo, pode definir o número de cópias como 2. Dessa forma, duas instâncias idênticas do modelo serão distribuídas entre essas duas GPUs. O Xinference realizará automaticamente o balanceamento de carga, garantindo que as requisições sejam distribuídas uniformemente entre as múltiplas placas. Para o usuário, o modelo ainda é visto como um único, o que aumenta significativamente a eficiência geral do uso dos recursos.
Implantação de múltiplas instâncias em versão antiga:
Quando você possui múltiplas placas GPU, cada placa pode hospedar uma instância de modelo. Nesse caso, o número de instâncias pode ser definido como igual ao número de GPUs. Por exemplo:
2 GPUs, 2 instances: one model instance per GPU.
4 GPUs, 4 instâncias: cada GPU executa uma instância do modelo
Adicionado na versão v1.15.0.
Introduzir uma nova variável de ambiente:
XINFERENCE_ALLOW_MULTI_REPLICA_PER_GPU
Controla se a funcionalidade de múltiplas cópias em uma única GPU está habilitada. Valor padrão: 1
Novo recurso: implantação inteligente de réplicas
Réplicas múltiplas em uma única GPU
Novo suporte: é possível executar múltiplas réplicas de modelos mesmo com apenas uma GPU.
Cenário: você possui 1 GPU com memória de vídeo abundante.
Configuração: número de réplicas = 3, número de GPUs = 1
Resultado: 3 instâncias do modelo, rodando na mesma GPU, compartilhando os recursos da GPU.
Alocação Mista de GPU
Distribuição inteligente: o número de réplicas não precisa ser igual ao número de GPUs, o sistema fará a distribuição de forma inteligente.
Contexto: você tem 2 GPUs e precisa de 3 réplicas.
Configuração: número de réplicas = 3, número de GPUs = 2
Resultado: GPU0 executando 2 instâncias, GPU1 executando 1 instância
Estratégia de alocação mista#
A estratégia atual é ociosidade primeiro: o agendador sempre tenta alocar réplicas para a GPU mais ociosa. Use o parâmetro XINFERENCE_ENV_LAUNCH_STRATEGY para selecionar a estratégia de inicialização.
Defina as variáveis de ambiente#
Adicionado na versão v1.8.1.
Às vezes, queremos especificar variáveis de ambiente para um modelo específico em tempo de execução. A partir da v1.8.1, o Xinference oferece a funcionalidade de configurar variáveis de ambiente separadamente, sem a necessidade de defini-las antes de iniciar o Xinference.
Para Web UI.

Ao usar a linha de comando, especifique as variáveis de ambiente com --env.
Exemplo de uso:
xinference launch xxx --env A 0 --env B 1
Tomando vLLM como exemplo, ele possui duas versões, V1 e V0, e por padrão decide automaticamente qual versão usar. Se desejar forçar o uso da V0 ao carregar o modelo, você pode definir a variável de ambiente configurando VLLM_USE_V1=0.
Configurar espaço virtual do modelo#
Adicionado na versão v1.8.1.
Para esta parte, consulte switching virtual environments and custom dependencies.
Lote / Lote Contínuo#
Xinference suporta processamento em lote para aumentar a taxa de transferência. Para modelos de linguagem grandes baseados no mecanismo transformers, é possível ativar a funcionalidade de processamento em lote contínuo, que pode ser configurada durante a inicialização por meio de variáveis de ambiente.
Configuração Chave:
XINFERENCE_BATCH_SIZE e XINFERENCE_BATCH_INTERVAL são usados para controlar o comportamento comum de processamento em lote.
XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE(modelo de texto para imagem, quando suportado).
Exemplo (Large Language Model, Transformers)
XINFERENCE_BATCH_SIZE=32 XINFERENCE_BATCH_INTERVAL=0.003 xinference-local --log-level debug
xinference launch -e <endpoint> --model-engine transformers -n qwen1.5-chat -s 4 -f pytorch -q none
Exemplo (Texto para imagem):
XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE=1024*1024 xinference-local --log-level debug
Para informações detalhadas sobre comportamento, modelos suportados e solicitações de aborto, consulte processamento em lote contínuo.
Modo de Pensamento#
Certos modelos de raciocínio híbrido (como o Qwen3) suportam um modo de pensamento opcional. Você pode ativar esse recurso durante a inicialização usando o parâmetro --enable-thinking.
Exemplo de uso:
xinference launch -n qwen3-xxx --model-engine vllm --enable-thinking