Variáveis de ambiente#

XINFERENCE_ENDPOINT#

Endereço do serviço do Xinference, usado para se conectar ao Xinference. O endereço padrão é http://127.0.0.1:9997, que pode ser obtido nos logs.

XINFERENCE_MODEL_SRC#

Configure o repositório de download de modelos. A fonte de download padrão é “huggingface” e também pode ser definida como “modelscope”.

XINFERENCE_HOME#

O Xinference usa por padrão <HOME>/.xinference como diretório padrão para armazenar modelos e arquivos necessários, como logs. Onde <HOME> é o diretório home do usuário atual. Este diretório padrão pode ser alterado configurando essa variável de ambiente.

XINFERENCE_HEALTH_CHECK_FAILURE_THRESHOLD#

Número máximo de falhas permitidas na verificação de integridade durante a inicialização do Xinference. O valor padrão é 5.

XINFERENCE_HEALTH_CHECK_INTERVAL#

Intervalo de verificação de integridade (em segundos) ao iniciar o Xinference. O valor padrão é 5.

XINFERENCE_HEALTH_CHECK_TIMEOUT#

Tempo limite da verificação de integridade ao iniciar o Xinference (em segundos). O valor padrão é 10.

XINFERENCE_DISABLE_HEALTH_CHECK#

Quando as condições são atendidas, o Xinference reporta automaticamente o status de saúde do worker. Definir essa variável de ambiente como 1 desabilita a verificação de saúde.

XINFERENCE_DISABLE_METRICS#

O Xinference ativa, por padrão, o exportador de métricas no supervisor e no worker. Definir a variável de ambiente como 1 desabilita o endpoint /metrics no supervisor e desativa o serviço HTTP no worker (fornecendo apenas o endpoint /metrics).

XINFERENCE_DOWNLOAD_MAX_ATTEMPTS#

O número máximo de tentativas de download do arquivo do modelo. O valor padrão é 3.

XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE#

Ative o processamento em lote contínuo para o modelo de texto para imagem especificando o tamanho da imagem de destino (por exemplo, 1024*1024). Não definido por padrão.

XINFERENCE_SSE_PING_ATTEMPTS_SECONDS#

Intervalo de ping (em segundos) para manter a conexão ativa de eventos enviados pelo servidor. O valor padrão é 600.

XINFERENCE_MAX_TOKENS#

Sobreposição do limite máximo global de tokens da solicitação. O valor padrão é não definido.

XINFERENCE_ALLOWED_IPS#

Restringir o acesso a endereços IP específicos ou blocos de endereços CIDR. O padrão não está definido (sem restrições).

XINFERENCE_BATCH_SIZE#

O tamanho de lote padrão usado pelo servidor quando o processamento em lote está ativado. O valor padrão é 32.

XINFERENCE_BATCH_INTERVAL#

Intervalo padrão de lote (segundos). O valor padrão é 0,003.

XINFERENCE_ALLOW_MULTI_REPLICA_PER_GPU#

É permitido criar múltiplas réplicas em uma única GPU. O valor padrão é 1 (ativado).

XINFERENCE_LAUNCH_STRATEGY#

Estratégia de alocação de GPU para réplicas. O valor padrão é IDLE_FIRST_LAUNCH_STRATEGY.

XINFERENCE_MAX_CONCURRENT_LAUNCHES#

Maximum number of model launches that can proceed concurrently on a single worker node. When more replicas are launched than this limit, excess launches queue and proceed as slots free up. This prevents resource exhaustion (fork storms, disk IO saturation, GPU memory contention) that can cause heartbeat timeouts. Default value is 5.

XINFERENCE_ENABLE_VIRTUAL_ENV#

Habilitar ambiente virtual de modelo globalmente. O valor padrão é 1 (ativado, efetivo a partir da versão v2.0).

XINFERENCE_VIRTUAL_ENV_SKIP_INSTALLED#

Pular pacotes já existentes no site-packages do sistema ao criar o ambiente virtual. O valor padrão é 1.

XINFERENCE_CSG_TOKEN#

Token de autenticação da fonte de modelo do CSGHub. O valor padrão não está definido.

XINFERENCE_CSG_ENDPOINT#

CSGHub endpoint de origem do modelo. O valor padrão é https://hub-stg.opencsg.com/.

XINFERENCE_QWEN3_RERANK_TEMPLATE#

Enable template for Qwen3 rerank model family (0.6B, 4B, 8B,etc) globally. Default value is 1.

XINFERENCE_LAUNCH_HISTORY_DB_PATH#

Path to the SQLite database that stores the model launch configuration history shown in the “Launch Model” drawer of the Web UI. This store is shared across all clients so the history is available from any browser or machine, and it is independent of the authentication database. When authentication is enabled, each record keeps the creator’s username (created_by). Default value is <XINFERENCE_HOME>/launch_history.db.