Skip to main content
Ctrl+K
Xinference Xinference
  • Guia de Introdução
  • model
  • Guia do Usuário
    • Exemplo
    • Guia de API
    • Guia de Desenvolvimento
    • Official Site
  • GitHub
  • Telegram
  • Discord
  • Twitter
  • Guia de Introdução
  • model
  • Guia do Usuário
  • Exemplo
  • Guia de API
  • Guia de Desenvolvimento
  • Official Site
  • GitHub
  • Telegram
  • Discord
  • Twitter

Section Navigation

  • Mecanismo de inferência
  • API do cliente
  • Sistema OAuth2 (Experimental)
  • Guia de Carregamento de Modelos
  • Metrics
  • Tradução para o português brasileiro:
  • Processamento em lote contínuo
  • Xavier: Compartilhamento de Cache KV entre Múltiplas Réplicas de VLLM
  • Guia do Usuário

Guia do Usuário#

  • Mecanismo de inferência
    • llama.cpp
    • transformers
    • vLLM
    • SGLang
    • MLX
  • API do cliente
    • LLM
    • Embedding
    • imagem
    • Audio
    • Rerank
  • Sistema OAuth2 (Experimental)
    • Permissão
    • Comece a usar
    • Use
    • Códigos de status HTTP
    • Atenção
  • Guia de Carregamento de Modelos
    • réplica
    • Estratégia de alocação mista
    • Defina as variáveis de ambiente
    • Configurar espaço virtual do modelo
    • Lote / Lote Contínuo
    • Modo de Pensamento
  • Metrics
    • Supervisor Metrics
    • Worker Metrics
  • Tradução para o português brasileiro:
    • Mecanismos compatíveis
    • Use
  • Processamento em lote contínuo
    • Modo de uso
    • Interromper requisição
    • Avisos
  • Xavier: Compartilhamento de Cache KV entre Múltiplas Réplicas de VLLM
    • Usar
    • Limitações

anterior

Cálculo do uso de memória VRAM do modelo

próximo

Mecanismo de inferência

Exibir Fonte

© Copyright 2025, Xorbits Inc..

Criada usando Sphinx 8.1.3.

Built with the PyData Sphinx Theme 0.19.0.