Guia do Usuário# Mecanismo de inferência llama.cpp transformers vLLM SGLang MLX API do cliente LLM Embedding imagem Audio Rerank Sistema OAuth2 (Experimental) Permissão Comece a usar Use Códigos de status HTTP Atenção Guia de Carregamento de Modelos réplica Estratégia de alocação mista Defina as variáveis de ambiente Configurar espaço virtual do modelo Lote / Lote Contínuo Modo de Pensamento Metrics Supervisor Metrics Worker Metrics Tradução para o português brasileiro: Mecanismos compatíveis Use Processamento em lote contínuo Modo de uso Interromper requisição Avisos Xavier: Compartilhamento de Cache KV entre Múltiplas Réplicas de VLLM Usar Limitações