Skip to main content

Ctrl+K

Guia de Introdução
model
Guia do Usuário

GitHub
Telegram
Discord
Twitter

Guia de Introdução
model
Guia do Usuário
Exemplo
Guia de API
Guia de Desenvolvimento
Official Site

GitHub
Telegram
Discord
Twitter

Section Navigation

Mecanismo de inferência
API do cliente
Sistema OAuth2 (Experimental)
Guia de Carregamento de Modelos
Metrics
Tradução para o português brasileiro:
Processamento em lote contínuo
Xavier: Compartilhamento de Cache KV entre Múltiplas Réplicas de VLLM

Guia do Usuário

Guia do Usuário#

Mecanismo de inferência
- llama.cpp
- transformers
- vLLM
- SGLang
- MLX
API do cliente
- LLM
- Embedding
- imagem
- Audio
- Rerank
Sistema OAuth2 (Experimental)
Guia de Carregamento de Modelos
Metrics
- Supervisor Metrics
- Worker Metrics
Tradução para o português brasileiro:
- Mecanismos compatíveis
- Use
Processamento em lote contínuo
Xavier: Compartilhamento de Cache KV entre Múltiplas Réplicas de VLLM
- Usar
- Limitações

anterior

Cálculo do uso de memória VRAM do modelo

próximo

Mecanismo de inferência

© Copyright 2025, Xorbits Inc..

Criada usando Sphinx 8.1.3.

Built with the PyData Sphinx Theme 0.19.0.