Xavier: Compartilhamento de Cache KV entre Múltiplas Réplicas de VLLM#

Para cenários como consultas de documentos longos e diálogos multi-turno, o cálculo durante a fase de pré-preenchimento da inferência pode ser particularmente intenso, afetando a taxa de transferência geral e a latência de inferência única. O Xinference aprimora o mecanismo vllm ao introduzir o framework Xavier, suportando o compartilhamento de cache KV entre múltiplas instâncias vllm. Isso permite que o cache KV calculado por outras réplicas seja reutilizado diretamente, evitando assim cálculos redundantes.

Usar#

Ao iniciar o modelo vllm, defina a opção enable_xavier=True.

Limitações#

Xavier exige que a versão do vllm seja no mínimo 0.7.0. Não há suporte temporário para versões do vllm superiores a 0.11.0.
Devido à comunicação subjacente não reconhecer o endereço 0.0.0.0, é necessário configurar um endereço IP real ao iniciar o xinference, por exemplo: xinference-local -H 192.168.xx.xx.
Xavier só suporta placas de vídeo Nvidia.