Xavier: Compartilhamento de Cache KV entre Múltiplas Réplicas de VLLM#
Para cenários como consultas de documentos longos e diálogos multi-turno, o cálculo durante a fase de pré-preenchimento da inferência pode ser particularmente intenso, afetando a taxa de transferência geral e a latência de inferência única. O Xinference aprimora o mecanismo vllm ao introduzir o framework Xavier, suportando o compartilhamento de cache KV entre múltiplas instâncias vllm. Isso permite que o cache KV calculado por outras réplicas seja reutilizado diretamente, evitando assim cálculos redundantes.
Usar#
Ao iniciar o modelo vllm, defina a opção enable_xavier=True.
Limitações#
Xavier exige que a versão do vllm seja no mínimo
0.7.0. Não há suporte temporário para versões do vllm superiores a0.11.0.Devido à comunicação subjacente não reconhecer o endereço
0.0.0.0, é necessário configurar um endereço IP real ao iniciar o xinference, por exemplo:xinference-local -H 192.168.xx.xx.Xavier só suporta placas de vídeo Nvidia.