Instale o Xinference em um cluster Kubernetes.#
Baseado no método nativo Helm.#
O Xinference oferece uma forma de instalação no cluster Kubernetes baseada no Helm nativo.
Condições de Preparação#
Um cluster Kubernetes funcional.
Para habilitar suporte a GPU no Kubernetes, consulte aqui.
Instale o
Helmcorretamente.
Passos específicos#
Adicione o repositório Helm do Xinference.
helm repo add xinference https://xorbitsai.github.io/xinference-helm-charts
Atualizar o índice do repositório e consultar as versões disponíveis para instalação.
helm repo update xinference helm search repo xinference/xinference --devel --versions
Instalação
helm install xinference xinference/xinference -n xinference --version <helm_charts_version>
Instalação personalizada#
O método de instalação acima instala um Xinference semelhante a um único computador, ou seja, apenas um nó, enquanto os outros parâmetros de inicialização permanecem com os valores padrão.
Abaixo estão algumas configurações de instalação personalizada comuns.
Preciso baixar o modelo do
ModelScope.helm install xinference xinference/xinference -n xinference --version <helm_charts_version> --set config.model_src="modelscope"
Quero usar a imagem do Xinference para CPU (ou outras versões da imagem).
helm install xinference xinference/xinference -n xinference --version <helm_charts_version> --set config.xinference_image="<xinference_docker_image>"
Preciso iniciar 4 nós worker do Xinference, cada um gerenciando 4 GPUs.
helm install xinference xinference/xinference -n xinference --version <helm_charts_version> --set config.worker_num=4 --set config.gpu_per_worker="4"
A instalação acima é baseada na opção --set do Helm. Para cenários de instalação personalizados mais complexos, como múltiplos workers compartilhando armazenamento, é altamente recomendável usar seu próprio arquivo values.yaml e instalar através da opção -f do Helm.
The default values.yaml file is located here.
Some examples can be found here.
Baseado na abordagem de terceiros KubeBlocks#
Você também pode instalar o Xinference em um cluster K8s por meio do KubeBlocks de terceiros. Este método não é mantido oficialmente pelo Xinference, portanto, não é possível garantir estritamente atualizações em tempo real e disponibilidade. Consulte a documentação .