model#
Lista de modelos#
List all launchable models of a certain type in Xinference:
xinference registrations --model-type <MODEL_TYPE> \
[--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \
curl http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/model_registrations/<MODEL_TYPE>
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
print(client.list_model_registrations(model_type='<MODEL_TYPE>'))
Xinference oferece suporte aos seguintes MODEL_TYPE:
Modelo de geração de texto ou modelo de linguagem grande
Modelo de incorporação de texto
Modelo de geração ou processamento de imagens
Modelo de áudio
Modelo de reordenação
modelo de vídeo
Modelos flexíveis (modelos tradicionais de aprendizado de máquina)
Você pode visualizar todos os modelos integrados suportados pelo Xinference em aqui. Se o modelo necessário não estiver disponível, o Xinference também permite que você registre seu próprio modelo personalizado.
Iniciar e Parar o Modelo#
Cada instância de modelo em execução receberá um uid de modelo exclusivo. Por padrão, o uid do modelo é igual ao nome do modelo. Esse ID é o identificador para usar a instância do modelo posteriormente, e a opção --model-uid do comando de inicialização pode especificá-lo manualmente.
Você pode iniciar um modelo através da linha de comando ou do cliente Python do Xinference.
xinference launch --model-name <MODEL_NAME> \
[--model-engine <MODEL_ENGINE>] \
[--model-type <MODEL_TYPE>] \
[--model-uid <MODEL_UID>] \
[--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
model_uid = client.launch_model(
model_name="<MODEL_NAME>",
model_engine="<MODEL_ENGINE>",
model_type="<MODEL_TYPE>"
model_uid="<MODEL_UID>"
)
print(model_uid)
Para o tipo de modelo LLM, iniciar o modelo requer não apenas especificar o nome do modelo, mas também o tamanho dos parâmetros, o formato do modelo e o mecanismo do modelo. Consulte a documentação Grande modelo de linguagem.
O seguinte comando lista os modelos em execução no Xinference:
xinference list [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]
curl http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/models
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
print(client.list_models())
Quando não precisar mais do modelo atualmente em execução, libere os recursos que ele ocupa da seguinte maneira:
xinference terminate --model-uid "<MODEL_UID>" [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]
curl -X DELETE http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/models/<MODEL_UID>
from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
client.terminate_model(model_uid="<MODEL_UID>")
Nota
Para modelos que não são mais mantidos e que dependem de bibliotecas antigas (como transformers ), recomenda-se ativar a funcionalidade Model virtual environment para garantir que eles funcionem corretamente em um ambiente compatível.
Uso do modelo#
Aprenda como conversar com um LLM no Xinference.
Aprenda como conectar um LLM a ferramentas externas.
Aprenda como criar embeddings de texto no Xinference.
Aprenda como usar modelos de reordenação no Xinference.
Aprenda como usar o Xinference para gerar imagens.
Aprenda a usar LLMs para processar imagens e áudio.
Aprenda a usar o Xinference para converter áudio em texto ou texto em áudio.
Aprenda a usar o Xinference para gerar vídeos.
Entenda como usar o Xinference para inferir modelos tradicionais de aprendizado de máquina.
- Xinference Models Hub
- Model capabilities
- Modelo interno
- Modelo personalizado
- Model Update
- Model source
- Model virtual environment
- fundo
- Solução
- Gerenciamento de ambiente virtual (v2.0)
- Local de armazenamento
- Pular bibliotecas já instaladas
- Carregamento de modelo: ativar ambiente virtual e personalizar dependências
- Gerenciamento de ambiente virtual
- Funcionalidades principais
- Operações de gerenciamento
- Formato JSON do ModelHub (aplicável ao modelo Xinference)
- Integração LoRA
- Cálculo do uso de memória VRAM do modelo