model#

Lista de modelos#

List all launchable models of a certain type in Xinference:

xinference registrations --model-type <MODEL_TYPE> \
                         [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \

curl http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/model_registrations/<MODEL_TYPE>

from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
print(client.list_model_registrations(model_type='<MODEL_TYPE>'))

Xinference oferece suporte aos seguintes MODEL_TYPE:

LLM

Modelo de geração de texto ou modelo de linguagem grande

Grande modelo de linguagem

embedding

Modelo de incorporação de texto

Embedding Model

image

Modelo de geração ou processamento de imagens

Modelo de imagem

audio

Modelo de áudio

rerank

Modelo de reordenação

video

modelo de vídeo

Modelo flexível

Modelos flexíveis (modelos tradicionais de aprendizado de máquina)

Modelo de aprendizado de máquina tradicional (experimental)

Você pode visualizar todos os modelos integrados suportados pelo Xinference em aqui. Se o modelo necessário não estiver disponível, o Xinference também permite que você registre seu próprio modelo personalizado.

Iniciar e Parar o Modelo#

Cada instância de modelo em execução receberá um uid de modelo exclusivo. Por padrão, o uid do modelo é igual ao nome do modelo. Esse ID é o identificador para usar a instância do modelo posteriormente, e a opção --model-uid do comando de inicialização pode especificá-lo manualmente.

Você pode iniciar um modelo através da linha de comando ou do cliente Python do Xinference.

xinference launch --model-name <MODEL_NAME> \
                  [--model-engine <MODEL_ENGINE>] \
                  [--model-type <MODEL_TYPE>] \
                  [--model-uid <MODEL_UID>] \
                  [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \

from xinference.client import Client

client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
model_uid = client.launch_model(
  model_name="<MODEL_NAME>",
  model_engine="<MODEL_ENGINE>",
  model_type="<MODEL_TYPE>"
  model_uid="<MODEL_UID>"
)
print(model_uid)

Para o tipo de modelo LLM, iniciar o modelo requer não apenas especificar o nome do modelo, mas também o tamanho dos parâmetros, o formato do modelo e o mecanismo do modelo. Consulte a documentação Grande modelo de linguagem.

O seguinte comando lista os modelos em execução no Xinference:

xinference list [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]

curl http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/models

from xinference.client import Client

client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
print(client.list_models())

Quando não precisar mais do modelo atualmente em execução, libere os recursos que ele ocupa da seguinte maneira:

xinference terminate --model-uid "<MODEL_UID>" [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]

curl -X DELETE http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/models/<MODEL_UID>

from xinference.client import Client

client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
client.terminate_model(model_uid="<MODEL_UID>")

Nota

Para modelos que não são mais mantidos e que dependem de bibliotecas antigas (como transformers ), recomenda-se ativar a funcionalidade Model virtual environment para garantir que eles funcionem corretamente em um ambiente compatível.

Uso do modelo#

Chat & Gerar

Aprenda como conversar com um LLM no Xinference.

Chat & Geração

ferramenta

Aprenda como conectar um LLM a ferramentas externas.

Ferramentas

Embedding

Aprenda como criar embeddings de texto no Xinference.

Embedding

Reordenação

Aprenda como usar modelos de reordenação no Xinference.

Reclassificação

imagem

Aprenda como usar o Xinference para gerar imagens.

imagem

Multimodal

Aprenda a usar LLMs para processar imagens e áudio.

Multimodal

Áudio

Aprenda a usar o Xinference para converter áudio em texto ou texto em áudio.

áudio

Vídeo

Aprenda a usar o Xinference para gerar vídeos.

Vídeo (experimental)

Modelo flexível

Entenda como usar o Xinference para inferir modelos tradicionais de aprendizado de máquina.

Modelo de aprendizado de máquina tradicional (experimental)