У меня есть контейнер (приложение для машинного обучения), который может загружать предварительно обученные ml-модели, хранящиеся в постоянном томе. Я могу попросить приложение загрузить конкретную модель, указав ее имя через REST API.
Теперь я хочу масштабировать это приложение так, чтобы я мог загружать любую модель в любую из реплик (не во всех из них) и иметь возможность анализировать данные из этой модели.
Я знаю, что это можно сделать, имея несколько развертываний и несколько служб, указывающих на каждое из этих развертываний, так что каждый экземпляр будет иметь отдельный порт узла, и я могу получить доступ к REST API каждого экземпляра через эти разные порты узла. Делая это, я могу вести учет того, какая модель загружена на какой экземпляр в моем собственном.
Есть ли какой-либо рекомендуемый способ выполнить это требование без множественных развертываний, а с помощью реплик? (Например, поддержание единого файла развертывания с репликами и ручной балансировщик нагрузки на уровне обслуживания)