Я использую Sagemaker, чтобы выполнить двоичную классификацию временных рядов, каждый образец представляет собой массив множества форм [24,11] (24 часа, 11 функций). Я использовал модель тензорного потока в режиме сценария, мой сценарий очень похож на тот, который я использовал в качестве справочного: https://github.com/awslabs/amazon-sagemaker-examples/blob/master/sagemaker-python-sdk/tensorflow_script_mode >
Обучение показало успех, и я смог развернуть модель пакетного преобразования. Задание преобразования отлично работает, когда я ввожу всего несколько выборок (скажем, [10,24,11]), но оно возвращает InternalServerError
, когда я ввожу больше выборок для прогнозирования (например, [30000, 24, 11], размер составляет> 100 МБ).
Вот ошибка:
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-6-0c46f7563389> in <module>()
32
33 # Then wait until transform job is completed
---> 34 tf_transformer.wait()
~/anaconda3/envs/tensorflow_p36/lib/python3.6/site-packages/sagemaker/transformer.py in wait(self)
133 def wait(self):
134 self._ensure_last_transform_job()
--> 135 self.latest_transform_job.wait()
136
137 def _ensure_last_transform_job(self):
~/anaconda3/envs/tensorflow_p36/lib/python3.6/site-packages/sagemaker/transformer.py in wait(self)
207
208 def wait(self):
--> 209 self.sagemaker_session.wait_for_transform_job(self.job_name)
210
211 @staticmethod
~/anaconda3/envs/tensorflow_p36/lib/python3.6/site-packages/sagemaker/session.py in wait_for_transform_job(self, job, poll)
893 """
894 desc = _wait_until(lambda: _transform_job_status(self.sagemaker_client, job), poll)
--> 895 self._check_job_status(job, desc, 'TransformJobStatus')
896 return desc
897
~/anaconda3/envs/tensorflow_p36/lib/python3.6/site-packages/sagemaker/session.py in _check_job_status(self, job, desc, status_key_name)
915 reason = desc.get('FailureReason', '(No reason provided)')
916 job_type = status_key_name.replace('JobStatus', ' job')
--> 917 raise ValueError('Error for {} {}: {} Reason: {}'.format(job_type, job, status, reason))
918
919 def wait_for_endpoint(self, endpoint, poll=5):
ValueError: Error for Transform job Tensorflow-batch-transform-2019-05-29-02-56-00-477: Failed Reason: InternalServerError: We encountered an internal error. Please try again.
Я попытался использовать параметры SingleRecord и MultiRecord при развертывании модели, но результат был таким же, поэтому я решил сохранить MultiRecord. Мой трансформатор выглядит так:
transformer = tf_estimator.transformer(
instance_count=1,
instance_type='ml.m4.xlarge',
max_payload = 100,
assemble_with = 'Line',
strategy='MultiRecord'
)
Сначала я использовал файл json в качестве входных данных для задания преобразования, и он выдал ошибку:
Too much data for max payload size
Итак, затем я попробовал формат jsonlines (формат .npy не поддерживается, насколько я понимаю), думая, что jsonlines можно разделить на Line и, таким образом, избежать ошибки размера, но именно здесь я получил InternalServerError
. Вот соответствующий код:
#Convert test_x to jsonlines and save
test_x_list = test_x.tolist()
file_path ='data_cnn_test/test_x.jsonl'
file_name='test_x.jsonl'
with jsonlines.open(file_path, 'w') as writer:
writer.write(test_x_list)
input_key = 'batch_transform_tf/input/{}'.format(file_name)
output_key = 'batch_transform_tf/output'
test_input_location = 's3://{}/{}'.format(bucket, input_key)
test_output_location = 's3://{}/{}'.format(bucket, output_key)
s3.upload_file(file_path, bucket, input_key)
# Initialize the transformer object
tf_transformer = sagemaker.transformer.Transformer(
base_transform_job_name='Tensorflow-batch-transform',
model_name='sagemaker-tensorflow-scriptmode-2019-05-29-02-46-36-162',
instance_count=1,
instance_type='ml.c4.2xlarge',
output_path=test_output_location,
assemble_with = 'Line'
)
# Start the transform job
tf_transformer.transform(test_input_location, content_type='application/jsonlines', split_type='Line')
Список с именем test_x_list имеет форму [30000, 24, 11], что соответствует 30000 выборкам, поэтому я хотел бы вернуть 30000 прогнозов.
Я подозреваю, что мой файл jsonlines не разделяется на Line и, конечно, слишком велик для обработки в одном пакете, что вызывает ошибку, но я не понимаю, почему он не разделяется правильно. Я использую по умолчанию output_fn и input_fn (я не переписывал эти функции в своем скрипте).
Мы будем очень признательны за любое понимание того, что я могу делать неправильно.