В: «Что было бы самым быстрым вариантом для меня в этом случае? ... заканчивается время. Я уже нахожусь в середине симуляция. "
Приветствую Ахен. Если бы не постфактум, самым быстрым вариантом была бы предварительная настройка вычислительной экосистемы таким образом, чтобы:
- проверьте полную информацию о своем устройстве NUMA - используя
lstopo
или lstopo-no-graphics -.ascii
, но не lscpu
- инициируйте свои задания, имея как можно больше MPI-рабочих процессов, отображаемых на физическом (и лучше всего каждый из них отображается исключительно на его частное) ядро ЦП (поскольку они этого заслуживают, поскольку они несут основную обработку FEM / создание сетки нагрузка )
- если ваша политика FH не запрещает делать это, вы можете попросить системного администратора ввести сопоставление соответствия ЦП (которое защитит ваши данные в кэше от вытеснения и дорогостоящих повторных выборок, что приведет к 10 -ЦП, назначенные исключительно для использования вашим коллегой, и указанные 30-ЦП, назначенные исключительно для запуска вашего приложения, а остальные перечисленные ресурсы ~ 40-ЦП ~ являются «общими» -для использования оба, вашими соответствующими масками привязки к процессору.
В: "Используете 30 процессов MPI?"
Нет, это не разумное предположение для обработки ASAP - используйте как можно больше процессоров для рабочих, насколько это возможно для уже распараллеленных MPI FEM-симуляций (они обладают высокой степенью параллелизма и чаще всего по своей природе "узкой" локальностью ( будет он представлен как решатели разреженной матрицы / N-полосной матрицы), поэтому параллельная часть часто очень высока по сравнению с другими числовыми задачами) - Закон Амдала объясняет, почему. < img src = "https://i.stack.imgur.com/MwPSd.png" alt = "введите описание изображения здесь">
Конечно, могут быть некоторые академические возражения по поводу возможной небольшой разницы, для случаев, когда накладные расходы на коммуникацию могут быть немного уменьшены для одного (-ых) работника (-ов), но необходимость в правилах грубой силы в FEM / meshed- решатели (затраты на связь, как правило, намного ниже, чем у крупномасштабных, сегментированных методом конечных элементов числовых вычислений, отправляющих, но небольшое количество данных о состоянии "граничных" узлов соседних блоков)
htop
покажет вам фактическое состояние (можно отметить процесс: блуждание ядра ЦП из-за уловок тепловой балансировки HT / ядра ЦП, которые снижают итоговую производительность)
И обязательно проконсультируйтесь со службой поддержки meshfree
в своих источниках базы знаний о передовых методах.
В следующий раз лучшим вариантом будет приобретение вычислительной инфраструктуры с меньшими ограничениями для обработки критических рабочих нагрузок (учитывая критические бизнес-условия, считайте это риском бесперебойной работы BAU, тем более, что это повлияет на непрерывность вашего бизнеса).
person
user3666197
schedule
28.02.2020