Статус порта всегда недоступен и не может открыть порт UMAD

Я недавно установил ofed-1.5-3 на следующую машину:

SUSE Linux Enterprise Server 11 (x86_64) ВЕРСИЯ = 11 УРОВЕНЬ ИСПРАВЛЕНИЯ = 1

Наш администратор установил карту CX354A (MCX354A-FCBT) на машину. $ лспци | grep -i mel 04:00.0 Сетевой контроллер: Mellanox Technologies Device 1003

(Вопрос 1: я не знаю, правильный вывод lspci или нет, хотя подозреваю, что да, но не знаю, как получить правильный вывод.)

После того, как я установил пакет ofed через скрипт ./mlnxofedinstall:

Вывод ofed_info | head -1 : MLNX_OFED_LINUX-1.5.3-3.1.0 (OFED-1.5.3-3.1.0):

Установка прошла успешно, и openibd загрузил все необходимые модули/драйверы. $ статус службы openibd

Драйвер HCA загружен

Настроенные устройства IPoIB: ib0 ib1

В настоящее время активные устройства IPoIB:

Загружаются следующие модули OFED:

rdma_ucm ib_srp rdma_cm ib_addr ib_ipoib mlx4_core mlx4_ib mlx4_en ib_mthca ib_uverbs ib_umad ib_ucm ib_sa ib_cm ib_mad ib_core iw_cxgb3 iw_nes

Вывод hca_self_test.ofed

---- Выполнение самотестирования устройства-адаптера ---- Количество обнаруженных ЦС ................. 1 Проверка устройства PCI ............ .......... PASS Kernel Arch ............................ x86_64 Версия хост-драйвера .... ................ MLNX_OFED_LINUX-1.5.3-3.1.0 (OFED-1.5.3-3.1.0): 2.6.32.12-0.7-по умолчанию Проверка RPM драйвера хоста .. ................ PASS Прошивка на ЦС №0 VPI .................. v2.10.700 Проверка микропрограммы на ЦС №0 (VPI) .......... НЕТ ПРИЧИНА: НЕТ требуемой версии встроенного ПО Инициализация хост-драйвера .......... PASS Количество активных портов CA ........ ...... 0 Состояние порта № 1 в CA № 0 (VPI)...... DOWN (InfiniBand) Состояние порта № 2 в CA № 0 (VPI)...... DOWN (InfiniBand ) Проверка счетчика ошибок в ЦС № 0 (VPI)...... PASS Проверка системного журнала ядра ....... PASS GUID узла в ЦС № 0 (VPI ) ............... 00:02:c9:03:00:f9:ed:e0 ------------------ ВЫПОЛНЕНО ---------------------

Вопрос 2: Теперь, когда я попробовал ibstatus или ibv_devinfo, я вижу статус порта как PORT_DOWN. Пока я читал в документах, что он должен быть в состоянии INIT. Мой вопрос в том, как мне перевести это в состояние INIT. $ ibv_devinfo

hca_id: mlx4_0 transport: InfiniBand (0) fw_ver: 2.10.700 node_guid: 0002:c903:00f9:ede0 sys_image_guid: 0002:c903:00f9:ede3 vendor_id: 0x02c9 vendor_part_id: 4099 hw_ver: 0x0 board_id: MT_1090120019 phys_port_cnt: 2 port: 1 состояние: PORT_DOWN (1) max_mtu: 2048 (4) active_mtu: 2048 (4) sm_lid: 0 port_lid: 0 port_lmc: 0x00 link_layer: IB

            port:   2
                    state:                  PORT_DOWN (1)
                    max_mtu:                2048 (4)
                    active_mtu:             2048 (4)
                    sm_lid:                 0
                    port_lid:               0
                    port_lmc:               0x00
                    link_layer:             IB

Когда я попробовал следующую команду, я получил ошибку:

$ ibportstate -G 0x0002c90300f9ede0 1 запрос/включение/отключение ibwarn: [9318] mad_rpc_open_port: невозможно открыть порт UMAD ((null):0) ibportstate: iberror: failed: не удалось открыть '(null)' порт '0'

Вопрос 3: Не понял, почему я получил эту ошибку или как от нее избавиться. Любая помощь будет очень признательна.

Пожалуйста, дайте мне знать, если вам нужна дополнительная информация.

Спасибо


person Smash    schedule 17.09.2012    source источник
comment
Старый вопрос, но на всякий случай, если кому-то не все равно... Вы делаете это как root? Попытка запросить или установить статус infiniband из учетной записи обычного пользователя приведет к ошибке «Не удается открыть порт UMAD».   -  person rmalouf    schedule 12.12.2014


Ответы (1)


Состояние порта в ibv_devinfo будет отключено до тех пор, пока вы не подключите этот узел к другому узлу или коммутатору InfiniBand с помощью кабеля InfiniBand. Судя по модулям, вы установили все необходимое, просто не хватает еще одного узла для связи. Как только вы подключите его к другому узлу, вы сможете увидеть изменение состояния на PORT_INIT, скорость соединения и т. д.

person dhavale    schedule 12.10.2012