сокет не блокируется при операции записи: OpenSolaris

У меня есть модульный тест, который проверяет поведение на блокирующих и неблокирующих сокетах — сервер пишет длинный ответ, и в какой-то момент он больше не может писать и блокируется при записи.

Обычно одна сторона пишет, а другая не читает.

Под Solaris в какой-то момент я получаю ошибку «Недостаточно места» (после записи 75 МБ) вместо блокировки при записи:

Программа, воспроизводящая проблему:

#include <sys/types.h>
#include <sys/socket.h>
#include <sys/wait.h>
#include <unistd.h>
#include <stdlib.h>
#include <stdio.h>
#include <errno.h>
#include <string.h>
#include <signal.h>
#include <arpa/inet.h>
#include <sys/socket.h>
#include <sys/un.h>
#include <netinet/in.h>

char const *address = "127.0.0.1";
#define check(x) do { if( (x) < 0) { perror(#x) ; exit(1); } } while(0)

int main()
{
    signal(SIGPIPE,SIG_IGN);
    struct sockaddr_in inaddr = {};
    inaddr.sin_family = AF_INET;
    inaddr.sin_addr.s_addr = inet_addr(address);
    inaddr.sin_port = htons(8080);

    int res = fork();
    if(res < 0) {
        perror("fork");
        exit(1);
    }
    if(res > 0) {
        int fd = -1;
        int status;
        sleep(1);   
        check(fd = socket(AF_INET,SOCK_STREAM,0));
        check(connect(fd,(sockaddr*)&inaddr,sizeof(inaddr)));
        sleep(5);
        close(fd);

        wait(&status);
        return 0;
    }
    else {
        int acc,fd;
        check(acc = socket(AF_INET,SOCK_STREAM,0));
        int yes = 1;
        check(setsockopt(acc,SOL_SOCKET,SO_REUSEADDR,&yes,sizeof(yes)));
        check(bind(acc,(sockaddr*)&inaddr,sizeof(inaddr)));
        check(listen(acc,10));
        check(fd = accept(acc,0,0));

        char buf[1000];
        long long total= 0;
        do {
            int r = send(fd,buf,sizeof(buf),0);
            if(r < 0) {
                printf("write %s\n",strerror(errno));
                return 0;
            }
            else if(r==0) {
                printf("Got eof\n");
                return 0;
            }
            total += r;
            if(total > 100*1024*1024) {
                printf("Too much!!!!\n");
                return 0;
            }
            printf("%lld\n",total);
        }while(1);
    }
    return 0;
}

Вывод на Solaris (последние две строки)

75768000
write Not enough space

Ожидаемый результат в Linux (последние две строки)

271760
write Connection reset by peer

Что происходит только тогда, когда другая сторона закрывает сокет.

Любые идеи, почему и как я могу это исправить, какие параметры установить?

P.S.: OpenSolaris 2009.06, x86

Правки

  • Добавлен полный код C, который воспроизводит проблему

Ответ:

Это похоже на ошибку в конкретной версии ядра Solaris, библиотеки libc.


person Artyom    schedule 27.08.2011    source источник
comment
Вы уверены, что send не возвращает частичное завершение? его нет в вашем примере кода.   -  person bazsi77    schedule 27.08.2011
comment
@bazsi77 Частичное завершение, во-первых, нормально, а во-вторых, не всегда удается написать полные фрагменты.   -  person Artyom    schedule 27.08.2011
comment
Я знаю, что все в порядке, мне просто интересно, правильно ли код обработал этот случай. Но тогда, если вы можете отправить столько данных, они должны где-то храниться. В Linux netstat может отображать буферизованную сумму. Кроме того, использование системной памяти должно увеличиться. Если да, то это действительно похоже на ошибку в ядре, и в этом случае я бы отправил отчет об ошибке или попытался найти проблему в коде ядра OpenSolaris.   -  person bazsi77    schedule 27.08.2011
comment
@bazsi77 Код, который я предоставил, очень схематичен, внутри он делает гораздо больше.   -  person Artyom    schedule 27.08.2011
comment
Я проверил соответствующий код OpenSolaris, и, похоже, ядро ​​сделает сокет недоступным для записи только в том случае, если буфер отправки заполнен (SO_SNDBUF). Есть вероятность, что tcp_xmit_hiwat был настроен в вашей системе. Этот настраиваемый параметр ядра, по-видимому, управляет размером SO_SNDBUF по умолчанию. И если это значение экстремально, это потенциально может объяснить вашу проблему.   -  person bazsi77    schedule 28.08.2011
comment
@bazsi77 Я проверю эту опцию tcp_xmit_hiwat, также я пытался установить SO_SNDBUF на стороне отправителя и SO_RCVBUF на стороне читателя на небольшой размер, но это не дало никакого эффекта, я все еще мог записывать много мегабайт без блокировки.   -  person Artyom    schedule 28.08.2011
comment
Ну, тогда это должно быть ошибка в вашей конкретной версии. Я проверял код, доступный в CVS, другой парень, опубликовавший первый ответ, говорит, что не может его воспроизвести. Так что попробуйте с более новой версией. Такое поведение явно ошибочно.   -  person bazsi77    schedule 28.08.2011


Ответы (2)


Боюсь, из исходного кода OpenSolaris опция SO_SNDTIMEO не поддерживается: https://hg.java.net/hg/solaris~on-src/file/tip/usr/src/uts/common/inet/sockmods/socksctp.c#l1233

person jlliagre    schedule 27.08.2011
comment
странно, потому что setsockopt завершается успешно, и в соответствии с кодом, который вы связали, он должен завершиться ошибкой. Также кажется, что он не поддерживается в getsockopt, а не в setsockopt. Кроме того, в асинхронном коде, который не использует этот параметр, он также дает сбой. - person Artyom; 27.08.2011
comment
setsockopt поддерживает SO_SNDTIMEO в том смысле, что он принимает любое переданное значение, но ничего с ним не делает. Я только что проверил ваш обновленный код на Solaris 11 Express, и процесс записи блокируется при записи после 140 КБ. Наконец, он получил ошибку сломанного канала (но вы ее игнорируете) после закрытия сокета процессом прослушивания и завершения следующей записи. - person jlliagre; 28.08.2011
comment
в приведенном выше примере я вообще не использую SO_SNDTIMEO. Кстати, я не игнорирую сломанную трубу, я блокирую ее, иначе процесс просто завершится. Я получаю ошибку на сокете. - person Artyom; 29.08.2011
comment
спасибо за эту информацию. Я думаю, мне придется обновить свой код... (это действительно нехорошо, что Solaris игнорирует эту опцию) - person Artyom; 29.08.2011
comment
Мне кажется, что вы игнорируете, а не блокируете сломанный канал в своем примере кода: signal(SIGPIPE,SIG_IGN); Блокировка подразумевает использование sigprocmask. - person jlliagre; 29.08.2011
comment
Я вижу, в любом случае это делает работу. В любом случае я не хочу, чтобы сигнал доставлялся, а скорее сообщался о сокете. - person Artyom; 29.08.2011
comment
Принять это как тот факт, что SO_SNDTIMEO не поддерживается, было действительно полезно. - person Artyom; 30.08.2011

Если вы хотите заблокировать, если нет свободного места, вам нужно написать код для этого. В POSIX совершенно ясно, что write в сокете эквивалентно send без параметров, и что send "может завершиться ошибкой, если... [i]недостаточно ресурсов в системе для выполнения операции."

person David Schwartz    schedule 14.05.2013