ответ транскрипции google-speech API повторяется несколько раз

Я использую последнюю библиотеку python для google-cloud-speech (0.35.0) и получаю следующие результаты: слова из первого результата транскрипции повторяются во втором результате транскрипции и так далее до конца. В предыдущей версии (0.34.0) такого не было.

Обратитесь к исходному коду.

Исходный код:

config = speech.types.RecognitionConfig(
            encoding=enums.RecognitionConfig.AudioEncoding.FLAC,
            sample_rate_hertz=48000,
            language_code='en-US',
            alternative_language_codes={'en-IN'},
            # max_alternatives=10,
            profanity_filter=True,
            enable_word_time_offsets=True,
            enable_word_confidence=True,
            enable_automatic_punctuation=True,
            enable_speaker_diarization=True,
            diarization_speaker_count=5,
            #model="video",
            use_enhanced=True)

Результат:

results {
    alternatives {
        transcript: "start"
        confidence: 0.632519185543
        words {
            start_time {}
            end_time {
                seconds: 5
                nanos: 900000000
            }
            word: "start"
            confidence: 0.655210196972
            speaker_tag: 1
        }
    }
}

.....
.....
.....

results {
    alternatives {
        transcript: "end"
        confidence: 0.632519185543
        words {
            start_time {}
            end_time {
                seconds: 5
                nanos: 900000000
            }
            word: "start"
            confidence: 0.655210196972
            speaker_tag: 1
        }
        words {
            start_time {
                seconds: 129
                nanos: 300000000
            }
            end_time {
                seconds: 130
                nanos: 400000000
            }
            word: "end"
            confidence: 0.624447464943
            speaker_tag: 1
        }

    }
}

Вопросы:

  1. Почему я получаю несколько результатов в ответе?
  2. В чем причина повторения слов во всех наборах результатов? Раньше каждый набор результатов содержал только слова, произнесенные в течение этого периода времени.

person Pez    schedule 25.07.2018    source источник
comment
Можете ли вы включить часть кода, которая печатает результат ответа?   -  person Yurci    schedule 12.09.2018


Ответы (1)


Похоже, Google отмечает что-то подобное в своей документации.

Примечание. Когда это верно, мы отправляем все слова с начала аудио для верхней альтернативы во всех последовательных ответах. Это сделано для того, чтобы улучшить наши теги говорящих, поскольку наши модели со временем учатся идентифицировать говорящих в разговоре.

https://cloud.google.com/speech-to-text/docs/reference/rpc/google.cloud.speech.v1p1beta1#google.cloud.speech.v1p1beta1.RecognitionConfig

person MScottWaller    schedule 09.01.2019