В коде Linux Chrome, таком как следующий
speak('<?xml version="1.0"?><speak>Intro <break time="200ms"/>the rest.</speak>');
имеет механизм TTS, считывающий материал xml. В браузерах Android это понимает и вводит перерыв.
Я не хочу нюхать браузер, но не вижу, какой тест я должен использовать, чтобы воспользоваться преимуществами SSML там, где он понятен, и предложить что-то более простое там, где это не так.