У меня есть куча веб-документов, и я хочу удалить из них html-теги. Я видел несколько сообщений на StackOverflow о том, как это сделать в java, от регулярных выражений до HtmlCleaner и Jsoup.
Я заинтересован в том, чтобы найти самый быстрый способ сделать это. У меня миллионы документов, поэтому производительность в моем случае имеет решающее значение. Я даже могу обменять немного качества на производительность.
Спасибо за любые ответы заранее.