Привет, я использую шаг HTTP Client
, чтобы получить исходный код веб-сайта. Мне нужно соскрести определенную часть одной строки.
пример строки: <a href="....." ......>TEXT I WANT</a>
поэтому я решил использовать UDJC в PDI и сначала разделить текстовый блок на строки с String[] lines = code.split("\n+");
, а затем перебрать массив и с условием if (т.е. проверкой регулярного выражения) посмотреть, есть ли у меня правильная строка.
for(String line : lines){
if line.matches(".*a href.*"){
String outputString = code;
break;
}
}
(Я пробую это также в IDE как чистую java без PDI), однако, у меня никогда не получалось. Есть идеи, как это исправить? Или есть более быстрый и простой способ получить желаемый кусок?
<a>
можно каким-либо образом идентифицировать, я бы предложил выполнить синтаксический анализ как XML и использовать XPath для его поиска. - person Ian McLaird   schedule 28.08.2014