Я пытаюсь извлечь html-ссылки из набора данных. Я использую strsplit, а затем grep, чтобы найти подстроку со ссылками, но в результате есть нежелательные символы либо в начале, либо в конце строки.... Как я могу извлечь только строку с желаемым шаблоном или сохранить строку с желаемый узор
Он то, чем я сейчас занимаюсь.
1) Я разделил фрагмент текста, используя strplit и " " (пробел) в качестве разделителя
2) Затем я получаю результат strsplit, чтобы найти шаблон
например grep("https:\/\/support.google.com\/blogger\/topic\/[0-9]",r)
3) И несколько вариантов результата показаны ниже....
https://support.google.com/blogger/topic/12457
https://support.google.com/blogger/topic/12457.
[https://support.google.com/blogger/topic/12457]
<<https://support.google.com/blogger/topic/12457>>
https://support.google.com/blogger/topic/12457,
https://support.google.com/blogger/topic/12457),
xxxxxxhttps://support.google.com/blogger/topic/12457),hhhththta
etc...
Как я могу просто извлечь "https://support.google.com/blogger/topic/12457" или после извлечения грязных данных, как я могу удалить ненужные знаки препинания
Спасибо заранее.
gsub(".*(http.*\\d).*", "\\1", x)
, если все они заканчиваются цифрой - person Rich Scriven   schedule 26.11.2014