Вопросы по теме 'xml2'

Ошибка разбора дампа википедии с помощью R
В исследовательских целях я хотел бы проанализировать некоторые дампы из французской Википедии. Вот выдержка из файла XML, который я хочу разобрать: <mediawiki xmlns="http://www.mediawiki.org/xml/export-0.10/"...
367 просмотров
schedule 07.12.2022

Веб-скрапинг в R атрибута, содержащего подстроку
Я использую пакет xml2 в R для очистки данных с веб-страницы. Текст, который я хочу очистить, заключен в теги, показанные ниже: <td> <a href="javascript:WebForm_DoPostBackWithOptions(new...
1676 просмотров
schedule 16.07.2023

R: Как лучше всего извлечь два атрибута XML из узла?
Следующий код извлекает один атрибут (или все) из XML-файла: library(xml2);library(magrittr);library(readr);library(tibble);library(knitr)...
1022 просмотров
schedule 21.06.2023

Почему xpath снова находит исключенные узлы?
Рассмотрим эту страницу: <n1 class="a"> 1 </n1> <n1 class="b"> <b>bold</b> 2 </n1> Если я сначала выберу первый n1 с помощью class="a" , я должен исключить второй n1 , и это действительно выглядит...
117 просмотров
schedule 06.11.2022

Получить xll xpaths в R с помощью xml2
В xml2 можно получить xpath данного узла, используя: xml_path Интересно, как быстрее всего извлечь все пути xpath из данного документа. Т.е. Я хочу найти конечные узлы, а затем выполнить итерацию вверх. По сути, я пытаюсь добиться этого:...
191 просмотров
schedule 07.05.2022

xml2 - более эффективно получать информацию от родительских узлов
у меня есть xml, который выглядит так: ... <node id=1> <child>a</child> <child>b</child> <child>c</child> </node> <node id=2> <child>d</child> <child>e</child>...
334 просмотров
schedule 11.05.2022

Заполнение веб-форм и получение ответов с помощью R?
Итак, вот текущая ситуация: У меня более 2000 строк кода R, который создает пару десятков текстовых файлов. Этот код выполняется менее чем за 10 секунд. Затем я вручную вставляю каждый из этих текстовых файлов на веб-сайт, жду ~ 1 минуту...
124 просмотров
schedule 28.01.2023

Чтение XML-файлов в R зацикливается на сбоях
У меня есть код, который перебирает список файлов xml и обрабатывает их. Когда я выполняю код для одного xml, результат является ожидаемым. Но когда я запускаю цикл, в разных файлах возникают непредвиденные ошибки. Файл ошибки изменяется на каждой...
121 просмотров
schedule 16.01.2024

base::url читает веб-страницу, но xml2::read_html выдает ошибку 404
Я столкнулся с очень странной проблемой при использовании rvest . Это один из примеров: https://politics.raisethemoney.com/cchristiansen . Эти страницы нормально открываются в любом веб-браузере и могут быть открыты base::url . A connection...
94 просмотров
schedule 10.07.2022

Преобразование кадра данных в XML
Я пытаюсь преобразовать фрейм данных в xml. Это около 600 тыс. записей. Я использую пакет XML: library(XML) con <- xmlOutputDOM("mydata") for(i in seq(nrow(mydata))){ con$addTag("person", attrs = mydata[i,]) } Приведенный выше код...
378 просмотров
schedule 24.03.2023

Как выполнить итерацию до последней страницы веб-сайта и записать данные строка за строкой в ​​файл .csv?
Я пытаюсь очистить некоторые действительно объявления о вакансиях для личных вещей (код ниже), однако в настоящее время мне нужно дойти до последней страницы, чтобы узнать, каков ее "индекс" или номер страницы, тогда я могу перейти от первого к...
49 просмотров
schedule 30.04.2022

Преобразовать список xml_node в xml_document
У меня есть список элементов xml_node ( nodes_list в приведенном ниже репрексе), которые я хотел бы объединить в один xml_document с корневым узлом ( bookstore_doc в приведенном ниже репрексе). Мое текущее решение состоит в том, чтобы создать...
68 просмотров
schedule 26.12.2022

Как преобразовать XML-файл в фрейм данных / тиббл в R?
Как преобразовать XML-файл, который выглядит так: <bible> <b n="Psalm"> <c n="1"> <v n="1"> text text text text </v> <v n="2"> text text text text...
54 просмотров
schedule 24.04.2022

Самый эффективный способ извлечения данных из больших файлов XML в R
У меня есть несколько больших (~ 10 ГБ и растет каждую неделю), которые мне нужно преобразовать из XML в фреймворк в R для анализа. Структура XML следующая (с несколькими записями и несколькими дополнительными элементами полей на запись):...
118 просмотров
schedule 01.03.2022