Вопросы по теме 'scrape'

Застрял при выборе классов или идентификаторов с помощью PHP Simple HTML DOM Parser
Я пытаюсь выбрать либо класс, либо идентификатор, используя PHP Simple HTML DOM Parser, но безуспешно. Мой пример очень прост и, кажется, соответствует примерам, приведенным в руководстве ( http://simplehtmldom.sourceforge.net/manual.htm ), но это...
3956 просмотров
schedule 04.03.2023

Как удалить информацию с веб-сайтов ASP.NET при использовании ссылок на страницы и JavaScript?
Мне дали список сотрудников, который должен быть актуальным, но он не соответствует поисковику людей в интрасети, написанному на ASP.NET. Поскольку информация является конфиденциальной, я не могу получить доступ к базе данных, которую использует...
4700 просмотров
schedule 07.06.2023

Извлечение значений из заголовка HTML и сохранение в виде файла CSV в Python
Все, Я только начал использовать Python (v 2.7.1), и одна из моих первых программ пытается собрать информацию с веб-сайта, содержащего данные электростанции, используя стандартную библиотеку и BeautifulSoup для обработки элементов HTML. Данные,...
1630 просмотров
schedule 01.10.2022

очистить HTML-код родительской страницы из iframe
У меня есть iframe, который используется для создания PDF-файла с его родительской страницы. Создателю PDF (ABCpdf) требуется файл HTML, который затем преобразуется. В настоящее время я очищаю HTML-код родителя, используя: var temp;...
886 просмотров
schedule 07.02.2023

Скрапинг не html-сайтов с помощью R?
Собирать данные из html-таблиц с html-сайтов — это круто и просто. Однако как я могу выполнить эту задачу, если веб-сайт написан не в формате html и требует, чтобы браузер отображал соответствующую информацию, например. если это веб-сайт asp или...
2009 просмотров
schedule 09.01.2023

Возникла проблема при попытке извлечь ссылки из htmlnode с помощью htmlagiliypack.
Это продолжение моего предыдущего вопроса. Я получил отличный код анализа ссылок отсюда . Итак, у меня есть html следующего вида: <html> <head> RANDOM JAVASCRIPT AND CSS AHHHHHH!!!!!!!! </head>...
142 просмотров
schedule 11.10.2022

Использование простого HTML DOM для очистки?
Простой HTML DOM — это, по сути, php, который вы добавляете на свои страницы, что позволяет вам выполнять простой веб-скрейпинг. По большей части это хорошо, но я не могу разобраться в руководстве, так как я не большой программист. Есть ли...
1931 просмотров
schedule 18.02.2022

Очистка XML с помощью JSoup
Я пытаюсь очистить RSS-канал, расположенный здесь . На данный момент я просто пытаюсь понять JSoup, поэтому следующий код является просто доказательством концепции (или, по крайней мере, попыткой ее реализации). public static void...
2455 просмотров
schedule 19.04.2022

Необходимо очистить содержимое веб-сайта, для которого требуется установить файл cookie «Я согласен».
Из всего, что я читал, кажется, что это невозможно. Но вот мой сценарий: Мне нужно очистить содержимое таблицы, содержащей информацию о продаваемом жилье. Страница не защищена паролем или чем-то еще, но сначала вам нужно щелкнуть ссылку «Я...
594 просмотров
schedule 14.12.2023

Как получить сумму значений узлов в XQuery?
В приведенном ниже xml есть два типа информации, связанной с деталями и заказами. XML: <mo> <parts> <part pno="10506"> <pname>Land Before Time I</pname>...
9910 просмотров
schedule 03.07.2022

Соскоб данных URI изображения
Я хотел бы очистить изображения с веб-страницы, проблема в том, что изображения включены в исходный код как URI данных. Как сохранить их в файл? (Мне нужно получить доступ к изображениям URI только из определенных очищенных кодов URI данных)
727 просмотров
schedule 09.12.2022

Логика обновления уже очищенной цены в базе данных
Я использую платформу scrapy для очистки имени, цены и спецификации мобильных телефонов с различных веб-сайтов. Я успешно очистил все данные и сохранил их в базе данных MySQL. Идентификатор структуры таблицы || Product_URL || Имя || Цена ||...
782 просмотров
schedule 17.08.2022

Как очистить несколько странный URL-адрес с помощью Scrapy
Итак, в основном я хочу использовать Scrapy.org, чтобы очистить форум. Проблема, с которой я сталкиваюсь, заключается в том, что ссылки на каждый поток находятся примерно в этой строке http://mywebsite.com/forum/My-Thread-Name-t213.html Теперь,...
153 просмотров
schedule 28.03.2022

Удалить теги HTML из вывода
Я новичок в python, и у меня возникают проблемы с удалением html-тегов из вывода. Я хотел бы удалить теги и содержимое внутри них. Я также хотел бы удалить теги p. Какие-либо предложения? import urllib2 from bs4 import BeautifulSoup # Ask user...
313 просмотров
schedule 15.06.2023

Попытка загрузить данные Google Trends с нескольких местоположений
Я пытаюсь автоматизировать загрузку CSV-файлов Google Trends из следующих запросов: http://www.google.com/trends/explore#q=%22volunteer%22%20%2B%22volunteer%201%22&geo=US-MO-604%2C%20US-MO-619&cmpt=geo То есть я хочу найти термин в нескольких...
1270 просмотров
schedule 18.03.2022

страница очистки curl, не отображающая записи поиска (нет проблем с js/cookie)
Я пытаюсь очистить веб-сайт, используя curl и php. Теперь мне нужно войти, это не проблема. Я вхожу в систему, используя файлы cookie, а затем перехожу к списку продуктов. Эти продукты просто печатаются с помощью php на их сайте. Так что не с...
280 просмотров
schedule 13.04.2024

Очистите URL-адрес для данных, загруженных с помощью Javascript, используя Ruby
Я пытаюсь очистить эту страницу для поиска списков с помощью скрипта Ruby. Некоторые из методов, которые я безуспешно пробовал, используют Nokogiri и Mechanize, однако браузер загружает только 14 списков, остальные загружаются через то, что, как я...
564 просмотров
schedule 13.02.2024

Используйте rvest, чтобы очистить все p после h? (или другой пакет R)
Я новичок в мире парсинга HTML, и мне трудно вытаскивать абзацы под определенными заголовками, используя rvest в R. Я хочу собрать информацию с нескольких сайтов, у которых все примерно одинаковы. Все они имеют одинаковые заголовки, но количество...
2358 просмотров
schedule 05.06.2022

Как очистить динамические веб-страницы с помощью Python
[Что я пытаюсь сделать] Найдите на указанной ниже веб-странице данные об использованных автомобилях. http://www.goo-net.com/php/search/summary.php?price_range=&pref_c=08,09,10,11,12,13,14&easysearch_flg=1 [Проблема] Чтобы очистить...
2662 просмотров

Веб-сайт очистки Java с обязательным входом в систему с использованием Jsoup
Я хочу распечатать некоторые данные (div с class="news_article") с streetinsider.com. Я создал учетную запись, и мне нужно войти в систему, чтобы получить доступ к этим данным. Может ли кто-нибудь объяснить мне, почему этот код не работает? Я...
1208 просмотров
schedule 23.11.2023