У меня есть html-файл с URL-адресами, разделенными тегами br
, например.
<a href="example.com/page1.html">Site1</a><br/>
<a href="example.com/page2.html">Site2</a><br/>
<a href="example.com/page3.html">Site3</a><br/>
Обратите внимание, что тег разрыва строки — <br/>
вместо <br />
. Scrapy может анализировать и извлекать первый URL-адрес, но не может извлечь что-либо после этого. Если перед косой чертой поставить пробел, то все работает. HTML-код искажен, но я видел эту ошибку на нескольких сайтах, и, поскольку браузер может отображать ее правильно, я надеюсь, что scrapy (или базовый lxml/libxml2/beautifulsoup) также правильно ее проанализирует.