Я хочу пропустить определенный повторяющийся контент с HTML-страницы, используя простой класс HTML dom. Допустим как вы видите по этой ссылке: http://www.gutenberg.org/wiki/Category:Agriculture_Bookshelf
Forestry
приходит 2 раза.
Один в верхней части называется SD Forestry
, а в нижней — только Forestry
. Таким образом, они оба имеют одинаковые ссылки с именем: /wiki/Forestry
, что создает для меня много проблем.
Теперь, когда я повторяю это в цикле foreach, используя: $subhtml->find('a[href^="/wiki/"]')
, он находит все эти ссылки со страницы и имеет такую ссылку, но я хочу, чтобы уникальные ссылки означали только без каких-либо повторений в них.
На той же странице найдите Horticulture
и Horticulture (Bookshelf)
, в них обоих есть одинаковые ссылки, например: /wiki/Horticulture_(Bookshelf)
. Но я хочу рассматривать их как один раз, чтобы функция или определенный фрагмент кода PHP пропускали повторяющуюся часть содержимого HTML.
Поэтому, когда функция find
запускается, она просто пропускает повторяющиеся и обрабатывает их как единичные.
Вот HTML-код:
<div id="content">
<div id="bodyContent">
<div id="contentSub"> </div>
<div id="mw-content-text" lang="en" dir="ltr" class="mw-content-ltr">
<p>LoC classification S <a href="/w/index.php?title=Agriculture&action=edit&redlink=1" class="new" title="Agriculture (page does not exist)">Agriculture</a> 32863 </p>
<ul>
<li> Conservation </li>
<li> SB <a href="/w/index.php?title=Plant_culture&action=edit&redlink=1" class="new" title="Plant culture (page does not exist)">Plant culture</a> </li>
<li> sb 300 <a href="/wiki/Horticulture_(Bookshelf)" title="Horticulture (Bookshelf)">Horticulture</a> </li>
<li> SD <a href="/wiki/Forestry" title="Forestry">Forestry</a> </li>
<li> SF <a href="/w/index.php?title=Animal_culture&action=edit&redlink=1" class="new" title="Animal culture (page does not exist)">Animal culture</a> </li>
<li> SF 600 <a href="/w/index.php?title=Veterinary_medicine&action=edit&redlink=1" class="new" title="Veterinary medicine (page does not exist)">Veterinary medicine</a> </li>
<li> SH <a href="/w/index.php?title=Aquaculture&action=edit&redlink=1" class="new" title="Aquaculture (page does not exist)">Aquaculture</a> </li>
<li> SK <a href="/w/index.php?title=Hunting_%26_fishing&action=edit&redlink=1" class="new" title="Hunting & fishing (page does not exist)">Hunting & fishing</a> </li>
</ul>
<div lang="en" dir="ltr">
<div id="mw-pages">
<h2> </h2>
<div lang="en" dir="ltr" class="mw-content-ltr">
<h3>F</h3>
<ul>
<li><a href="/wiki/Forestry" title="Forestry">Forestry</a></li>
</ul>
<h3>H</h3>
<ul>
<li><a href="/wiki/Horticulture_(Bookshelf)" title="Horticulture (Bookshelf)">Horticulture (Bookshelf)</a></li>
</ul>
</div>
</div>
</div>
</div>
</div>
</div>
Спасибо.