Я использую Google Refine для работы с запутанными описаниями продуктов, чтобы отформатировать их для загрузки в магазины Magento с использованием профилей Magmi / Dataflow. Я все еще использую Google Refine 2.5, так как это последняя стабильная версия.
Описания из таблиц поставщиков часто заполнены двоичными символами и беспорядочным HTML, которым мне нужно манипулировать и переформатировать в массовом порядке.
Я знаю, что могу использовать некоторую комбинацию GREL / Python / Jsoup для выполнения своей задачи, но у меня возникли проблемы с переводом синтаксиса на другой язык.
Мои данные выглядят следующим образом:
Some product data here. <ul><li>Bullet one <li> Bullet two</ul> <br /> Some other product data here. <span id="product-image><img src="image.png"></span>
Используя следующий фрагмент: value.parseHtml().select("img").toString()
Я могу анализировать нужные теги изображений, но не могу удалить / заменить эти теги с помощью функции replace()
в GREL. Я попытался добавить выражение в первую строку функции замены, например: value.replace(/value.parseHtml().select("img").toString()/, "")
и другие подобные функции, но безрезультатно.
Для моего текущего проекта мне нужно: 1) удалить все теги <img>, <div>, <p> and <span>
, а также 2) проанализировать и выделить ссылки на видео YouTube в отдельный столбец.
Может ли кто-нибудь помочь мне с синтаксисом / приготовить мне функцию для выполнения этой задачи (желательно с объяснением синтаксиса)?
<a href="http://www.youtube.com/watch?v=-AQFT4QWBEo" rel="prettyPhoto" shape="rect"><img alt=" src="http://sunlightsupply.s3.amazonaws.com/images/icon/product/WatchVideo.gif" complete="complete" /></a> <br /> <p style="text-align: center;"><strong>DESIGNED FOR HEATING/COOLING WITH OUTSIDE TEMPERATURES RANGING FROM 5<sup>°</sup> TO 105<sup>°</sup> F.<br /> </strong><strong>USE OF UNIT OUTSIDE OF THESE TEMPERATURE RANGES IS NOT RECOMMENDED.<br /> IMPROPER USAGE RELATING TO OUTSIDE TEMPERATURE IS NOT COVERED UNDER WARRANTY.</strong></p> <ul>
- person theslumberking   schedule 10.02.2015<sup>
, который я никогда раньше не видел, который также необходимо удалить. При необходимости я могу добавить ссылку на весь товар в формате .csv. Спасибо за помощь - person theslumberking   schedule 10.02.2015<sup>
являются действительными тегами HTML. Он используется для надстрочного текста (текста, который отображается в верхней части строки меньшими буквами). - person Axel   schedule 10.02.2015<>
, вместо того, чтобы пытаться удалить каждый из них по отдельности. - person Axel   schedule 10.02.2015