Это мой второй вопрос, так что извините, если какие-то ошибки.
Моя основная цель — собрать данные с разных сайтов электронной коммерции, а затем сравнить данные между ними. Для этого мне нужно сопоставить один и тот же товар с разных сайтов. Поскольку разные сайты пишут заголовок по-разному, мне нужно извлечь атрибут продукта из заголовка, чтобы он соответствовал правильно. Я собрал данные с помощью scrapy, но не могу сопоставить один и тот же продукт с разных сайтов.
Моя попытка:
Сначала я собирал бренды, модели и т. д., а затем сопоставлял их по названиям обычным способом. Но это не работает, так как невозможно собрать все названия моделей для сравнения. Кроме того, атрибуты продуктов разных категорий разные, а не похожие. Я пытаюсь найти решение, которое будет работать со всеми видами продуктов. Который может изучать и идентифицировать бренды, модели, атрибуты (RAM, Inch, ROM, Camera и т. д.)
Я также пытался применить машинное обучение, но не понимал, какой подход подойдет мне. Большинство подходов к классификации текста классифицируют категории, а не извлекают атрибуты.
Я также читал MALLET. но не уверен, что это решит мою проблему. Также попробовал scikit-learn этот учебник.
Примеры названий товаров с разных сайтов. Самсунг Галакси С9 Плюс
- Samsung Galaxy S9 Plus с бесплатным беспроводным зарядным устройством и 5 ГБ данных Banglalink — pickaboo
- SAMSUNG GALAXY S9 PLUS —
- Samsung Galaxy S9+ — мобильныйдокан
- Samsung Galaxy S9 Plus — Смартфон — 6,2 дюйма — 6 ГБ ОЗУ — 64 ГБ ПЗУ — Камера 12 Мп — Сиреневый Фиолетовый — дараз
Пожалуйста, поделитесь, как я могу решить эту проблему, какой путь является лучшим. и, если возможно, поделитесь ссылками или ресурсами схожей цели.