Как сопоставить продукты из названий из разных источников электронной коммерции? извлекать атрибуты продуктов

Это мой второй вопрос, так что извините, если какие-то ошибки.

Моя основная цель — собрать данные с разных сайтов электронной коммерции, а затем сравнить данные между ними. Для этого мне нужно сопоставить один и тот же товар с разных сайтов. Поскольку разные сайты пишут заголовок по-разному, мне нужно извлечь атрибут продукта из заголовка, чтобы он соответствовал правильно. Я собрал данные с помощью scrapy, но не могу сопоставить один и тот же продукт с разных сайтов.

Моя попытка:

Сначала я собирал бренды, модели и т. д., а затем сопоставлял их по названиям обычным способом. Но это не работает, так как невозможно собрать все названия моделей для сравнения. Кроме того, атрибуты продуктов разных категорий разные, а не похожие. Я пытаюсь найти решение, которое будет работать со всеми видами продуктов. Который может изучать и идентифицировать бренды, модели, атрибуты (RAM, Inch, ROM, Camera и т. д.)

Я также пытался применить машинное обучение, но не понимал, какой подход подойдет мне. Большинство подходов к классификации текста классифицируют категории, а не извлекают атрибуты.

Я также читал MALLET. но не уверен, что это решит мою проблему. Также попробовал scikit-learn этот учебник.

Примеры названий товаров с разных сайтов. Самсунг Галакси С9 Плюс

  • Samsung Galaxy S9 Plus с бесплатным беспроводным зарядным устройством и 5 ГБ данных Banglalink — pickaboo
  • SAMSUNG GALAXY S9 PLUS —
  • Samsung Galaxy S9+ — мобильныйдокан
  • Samsung Galaxy S9 Plus — Смартфон — 6,2 дюйма — 6 ГБ ОЗУ — 64 ГБ ПЗУ — Камера 12 Мп — Сиреневый Фиолетовый — дараз

Пожалуйста, поделитесь, как я могу решить эту проблему, какой путь является лучшим. и, если возможно, поделитесь ссылками или ресурсами схожей цели.


person Mehedi Hasan    schedule 05.06.2018    source источник
comment
у вас был какой-нибудь успех с этим?   -  person Rnj    schedule 04.11.2020
comment
Нет, к сожалению   -  person Mehedi Hasan    schedule 05.03.2021


Ответы (1)


Используйте библиотеку предложение2vec или word2vec, чтобы преобразовать тексты в векторы. После этого используйте косинусное сходство между векторами.

сохраняйте некоторое пороговое значение сходства, иначе векторы с максимальными значениями сходства будут согласованными продуктами.

Вот так можно их сравнивать.

person Community    schedule 05.06.2018
comment
Спасибо @Kallol. Я попробую это и сообщу вам результат. - person Mehedi Hasan; 05.06.2018