Как сопоставить продукты из названий из разных источников электронной коммерции? извлекать атрибуты продуктов

Это мой второй вопрос, так что извините, если какие-то ошибки.

Моя основная цель — собрать данные с разных сайтов электронной коммерции, а затем сравнить данные между ними. Для этого мне нужно сопоставить один и тот же товар с разных сайтов. Поскольку разные сайты пишут заголовок по-разному, мне нужно извлечь атрибут продукта из заголовка, чтобы он соответствовал правильно. Я собрал данные с помощью scrapy, но не могу сопоставить один и тот же продукт с разных сайтов.

Моя попытка:

Сначала я собирал бренды, модели и т. д., а затем сопоставлял их по названиям обычным способом. Но это не работает, так как невозможно собрать все названия моделей для сравнения. Кроме того, атрибуты продуктов разных категорий разные, а не похожие. Я пытаюсь найти решение, которое будет работать со всеми видами продуктов. Который может изучать и идентифицировать бренды, модели, атрибуты (RAM, Inch, ROM, Camera и т. д.)

Я также пытался применить машинное обучение, но не понимал, какой подход подойдет мне. Большинство подходов к классификации текста классифицируют категории, а не извлекают атрибуты.

Я также читал MALLET. но не уверен, что это решит мою проблему. Также попробовал scikit-learn этот учебник.

Примеры названий товаров с разных сайтов. Самсунг Галакси С9 Плюс

Samsung Galaxy S9 Plus с бесплатным беспроводным зарядным устройством и 5 ГБ данных Banglalink — pickaboo
SAMSUNG GALAXY S9 PLUS —
Samsung Galaxy S9+ — мобильныйдокан
Samsung Galaxy S9 Plus — Смартфон — 6,2 дюйма — 6 ГБ ОЗУ — 64 ГБ ПЗУ — Камера 12 Мп — Сиреневый Фиолетовый — дараз

Пожалуйста, поделитесь, как я могу решить эту проблему, какой путь является лучшим. и, если возможно, поделитесь ссылками или ресурсами схожей цели.

Mehedi Hasan 05.06.2018 источник

comment

у вас был какой-нибудь успех с этим? - Rnj 04.11.2020

comment

Нет, к сожалению - Mehedi Hasan 05.03.2021

Ответы (1)

arrow_upward
1
arrow_downward

Используйте библиотеку предложение2vec или word2vec, чтобы преобразовать тексты в векторы. После этого используйте косинусное сходство между векторами.

сохраняйте некоторое пороговое значение сходства, иначе векторы с максимальными значениями сходства будут согласованными продуктами.

Вот так можно их сравнивать.

Community 05.06.2018

comment

Спасибо @Kallol. Я попробую это и сообщу вам результат. - Mehedi Hasan; 05.06.2018

Как сопоставить продукты из названий из разных источников электронной коммерции? извлекать атрибуты продуктов

Ответы (1)

Похожие вопросы