Мне нужно импортировать базу данных размером около 4 ТБ в Apache SOlr 8. База данных — это MySQL, и есть три таблицы, к которым я присоединяюсь, чтобы получить некоторую информацию из БД. Solr работает в облачном режиме. После настройки Solr DIH с помощью этого руководства я смог полностью импортировать данные в Солр. Моя первая путаница:
- Подходит ли DIH для таких очень больших данных?
- Есть ли лучший вариант для этого
Теперь я должен убедиться, что индекс Solr полностью синхронизирован с БД, и он должен охватывать следующие сценарии:
- Если добавляется новая запись, то только она должна быть проиндексирована в Solr.
- Если запись удаляется из БД, она также должна быть удалена из Solr.
- Если существующая запись обновляется, она также должна отображаться в SOlr.
Согласно моей ссылке, нет проблем с обработкой выше, если есть какой-то столбец со временем вставки, такой как информация в базе данных MySQL. Но в моем случае есть только первичные ключи и другие текстовые данные и т. д. Как я могу обслужить выше, требуется, чтобы какое-либо поле (отметка времени) не имело времени индексации в базе данных.
Примечание. Из-за некоторых ограничений невозможно добавить новый столбец в базу данных.