У меня почти 150 тысяч статей на турецком языке. Я буду использовать статьи для исследования обработки естественного языка. Я хочу хранить слова и их частоту в статье после обработки статей.
Я храню их в RDBS сейчас.
У меня есть 3 таблицы:
Статьи -> article_id, text
Words -> word_id, type, word
Words-Article -> id, word_id, article_id, частота (индекс для word_id, индекс для article_id )
я буду запрашивать
- ВСЕ слова в статье
- частота одного слова в статье
- Встречаемость слова во всех статьях и в каких статьях
У меня есть миллионы строк в таблице слов и статей. Я всегда работал с RDBS в этом проекте. начал с mysql и теперь использует оракул. Но я не хочу использовать оракул и хочу большей производительности, чем mysql.
Кроме того, я должен выполнять эту работу на машине с 4 ГБ оперативной памяти.
Просто, как сохранить матрицу терминов документа и сделать к ней какой-нибудь запрос? производительность необходима. могут ли «базы данных с ключом-значением» превзойти mysql по производительности? или что может побить mysql?
если ваш ответ зависит от языка программирования, я пишу код на python. Но C/C++, Java в порядке.