Вопросы по теме 'word-frequency'

Написание букмарклета, который подсчитывает частоту слов
Я хочу создать букмарклет, который подсчитывает весь текст на веб-странице, а затем отображает результаты от большинства до наименьшего в абсолютно позиционированном div. Каждый поиск в Google, который я делал, говорит о подсчете общего количества...
900 просмотров
schedule 05.11.2022

Расчет частоты слов для текстового файла объемом 1 ГБ в Python
Я пытаюсь рассчитать частоту слов для текстового файла размером 1,2 ГБ, который составляет около 203 миллионов слов. Я использую следующий код Python. Но это дает мне ошибку памяти. Есть ли какое-нибудь решение для этого? Вот мой код: import...
3805 просмотров
schedule 14.02.2024

Как мне написать этот код C с использованием Unicode?
У меня был аналогичный вопрос о том, какой язык лучше всего подходит для этой задачи, и Perl был ответом. Но мне все еще любопытно, как решить эту проблему с помощью C. Я хочу дать этой программе большой текстовый файл, заполненный образцами...
369 просмотров
schedule 24.04.2023

список частот слов с использованием R
Я использую пакет tm для анализа текста. Моя проблема заключается в создании списка слов и их частоты, связанных с одним и тем же library(tm) library(RWeka) txt <- read.csv("HW.csv",header=T) df <- do.call("rbind", lapply(txt,...
52206 просмотров

Как сортировать слова по их частоте
Я беру входной текстовый файл, преобразовываю его в массив, сортирую массив и затем получаю частоты каждого слова. Я не могу понять, как сортировать их по частоте, от самой высокой до самой низкой, без импорта множества вещей (что я и пытаюсь...
5019 просмотров
schedule 29.12.2022

Частота слов по словарю
Моя проблема в том, что я не могу понять, как отображать количество слов с помощью словаря и ссылаться на длину ключей. Например, рассмотрим следующий фрагмент текста: "This is the sample text to get an idea!. " Тогда требуемый вывод...
2933 просмотров

R: найти наиболее часто встречающуюся группу слов в корпусе
Есть ли простой способ, как найти не только наиболее часто встречающиеся термины, но и выражения (то есть более одного слова, группы слов) в текстовом корпусе в R? Используя пакет tm, я могу найти такие наиболее часто встречающиеся термины: tdm...
8545 просмотров
schedule 25.03.2023

Эффективный подсчет частоты слов в python для крупномасштабной обработки на одной машине
У меня есть огромный текстовый файл со строковым содержимым. Мой вариант использования - идентифицировать слова и их соответствующий счет. В python обычным способом добиться этого является использование словаря и отслеживание слов и их...
1227 просмотров
schedule 08.03.2023

Слова, отсортированные по частоте, в книге (файл .txt)
Я использую: from collections import Counter wordlist = open('mybook.txt','r').read().split() c = Counter(wordlist) print c # result : # Counter({'the': 9530, 'to': 5004, 'a': 4203, 'and': 4202, 'was': 4197, 'of': 3912, 'I': 2852, 'that': 2574,...
360 просмотров
schedule 13.04.2023

Pyspark, выполняет подсчет слов в RDD, состоящем из массивов строк.
У меня есть огромный текстовый файл статей в Википедии, каждая строка файла - это одна статья. Я пытаюсь создать RDD, который будет состоять из массивов строк, каждый массив будет представлять строку текстового файла (полную статью), тогда я хочу...
6217 просмотров

Сортированная двусторонняя табуляция многих значений
У меня есть набор данных приличного размера (около 18 000 строк). У меня есть две переменные, которые я хочу свести в таблицу: одна принимает много строковых значений, а вторая принимает только 4 значения. Я хочу свести в таблицу строковые значения...
204 просмотров
schedule 06.10.2022

Программа частоты слов - входной файл слишком большой?
Я все еще работаю над проблемой, упомянутой в этом сообщении: Sorting вектор строк с начальными числами Исходная проблема заключается в следующем: Напишите полную программу на C++, которая выводит k наиболее часто используемых слов в файле...
652 просмотров

R — исправить сортировку при использовании anti_join для удаления стоп-слов (создание нграмм)
Очень плохо знаком с R и кодированием и пытаюсь провести частотный анализ длинного списка предложений и их заданного веса. Я удалил вложенные и видоизмененные данные, но когда я пытаюсь удалить стоп-слова, порядок сортировки слов в каждом предложении...
611 просмотров
schedule 22.07.2023

Подсчет количества вхождений строки внутри строки
Вот моя попытка этого метода. Подсчитайте количество совпадений непустой подстроки sub в строке str E.g. numOccurances("dogmonkeydog","собака") вернет 2 numOccurances("dogmonkeydog","mon") вернет 1...
132 просмотров
schedule 29.11.2022

Как сравнить частоты слов из двух текстовых файлов?
Как сравнить частоты слов из двух текстовых файлов в python? Например, если слово содержится и в файле1, и в файле2, то оно должно быть записано только один раз, но без прибавления частот при сравнении, оно должно быть {'The': 3,5}. Здесь 3 —...
1816 просмотров

Есть ли подстановочный знак MS Word для частоты?
Я учусь использовать подстановочные знаки и коды Microsoft Word, чтобы помочь мне в моей должности медицинского редактора. Большая часть моей работы заключается в отправке рукописей в медицинские журналы для рецензирования, и каждый журнал...
74 просмотров

Создание словаря с процентным содержанием слов в порядке убывания
Я создал словарь, показывающий частоты слов как значения. Прежде всего мне нужно преобразовать эти частоты в проценты. Общее количество слов - 150482. Во-вторых, мне нужно расположить этот словарь в порядке убывания (на основе значений, которые...
142 просмотров
schedule 10.03.2022

База данных частотности слов со смыслами
Я ищу загружаемую базу данных частот / вероятностей слов, включая их значения. В идеале, если бы он был отображен с помощью WordNet. В списке некоторые слова будут перечислены несколько раз, если они имеют несколько значений, например частота для...
27 просмотров
schedule 23.02.2022