Вопросы по теме 'word-frequency'
Написание букмарклета, который подсчитывает частоту слов
Я хочу создать букмарклет, который подсчитывает весь текст на веб-странице, а затем отображает результаты от большинства до наименьшего в абсолютно позиционированном div.
Каждый поиск в Google, который я делал, говорит о подсчете общего количества...
900 просмотров
schedule
05.11.2022
Расчет частоты слов для текстового файла объемом 1 ГБ в Python
Я пытаюсь рассчитать частоту слов для текстового файла размером 1,2 ГБ, который составляет около 203 миллионов слов. Я использую следующий код Python. Но это дает мне ошибку памяти. Есть ли какое-нибудь решение для этого?
Вот мой код:
import...
3805 просмотров
schedule
14.02.2024
Как мне написать этот код C с использованием Unicode?
У меня был аналогичный вопрос о том, какой язык лучше всего подходит для этой задачи, и Perl был ответом. Но мне все еще любопытно, как решить эту проблему с помощью C.
Я хочу дать этой программе большой текстовый файл, заполненный образцами...
369 просмотров
schedule
24.04.2023
список частот слов с использованием R
Я использую пакет tm для анализа текста. Моя проблема заключается в создании списка слов и их частоты, связанных с одним и тем же
library(tm)
library(RWeka)
txt <- read.csv("HW.csv",header=T)
df <- do.call("rbind", lapply(txt,...
52206 просмотров
schedule
23.02.2023
Как сортировать слова по их частоте
Я беру входной текстовый файл, преобразовываю его в массив, сортирую массив и затем получаю частоты каждого слова. Я не могу понять, как сортировать их по частоте, от самой высокой до самой низкой, без импорта множества вещей (что я и пытаюсь...
5019 просмотров
schedule
29.12.2022
Частота слов по словарю
Моя проблема в том, что я не могу понять, как отображать количество слов с помощью словаря и ссылаться на длину ключей. Например, рассмотрим следующий фрагмент текста:
"This is the sample text to get an idea!. "
Тогда требуемый вывод...
2933 просмотров
schedule
23.03.2022
R: найти наиболее часто встречающуюся группу слов в корпусе
Есть ли простой способ, как найти не только наиболее часто встречающиеся термины, но и выражения (то есть более одного слова, группы слов) в текстовом корпусе в R?
Используя пакет tm, я могу найти такие наиболее часто встречающиеся термины:
tdm...
8545 просмотров
schedule
25.03.2023
Эффективный подсчет частоты слов в python для крупномасштабной обработки на одной машине
У меня есть огромный текстовый файл со строковым содержимым. Мой вариант использования - идентифицировать слова и их соответствующий счет.
В python обычным способом добиться этого является использование словаря и отслеживание слов и их...
1227 просмотров
schedule
08.03.2023
Слова, отсортированные по частоте, в книге (файл .txt)
Я использую:
from collections import Counter
wordlist = open('mybook.txt','r').read().split()
c = Counter(wordlist)
print c
# result :
# Counter({'the': 9530, 'to': 5004, 'a': 4203, 'and': 4202, 'was': 4197, 'of': 3912, 'I': 2852, 'that': 2574,...
360 просмотров
schedule
13.04.2023
Pyspark, выполняет подсчет слов в RDD, состоящем из массивов строк.
У меня есть огромный текстовый файл статей в Википедии, каждая строка файла - это одна статья. Я пытаюсь создать RDD, который будет состоять из массивов строк, каждый массив будет представлять строку текстового файла (полную статью), тогда я хочу...
6217 просмотров
schedule
29.06.2022
Сортированная двусторонняя табуляция многих значений
У меня есть набор данных приличного размера (около 18 000 строк). У меня есть две переменные, которые я хочу свести в таблицу: одна принимает много строковых значений, а вторая принимает только 4 значения. Я хочу свести в таблицу строковые значения...
204 просмотров
schedule
06.10.2022
Программа частоты слов - входной файл слишком большой?
Я все еще работаю над проблемой, упомянутой в этом сообщении: Sorting вектор строк с начальными числами
Исходная проблема заключается в следующем:
Напишите полную программу на C++, которая выводит k наиболее часто используемых слов в файле...
652 просмотров
schedule
25.04.2022
R — исправить сортировку при использовании anti_join для удаления стоп-слов (создание нграмм)
Очень плохо знаком с R и кодированием и пытаюсь провести частотный анализ длинного списка предложений и их заданного веса. Я удалил вложенные и видоизмененные данные, но когда я пытаюсь удалить стоп-слова, порядок сортировки слов в каждом предложении...
611 просмотров
schedule
22.07.2023
Подсчет количества вхождений строки внутри строки
Вот моя попытка этого метода.
Подсчитайте количество совпадений непустой подстроки sub в строке str E.g.
numOccurances("dogmonkeydog","собака") вернет 2
numOccurances("dogmonkeydog","mon") вернет 1...
132 просмотров
schedule
29.11.2022
Как сравнить частоты слов из двух текстовых файлов?
Как сравнить частоты слов из двух текстовых файлов в python? Например, если слово содержится и в файле1, и в файле2, то оно должно быть записано только один раз, но без прибавления частот при сравнении, оно должно быть {'The': 3,5}. Здесь 3 —...
1816 просмотров
schedule
16.12.2022
Есть ли подстановочный знак MS Word для частоты?
Я учусь использовать подстановочные знаки и коды Microsoft Word, чтобы помочь мне в моей должности медицинского редактора. Большая часть моей работы заключается в отправке рукописей в медицинские журналы для рецензирования, и каждый журнал...
74 просмотров
schedule
13.10.2022
Создание словаря с процентным содержанием слов в порядке убывания
Я создал словарь, показывающий частоты слов как значения. Прежде всего мне нужно преобразовать эти частоты в проценты. Общее количество слов - 150482. Во-вторых, мне нужно расположить этот словарь в порядке убывания (на основе значений, которые...
142 просмотров
schedule
10.03.2022
База данных частотности слов со смыслами
Я ищу загружаемую базу данных частот / вероятностей слов, включая их значения. В идеале, если бы он был отображен с помощью WordNet.
В списке некоторые слова будут перечислены несколько раз, если они имеют несколько значений, например частота для...
27 просмотров
schedule
23.02.2022