Я должен сделать анализ научных статей, опубликованных в списке из более чем 20 000 журналов. В моем списке более 450 000 записей, но с несколькими дубликатами (например, статья с более чем одним автором из разных учреждений появляется более одного раза).
Что ж, мне нужно посчитать количество статей в каждом журнале, но проблема в том, что разные авторы не всегда предоставляют информацию одинаково, и я могу получить что-то вроде следующей таблицы:
JOURNAL PAPER
0001-1231 A PRE-TEST FOR FACTORING BIVARIATE POLYNOMIALS WITH COEFFICIENTS
0001-1231 A PRETEST FOR FACTORING BIVARIATE POLYNOMIALS WITH COEFFICIENTS
0001-1231 THE P3 INFECTION TIME IS W[1]-HARD PARAMETERIZED BY THE TREEWIDTH
0001-1231 THE P3 INFECTION TIME IS W-HARD PARAMETERIZED BY THE TREEWIDTH
0001-1231 COMPOSITIONAL AND LOCAL LIVELOCK ANALYSIS FOR CSP
0001-1231 COMPOSITIONAL AND LOCAL LIVELOCK ANALYSIS FOR CSP
0001-1231 AIDING EXPLORATORY TESTING WITH PRUNED GUI MODELS
0001-1231 DECYCLING WITH A MATCHING
0001-1231 DECYCLING WITH A MATCHING
0001-1231 DECYCLING WITH A MATCHING
0001-1231 DECYCLING WITH A MATCHING.
0001-1231 DECYCLING WITH A MATCHING
0001-1231 ON THE HARDNESS OF FINDING THE GEODETIC NUMBER OF A SUBCUBIC GRAPH
0001-1231 ON THE HARDNESS OF FINDING THE GEODETIC NUMBER OF A SUBCUBIC GRAPH.
0001-1232 DECISION TREE CLASSIFICATION WITH BOUNDED NUMBER OF ERRORS
0001-1232 AN INCREMENTAL LINEAR-TIME LEARNING ALGORITHM FOR THE OPTIMUM-PATH
0001-1232 AN INCREMENTAL LINEAR-TIME LEARNING ALGORITHM FOR THE OPTIMUM-PATH
0001-1232 COOPERATIVE CAPACITATED FACILITY LOCATION GAMES
0001-1232 OPTIMAL SUFFIX SORTING AND LCP ARRAY CONSTRUCTION FOR ALPHABETS
0001-1232 FAST MODULAR REDUCTION AND SQUARING IN GF (2 M )
0001-1232 FAST MODULAR REDUCTION AND SQUARING IN GF (2 M)
0001-1232 ON THE GEODETIC NUMBER OF COMPLEMENTARY PRISMS
0001-1232 DESIGNING MICROTISSUE BIOASSEMBLIES FOR SKELETAL REGENERATION
0001-1232 GOVERNANCE OF BRAZILIAN PUBLIC ENVIRONMENTAL FUNDS: ILLEGAL ALLOCATION
0001-1232 GOVERNANCE OF BRAZILIAN PUBLIC ENVIRONMENTAL FUNDS: ILLEGAL ALLOCATION
0001-1232 GOVERNANCE OF BRAZILIAN PUBLIC ENVIRONMENTAL FUNDS - ILLEGAL ALLOCATION
Моя цель - использовать что-то вроде:
data%>%
distinct(JOURNAL, PAPER)%>%
group_by(JOURNAL)%>%
mutate(papers_in_journal = n())
Итак, у меня будет такая информация, как:
JOURNAL papers_in_journal
0001-1231 6
0001-1232 7
Проблема в том, что вы можете увидеть некоторые ошибки в названии опубликованных статей. У некоторых есть «точка» в конце; некоторые имеют пробелы или заменяют символы; у некоторых есть другие незначительные вариации, такие как W[1]-HARD по сравнению с W-HARD. Итак, если я запускаю код как есть, у меня есть:
JOURNAL papers_in_journal
0001-1231 10
0001-1232 10
Мой вопрос: есть ли способ учесть запас подобия при использовании Different() или аналогичной команды, чтобы у меня могло быть что-то вроде Different(JOURNAL, PAPER%whithin% 0,95)?
В этом смысле я хочу, чтобы команда учитывала:
A PRE-TEST FOR FACTORING BIVARIATE POLYNOMIALS WITH COEFFICIENTS
=
A PRETEST FOR FACTORING BIVARIATE POLYNOMIALS WITH COEFFICIENTS
THE P3 INFECTION TIME IS W[1]-HARD PARAMETERIZED BY THE TREEWIDTH
=
THE P3 INFECTION TIME IS W-HARD PARAMETERIZED BY THE TREEWIDTH
DECYCLING WITH A MATCHING
=
DECYCLING WITH A MATCHING.
etc.
Я полагаю, что нет такого простого решения с использованием Different(), и я не смог найти никаких альтернативных команд для этого. Так что, если это невозможно, и вы можете предложить любой алгоритм устранения неоднозначности, который я мог бы использовать, я также ценю.
Спасибо.
agrep
, чтобы сначала свернуть второстепенные варианты? - person Greg   schedule 06.04.2020