Вопросы по теме 'openrefine'
Регулярное выражение Value.match() в Google Refine
Я пытаюсь извлечь последовательность чисел из столбца в Google Refine. Вот мой код для этого:
value.match(/[\d]+/)[0]
Данные в моем столбце имеют формат
abcababcabc 1234566 abcabcbacdf
Результат "нулевой". Я не имею понятия...
4816 просмотров
schedule
21.01.2024
Как выполнить приблизительное (нечеткое) сопоставление имен в R
У меня есть большой набор данных, посвященный биологическим журналам, которые долгое время составлялись разными людьми. Итак, данные не в едином формате. Например, в столбце "АВТОР" я могу найти John Smith, Smith John, Smith J и так далее, при этом...
10144 просмотров
schedule
20.02.2022
Невозможно импортировать гиперссылку в Open Refine
Я импортировал файл .xlsx , в котором один из столбцов заполнен hyperlinks , но ссылки не отображаются в OpenRefine, а отображается только значение.
Это происходит только на Linux или то же самое с Windows ?
Если нет, есть ли другой способ...
84 просмотров
schedule
26.04.2023
Использование OpenRefine для очистки адресов — Cluster Exact Match
Я использую Open Refine для очистки некоторых адресов на листе (.csv). Как сгруппировать точное совпадение в столбце? Кажется, что алгоритм кластеризации будет кластеризовать почти похожие адреса, отличающиеся только номером. Например:
56,...
288 просмотров
schedule
09.02.2024
Анализируйте и удаляйте HTML-теги с помощью Google Refine / OpenRefine & Jsoup / BeautifulSoup
Я использую Google Refine для работы с запутанными описаниями продуктов, чтобы отформатировать их для загрузки в магазины Magento с использованием профилей Magmi / Dataflow. Я все еще использую Google Refine 2.5, так как это последняя стабильная...
1515 просмотров
schedule
12.05.2023
Массовая замена текста во всех столбцах
Я использую OpenRefine для некоторой подготовки данных. У меня есть десятки столбцов, которые нужно очистить одним и тем же выражением GREL value.replace("text to be replaced","new text")
Как массово применить выражение GREL ко всем столбцам...
615 просмотров
schedule
02.06.2022
Как решить, что интерфейс IncompatableClassChangeError не реализован
Я знаю, что вопрос уже задан, но почему-то я не могу найти убедительного решения после часа поиска в Google.
Я использую apache-jena для загрузки модели RDF с URL-адреса. И я получаю IncompatibleClassChangeError со следующим сообщением
Class...
8156 просмотров
schedule
07.06.2023
Получить URL из списка слов на openRefine
У меня есть список организаций в столбце 1 (строка с пробелами, например United Nations), и я хочу заполнить второй столбец соответствующими URL-адресами (например, www.un.org/), используя значения столбца 1 в качестве строки поиска. Процедура...
440 просмотров
schedule
20.07.2022
OpenRefine: выберите значение на основе переменной другой столбец
У меня проблема с OpenRefine. Я добавляю новый столбец на основе URL-адреса и оттуда вызываю API для получения некоторых терминов из контролируемого словаря (AAT). Я анализирую результаты и получаю многозначные ячейки, такие как:...
811 просмотров
schedule
13.04.2022
Анализ нескольких значений с помощью Google Refine
У меня есть столбец CSV с таким содержимым (просто пример):
[{"qual"=>"05-Admmin "name"=>"CLARK C COHO"}, {"qual"=>"20-Soc Con", "name"=>"ALPHA S A"}, {"qual"=>"20-Soc Con", "name"=>"JACK SA"}
Я хотел бы автоматически...
294 просмотров
schedule
10.07.2023
Openrefine: разделение с помощью регулярного выражения дает странный результат
Я применил выражение GREL "value.split (/ a /)" к некоторым ячейкам:
abcdef -> [ "", "bcdef" ]
bcdefa -> [ "bcdef" ]
badef -> [ "b", "def" ]
Я не могу понять, почему первая ячейка дает мне элемент в итоговой таблице. Это...
169 просмотров
schedule
22.06.2022
Openrefine: кластеризация ключевых отпечатков коллизий + диакритические знаки
Я думаю, что есть ошибка (или очень удивительная особенность...) в том, как openrefine управляет диакритическими знаками в кластеризации "ключ-коллизия-отпечаток пальца":
ряд 1: школа ряд 2: школа школа школа
-> кластеризация -> 0 кластер...
346 просмотров
schedule
06.03.2023
кластеризация слов в предложениях в openrefine
Я хотел бы сгруппировать слова в текстовом файле с такими строками:
number queries waiting support representatives become available
query numbers
В частности, я хочу заменить слова их представителями кластера, не изменяя предложения в...
168 просмотров
schedule
18.11.2023
OpenRefine Multiply Header Rows
У меня есть csv файл с некоторыми данными за несколько лет. По мнению поставщика данных, данные структурируются с помощью умножения строк заголовков (по одной на каждый год).
Для примера вверху файла, который у меня есть:
All | 2004 | Team...
84 просмотров
schedule
13.11.2022
openrefine как удалить определенные слова из конца каждой ячейки
У меня есть столбец в openrefine, в котором есть ячейки с таким содержимым, как:
This dog is a great dog.
This cat is a great cat,
я хотел бы удалить слова собака, кошка из конца каждой ячейки (если бы пунктуация также могла быть удалена,...
304 просмотров
schedule
06.11.2022
API OpenRefine: неожиданный ответ: HTTP/1.1 200 ok
Я пишу программу Java для использования OpenRefine без прямого использования веб-страницы. Для этого я использую Refine-Java API: https://github.com/dtap-gmbh/refine-java
Соединение прошло успешно, так как я могу получить версию установленного...
72 просмотров
schedule
13.02.2023
Как установить и обновить свойства на существующих узлах через CSV-файл, используя SPARQL на GraphDB
Я хотел бы установить новое свойство для существующих узлов, тип которых :Disease . Файл CSV имеет два столбца. Первый имеет заголовок Disease_Name , а второй — заголовок Disease_Class . Я хочу сопоставить узлы ( subject ?disease ), для которых...
48 просмотров
schedule
27.04.2023
Даты, импортированные из документов Excel, хранились как целые числа.
Даты, введенные в кратком формате даты в Excel, импортировались в OpenRefine по-другому. Например, 30.08.2019 в Excel стало Fri Aug 30 00:00:00 EDT 2019 в OpenRefine. Я хотел бы вернуть их к короткому формату даты (мм / дд / гггг) или даже к...
80 просмотров
schedule
01.06.2023
Суммирование и усреднение данных в openrefine или libre office
У меня есть данные в таком формате:
Number
Name
Date
10
John
2020-01-01
12
Ann
2020-01-01
9
John
2020-01-02
10
Ann
2020-01-02
Как я могу сделать сумму значений числовой ячейки из всех...
46 просмотров
schedule
26.05.2024