Вопросы по теме 'openrefine'

Регулярное выражение Value.match() в Google Refine
Я пытаюсь извлечь последовательность чисел из столбца в Google Refine. Вот мой код для этого: value.match(/[\d]+/)[0] Данные в моем столбце имеют формат abcababcabc 1234566 abcabcbacdf Результат "нулевой". Я не имею понятия...
4816 просмотров
schedule 21.01.2024

Как выполнить приблизительное (нечеткое) сопоставление имен в R
У меня есть большой набор данных, посвященный биологическим журналам, которые долгое время составлялись разными людьми. Итак, данные не в едином формате. Например, в столбце "АВТОР" я могу найти John Smith, Smith John, Smith J и так далее, при этом...
10144 просмотров
schedule 20.02.2022

Невозможно импортировать гиперссылку в Open Refine
Я импортировал файл .xlsx , в котором один из столбцов заполнен hyperlinks , но ссылки не отображаются в OpenRefine, а отображается только значение. Это происходит только на Linux или то же самое с Windows ? Если нет, есть ли другой способ...
84 просмотров
schedule 26.04.2023

Использование OpenRefine для очистки адресов — Cluster Exact Match
Я использую Open Refine для очистки некоторых адресов на листе (.csv). Как сгруппировать точное совпадение в столбце? Кажется, что алгоритм кластеризации будет кластеризовать почти похожие адреса, отличающиеся только номером. Например: 56,...
288 просмотров

Анализируйте и удаляйте HTML-теги с помощью Google Refine / OpenRefine & Jsoup / BeautifulSoup
Я использую Google Refine для работы с запутанными описаниями продуктов, чтобы отформатировать их для загрузки в магазины Magento с использованием профилей Magmi / Dataflow. Я все еще использую Google Refine 2.5, так как это последняя стабильная...
1515 просмотров
schedule 12.05.2023

Массовая замена текста во всех столбцах
Я использую OpenRefine для некоторой подготовки данных. У меня есть десятки столбцов, которые нужно очистить одним и тем же выражением GREL value.replace("text to be replaced","new text") Как массово применить выражение GREL ко всем столбцам...
615 просмотров
schedule 02.06.2022

Как решить, что интерфейс IncompatableClassChangeError не реализован
Я знаю, что вопрос уже задан, но почему-то я не могу найти убедительного решения после часа поиска в Google. Я использую apache-jena для загрузки модели RDF с URL-адреса. И я получаю IncompatibleClassChangeError со следующим сообщением Class...
8156 просмотров
schedule 07.06.2023

Получить URL из списка слов на openRefine
У меня есть список организаций в столбце 1 (строка с пробелами, например United Nations), и я хочу заполнить второй столбец соответствующими URL-адресами (например, www.un.org/), используя значения столбца 1 в качестве строки поиска. Процедура...
440 просмотров
schedule 20.07.2022

OpenRefine: выберите значение на основе переменной другой столбец
У меня проблема с OpenRefine. Я добавляю новый столбец на основе URL-адреса и оттуда вызываю API для получения некоторых терминов из контролируемого словаря (AAT). Я анализирую результаты и получаю многозначные ячейки, такие как:...
811 просмотров
schedule 13.04.2022

Анализ нескольких значений с помощью Google Refine
У меня есть столбец CSV с таким содержимым (просто пример): [{"qual"=>"05-Admmin "name"=>"CLARK C COHO"}, {"qual"=>"20-Soc Con", "name"=>"ALPHA S A"}, {"qual"=>"20-Soc Con", "name"=>"JACK SA"} Я хотел бы автоматически...
294 просмотров
schedule 10.07.2023

Openrefine: разделение с помощью регулярного выражения дает странный результат
Я применил выражение GREL "value.split (/ a /)" к некоторым ячейкам: abcdef -> [ "", "bcdef" ] bcdefa -> [ "bcdef" ] badef -> [ "b", "def" ] Я не могу понять, почему первая ячейка дает мне элемент в итоговой таблице. Это...
169 просмотров
schedule 22.06.2022

Openrefine: кластеризация ключевых отпечатков коллизий + диакритические знаки
Я думаю, что есть ошибка (или очень удивительная особенность...) в том, как openrefine управляет диакритическими знаками в кластеризации "ключ-коллизия-отпечаток пальца": ряд 1: школа ряд 2: школа школа школа -> кластеризация -> 0 кластер...
346 просмотров
schedule 06.03.2023

кластеризация слов в предложениях в openrefine
Я хотел бы сгруппировать слова в текстовом файле с такими строками: number queries waiting support representatives become available query numbers В частности, я хочу заменить слова их представителями кластера, не изменяя предложения в...
168 просмотров

OpenRefine Multiply Header Rows
У меня есть csv файл с некоторыми данными за несколько лет. По мнению поставщика данных, данные структурируются с помощью умножения строк заголовков (по одной на каждый год). Для примера вверху файла, который у меня есть: All | 2004 | Team...
84 просмотров
schedule 13.11.2022

openrefine как удалить определенные слова из конца каждой ячейки
У меня есть столбец в openrefine, в котором есть ячейки с таким содержимым, как: This dog is a great dog. This cat is a great cat, я хотел бы удалить слова собака, кошка из конца каждой ячейки (если бы пунктуация также могла быть удалена,...
304 просмотров
schedule 06.11.2022

API OpenRefine: неожиданный ответ: HTTP/1.1 200 ok
Я пишу программу Java для использования OpenRefine без прямого использования веб-страницы. Для этого я использую Refine-Java API: https://github.com/dtap-gmbh/refine-java Соединение прошло успешно, так как я могу получить версию установленного...
72 просмотров
schedule 13.02.2023

Как установить и обновить свойства на существующих узлах через CSV-файл, используя SPARQL на GraphDB
Я хотел бы установить новое свойство для существующих узлов, тип которых :Disease . Файл CSV имеет два столбца. Первый имеет заголовок Disease_Name , а второй — заголовок Disease_Class . Я хочу сопоставить узлы ( subject ?disease ), для которых...
48 просмотров
schedule 27.04.2023

Даты, импортированные из документов Excel, хранились как целые числа.
Даты, введенные в кратком формате даты в Excel, импортировались в OpenRefine по-другому. Например, 30.08.2019 в Excel стало Fri Aug 30 00:00:00 EDT 2019 в OpenRefine. Я хотел бы вернуть их к короткому формату даты (мм / дд / гггг) или даже к...
80 просмотров
schedule 01.06.2023

Суммирование и усреднение данных в openrefine или libre office
У меня есть данные в таком формате: Number Name Date 10 John 2020-01-01 12 Ann 2020-01-01 9 John 2020-01-02 10 Ann 2020-01-02 Как я могу сделать сумму значений числовой ячейки из всех...
46 просмотров