Публикации по теме 'named-entity-recognition'
Признание именованных лиц для неструктурированных документов
Распознавание именованных сущностей (NER) в неструктурированном тексте имеет множество применений. Компании иногда обмениваются документами (например, контрактами) с личной информацией. Может случиться так, что личная информация, содержащаяся в этих документах, должна быть анонимной. Также может случиться так, что личная информация должна быть анонимной, прежде чем она будет доступна сотрудникам определенного уровня. Другой вариант использования - оценка действий, выполняемых объектами..
Деидентификация неструктурированных данных
Деидентификация - это процесс, используемый для предотвращения связи личности человека с информацией. Этот пост посвящен распознаванию сущностей из неструктурированных данных и деидентификации их. Данные чата являются хорошим примером неструктурированных данных, и деидентификация в этом контексте будет означать идентификацию и удаление имен, занятий и адресов из текстовых разговоров.
В чем разница между структурированными и неструктурированными данными?
Структурированные данные -..
Med7 - система извлечения клинической информации на Python и spaCy
Краткий обзор
В последние годы в области здравоохранения и биомедицинских исследований произошел значительный технологический прогресс, в основном благодаря доступности огромного количества цифровых данных, генерируемых пациентами, и демократизации современных алгоритмов компьютерных наук и инженерии. Такие фреймворки и библиотеки с открытым исходным кодом, среди прочего, как PyTorch , TensorFlow , fast.ai , spacy.io , scikit-learn и huggingface.co упростили использование..
Вопросы по теме 'named-entity-recognition'
Использование условных случайных полей для распознавания именованных сущностей
Что такое Условное случайное поле ? Как именно Условное случайное поле идентифицирует собственные имена как человека, организацию или место в структурированном или неструктурированном тексте?
Например: этот продукт заказан компанией...
3967 просмотров
schedule
05.04.2023
Набор инструментов Stanford NER - распознавание строчных букв
Я новичок в НЛП и пытаюсь понять, как распознаватель именованных сущностей аннотирует именованные сущности. Я экспериментирую с инструментарием Stanford NER. Когда я использую NER в стандартных более формальных наборах данных, где соблюдаются все...
4222 просмотров
schedule
28.04.2022
Распознавание именованных объектов из личного справочника с использованием Python
Я пытаюсь распознавать именованные сущности в python, используя NLTK. Я хочу извлечь личный список навыков. У меня есть список навыков, и я хотел бы найти их в заявке и пометить навыки. Я заметил, что в NLTK есть тег NER для предопределенных тегов,...
2206 просмотров
schedule
08.04.2022
Маркировка части речи и распознавание именованных сущностей для C/C++/Obj-C
нужна помощь!
Я пытаюсь написать некоторый код в Objective-C, который требует маркировки части речи и, в идеале, также именованного распознавания сущностей. Я не очень заинтересован в том, чтобы «сворачивать свои собственные», поэтому я ищу...
1889 просмотров
schedule
12.07.2023
Именованные объекты как функция категоризации текста?
С существующими методами категоризации текста (контролируемыми) почему бы нам не рассматривать именованные объекты (NE) в тексте как функцию обучения и тестирования? Как вы думаете, можем ли мы повысить точность, используя NE в качестве функции?
1198 просмотров
schedule
06.06.2022
Распознавание именованных объектов с помощью openNLP (модель по умолчанию)
Может ли кто-нибудь указать алгоритм (ы), используемый модулем openNLP NameFinder? Код сложен и плохо документирован, и игра с ним как с черным ящиком (с предоставленной моделью по умолчанию) создает у меня впечатление, что он в основном...
4634 просмотров
schedule
27.06.2023
Разница между точностью IOB и точностью
Я делаю некоторые работы на NLTK с распознаванием именованных сущностей и чанкерами. Я переобучил классификатор, используя для этого nltk/chunk/named_entity.py , и получил следующие результаты:
ChunkParse score:
IOB Accuracy: 96.5%...
2872 просмотров
schedule
04.09.2022
как использовать распознавание сущностей с Apache solr и LingPipe или аналогичными инструментами
Я хотел бы использовать NLP при индексации данных с помощью Apache Solr.
Определите синонимы слов и индексируйте их.
Определите названный объект и пометьте его во время индексации.
когда кто-то запрашивает индекс Solr, я должен извлечь...
5475 просмотров
schedule
16.02.2023
Распознавание именованных объектов: как пометить обучающий набор и выбрать алгоритм?
Для текста, содержащего названия компаний, я хочу обучить модель, которая автоматически помечает подрядчиков (компания, выполняющая задачу) и руководителей (компания, нанимающая подрядчика).
Примером предложения может быть:
Blossom Inc....
2681 просмотров
schedule
21.05.2023
Пользовательские теги NER и POS
Я проверял Stanford CoreNLP, чтобы понять теги NER и POS. Но что, если я хочу создать собственные теги для таких сущностей, как <title>Nights</title>, <genre>Jazz</genre>, <year>1992</year> . Как я могу это...
2224 просмотров
schedule
09.06.2022
группировка всех именованных объектов в документе
Я хотел бы сгруппировать все именованные объекты в данном документе. Например,
**Barack Hussein Obama** II is the 44th and current President of the United States, and the first African American to hold the office.
Я не хочу использовать...
1584 просмотров
schedule
06.07.2022
Stanford Named Entity Tagger — несоответствие?
У меня странная проблема.
У меня есть список предложений (около 0,1 миллиона), которые нужно пометить с помощью тегов распознавания именованных сущностей (ner). Я использовал теги, используя следующую строку кода, предоставленную с...
310 просмотров
schedule
24.04.2022
Теггер Stanford NER генерирует исключение «файл не найден» с предоставленными моделями
Я скачал stanford NER 3.4.1 , распаковал его, и попытался запустить распознавание именованных объектов в локальном файле, используя обученную модель по умолчанию (предоставленную). Я получил это:
`java.io.FileNotFoundException:...
1018 просмотров
schedule
22.06.2022
Создание обучающего набора данных для распознавания именованных сущностей для должностей
Я хочу узнавать названия должностей по текстам. Как я могу создать больший набор обучающих данных, расширив свой небольшой набор обучающих данных? Существуют ли готовые пакеты или открытые проекты для расширенного обучающего набора?
1474 просмотров
schedule
10.01.2023
Что означают BOS и EOS в списке функций CRFSuite и какова их роль?
В примере NER (распознавание именованных объектов) на веб-сайте пакета python-crf мы видим эту функцию как генератор функций:
def word2features(sent, i):
word = sent[i][0]
postag = sent[i][1]
features = [
'bias',
'word.lower=' +...
585 просмотров
schedule
08.12.2022
Распознавание именованных сущностей NLTK в списке Python
Я использовал ne_chunk NLTK для извлечения именованных сущностей из текста:
my_sent = "WASHINGTON -- In the wake of a string of abuses by New York police officers in the 1990s, Loretta E. Lynch, the top federal prosecutor in Brooklyn, spoke...
54743 просмотров
schedule
23.04.2022
Идентификация объекта в статье
Я работаю с Python над задачей, связанной с наукой о данных. Что мне нужно сделать, так это: я извлек несколько новостных статей, и теперь я хочу выборочно выбрать только те новостные статьи, принадлежащие конкретному человеку, и определить, является...
777 просмотров
schedule
14.07.2023
Именованные лица: рекомендации, касающиеся титулов лиц
Я работаю над задачей аннотации именованных сущностей в текстовом корпусе. Я нашел рекомендации в документе Определение задачи распознавания именованных объектов 1999 года . В этом документе есть рекомендации, относящиеся к титулам лиц, в частности...
400 просмотров
schedule
23.07.2023
Как чистить предложения для StanfordNER
Я хочу использовать StanfordNER в python для обнаружения именованных объектов. Как мне очистить предложения?
например, рассмотреть
qry="In the UK, the class is relatively crowded with Zacc competing with Abc's Popol (market leader) and...
481 просмотров
schedule
07.12.2022
Как сохранить результат ner в json/базе данных
import nltk
from itertools import groupby
def get_continuous_chunks(tagged_sent):
continuous_chunk = []
current_chunk = []
for token, tag in tagged_sent:
if tag != "O":...
534 просмотров
schedule
15.10.2022