Публикации по теме 'named-entity-recognition'


Признание именованных лиц для неструктурированных документов
Распознавание именованных сущностей (NER) в неструктурированном тексте имеет множество применений. Компании иногда обмениваются документами (например, контрактами) с личной информацией. Может случиться так, что личная информация, содержащаяся в этих документах, должна быть анонимной. Также может случиться так, что личная информация должна быть анонимной, прежде чем она будет доступна сотрудникам определенного уровня. Другой вариант использования - оценка действий, выполняемых объектами..

Деидентификация неструктурированных данных
Деидентификация - это процесс, используемый для предотвращения связи личности человека с информацией. Этот пост посвящен распознаванию сущностей из неструктурированных данных и деидентификации их. Данные чата являются хорошим примером неструктурированных данных, и деидентификация в этом контексте будет означать идентификацию и удаление имен, занятий и адресов из текстовых разговоров. В чем разница между структурированными и неструктурированными данными? Структурированные данные -..

Med7 - система извлечения клинической информации на Python и spaCy
Краткий обзор В последние годы в области здравоохранения и биомедицинских исследований произошел значительный технологический прогресс, в основном благодаря доступности огромного количества цифровых данных, генерируемых пациентами, и демократизации современных алгоритмов компьютерных наук и инженерии. Такие фреймворки и библиотеки с открытым исходным кодом, среди прочего, как PyTorch , TensorFlow , fast.ai , spacy.io , scikit-learn и huggingface.co упростили использование..

Вопросы по теме 'named-entity-recognition'

Использование условных случайных полей для распознавания именованных сущностей
Что такое Условное случайное поле ? Как именно Условное случайное поле идентифицирует собственные имена как человека, организацию или место в структурированном или неструктурированном тексте? Например: этот продукт заказан компанией...
3967 просмотров

Набор инструментов Stanford NER - распознавание строчных букв
Я новичок в НЛП и пытаюсь понять, как распознаватель именованных сущностей аннотирует именованные сущности. Я экспериментирую с инструментарием Stanford NER. Когда я использую NER в стандартных более формальных наборах данных, где соблюдаются все...
4222 просмотров

Распознавание именованных объектов из личного справочника с использованием Python
Я пытаюсь распознавать именованные сущности в python, используя NLTK. Я хочу извлечь личный список навыков. У меня есть список навыков, и я хотел бы найти их в заявке и пометить навыки. Я заметил, что в NLTK есть тег NER для предопределенных тегов,...
2206 просмотров
schedule 08.04.2022

Маркировка части речи и распознавание именованных сущностей для C/C++/Obj-C
нужна помощь! Я пытаюсь написать некоторый код в Objective-C, который требует маркировки части речи и, в идеале, также именованного распознавания сущностей. Я не очень заинтересован в том, чтобы «сворачивать свои собственные», поэтому я ищу...
1889 просмотров

Именованные объекты как функция категоризации текста?
С существующими методами категоризации текста (контролируемыми) почему бы нам не рассматривать именованные объекты (NE) в тексте как функцию обучения и тестирования? Как вы думаете, можем ли мы повысить точность, используя NE в качестве функции?
1198 просмотров

Распознавание именованных объектов с помощью openNLP (модель по умолчанию)
Может ли кто-нибудь указать алгоритм (ы), используемый модулем openNLP NameFinder? Код сложен и плохо документирован, и игра с ним как с черным ящиком (с предоставленной моделью по умолчанию) создает у меня впечатление, что он в основном...
4634 просмотров
schedule 27.06.2023

Разница между точностью IOB и точностью
Я делаю некоторые работы на NLTK с распознаванием именованных сущностей и чанкерами. Я переобучил классификатор, используя для этого nltk/chunk/named_entity.py , и получил следующие результаты: ChunkParse score: IOB Accuracy: 96.5%...
2872 просмотров

как использовать распознавание сущностей с Apache solr и LingPipe или аналогичными инструментами
Я хотел бы использовать NLP при индексации данных с помощью Apache Solr. Определите синонимы слов и индексируйте их. Определите названный объект и пометьте его во время индексации. когда кто-то запрашивает индекс Solr, я должен извлечь...
5475 просмотров

Распознавание именованных объектов: как пометить обучающий набор и выбрать алгоритм?
Для текста, содержащего названия компаний, я хочу обучить модель, которая автоматически помечает подрядчиков (компания, выполняющая задачу) и руководителей (компания, нанимающая подрядчика). Примером предложения может быть: Blossom Inc....
2681 просмотров

Пользовательские теги NER и POS
Я проверял Stanford CoreNLP, чтобы понять теги NER и POS. Но что, если я хочу создать собственные теги для таких сущностей, как <title>Nights</title>, <genre>Jazz</genre>, <year>1992</year> . Как я могу это...
2224 просмотров

группировка всех именованных объектов в документе
Я хотел бы сгруппировать все именованные объекты в данном документе. Например, **Barack Hussein Obama** II is the 44th and current President of the United States, and the first African American to hold the office. Я не хочу использовать...
1584 просмотров

Stanford Named Entity Tagger — несоответствие?
У меня странная проблема. У меня есть список предложений (около 0,1 миллиона), которые нужно пометить с помощью тегов распознавания именованных сущностей (ner). Я использовал теги, используя следующую строку кода, предоставленную с...
310 просмотров

Теггер Stanford NER генерирует исключение «файл не найден» с предоставленными моделями
Я скачал stanford NER 3.4.1 , распаковал его, и попытался запустить распознавание именованных объектов в локальном файле, используя обученную модель по умолчанию (предоставленную). Я получил это: `java.io.FileNotFoundException:...
1018 просмотров

Создание обучающего набора данных для распознавания именованных сущностей для должностей
Я хочу узнавать названия должностей по текстам. Как я могу создать больший набор обучающих данных, расширив свой небольшой набор обучающих данных? Существуют ли готовые пакеты или открытые проекты для расширенного обучающего набора?
1474 просмотров
schedule 10.01.2023

Что означают BOS и EOS в списке функций CRFSuite и какова их роль?
В примере NER (распознавание именованных объектов) на веб-сайте пакета python-crf мы видим эту функцию как генератор функций: def word2features(sent, i): word = sent[i][0] postag = sent[i][1] features = [ 'bias', 'word.lower=' +...
585 просмотров
schedule 08.12.2022

Распознавание именованных сущностей NLTK в списке Python
Я использовал ne_chunk NLTK для извлечения именованных сущностей из текста: my_sent = "WASHINGTON -- In the wake of a string of abuses by New York police officers in the 1990s, Loretta E. Lynch, the top federal prosecutor in Brooklyn, spoke...
54743 просмотров
schedule 23.04.2022

Идентификация объекта в статье
Я работаю с Python над задачей, связанной с наукой о данных. Что мне нужно сделать, так это: я извлек несколько новостных статей, и теперь я хочу выборочно выбрать только те новостные статьи, принадлежащие конкретному человеку, и определить, является...
777 просмотров

Именованные лица: рекомендации, касающиеся титулов лиц
Я работаю над задачей аннотации именованных сущностей в текстовом корпусе. Я нашел рекомендации в документе Определение задачи распознавания именованных объектов 1999 года . В этом документе есть рекомендации, относящиеся к титулам лиц, в частности...
400 просмотров

Как чистить предложения для StanfordNER
Я хочу использовать StanfordNER в python для обнаружения именованных объектов. Как мне очистить предложения? например, рассмотреть qry="In the UK, the class is relatively crowded with Zacc competing with Abc's Popol (market leader) and...
481 просмотров

Как сохранить результат ner в json/базе данных
import nltk from itertools import groupby def get_continuous_chunks(tagged_sent): continuous_chunk = [] current_chunk = [] for token, tag in tagged_sent: if tag != "O":...
534 просмотров