У меня есть куча различных pdf-файлов с банковскими выписками, которые я преобразовал в текст, из которого нужно извлечь информацию о потребителе. Мне нужно написать регулярное выражение для извлечения номера счета. За номером счета следуют определенные ключевые слова, такие как:
account number,
account no,
a/c no
Я вставлю пример текста, содержащего эту информацию.
Образец 1:
"bank of india account statement name abcd account no. 123456 account type savings account"
Образец 2:
"statement for a/c no 11111111 between 16-09-2019 and 16-03-2020"
Образец 3:
"shyam alaspure<br />
period<br />
01-12-2019 to 29-02-2020<br />
cust.reln.no<br />
XXXXXXXX<br />
account no<br />
9XXX99999"<br />
Я использовал следующее регулярное выражение
'account no.\s*([^.]+|\S+)'
но вывод дает весь текст после номера счета.
Пожалуйста, помогите мне найти решение.
r'account no.\s+((?:\w+(?:|$)){1})'
- person Shyam   schedule 01.09.2020account no.\s+(\w+)
. Но похоже, что это соответствует только первому входу. - person Wiktor Stribiżew   schedule 01.09.2020