Я использовал питон:
for m in regex.findall(r"\X", 'ल्लील्ली', regex.UNICODE):
for i in m:
print(i, i.encode('unicode-escape'))
print('--------')
результаты показывают, что ल्ली имеет 2 символа хинди:
ल b'\\u0932'
् b'\\u094d'
--------
ल b'\\u0932'
ी b'\\u0940'
--------
это неправильно, на самом деле ल्ली — это один иероглиф хинди. Как получить хинди-символ (например, ल्ली) по количеству композиций Unicode.
Короче говоря, я хочу разделить 'कृपयाल्ली'
на 'कृ'
,'प'
,'या'
,'ल्ली'
combining
, а затем поместитеZWNJ
между символами. Вы можете адаптировать его в зависимости от того, как вы хотите обращаться с вирамой. См. главу об индийском языке стандарта Unicode для получения дополнительной информации. - person Giacomo Catenazzi   schedule 31.07.2020