Какие символы Unicode, отличные от BMP, наиболее часто используются на практике?

По вашему опыту, какие символы Unicode, кодовые точки, диапазоны за пределами BMP (Basic Multilingual Plane) являются наиболее распространенными на данный момент? Это те, которые требуют 4 байта в UTF-8 или суррогаты в UTF-16.

Я ожидал, что ответом будут китайские и японские символы, используемые в именах, но не включенные в наиболее распространенные многобайтовые наборы символов CJK, но в проекте, над которым я работаю больше всего, - английском Wiktionary, мы обнаружили, что Готический алфавит пока встречается гораздо чаще.

ОБНОВЛЕНИЕ

Я написал несколько программных инструментов для сканирования целых Википедий на наличие символов, отличных от BMP, и, к своему удивлению, обнаружил, что даже в японской Википедии готический алфавит является наиболее распространенным. Это также верно в отношении китайской Википедии, но в ней также было много китайских иероглифов, используемых до 50 или 70 раз, включая «????», «????» и «????».


person hippietrail    schedule 06.04.2011    source источник
comment
@hippietrail: Основная проблема в том, что ответ будет зависеть от типа текстов, с которыми вы работаете. Если вы работаете над археологическим проектом, каталогизируя тексты в линейном письме B, вы увидите разные не- Символы BMP, чем когда, скажем, работают над современным японским словарем. Так что, не сужая, по крайней мере, тип текстов, это определенно слишком широко.   -  person sleske    schedule 15.02.2016


Ответы (3)


Эмодзи сейчас являются наиболее распространенными персонажами, не относящимися к BMP. ????, также известный как U + 1F602 FACE WITH TEARS OF JOY, является наиболее распространенным в общедоступном потоке Twitter. Встречается чаще, чем тильда!

person rspeer    schedule 28.08.2013
comment
Согласно сайту emojitracker.com, это действительно самый распространенный смайлик не в формате BMP, который используется в твиттере. - person Frédéric Grosshans; 04.10.2013
comment
Я, кстати, просмотрел статистику использования текста в Интернете из Common Crawl и обнаружил, что смайлики также являются наиболее распространенными не-BMP-символами в Интернете сейчас. Конечно, они не так распространены, как в Твиттере. ???? по-прежнему остается самым распространенным. - person rspeer; 12.08.2015
comment
@Quuxplusone Источник: emojistats.org - person niutech; 15.06.2018

Отличный вопрос!

Ответ - математические буквы. В декабре прошлого года я просканировал весь корпус PubMed Open Access и получил эти цифры для астральных персонажей в нем.

Первое число на рисунках ниже показывает, сколько копий каждой заданной кодовой точки я нашел во всем корпусе. Но сначала, чтобы дать вам представление об относительных частотах, вот десять основных кодов транскрипции ASCII в этом корпусе:

 2663710 U+002013 ‹–›  GC=Pd    EN DASH
 1065594 U+0000A0 ‹ ›  GC=Zs    NO-BREAK SPACE
 1009762 U+0000B1 ‹±›  GC=Sm    PLUS-MINUS SIGN
  784139 U+002212 ‹−›  GC=Sm    MINUS SIGN
  602377 U+002003 ‹ ›  GC=Zs    EM SPACE
  528576 U+0003BC ‹μ›  GC=Ll    GREEK SMALL LETTER MU
  519669 U+0003B2 ‹β›  GC=Ll    GREEK SMALL LETTER BETA
  512312 U+0003B1 ‹α›  GC=Ll    GREEK SMALL LETTER ALPHA
  491842 U+00200A ‹ ›  GC=Zs    HAIR SPACE
  462505 U+0000B0 ‹°›  GC=So    DEGREE SIGN

А вот теперь кодовые точки транс-BMP в порядке убывания частоты:

     544 U+01D49E ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL C
     450 U+01D4AF ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL T
     385 U+01D4AE ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL S
     292 U+01D49F ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL D
     285 U+01D4B3 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL X
     262 U+01D4A9 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL N
     258 U+01D4AB ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL P
     254 U+01D4A2 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL G
     185 U+01D49C ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL A
     178 U+01D53C ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL E
     137 U+01D4AA ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL O
      56 U+01D4A5 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL J
      48 U+01D4A6 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL K
      44 U+01D4B1 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL V
      43 U+01D4B2 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL W
      42 U+01D4B4 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Y
      41 U+01D4B5 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Z
      35 U+01D4B0 ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL U
      30 U+01D4AC ‹????›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Q
      23 U+01D54A ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL S
      21 U+01D539 ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL B
      19 U+01D5A7 ‹????›  GC=Lu    MATHEMATICAL SANS-SERIF CAPITAL H
      18 U+01D517 ‹????›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL T
      15 U+01D4C3 ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL N
      14 U+01D535 ‹????›  GC=Ll    MATHEMATICAL FRAKTUR SMALL X
      13 U+01D4BF ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL J
      11 U+01D540 ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL I
       9 U+01D465 ‹????›  GC=Ll    MATHEMATICAL ITALIC SMALL X
       9 U+01D4CE ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL Y
       9 U+01D538 ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL A
       8 U+01D4C2 ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL M
       8 U+01D54D ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL V
       7 U+01D4B6 ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL A
       7 U+01D4BE ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹????›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       7 U+01D4BE ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹????›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       4 U+01D4CF ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL Z
       4 U+01D53B ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL D
       4 U+01D54B ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL T
       3 U+01D4BB ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL F
       3 U+01D4CA ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL U
       3 U+01D507 ‹????›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL D
       3 U+01D542 ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL K
       3 U+01D546 ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL O
       2 U+01D4BD ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL H
       2 U+01D4C5 ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL P
       2 U+01D505 ‹????›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL B
       2 U+01D50E ‹????›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL K
       2 U+01D541 ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL J
       2 U+01D543 ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL L
       2 U+100002 ‹????›  GC=Co    <private use character>
       1 U+01D4B8 ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL C
       1 U+01D4C1 ‹????›  GC=Ll    MATHEMATICAL SCRIPT SMALL L
       1 U+01D53D ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL F
       1 U+01D53E ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL G
       1 U+01D54C ‹????›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL U
       1 U+01D6A4 ‹????›  GC=Ll    MATHEMATICAL ITALIC SMALL DOTLESS I
       1 U+01D7D9 ‹????›  GC=Nd    MATHEMATICAL DOUBLE-STRUCK DIGIT ONE

Мне правда жаль, что я не знал, для чего они использовали U + 100002. :(

Если они не отображаются в вашем браузере, вам следует установить шрифт Symbola Джорджа Дуроса. В нем также есть все забавные кодовые точки Unicode 6.0.0.

person tchrist    schedule 07.04.2011

Для меня математические буквенно-цифровые символы, которые используются для математического набора шрифтов OpenType, таких как Cambria Math.

person Philipp    schedule 06.04.2011