TJOL.EU

by Thomas Jollans · This post was inspired by an off-topic email chain on the python-ideas mailing list involving Steven D'Aprano, Chris Angelico, and me.

>>> gänseblümchen = '🌼'
>>> print(gänseblümchen)
🌼

>>> ℘ = 1
>>> unicodedata.category('℘'), unicodedata.name('℘')
('Sm', 'SCRIPT CAPITAL P')

Python 3.7.0a0 (heads/master:21c2dd7, Jun  4 2017, 15:18:26) 
[GCC 5.4.0 20160609] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import unicodedata
>>> all_unicode = map(chr, range(0x110000))
>>> for c in all_unicode:
...     category = unicodedata.category(c)
...     if category.startswith('L') or category == 'Nl':
...         # Letters and letter-numbers should be OK
...         if not c.isidentifier():
...             print('NOT OK [{}] {} U+{:04X}  {}'.format(
...                   category, c, ord(c), unicodedata.name(c)))
...     else:
...         if c.isidentifier():
...             print('    OK [{}] {} U+{:04X}  {}'.format(
...                   category, c, ord(c), unicodedata.name(c)))
... 
    OK [Pc] _ U+005F  LOW LINE
NOT OK [Lm] ͺ U+037A  GREEK YPOGEGRAMMENI
NOT OK [Lo] ำ U+0E33  THAI CHARACTER SARA AM
NOT OK [Lo] ຳ U+0EB3  LAO VOWEL SIGN AM
    OK [Mn] ᢅ U+1885  MONGOLIAN LETTER ALI GALI BALUDA
    OK [Mn] ᢆ U+1886  MONGOLIAN LETTER ALI GALI THREE BALUDA
    OK [Sm] ℘ U+2118  SCRIPT CAPITAL P
    OK [So] ℮ U+212E  ESTIMATED SYMBOL
NOT OK [Lm] ⸯ U+2E2F  VERTICAL TILDE
NOT OK [Lo] ﱞ U+FC5E  ARABIC LIGATURE SHADDA WITH DAMMATAN ISOLATED FORM
NOT OK [Lo] ﱟ U+FC5F  ARABIC LIGATURE SHADDA WITH KASRATAN ISOLATED FORM
NOT OK [Lo] ﱠ U+FC60  ARABIC LIGATURE SHADDA WITH FATHA ISOLATED FORM
NOT OK [Lo] ﱡ U+FC61  ARABIC LIGATURE SHADDA WITH DAMMA ISOLATED FORM
NOT OK [Lo] ﱢ U+FC62  ARABIC LIGATURE SHADDA WITH KASRA ISOLATED FORM
NOT OK [Lo] ﱣ U+FC63  ARABIC LIGATURE SHADDA WITH SUPERSCRIPT ALEF ISOLATED FORM
NOT OK [Lo] ﷺ U+FDFA  ARABIC LIGATURE SALLALLAHOU ALAYHE WASALLAM
NOT OK [Lo] ﷻ U+FDFB  ARABIC LIGATURE JALLAJALALOUHOU
NOT OK [Lo] ﹰ U+FE70  ARABIC FATHATAN ISOLATED FORM
NOT OK [Lo] ﹲ U+FE72  ARABIC DAMMATAN ISOLATED FORM
NOT OK [Lo] ﹴ U+FE74  ARABIC KASRATAN ISOLATED FORM
NOT OK [Lo] ﹶ U+FE76  ARABIC FATHA ISOLATED FORM
NOT OK [Lo] ﹸ U+FE78  ARABIC DAMMA ISOLATED FORM
NOT OK [Lo] ﹺ U+FE7A  ARABIC KASRA ISOLATED FORM
NOT OK [Lo] ﹼ U+FE7C  ARABIC SHADDA ISOLATED FORM
NOT OK [Lo] ﹾ U+FE7E  ARABIC SUKUN ISOLATED FORM
NOT OK [Lm] ﾞ U+FF9E  HALFWIDTH KATAKANA VOICED SOUND MARK
NOT OK [Lm] ﾟ U+FF9F  HALFWIDTH KATAKANA SEMI-VOICED SOUND MARK

>>> all_unicode = map(chr, range(0x110000))
>>> for c in all_unicode:
...     category = unicodedata.category(c)
...     if category.startswith('L') or category == 'Nl':
...         if not c.isidentifier():
...             normform = unicodedata.normalize('NFKC', c)
...             print('NOT OK [{}] {} U+{:04X} → "{}" starts with [{}]'
...                   .format(category, c, ord(c), normform,
...                           unicodedata.category(normform[0])))
... 
NOT OK [Lm] ͺ U+037A → " ͅ" starts with [Zs]
NOT OK [Lo] ำ U+0E33 → "ํา" starts with [Mn]
NOT OK [Lo] ຳ U+0EB3 → "ໍາ" starts with [Mn]
NOT OK [Lm] ⸯ U+2E2F → "ⸯ" starts with [Lm]
NOT OK [Lo] ﱞ U+FC5E → " ٌّ" starts with [Zs]
NOT OK [Lo] ﱟ U+FC5F → " ٍّ" starts with [Zs]
NOT OK [Lo] ﱠ U+FC60 → " َّ" starts with [Zs]
NOT OK [Lo] ﱡ U+FC61 → " ُّ" starts with [Zs]
NOT OK [Lo] ﱢ U+FC62 → " ِّ" starts with [Zs]
NOT OK [Lo] ﱣ U+FC63 → " ّٰ" starts with [Zs]
NOT OK [Lo] ﷺ U+FDFA → "صلى الله عليه وسلم" starts with [Lo]
NOT OK [Lo] ﷻ U+FDFB → "جل جلاله" starts with [Lo]
NOT OK [Lo] ﹰ U+FE70 → " ً" starts with [Zs]
NOT OK [Lo] ﹲ U+FE72 → " ٌ" starts with [Zs]
NOT OK [Lo] ﹴ U+FE74 → " ٍ" starts with [Zs]
NOT OK [Lo] ﹶ U+FE76 → " َ" starts with [Zs]
NOT OK [Lo] ﹸ U+FE78 → " ُ" starts with [Zs]
NOT OK [Lo] ﹺ U+FE7A → " ِ" starts with [Zs]
NOT OK [Lo] ﹼ U+FE7C → " ّ" starts with [Zs]
NOT OK [Lo] ﹾ U+FE7E → " ْ" starts with [Zs]
NOT OK [Lm] ﾞ U+FF9E → "゙" starts with [Mn]
NOT OK [Lm] ﾟ U+FF9F → "゚" starts with [Mn]

>>> all_unicode = map(chr, range(0x110000))
>>> for c in all_unicode:
...     category = unicodedata.category(c)
...     if not category.startswith('L') and category != 'Nl':
...         if c.isidentifier():
...             print('[{}] {} U+{:04X} {}'.format(
...                   category, c, ord(c), unicodedata.name(c)))
... 
[Pc] _ U+005F LOW LINE
[Mn] ᢅ U+1885 MONGOLIAN LETTER ALI GALI BALUDA
[Mn] ᢆ U+1886 MONGOLIAN LETTER ALI GALI THREE BALUDA
[Sm] ℘ U+2118 SCRIPT CAPITAL P
[So] ℮ U+212E ESTIMATED SYMBOL