Membru : Autentificare |Înregistrare |Cunoștințe Încărcați
Caută
Unicode echivalență [Modificare ]
Echivalența cu unicode este specificația conform standardului de codificare a caracterelor Unicode, conform căreia unele secvențe de puncte de cod reprezintă în esență același caracter. Această caracteristică a fost introdusă în standard pentru a permite compatibilitatea cu seturi de caractere standard preexistente, care adesea includau caractere similare sau identice.
Unicode oferă două noțiuni, o echivalență canonică și o compatibilitate. Secvențele punctului de cod care sunt definite ca echivalente canonice se presupune că au același aspect și semnificație atunci când sunt imprimate sau afișate. De exemplu, punctul de cod U 006E (litera latină "n") urmat de U 0303 (combinația tilde "◌") este definit de Unicode pentru a fi echivalent canonic cu punctul unic de cod U 00F1 "din alfabetul spaniol). Prin urmare, aceste secvențe ar trebui să fie afișate în același mod, ar trebui tratate în același mod prin aplicații cum ar fi alfabetizarea numelor sau căutarea și pot fi înlocuite unul cu celălalt. În mod similar, fiecare bloc de silabă Hangul, care este codificat ca un singur caracter, poate fi codificat în mod echivalent ca o combinație a unui jamo conjugat de conducere, o vocală concomitentă jamo și, dacă este cazul, a unui jamo conlucrător.
Segmente care sunt definite ca fiind compatibile sunt presupuse a avea aparențe distincte, dar același înțeles în anumite contexte. Astfel, de exemplu, punctul de cod U FB00 (ligatura tipografică "ff") este definit ca fiind compatibil - dar nu echivalent canonic - cu secvența U 0066 U 0066 (două litere latine "f"). Secvențele compatibile pot fi tratate în același mod în unele aplicații (cum ar fi sortarea și indexarea), dar nu și în altele; și pot fi înlocuite unele în altele în anumite situații, dar nu și în altele. Secvențele care sunt echivalente canonic sunt, de asemenea, compatibile, dar opusul nu este neapărat adevărat.
De asemenea, standardul definește o procedură de normalizare a textului, numită normalizare Unicode, care înlocuiește secvențe echivalente de caractere, astfel încât oricare două texte echivalente vor fi reduse la aceeași secvență de puncte de cod, denumită forma de normalizare sau forma normală a textului original. Pentru fiecare dintre cele două noțiuni de echivalență, Unicode definește două forme normale, una compusă complet (unde mai multe puncte de cod sunt înlocuite cu puncte unice ori de câte ori este posibil) și unul complet descompus (în cazul în care punctele unice sunt împărțite în mai multe). Fiecare dintre aceste patru forme normale poate fi utilizată în procesarea textului.
[Caracter: calcul][Cod punct][tildă][Ñ][Ordine alfabetică][Hangul consoane și mese vocale][Ligatură tipografică][Text normalizare]
1.Surse de echivalență
1.1.Duplicarea caracterelor
1.2.Combinarea și caracterele precompuse
1.2.1.Exemplu
1.3.Non-interacțiune tipografică
1.4.Contractele tipografice
2.Normalizare
2.1.Forme normale
2.2.Ordonarea canonică
3.Erori cauzate de diferențele de normalizare
[Încărcați Mai mult Conținut ]


Drepturi de autor @2018 Lxjkh