Medlem : Logon |Registrering |Upload viden
Søg
Unicode [Ændring ]
Unicode er en databehandlingsstandard for konsekvent kodning, repræsentation og håndtering af tekst, der udtrykkes i de fleste af verdens skrivesystemer. Den seneste version indeholder et repertoire på 136,755 tegn, der dækker 139 moderne og historiske scripts, samt flere symbolsæt. Unicode-standarden opretholdes i forbindelse med ISO / IEC 10646, og begge er kode-for-kode identiske.Unicode-standarden består af et sæt kodetabeller til visuel reference, en kodningsmetode og sæt af standard tegnkoder, et sæt referencedatafiler og en række relaterede elementer, såsom tegnegenskaber, regler for normalisering, nedbrydning, sortering , rendering og tovejsvisning (for korrekt visning af tekst, der indeholder både højre til venstre-script, såsom arabisk og hebraisk, og venstre til højre-script). Fra juni 2017 er den seneste version Unicode 10.0. Standarden opretholdes af Unicode Consortium.Unicode's succes ved at kombinere tegnsæt har ført til sin udbredt og overvejende anvendelse i internationaliseringen og lokaliseringen af ​​computersoftware. Standarden er implementeret i mange nyere teknologier, herunder moderne operativsystemer, XML, Java (og andre programmeringssprog) og .NET Framework.Unicode kan implementeres af forskellige tegnkoder. Unicode-standarden definerer UTF-8, UTF-16 og UTF-32, og flere andre kodninger er i brug. De mest anvendte kodninger er UTF-8, UTF-16 og UCS-2, en forløber af UTF-16.UTF-8, der dominerende bruges af websteder (over 90%), bruger en byte til de første 128 kodepunkter og op til 4 byte for andre tegn. De første 128 Unicode-kodepunkter er ASCII-tegnene; så en ASCII-tekst er en UTF-8-tekst.UCS-2 bruger simpelthen to bytes (16 bits) for hvert tegn, men kan kun kode de første 65.536 kodepunkter, det såkaldte Basic Multilingual Plane (BMP). Med 1.114.112 kodepunkter på 17 fly er mulige, og med over 120.000 kodepoint defineret hidtil, er mange Unicode-tegn uden for rækkevidden af ​​UCS-2. Derfor er UCS-2 forældet, men stadig meget anvendt i software. UTF-16 udvider UCS-2 ved at bruge den samme 16-bit kodning som UCS-2 til Basic Multilingual Plane og en 4-byte-kodning for de andre fly. Så længe det ikke indeholder kodepunkter i det reserverede område U 0D800-U 0DFFF, er en UCS-2-tekst en gyldig UTF-16-tekst.UTF-32 (også kaldet UCS-4) bruger fire bytes for hver karakter. Ligesom UCS-2 er antallet af bytes pr. Karakter fastsat, hvilket letter tegnindeksering; men i modsætning til UCS-2 er UTF-32 i stand til at kode alle Unicode-kodepunkter. Men fordi hvert tegn bruger fire byte, tager UTF-32 betydeligt mere plads end andre kodninger og bruges ikke i vid udstrækning..
[Universelt kodet tegnsæt]
1.Oprindelse og udvikling
1.1.Historie
1.2.Arkitektur og terminologi
1.2.1.Kode punkt fly og blokke
1.2.2.Generelt Kategori ejendom
1.2.3.Abstrakte tegn
1.3.Unicode Consortium
1.4.versioner
1.5.Scripts dækket
2.Kortlægning og kodning
2.1.Unicode Transformation Format og Universal Coded Character Set
2.2.Færdiglavede versus sammensatte tegn
2.3.Ligaturer
2.4.Standardiserede undergrupper
3.Adoption
3.1.Operativsystemer
3.2.Input metoder
3.3.E-mail
3.4.Web
3.5.Skrifttyper
3.6.nye linjer
4.Problemer
4.1.Filosofisk og fuldstændighedskritik
4.2.Kortlægning til gamle tegnsæt
4.3.Indikér scripts
4.4.Kombination af tegn
4.5.Uregelmæssigheder
[Upload Mere Indhold ]


Copyright @2018 Lxjkh