यूनिकोड दुनिया के अधिकांश लेखन प्रणालियों में व्यक्त पाठ के संगत एन्कोडिंग, प्रस्तुतीकरण और हैंडलिंग के लिए एक कंप्यूटिंग उद्योग मानक है। नवीनतम संस्करण में 13 9 आधुनिक और ऐतिहासिक स्क्रिप्टों के साथ-साथ एकाधिक प्रतीक सेटों को कवर करने वाले 136,755 वर्णों की एक सूची है। यूनिकोड मानक आईएसओ / आईईसी 10646 के साथ संयोजन के रूप में बनाए रखा गया है, और दोनों कोड के लिए कोड समान हैं।यूनिकोड मानक में दृश्य संदर्भ के लिए कोड चार्ट का एक सेट होता है, एक एन्कोडिंग विधि और मानक अक्षर एन्कोडिंग का सेट, संदर्भ डेटा फ़ाइलों का एक सेट और कई संबंधित आइटम, जैसे कि चरित्र गुण, सामान्यीकरण, अपघटन, कोलेशन के नियम , प्रतिपादन, और द्विदिश प्रदर्शन क्रम (सही-से-बायां स्क्रिप्ट, जैसे कि अरबी और हिब्रू, और बाएं से दाएं स्क्रिप्ट वाले युक्त पाठ के सही प्रदर्शन के लिए) जून 2017 तक, सबसे हाल का संस्करण यूनिकोड 10.0 है। यूनिकोड कंसोर्टियम द्वारा मानक को बनाए रखा जाता है।यूनिकोड की एकजुट चरित्र सेट पर सफलता ने अंतरराष्ट्रीयकरण और कंप्यूटर सॉफ्टवेयर के स्थानीयकरण में व्यापक और प्रमुख उपयोग किया है। मानक कई आधुनिक तकनीकों में लागू किया गया है, जिसमें आधुनिक ऑपरेटिंग सिस्टम, एक्सएमएल, जावा (और अन्य प्रोग्रामिंग लैंग्वेजेस) और एनईटी फ्रेमवर्क शामिल हैं।यूनिकोड को अलग-अलग वर्ण एन्कोडिंग द्वारा लागू किया जा सकता है। यूनिकोड मानक यूटीएफ -8, यूटीएफ -16, और यूटीएफ -32 को परिभाषित करता है, और कई अन्य एनकोडिंग उपयोग में हैं। सबसे अधिक इस्तेमाल किया एन्कोडिंग यूटीएफ -8, यूटीएफ -16 और यूसीएस -2, यूटीएफ -16 का अग्रदूत है।UTF-8, मुख्यतः वेबसाइटों (90% से अधिक) द्वारा उपयोग किया जाता है, पहले 128 कोड बिंदुओं के लिए एक बाइट का उपयोग करता है, और अन्य वर्णों के लिए 4 बाइट्स तक। पहले 128 यूनिकोड कोड अंक ASCII वर्ण हैं; इसलिए एक एएससीआईआई पाठ UTF-8 पाठ है.यूसीएस -2 प्रत्येक चरित्र के लिए केवल दो बाइट्स (16 बिट्स) का उपयोग करता है, लेकिन केवल 65,536 कोड अंक, तथाकथित बेसिक बहुभाषी विमान (बीएमपी) को सांकेतिक शब्दों में बदल सकता है। 17 विमानों में 1,114,112 कोड अंक संभव होने के साथ, और अब तक परिभाषित 120,000 से अधिक कोड पॉइंट के साथ, कई यूनिकोड वर्ण यूसीएस -2 की पहुंच से बाहर हैं इसलिए, UCS-2 अप्रचलित है, हालांकि अभी भी सॉफ्टवेयर में व्यापक रूप से उपयोग किया जाता है। UTF-16 मूलभूत बहुभाषी विमान के लिए यूसीएस-2 के समान 16-बिट एन्कोडिंग का उपयोग करके और अन्य विमानों के लिए 4-बाइट एन्कोडिंग का उपयोग करके UCS-16 को बढ़ाता है। जब तक इसमें आरक्षित श्रेणी U 0D800-U 0DFFF में कोई कोड अंक नहीं होता है, एक UCS-2 पाठ एक मान्य UTF-16 पाठ है।यूटीएफ -32 (जिसे यूसीएस -4 कहा जाता है) प्रत्येक चरित्र के लिए चार बाइट्स का उपयोग करता है। यूसीएस -2 की तरह, प्रति चरित्र बाइट्स की संख्या तय की जाती है, जो कि वर्ण अनुक्रमण को सुगम बनाता है; लेकिन यूसीएस -2 के विपरीत, यूटीएफ -32 सभी यूनिकोड कोड बिंदुओं को सांकेतिक शब्दों में बदलना करने में सक्षम है। हालांकि, क्योंकि प्रत्येक अक्षर चार बाइट्स का उपयोग करता है, यूटीएफ -32 अन्य एन्कोडिंग की तुलना में काफी अधिक स्थान लेता है, और व्यापक रूप से उपयोग नहीं किया जाता है।. [अक्षरों को सांकेतिक अक्षरों में बदलना][यूनिवर्सल कोडित कैरेक्टर सेट] |