યુનિકોડ

યુનિકોડ સતત સંકેતો, રજૂઆત અને વિશ્વના લેખન સિસ્ટમો મોટા ભાગના વ્યક્ત લખાણ સંભાળવા માટે કોમ્પ્યુટીંગ ઉદ્યોગ મૂળભૂત છે. યુનિવર્સલ કેરેક્ટર સેટ સાથે સંકલ્પના પ્રમાણભૂત અને યુનિકોડ સ્ટાન્ડર્ડ તરીકે પુસ્તક સ્વરૂપે પ્રકાશિત, યુનિકોડ ની તાજેતરની આવૃત્તિ 109.000 કરતાં વધુ 93 સ્ક્રિપ્ટો આવરી અક્ષરો એક તરીકેનું, દ્રશ્ય સંદર્ભ, એક એન્કોડિંગ પદ્ધતિ અને કોડ ચાર્ટમાં સમૂહ સમાવે છે પ્રમાણભૂત અક્ષર એન્કોડીંગ્સ, ઉપલા અને નીચલા કિસ્સામાં, સંદર્ભ માહિતી કમ્પ્યુટર ફાઈલોની સેટ, અને પાત્ર ગુણધર્મો નાર્મલાઝેશન માટે નિયમો, વિઘટન, સરખામણી, રેન્ડરીંગ અને દ્રીમાર્ગી જેમ કે સંબંધિત વસ્તુઓ, સંખ્યા, જેમ કે પાત્ર ગુણધર્મો એક ગણતરી સમૂહ પ્રદર્શન ક્રમ (લખાણ યોગ્ય પ્રદર્શન અરબી અને હીબ્રૂ, જેમ કે બંને અધિકાર-થી-ડાબી સ્ક્રિપ્ટો, અને ડાબી-થી-અધિકાર સ્ક્રિપ્ટો સમાવતી માટે). [1] 2011 માં, એકદમ યુનિકોડ મુખ્ય આવૃત્તિ 6.0 યુનિકોડ છે . યુનિકોડ કોન્સોર્ટિયમ, તો બિનનફાકારક સંસ્થા કે યુનિકોડ વિકાસ કોઓર્ડિનેટ્સ, આખરે યુનિકોડ અને તેના સ્ટાન્ડર્ડ યુનિકોડ ટ્રાન્સફોર્મેશન (UTF) બંધારણ યોજનાઓ છે, કારણ કે હાલની યોજનાઓ ઘણા કદ અને અવકાશ મર્યાદિત છે હાલની અક્ષર માટેના સંકેતો યોજનાઓ બદલી ના મહત્વાકાંક્ષી ધ્યેય છે અને છે બહુભાષી પર્યાવરણો સાથે સુસંગત. Unifying અક્ષર સમૂહો પર માતાનો યુનિકોડ સફળતા અને કોમ્પ્યુટર સોફ્ટવેર આંતરરાષ્ટ્રિયકરણ સ્થાનિકીકરણ તેની વ્યાપક અને આગવા ઉપયોગ તરફ દોરી જાય છે. પ્રમાણભૂત XML, જાવા પ્રોગ્રામીંગ ભાષા, Microsoft નેટ. ફ્રેમવર્ક અને આધુનિક ઓપરેટિંગ સિસ્ટમો ઘણી તાજેતરના ટેકનોલોજી છે, અમલીકરણ કરી દેવામાં આવ્યુ છે. યુનિકોડ વિવિધ પાત્ર એન્કોડીંગ્સ દ્વારા અમલમાં કરી શકાય છે. સૌથી સામાન્ય રીતે વાપરવામાં એન્કોડીંગ્સ UTF-8 છે (જે ASCII અક્ષરો છે, કે જે બંને UTF-8 અને ASCII સંકેતો, અને અન્ય અક્ષરો માટે ચાર બાઈટમાં જ કોડ કિંમતો માટે એક બાઈટ વાપરે છે), હવે-કાલગ્રસ્ત UCS- 2 (કે જે દરેક અક્ષર માટે બે બાઇટ્સ વાપરે છે પરંતુ તે વર્તમાન યુનિકોડ સ્ટાન્ડર્ડ દરેક પાત્ર સાંકેતિક લિપિમાં સંદેશ કરી શકો છો), અને UTF-16 (કે જે UCS-2 વિસ્તારે માટે UCS-2 તક બહાર કોડ પોઈન્ટ નિયંત્રિત).

મૂળ વંશજ અને વિકાસ

યુનિકોડ ISO 8859 પ્રમાણભૂત છે, કે જે વિશ્વના વિવિધ દેશોમાં વ્યાપી વપરાશ શોધવા દ્વારા વ્યાખ્યાયિત તે, જેમ કે પરંપરાગત પાત્ર એન્કોડીંગ્સ, મર્યાદાઓ transcending ની સ્પષ્ટ હેતુ છે, પરંતુ મોટે ભાગે એકબીજા સાથે સુસંગત રહે છે. ઘણા પરંપરાગત પાત્ર એન્કોડીંગ્સ એ સામાન્ય સમસ્યા છે કે તેઓ દ્વિભાષી કોમ્પ્યુટર (સામાન્ય રીતે લેટિન પાત્રો અને સ્થાનિક સ્ક્રિપ્ટ મદદથી) પ્રક્રિયા છે, પરંતુ કોમ્પ્યુટર (આર્બીટરી એકબીજા સાથે મિશ્રિત સ્ક્રિપ્ટો કમ્પ્યુટર પ્રોસેસિંગ) બહુભાષી નથી પ્રક્રિયા માટે પરવાનગી આપે છે શેર કરે છે. યુનિકોડ, ઉદ્દેશ છે, અક્ષરો-graphemes નીચે અને આવા અક્ષરો માટે ચલ ગ્લાયફ્સ (રેન્ડરીંગ) કરતા એકમો-બદલે ગ્રાફિમ જેવા encodes. ચિની અક્ષરો કિસ્સામાં, આ ક્યારેક તેના ચલ ગ્લાયફ્સ (હેન એકીકરણ જુઓ) પાસેથી નીચે અક્ષર વિશિષ્ટ પર વિવાદો પરિણમે છે. લખાણ પર પ્રક્રિયા માં, યુનિકોડ એક અનન્ય કોડ બિંદુ-સંખ્યા પૂરી પાડે છે ભૂમિકા લે છે, glyph માટે નથી દરેક પાત્રને. બીજા શબ્દોમાં કહીએ તો, યુનિકોડ એક અમૂર્ત રીતે એક પાત્ર રજૂ કરે છે અને અન્ય સોફ્ટવેર દ્રશ્ય (કદ, આકાર, ફોન્ટ, અથવા શૈલી) વેબ બ્રાઉઝર અથવા વર્ડ પ્રોસેસર, જેમ કે રેન્ડરીંગ, નહીં. આ સરળ હેતુ જટિલ બને છે, જોકે યુનિકોડ વધુ ઝડપી દત્તક પ્રોત્સાહન ના આશા માં યુનિકોડ ડિઝાઇનરો દ્વારા કરવામાં રાહતો કારણે. પ્રથમ 256 કોડ પોઈન્ટ 8859-1 ISO ની સામગ્રી, જેથી તે હાલના પશ્ચિમી લખાણ કન્વર્ટ તુચ્છ કરવા સરખા કરવામાં આવી હતી. ઘણા જરૂરી-સરખા અક્ષરો વિવિધ કોડ પોઈન્ટ ઘણી વખત એનકોડ હતા લીગસી એન્કોડીંગ્સ છે અને તેથી દ્વારા વાપરવામાં તફાવત સાચવી કોઈપણ માહિતી ખોયા વિના તે એન્કોડીંગ્સ થી યુનિકોડ (અને પાછા) રૂપાંતરણ પરવાનગી આપે છે. ઉદાહરણ તરીકે, કોડ પોઈન્ટ "Fullwidth ફોર્મ" વિભાગ સંપૂર્ણ લેટિન મૂળાક્ષર છે કે જે મુખ્ય લેટિન મૂળાક્ષર વિભાગ અલગ છે સમાવે છે. ચિની, જાપાની, અને કોરિયાઈ ફોન્ટ્સ (CJK), આ અક્ષરો CJK આઇડિયોગ્રાફ્સ જ પહોળાઈ પર રેન્ડર કરવામાં આવે છે અડધા પહોળાઈ પર જગ્યાએ. અન્ય ઉદાહરણો માટે, યુનિકોડ પાત્રો નકલી જુઓ.

ઇતિહાસ

યુનિકોડ તારીખ પાછા 1987, જ્યારે જૉ બેકર ઝેરોક્ષ અને લી કોલિન્સ અને એપલ માંથી માર્ક ડેવિસ એક સાર્વત્રિક અક્ષર સમૂહ બનાવવા ના practicalities તપાસ શરૂ કરવા માટે મૂળ [2] 1988 ઓગસ્ટ. જૉ બેકર "આંતરરાષ્ટ્રીય માટે ડ્રાફ્ટ દરખાસ્ત પ્રકાશિત / બહુભાષી લખાણ અક્ષર માટેના સંકેતો સિસ્ટમ, કામચલાઉ યુનિકોડ કહેવાય. " તેમ છતાં આ શબ્દ "યુનિકોડ" પહેલાં પ્રોગ્રામિંગ 1950 ના અંત સુધીમાં, [3] માં UNIVAC વિકાસ ભાષા નામ છે, જેમ કે અન્ય હેતુઓ માટે ઉપયોગ કર્યો હતો છે અને મોટા ભાગના સાર્વત્રિક તાર વાક્ય-પુસ્તક કે પ્રથમ 1889 માં પ્રકાશિત કરવામાં આવી હતી નોંધનીય રીતે, [4] બેકર આ અગાઉ ઉપયોગો પરિચિત આવી નથી, અને તેઓ જણાવે છે કે "[t] તેમણે નામ 'યુનિકોડ' માટે એક અનન્ય, એકીકૃત, સાર્વત્રિક સંકેતો સૂચવે છે કરવાના હેતુ માટે છે." [5] આ દસ્તાવેજ, 88 યુનિકોડ ઉમેદવારી માં, બેકર એક અક્ષર 16-bit મોડેલ દર્શાવેલ: [5] યુનિકોડ એક વહેવારુ, વિશ્વસનીય વિશ્વમાં પાઠ્ય એન્કોડિંગને જરૂરિયાત સંબોધવા માટે કરવામાં આવે છે. યુનિકોડ આશરે "વિશાળ શરીર ASCII છે કે," 16 બિટ્સ કરવામાં ખેંચાઈ છે વિશ્વના તમામ વસવાટ કરો છો ભાષાઓ અક્ષરો આવરી લે તરીકે વર્ણવવામાં હોઇ શકે છે. યોગ્ય એન્જિનિયર્ડ ડિઝાઈન, અક્ષર દીઠ 16 બિટ્સ આ હેતુ માટે પૂરતી જગ્યા કરતાં વધુ હોય છે. તેમના મૂળ ડિઝાઈન 16-બિટ ધારણા છે કે જે માત્ર તે આધુનિક ઉપયોગ અને સ્ક્રિપ્ટો અક્ષરો એનકોડ કરવાની જરૂર પર આધારિત હતી: [5] યુનિકોડ છેલ્લા અવશેષો સાચવીને કરતાં ભવિષ્ય માટે ખાતરી ઉપયોગીતા માટે ઊંચી પ્રાધાન્ય આપે છે. યુનિકોડ આધુનિક લખાણ પ્રકાશિત અક્ષરો પ્રથમ હમણાં (બધા જ અખબારો અને સામયિકો 1988 માં વિશ્વમાં મુદ્રિત ના યુનિયન દા.ત.), નંબર જેની 214 = 16,384 નીચે સુધી નિઃશંકપણે છે ધ્યેય રાખે છે. તે આધુનિક ઉપયોગ અક્ષરો ઉપરાંત, તમામ અન્ય કાલગ્રસ્ત અથવા ભાગ્યે જ વ્યાખ્યાયિત થયેલ હોઈ શકે; આ સામાન્ય રીતે-ઉપયોગી Unicodes ની જાહેર યાદી congesting માટે વધુ ખાનગી-ઉપયોગ રજીસ્ટ્રેશન માટે ઉમેદવારો છે. 1989 ની શરૂઆતમાં, યુનિકોડ કામ જૂથ કેન Whistler અને અલંકાર માઇક Kernaghan, કારેન સ્મિથ-Yoshimura અને RLG ઓફ જોન Aliprand, અને સન માઇક્રોસિસ્ટમ્સ ઓફ ગ્લેન રાઈટ સમાવેશ થાય છે વિસ્તરી છે, અને 1990 મિશેલ Suignard અને Asmus Freytag માં Microsoft અને રિક McGowan થી NeXT આ જૂથમાં જોડાયા. 1990 ના અંત સુધીમાં હાલના અક્ષર માટેના સંકેતો ધોરણો મેપિંગ કામ પર સૌથી પૂર્ણ કરવામાં આવી હતી, અને યુનિકોડ એક અંતિમ સમીક્ષા ડ્રાફ્ટ તૈયાર કરવામાં આવ્યો હતો. યુનિકોડ સંઘ 3 જાન્યુઆરી, 1991 ના રોજ સામેલ કરવામાં આવ્યું હતું કેલિફોર્નિયા રાજ્યના માં, અને 1991 માં ઓક્ટોબર, યુનિકોડ સ્ટાન્ડર્ડ પ્રથમ વોલ્યુમ પ્રકાશિત કરવામાં આવી હતી. બીજી વોલ્યુમ, હેન આઇડિયોગ્રાફ્સ આવરી, જૂન 1992 માં પ્રકાશિત થયું હતું. 1996 માં, એક સરોગેટ પાત્ર પદ્ધતિ યુનિકોડ 2.0 માં અમલમાં આવ્યું હતું, કે જેથી યુનિકોડ લાંબા સમય સુધી કરવામાં આવી હતી 16 બિટ્સ માટે નિયંત્રિત છે. આ મિલિયન કોડ પોઇન્ટ, કે જે ઘણા ઐતિહાસિક (દા.ત. ઇજિપ્શિયન હાઇરોગ્લિફ્સ) સ્ક્રિપ્ટો અને ભાગ્યે જ-ઉપયોગ અથવા કાલગ્રસ્ત અક્ષરો જરૂર સંકેતો તરીકે ધારણા હતી હજારો સંકેતો માટે માન્ય કરવા માટે યુનિકોડ codespace વધારો થયો છે.

બાહ્ય કડિઓ

http://www.unicode.org