Si të konfiguroni telefonat inteligjentë dhe PC. Portali informativ
  • në shtëpi
  • Hekuri
  • Tabela e plotë ascii. Kodimi ASCII (kodi standard amerikan për shkëmbimin e informacionit) - kodimi bazë i tekstit për latinisht

Tabela e plotë ascii. Kodimi ASCII (kodi standard amerikan për shkëmbimin e informacionit) - kodimi bazë i tekstit për latinisht

Le të hedhim një vështrim në disa nga faktet që dimë:

Tërësia e karaktereve me të cilat është shkruar teksti quhet alfabet.

Numri i karaktereve në një alfabet është kardinaliteti i tij.

Formula për përcaktimin e sasisë së informacionit: N \u003d 2 b,

ku N është fuqia e alfabetit (numri i karaktereve),

b - numri i biteve (pesha e informacionit të karakterit).

Pothuajse të gjitha karakteret e nevojshme mund të vendosen në një alfabet me një kapacitet prej 256 karaktere. Një alfabet i tillë quhet i mjaftueshëm.

Sepse 256 = 28 , atëherë pesha e 1 karakteri është 8 bit.

Një njësie matëse prej 8 bitësh i është dhënë emri 1 bajt:

1 bajt = 8 bit.

Kodi binar i çdo karakteri në tekstin e kompjuterit zë 1 bajt memorie.

Si paraqitet informacioni tekstual në kujtesën e kompjuterit?

Kodimi konsiston në faktin se çdo karakteri i caktohet një kod dhjetor unik nga 0 në 255 ose kodi binar përkatës nga 00000000 në 11111111. Kështu, një person dallon karakteret sipas stilit të tyre dhe një kompjuter nga kodi i tyre.

Lehtësia e kodimit byte-pas-byte të karaktereve është e dukshme, pasi një bajt është pjesa më e vogël e adresueshme e memories dhe, për rrjedhojë, procesori mund të aksesojë secilin karakter veçmas kur kryen përpunimin e tekstit. Nga ana tjetër, 256 karaktere janë mjaft të mjaftueshme për të përfaqësuar një shumëllojshmëri të gjerë të informacionit të karaktereve.

Tani shtrohet pyetja, cilin kod binar tetë-bitësh të vendosni në korrespondencë me secilin karakter.

Është e qartë se kjo është një çështje e kushtëzuar, mund të gjeni shumë mënyra për të koduar.

Tabela ASCII është bërë standardi ndërkombëtar për PC. (shqiptohet asci) (American Standard Code for Information Interchange).

Vetëm gjysma e parë e tabelës është standard ndërkombëtar, d.m.th. karaktere me numra nga 0 (00000000) deri në 127 (01111111).

Numër serik

Simboli

00000000 - 00011111


Funksioni i tyre është të kontrollojnë procesin e shfaqjes së tekstit në ekran ose të printimit, dhënien e një sinjali zanor, shënimin e tekstit, etj.

32 - 127

00100000 - 01111111


128 - 255

10000000 - 11111111


Gjysma e dytë e tabelës së kodeve ASCII, e quajtur faqja e kodit (128 kode, duke filluar me 10000000 dhe duke përfunduar me 11111111), mund të ketë opsione të ndryshme, secili opsion ka numrin e vet.


Unë tërheq vëmendjen tuaj për faktin se në tabelën e kodimit, shkronjat (të mëdha dhe të vogla) janë renditur sipas rendit alfabetik, dhe numrat janë renditur në rend rritës. Ky respektim i rendit leksikografik në renditjen e karaktereve quhet parimi i kodimit sekuencial të alfabetit.


Kodimi më i zakonshëm që përdoret aktualisht është Microsoft Windows, i shkurtuar si CP1251.

Që nga fundi i viteve '90, problemi i standardizimit të kodimit të karaktereve është zgjidhur me prezantimin e një standardi të ri ndërkombëtar të quajtur Unicode. . Ky është një kodim 16-bit, d.m.th. ka 2 bajt memorie për karakter. Sigurisht, në këtë rast, sasia e kujtesës së zënë rritet me 2 herë. Por një tabelë e tillë kodi lejon përfshirjen deri në 65536 karaktere. Specifikimi i plotë i standardit Unicode përfshin të gjitha alfabetet ekzistuese, të zhdukura dhe të krijuara artificialisht të botës, si dhe shumë simbole matematikore, muzikore, kimike dhe të tjera.

Le të përpiqemi të përdorim një tabelë ASCII për të imagjinuar se si do të duken fjalët në kujtesën e kompjuterit.

Fjalët

Kujtesa

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Kur informacioni i tekstit futet në një kompjuter, karakteret (shkronjat, numrat, shenjat) kodohen duke përdorur sisteme të ndryshme kodi, të cilat përbëhen nga një grup tabelash kodesh të vendosura në faqet përkatëse të standardeve për kodimin e informacionit të tekstit. Në tabela të tilla, çdo karakteri i caktohet një kod numerik specifik në shënim heksadecimal ose dhjetor, d.m.th., tabelat e kodeve pasqyrojnë korrespondencën midis imazheve të karaktereve dhe kodeve numerike dhe janë krijuar për të koduar dhe deshifruar informacionin tekstual. Kur futni informacionin e tekstit duke përdorur një tastierë kompjuteri, çdo karakter hyrës kodohet, d.m.th., konvertohet në një kod numerik, kur informacioni i tekstit nxirret në një pajisje dalëse kompjuteri (ekran, printer ose plotter), imazhi i tij ndërtohet duke përdorur kodin e karakterit numerik. . Caktimi i një kodi numerik specifik në një simbol është rezultat i një marrëveshjeje midis organizatave përkatëse në vende të ndryshme. Aktualisht, nuk ka asnjë tabelë të vetme të kodit universal që plotëson shkronjat e alfabeteve kombëtare të vendeve të ndryshme.

Tabelat moderne të kodeve përfshijnë pjesë ndërkombëtare dhe kombëtare, domethënë ato përmbajnë shkronja të alfabetit latin dhe kombëtar, numra, aritmetikë dhe shenja pikësimi, karaktere matematikore dhe kontrolluese dhe karaktere pseudografike. Pjesa ndërkombëtare e tabelës së kodit bazuar në standard ASCII (Kodi Standard Amerikan për Shkëmbimin e Informacionit), kodon gjysmën e parë të karaktereve të tabelës së kodeve me kode numerike nga 0 në 7 F16, ose në sistemin e numrave dhjetorë nga 0 në 127. Në këtë rast, kodet nga 0 deri në 20 16 (0 × 32 10) u caktohen tasteve funksionale (F1, F2, F3, etj.) të tastierës së kompjuterit personal. Në fig. 3.1 tregon pjesën ndërkombëtare të tabelave të kodit bazuar në standard ASCII. Qelizat e tabelës numërohen përkatësisht në sistemet e numrave dhjetorë dhe heksadecimalë.

Fig 3.1. Pjesa ndërkombëtare e tabelës së kodeve (standarde ASCII) me numrat e qelizave të paraqitura në sistemin e numrave dhjetorë (a) dhe heksadecimal (b).


Pjesa kombëtare e tabelave të kodeve përmban kodet e alfabeteve kombëtare, e cila quhet edhe tabela e grupeve të karaktereve. (grup karakteresh).

Aktualisht, për të mbështetur shkronjat e alfabetit rus (cirilik), ekzistojnë disa tabela kodesh (enkodime) që përdoren nga sisteme të ndryshme operative, gjë që është një pengesë e rëndësishme dhe në disa raste çon në probleme që lidhen me operacionet e dekodimit për vlerat numerike. të personazheve. Në tabelë. 3.1 tregon emrat e faqeve të kodit (standardet) në të cilat janë vendosur tabelat e kodeve cirilike (kodimet).

Tabela 3.1

Një nga standardet e para për kodimin cirilik në kompjuter ishte standardi KOI8-R. Pjesa kombëtare e tabelës së kodeve të këtij standardi është paraqitur në fig. 3.2.

Oriz. 3.2. Pjesa kombëtare e tabelës së kodit të standardit KOI8-R


Aktualisht, përdoret edhe tabela e kodit, e vendosur në faqen СР866 të standardit të kodimit të informacionit të tekstit, i cili përdoret në sistemin operativ MS DOS ose seancë MS DOS për të koduar alfabetin cirilik (Fig. 3.3, por).

Oriz. 3.3. Pjesa kombëtare e tabelës së kodit, e vendosur në faqen СР866 (a) dhe në faqen СР1251 (b) të standardit të kodimit të informacionit të tekstit


Aktualisht, për kodimin cirilik, tabela e kodit më e përdorur gjendet në faqen СР1251 të standardit përkatës, i cili përdoret në sistemet operative të familjes. Dritaret firmave Microsoft(Fig. 3.2, b). Në të gjitha tabelat e kodit të paraqitura, përveç tabelës standarde unicode, 8 bit (8 bit) ndahen për të koduar një karakter.

Në fund të shekullit të kaluar, u shfaq një standard i ri ndërkombëtar unicode, në të cilin një karakter përfaqësohet nga një kod binar dy bajtë. Zbatimi i këtij standardi është një vazhdimësi e zhvillimit të një standardi universal ndërkombëtar që lejon zgjidhjen e problemit të përputhshmërisë së kodimeve kombëtare të karaktereve. Duke përdorur këtë standard, mund të kodoni 2 16 = 65536 karaktere të ndryshme. Në fig. 3.4 tregon tabelën e kodit 0400 (alfabeti rus) i standardit Unicode.

Oriz. 3.4. Tabela e kodeve 0400 e standardit Unicode


Le të shpjegojmë atë që është thënë në lidhje me kodimin e informacionit tekstual duke përdorur një shembull.

Shembulli 3.1

Kodoni fjalën "Kompjuter" si një sekuencë numrash dhjetorë dhe heksadecimalë duke përdorur kodimin CP1251. Cilat karaktere do të shfaqen në tabelat e kodeve SR866 dhe KOI8-R kur përdorni kodin e marrë.

Sekuencat e kodit heksadecimal dhe binar për fjalën "Kompjuter" bazuar në tabelën e kodimit CP1251 (shih Fig. 3.3, b) do të duket kështu:

Kjo sekuencë kodesh në kodimet CP866 dhe KOI8-R do të shfaqë karakteret e mëposhtme:

Për të kthyer dokumentet e tekstit në gjuhën ruse nga një standard i kodimit të informacionit të tekstit në një tjetër, përdoren programe speciale - konvertues. Konvertuesit zakonisht ndërtohen në programe të tjera. Një shembull është një program shfletuesi - Internet Explorer (IE) i cili ka një konvertues të integruar. Programi i shfletuesit është një program i veçantë për shikimin e përmbajtjes faqet e internetit në rrjetin global kompjuterik të internetit. Le të përdorim këtë program për të konfirmuar rezultatin e hartës së karaktereve të marrë në shembullin 3.1. Për ta bërë këtë, kryeni hapat e mëposhtëm.

1. Ekzekutoni Notepad (Fletorja e shënimeve). Programi Notepad në sistemin operativ Windows XP niset duke përdorur komandën: [Button Filloni– Programet – Aksesorët – Notepad]. Në dritaren e programit Notepad që hapet, shkruani fjalën "Kompjuter" duke përdorur sintaksën e gjuhës së shënjimit të dokumentit të hipertekstit - HTML (Hyper Text Markup Language). Kjo gjuhë përdoret për të krijuar dokumente në ueb. Teksti duhet të duket si ky:

Kompjuter

, ku

Dhe

etiketat (konstruktet e veçanta) të gjuhës HTML për titujt. Në fig. 3.5 tregon rezultatin e këtyre veprimeve.

Oriz. 3.5. Shfaq tekstin në dritaren e Notepad


Le ta ruajmë këtë tekst duke ekzekutuar komandën: [File - Save As ...] në dosjen përkatëse në kompjuter, me rastin e ruajtjes së tekstit, skedarit do t'i japim një emër - Shënim, me shtesën e skedarit. html.

2. Ekzekutoni programin Internet Explorer, me ekzekutimin e komandës: [Button Filloni- Programet - Internet Explorer]. Kur programi fillon, dritarja e paraqitur në Fig. 3.6

Oriz. 3.6. Dritarja e hyrjes jashtë linje


Zgjidhni dhe aktivizoni butonin Jashtë linje kjo nuk do ta lidhë kompjuterin me internetin global. Do të shfaqet dritarja kryesore e programit Microsoft Internet Explorer, treguar në fig. 3.7.

Oriz. 3.7. Dritarja kryesore e Microsoft Internet Explorer


Le të ekzekutojmë komandën e mëposhtme: [File - Open], do të shfaqet një dritare (Fig. 3.8), në të cilën duhet të specifikoni emrin e skedarit dhe të klikoni butonin Ne rregull ose shtypni butonin Përmbledhje… dhe gjeni skedarin Note.html.

Oriz. 3.8. Hap dritaren


Dritarja kryesore e programit Internet Explorer do të marrë formën e treguar në Fig. 3.9. Në dritare do të shfaqet fjala "Kompjuter". Tjetra, duke përdorur menunë e sipërme të programit Internet Explorer, ekzekutoni komandën e mëposhtme: [View - Encoding - Cyrillic (DOS)]. Pas ekzekutimit të kësaj komande në dritaren e programit Internet Explorer simbolet e paraqitura në Fig. 3.10. Gjatë ekzekutimit të komandës: [Shiko - Kodimi - cirilik (KOI8-R)] në dritaren e programit Internet Explorer simbolet e paraqitura në Fig. 3.11.

Oriz. 3.9. Karakteret e shfaqura me kodimin CP1251


Oriz. 3.10. Karakteret shfaqen kur kodimi CP866 është aktivizuar për një sekuencë kodi të përfaqësuar në kodimin CP1251


Oriz. 3.11. Karakteret shfaqen kur aktivizohet kodimi KOI8-R për sekuencën e kodit të përfaqësuar në kodimin CP1251


Kështu, të marra duke përdorur programin Internet Explorer sekuencat e karaktereve përputhen me sekuencat e karaktereve të marra duke përdorur tabelat e kodit CP866 dhe KOI8-R në shembullin 3.1.

3.2. Kodimi grafik i informacionit

Informacioni grafik i paraqitur në formën e vizatimeve, fotografive, rrëshqitjeve, imazheve lëvizëse (animacion, video), diagrame, vizatimesh, mund të krijohet dhe modifikohet duke përdorur një kompjuter, ndërkohë që është i koduar siç duhet. Aktualisht, ekziston një numër mjaft i madh i programeve aplikative për përpunimin e informacionit grafik, por të gjitha ato zbatojnë tre lloje të grafikës kompjuterike: raster, vektor dhe fraktal.

Nëse shikoni më nga afër imazhin grafik në ekranin e monitorit të kompjuterit, mund të shihni një numër të madh pikash me shumë ngjyra (pikselë - nga anglishtja. pixel, formuar nga elementi i figurës element imazhi) të cilat, kur bashkohen, formojnë imazhin e dhënë grafik. Nga kjo mund të konkludojmë: një imazh grafik në një kompjuter është i koduar në një mënyrë të caktuar dhe duhet të paraqitet si skedar grafik. Skedari është njësia kryesore strukturore për organizimin dhe ruajtjen e të dhënave në një kompjuter dhe në këtë rast duhet të përmbajë informacion se si të paraqitet ky grup pikash në ekranin e monitorit.

Skedarët e krijuar në bazë të grafikëve vektoriale përmbajnë informacion në formën e varësive matematikore (funksionet matematikore që përshkruajnë varësitë lineare) dhe të dhëna të lidhura se si të ndërtoni një imazh të një objekti duke përdorur segmente të linjës (vektorë) kur shfaqen në ekranin e monitorit të kompjuterit.

Skedarët e krijuar në bazë të grafikës raster supozojnë ruajtjen e të dhënave për çdo pikë individuale në imazh. Shfaqja e grafikëve raster nuk kërkon llogaritje komplekse matematikore, mjafton vetëm të merrni të dhëna për secilën pikë të figurës (koordinatat dhe ngjyrën e saj) dhe t'i shfaqni ato në ekranin e monitorit të kompjuterit.

Në procesin e kodimit të imazhit, bëhet kampionimi i tij hapësinor, d.m.th., imazhi ndahet në pika të veçanta dhe secilës pikë i jepet një kod ngjyrash (e verdhë, e kuqe, blu, etj.). Për të koduar secilën pikë të një imazhi grafik me ngjyra, përdoret parimi i zbërthimit të një ngjyre arbitrare në përbërësit e saj kryesorë, të cilët përdoren si tre ngjyra kryesore: e kuqe (fjala angleze e kuqe, shënohet me shkronjën TE), jeshile (jeshile, shënohet me shkronjën G), blu (Blu, caktoj ahu NË).Çdo ngjyrë pikë e perceptuar nga syri i njeriut mund të merret me shtimin (përzierjen) shtesë (proporcionale) të tre ngjyrave kryesore - të kuqe, jeshile dhe blu. Ky sistem kodimi quhet sistem ngjyrash. RGB. Skedarët e imazhit që përdorin një sistem ngjyrash RGB, përfaqësojnë çdo pikë të imazhit si një treshe ngjyrash - tre vlera numerike R, G Dhe NË, që korrespondon me intensitetin e ngjyrës së kuqe, jeshile dhe blu. Procesi i kodimit të një imazhi grafik kryhet duke përdorur mjete të ndryshme teknike (skaner, aparat fotografik dixhital, kamera dixhitale video, etj.); rezultati është një imazh bitmap. Kur luani imazhe grafike me ngjyra në ekranin e një monitori kompjuterik me ngjyra, ngjyra e secilës pikë (piksel) të një imazhi të tillë merret duke përzier tre ngjyra kryesore R, G Dhe b.

Cilësia e një imazhi raster përcaktohet nga dy parametra kryesorë - rezolucioni (numri i pikave horizontale dhe vertikale) dhe paleta e ngjyrave të përdorura (numri i ngjyrave të specifikuara për secilën pikë të imazhit). Rezolucioni specifikohet duke specifikuar numrin e pikave horizontale dhe vertikale, për shembull 800 me 600 pika.

Ekziston një lidhje midis numrit të ngjyrave të caktuara për një piksel të një imazhi raster dhe sasisë së informacionit që duhet të ndahet për të ruajtur ngjyrën e një piksel, të përcaktuar nga raporti (formula e R. Hartley):

ku Unë- sasia e informacionit; N- numri i ngjyrave të dhëna në pikë.

Sasia e informacionit të kërkuar për të ruajtur ngjyrën e një pike quhet gjithashtu thellësia e ngjyrës ose cilësia e ngjyrës.

Kështu, nëse numri i ngjyrave të specifikuara për një pikë imazhi është N= 256, atëherë sasia e informacionit të kërkuar për ruajtjen e tij (thellësia e ngjyrës) në përputhje me formulën (3.1) do të jetë e barabartë me Unë= 8 bit.

Kompjuterët përdorin mënyra të ndryshme të paraqitjes grafike për të shfaqur informacionin grafik. Këtu duhet theksuar se përveç modalitetit grafik të monitorit, ekziston edhe një modalitet teksti, në të cilin ekrani i monitorit ndahet në mënyrë konvencionale në 25 rreshta me 80 karaktere për rresht. Këto mënyra grafike karakterizohen nga rezolucioni i ekranit të monitorit dhe cilësia e ngjyrës (thellësia e ngjyrës). Për të vendosur modalitetin grafik të ekranit të monitorit në sistemin operativ MS Windows XP duhet të ekzekutoni komandën: [Button Filloni– Cilësimet – Paneli i kontrollit – Ekrani]. Në kutinë e dialogut "Properties: Screen" që shfaqet (Fig. 3.12), zgjidhni skedën "Parametrat" ​​dhe përdorni rrëshqitësin "Rezolucioni i ekranit" për të zgjedhur rezolucionin e duhur të ekranit (800x600 piksele, 1024x768 pixel, etj.). Duke përdorur listën rënëse "Cilësia e ngjyrave", mund të zgjidhni thellësinë e ngjyrës - "Më e lartë (32 bit)", "Mesatarisht (16 bit)", etj., ndërsa numri i ngjyrave të caktuara për secilën pikë të figurës do të të jetë përkatësisht e barabartë me 2 32 (4294967296), 2 16 (65536), etj.

Oriz. 3.12. Kutia e dialogut të vetive të shfaqjes


Për të zbatuar secilën nga mënyrat grafike të ekranit të monitorit, kërkohet një vëllim i caktuar informacioni i kujtesës video të kompjuterit. Vëllimi i kërkuar i informacionit të kujtesës video (V) përcaktohet nga relacioni

ku TE - numri i pikave të imazhit në ekranin e monitorit (K = A B); POR - numri i pikave horizontale në ekranin e monitorit; NË - numri i pikave vertikale në ekranin e monitorit; Unë– sasia e informacionit (thellësia e ngjyrës).

Pra, nëse ekrani i monitorit ka një rezolucion prej 1024 me 768 piksele dhe një paletë të përbërë nga 65 536 ngjyra, atëherë thellësia e ngjyrës në përputhje me formulën (3.1) do të jetë I = log 2 65 538 = 16 bit, numri i imazhit pikselët do të jenë të barabartë me: K = 1024 x 768 = 786432, dhe vëllimi i kërkuar i informacionit të kujtesës video në përputhje me (3.2) do të jetë i barabartë me

V = 786432 16 bit = 12582912 bit = 1572864 byte = 1536 KB = 1,5 MB.

Si përfundim, duhet theksuar se përveç karakteristikave të listuara, karakteristikat më të rëndësishme të monitorit janë dimensionet gjeometrike të ekranit të tij dhe pikat e imazhit. Dimensionet gjeometrike të ekranit përcaktohen nga madhësia e diagonales së monitorit. Diagonalja e monitorëve është vendosur në inç (1 inç = 1" = 25,4 mm) dhe mund të marrë vlera të barabarta me: 14", 15", 17", 21" etj. Teknologjitë moderne të prodhimit të monitorëve mund të ofrojnë një madhësi të pikës së imazhit e barabartë me 0.22 mm.

Kështu, për çdo monitor ekziston një rezolutë maksimale e mundshme fizike e ekranit, e përcaktuar nga madhësia e diagonales së tij dhe madhësia e pikës së imazhit.

Ushtrime për vetë-përmbushje

1. Përdorimi i programit MS Excel konvertoni tabelat e kodeve ASCII, СР866, СР1251, KOI8-R në tabela të formës: në qelizat e kolonës së parë të tabelave, shkruani sipas rendit alfabetik germat e mëdha dhe më pas të vogla latine dhe cirilike, në qelizat e kolonës së dytë - kodet që korrespondojnë me shkronjat në sistemin e numrave dhjetorë, në qelizat kolona e tretë - kodet që korrespondojnë me shkronjat në sistemin e numrave heksadecimal. Vlerat e kodit duhet të zgjidhen nga tabelat përkatëse të kodit.

2. Kodoni dhe shkruani fjalët e mëposhtme si një sekuencë numrash me shënime dhjetore dhe heksadecimal:

a) Internet Explorer, b) Microsoft Office në) CorelDRAW.

Kodoni për të prodhuar duke përdorur tabelën e përmirësuar të kodimit ASCII të marrë në ushtrimin e mëparshëm.

3. Dekodoni duke përdorur tabelën e kodimit të përmirësuar KOI8-R sekuencat e numrave të shkruar në sistemin heksadecimal të numrave:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Si do të duket fjala "Cybernetics" e shkruar në kodimin CP1251 kur përdorni kodimet CP866 dhe KOI8-R? Kontrolloni rezultatet me programin Internet Explorer.

5. Duke përdorur tabelën e kodeve të paraqitur në fig. 3.1 por, deshifroni sekuencat e mëposhtme të kodit të shkruara në shënim binar:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Përcaktoni vëllimin e informacionit të fjalës "Ekonomi" të koduar duke përdorur tabelat e kodeve СР866, СР1251, Unicode dhe KOI8-R.

7. Përcaktoni vëllimin e informacionit të skedarit të marrë si rezultat i skanimit të një imazhi me ngjyra 12x12 cm. Rezolucioni i skanerit të përdorur për të skanuar këtë imazh është 600 dpi. Skaneri vendos thellësinë e ngjyrës së pikës së imazhit në 16 bit.

Rezolucioni i skanerit 600 dpi (inç pika - pika për inç) përcakton aftësinë e një skaneri me këtë rezolucion për të dalluar 600 pika në një segment 1 inç.

8. Përcaktoni vëllimin e informacionit të skedarit të marrë si rezultat i skanimit të një imazhi me ngjyra të madhësisë A4. Rezolucioni i skanerit të përdorur për të skanuar këtë imazh është 1200 dpi. Skaneri vendos thellësinë e ngjyrës së pikës së imazhit në 24 bit.

9. Përcaktoni numrin e ngjyrave në paleta në një thellësi ngjyrash prej 8, 16, 24 dhe 32 bit.

10. Përcaktoni sasinë e kërkuar të kujtesës video për mënyrat grafike të ekranit të monitorit 640 me 480, 800 me 600, 1024 me 768 dhe 1280 me 1024 piksele me një thellësi ngjyrash të pikës së imazhit prej 8, 16, 24 dhe 32 bit. Rezultatet janë përmbledhur në një tabelë. Zhvilloni në MS Excel program për automatizimin e llogaritjeve.

11. Përcaktoni numrin maksimal të ngjyrave që mund të përdoren për të ruajtur një imazh prej 32 me 32 piksele nëse kompjuteri ka ndarë 2 KB memorie për imazhin.

12. Përcaktoni rezolucionin maksimal të mundshëm të ekranit të një monitori me një gjatësi diagonale prej 15" dhe një madhësi të pikës së imazhit prej 0,28 mm.

13. Cilat mënyra grafike të funksionimit të monitorit mund të ofrohen nga memoria video 64 MB?

përmbajtja

I. Historia e kodimit të informacionit…………………………………..3

II. Informacioni i kodimit…………………………………………4

III. Kodimi i informacionit tekstual……………………………….4

IV. Llojet e tabelave koduese……………………………………………………………………………………………………………

V. Llogaritja e sasisë së informacionit në tekst…………………………14

Lista e literaturës së përdorur…………………………………..16

Unë . Historia e kodimit të informacionit

Njerëzimi ka përdorur enkriptimin (kodimin) e tekstit që nga momenti kur u shfaq informacioni i parë sekret. Këtu janë disa teknika të kodimit të tekstit që u shpikën në faza të ndryshme të zhvillimit të mendimit njerëzor:

Kriptografia është kriptografi, një sistem i ndryshimit të shkrimit për ta bërë tekstin të pakuptueshëm për personat e pa iniciuar;

Kodi Morse ose kodi telegrafik jo uniform, në të cilin çdo shkronjë ose karakter përfaqësohet nga kombinimi i vet i njësive të shkurtra të rrymës elektrike (pika) dhe njësive me kohëzgjatje të trefishtë (viza);

gjuha e shenjave është një gjuhë e shenjave e përdorur nga njerëzit me dëmtim të dëgjimit.

Një nga metodat më të hershme të njohura të enkriptimit mban emrin e perandorit romak Julius Caesar (shekulli I para Krishtit). Kjo metodë bazohet në zëvendësimin e secilës shkronjë të tekstit të koduar me një tjetër duke zhvendosur alfabetin nga shkronja origjinale me një numër fiks karakteresh, dhe alfabeti lexohet në një rreth, domethënë pas shkronjës i, merret parasysh a. Pra, fjala "byte" kur zhvendoset dy karaktere në të djathtë kodohet me fjalën "gvlf". Procesi i kundërt i deshifrimit të një fjale të caktuar është zëvendësimi i secilës shkronjë të koduar me të dytën në të majtë të saj.

II. Kodimi i informacionit

Një kod është një grup konventash (ose sinjalesh) për regjistrimin (ose transmetimin) e disa koncepteve të paracaktuara.

Kodimi i informacionit është procesi i formimit të një përfaqësimi të caktuar të informacionit. Në një kuptim më të ngushtë, termi "kodim" shpesh kuptohet si kalimi nga një formë e prezantimit të informacionit në një tjetër, më i përshtatshëm për ruajtje, transmetim ose përpunim.

Zakonisht, çdo imazh, kur është i koduar (nganjëherë thonë - i koduar), përfaqësohet nga një karakter i veçantë.

Një shenjë është një element i një grupi të fundëm elementësh të ndryshëm.

Në një kuptim më të ngushtë, termi "kodim" shpesh kuptohet si kalimi nga një formë e prezantimit të informacionit në një tjetër, më i përshtatshëm për ruajtje, transmetim ose përpunim.

Kompjuteri mund të përpunojë informacionin tekstual. Kur futet në një kompjuter, çdo shkronjë kodohet me një numër të caktuar, dhe kur del në pajisje të jashtme (ekran ose printim), për perceptimin e njeriut, imazhet e shkronjave ndërtohen duke përdorur këta numra. Korrespondenca midis një grupi shkronjash dhe numrash quhet kodim i karaktereve.

Si rregull, të gjithë numrat në kompjuter përfaqësohen duke përdorur zero dhe njëshe (dhe jo dhjetë shifra, siç është zakon për njerëzit). Me fjalë të tjera, kompjuterët zakonisht punojnë në sistemin binar, pasi pajisjet për përpunimin e tyre janë shumë më të thjeshta. Futja e numrave në një kompjuter dhe nxjerrja e tyre për lexim njerëzor mund të bëhet në formën e zakonshme dhjetore dhe të gjitha konvertimet e nevojshme kryhen nga programet që funksionojnë në një kompjuter.

III. Kodimi i informacionit të tekstit

I njëjti informacion mund të paraqitet (i koduar) në disa forma. Me ardhjen e kompjuterëve, u bë e nevojshme të kodohen të gjitha llojet e informacionit me të cilat merren si individi ashtu edhe njerëzimi në tërësi. Por njerëzimi filloi të zgjidhte problemin e kodimit të informacionit shumë përpara ardhjes së kompjuterëve. Arritjet madhështore të njerëzimit - shkrimi dhe aritmetika - nuk janë gjë tjetër veçse një sistem i kodimit të fjalës dhe informacionit numerik. Informacioni nuk shfaqet kurrë në formën e tij të pastër, ai gjithmonë paraqitet në një farë mënyre, i koduar në një farë mënyre.

Kodimi binar është një nga mënyrat më të zakonshme për të paraqitur informacionin. Në kompjuterë, robotë dhe vegla makinerie me kontroll numerik, si rregull, i gjithë informacioni me të cilin merret pajisja kodohet në formën e fjalëve të alfabetit binar.

Që nga fundi i viteve '60, kompjuterët janë përdorur gjithnjë e më shumë për të përpunuar informacionin e tekstit, dhe aktualisht pjesa kryesore e kompjuterëve personalë në botë (dhe shumicën e kohës) është e zënë me përpunimin e informacionit tekstual. Të gjitha këto lloje të informacionit në një kompjuter përfaqësohen në kodin binar, d.m.th., përdoret një alfabet me fuqi dy (vetëm dy karaktere 0 dhe 1). Kjo për faktin se është i përshtatshëm për të paraqitur informacionin në formën e një sekuence të impulseve elektrike: nuk ka impuls (0), ka një impuls (1).

Një kodim i tillë zakonisht quhet binar, dhe sekuencat logjike të zerave dhe njësheve quhen gjuhë makine.

Nga pikëpamja e kompjuterit, teksti përbëhet nga karaktere individuale. Karakteret përfshijnë jo vetëm shkronjat (kapitale ose të vogla, latinisht ose rusisht), por edhe numra, shenja pikësimi, karaktere të veçanta si "=", "(", "&", etj. dhe madje (kushtojini vëmendje të veçantë!) hapësira midis fjalëve .

Tekstet futen në kujtesën e kompjuterit duke përdorur tastierën. Çelësat janë shkruar me shkronja të njohura për ne, numra, shenja pikësimi dhe simbole të tjera. Ata hyjnë në RAM në kodin binar. Kjo do të thotë që çdo karakter përfaqësohet nga një kod binar 8-bit.

Tradicionalisht, për të koduar një karakter, përdoret sasia e informacionit e barabartë me 1 bajt, d.m.th., unë \u003d 1 bajt \u003d 8 bit. Duke përdorur një formulë që lidh numrin e ngjarjeve të mundshme K dhe sasinë e informacionit I, mund të llogaritni se sa karaktere të ndryshme mund të kodohen (duke supozuar se karakteret janë ngjarje të mundshme): K = 2 I = 2 8 = 256, d.m.th. përfaqësimi i informacionit tekstual, ju mund të përdorni alfabetin me një kapacitet prej 256 karaktere.

Ky numër i karaktereve është mjaft i mjaftueshëm për të përfaqësuar informacionin tekstual, duke përfshirë shkronjat e mëdha dhe të vogla të alfabetit rus dhe latin, numrat, shenjat, simbolet grafike, etj.

Kodimi konsiston në faktin se çdo karakteri i caktohet një kod dhjetor unik nga 0 në 255 ose kodi binar përkatës nga 00000000 në 11111111. Kështu, një person dallon karakteret sipas stilit të tyre dhe një kompjuter nga kodi i tyre.

Lehtësia e kodimit byte-pas-byte të karaktereve është e dukshme, pasi një bajt është pjesa më e vogël e adresueshme e memories dhe, për rrjedhojë, procesori mund të aksesojë secilin karakter veçmas kur kryen përpunimin e tekstit. Nga ana tjetër, 256 karaktere janë mjaft të mjaftueshme për të përfaqësuar një shumëllojshmëri të gjerë të informacionit të karaktereve.

Në procesin e shfaqjes së një karakteri në një ekran kompjuteri, kryhet procesi i kundërt - deshifrimi, domethënë konvertimi i kodit të karakterit në imazhin e tij. Është e rëndësishme që caktimi i një kodi specifik në një simbol të jetë një çështje marrëveshjeje, e cila është e fiksuar në tabelën e kodit.

Tani shtrohet pyetja, cilin kod binar tetë-bitësh të vendosni në korrespondencë me secilin karakter. Është e qartë se kjo është një çështje e kushtëzuar, mund të gjeni shumë mënyra për të koduar.

Të gjitha simbolet e alfabetit të kompjuterit numërohen nga 0 deri në 255. Çdo numër korrespondon me një kod binar tetëshifror nga 00000000 deri në 11111111. Ky kod është thjesht numri rendor i karakterit në sistemin e numrave binar.

IV . Llojet e tabelave koduese

Një tabelë në të cilën të gjithë karakteret e alfabetit të kompjuterit u caktohen numra serialë quhet tabelë koduese.

Për lloje të ndryshme kompjuterësh, përdoren tabela të ndryshme kodimi.

Tabela e kodeve ASCII (Kodi standard amerikan për shkëmbimin e informacionit) është miratuar si një standard ndërkombëtar, duke koduar gjysmën e parë të karaktereve me kode numerike nga 0 në 127 (kodet nga 0 në 32 nuk u caktohen karaktereve, por tasteve të funksionit).

Tabela e kodeve ASCII është e ndarë në dy pjesë.

Vetëm gjysma e parë e tabelës është standard ndërkombëtar, d.m.th. karaktere me numra nga 0 (00000000) deri në 127 (01111111).

Struktura e tabelës së kodimit ASCII

Numër serik Kodi Simboli
0 - 31 00000000 - 00011111

Karakteret me numra nga 0 deri në 31 quhen karaktere kontrolli.

Funksioni i tyre është të kontrollojnë procesin e shfaqjes së tekstit në ekran ose të printimit, dhënien e një sinjali zanor, shënimin e tekstit, etj.

32 - 127 0100000 - 01111111

Pjesa standarde e tabelës (anglisht). Këtu përfshihen shkronjat e vogla dhe të mëdha të alfabetit latin, shifrat dhjetore, shenjat e pikësimit, të gjitha llojet e kllapave, simbolet tregtare dhe të tjera.

Karakteri 32 është një hapësirë, d.m.th. pozicion bosh në tekst.

Të gjitha të tjerat pasqyrohen nga shenja të caktuara.

128 - 255 10000000 - 11111111

Pjesa alternative e tabelës (rusisht).

Gjysma e dytë e tabelës së kodeve ASCII, e quajtur faqja e kodit (128 kode, duke filluar me 10000000 dhe duke përfunduar me 11111111), mund të ketë opsione të ndryshme, secili opsion ka numrin e vet.

Faqja e kodit përdoret kryesisht për të akomoduar shkrime kombëtare të ndryshme nga latinishtja. Në kodimet kombëtare ruse, karakteret e alfabetit rus vendosen në këtë pjesë të tabelës.

Gjysma e parë e tabelës së kodit ASCII

Tërhiqet vëmendja për faktin se në tabelën e kodimit, shkronjat (të mëdha dhe të vogla) janë renditur sipas rendit alfabetik, dhe numrat janë renditur në rend rritës. Ky respektim i rendit leksikografik në renditjen e karaktereve quhet parimi i kodimit sekuencial të alfabetit.

Për shkronjat e alfabetit rus, respektohet edhe parimi i kodimit sekuencial.

Gjysma e dytë e tabelës së kodit ASCII

Për fat të keq, aktualisht ekzistojnë pesë kodime të ndryshme cirilike (KOI8-R, Windows. MS-DOS, Macintosh dhe ISO). Për shkak të kësaj, shpesh lindin probleme me transferimin e tekstit rus nga një kompjuter në tjetrin, nga një sistem softuer në tjetrin.

Kronologjikisht, një nga standardet e para për kodimin e shkronjave ruse në kompjuter ishte KOI8 ("Kodi i shkëmbimit të informacionit, 8-bit"). Ky kodim u përdor përsëri në vitet '70 në kompjuterët e serisë së kompjuterëve EC, dhe nga mesi i viteve '80 filloi të përdoret në versionet e para të rusifikuara të sistemit operativ UNIX.

Që nga fillimi i viteve '90, koha e dominimit të sistemit operativ MS DOS, kodimi mbetet CP866 ("CP" do të thotë "Faqja e kodit", "faqja e kodit").

Kompjuterët Apple që përdorin sistemin operativ Mac OS përdorin kodimin e tyre Mac.

Për më tepër, Organizata Ndërkombëtare për Standardizim (Organizata Ndërkombëtare e Standardeve, ISO) miratoi një kodim tjetër të quajtur ISO 8859-5 si standard për gjuhën ruse.

Kodimi më i zakonshëm që përdoret aktualisht është Microsoft Windows, i shkurtuar si CP1251. Prezantuar nga Microsoft; duke pasur parasysh përdorimin e gjerë të sistemeve operative (OS) dhe produkteve të tjera softuerike të kësaj kompanie në Federatën Ruse, ai është bërë i përhapur.

Që nga fundi i viteve '90, problemi i standardizimit të kodimit të karaktereve është zgjidhur me prezantimin e një standardi të ri ndërkombëtar të quajtur Unicode.

Ky është një kodim 16-bit, d.m.th. ka 2 bajt memorie për karakter. Sigurisht, në këtë rast, sasia e kujtesës së zënë rritet me 2 herë. Por një tabelë e tillë kodi lejon përfshirjen deri në 65536 karaktere. Specifikimi i plotë i standardit Unicode përfshin të gjitha alfabetet ekzistuese, të zhdukura dhe të krijuara artificialisht të botës, si dhe shumë simbole matematikore, muzikore, kimike dhe të tjera.

Paraqitja e brendshme e fjalëve në kujtesën e kompjuterit

duke përdorur një tabelë ASCII

Ndonjëherë ndodh që teksti, i përbërë nga shkronjat e alfabetit rus, i marrë nga një kompjuter tjetër, nuk mund të lexohet - një lloj "abracadabra" është i dukshëm në ekranin e monitorit. Kjo për faktin se kompjuterët përdorin kodime të ndryshme të karaktereve të gjuhës ruse.

Kështu, çdo kodim jepet nga tabela e tij e kodit. Siç mund të shihet nga tabela, karaktere të ndryshme i caktohen të njëjtit kod binar në kodime të ndryshme.

Për shembull, sekuenca e kodeve numerike 221, 194, 204 në kodimin CP1251 formon fjalën "kompjuter", ndërsa në kodimet e tjera do të jetë një grup karakteresh pa kuptim.

Për fat të mirë, në shumicën e rasteve, përdoruesi nuk duhet të shqetësohet për transkodimin e dokumenteve tekstuale, pasi kjo bëhet nga programe të veçanta konvertuese të integruara në aplikacione.

V . Llogaritja e sasisë së informacionit të tekstit

Detyra 1: Kodoni fjalën "Romë" duke përdorur tabelat e kodimit KOI8-R dhe CP1251.

Zgjidhja:

Detyra 2: Duke supozuar se çdo karakter është i koduar nga një bajt, vlerësoni vëllimin e informacionit të fjalisë së mëposhtme:

“Xhaxhai im i rregullave më të ndershme,

Kur u sëmura rëndë,

Ai e detyroi veten të respektonte

Dhe nuk mund të mendoja për një më të mirë."

Zgjidhja: Ka 108 karaktere në këtë frazë, duke përfshirë shenjat e pikësimit, thonjëzat dhe hapësirat. Ne e shumëzojmë këtë numër me 8 bit. Marrim 108*8=864 bit.

Detyra 3: Të dy tekstet përmbajnë të njëjtin numër karakteresh. Teksti i parë është shkruar në rusisht, dhe i dyti në gjuhën e fisit Naguri, alfabeti i të cilit përbëhet nga 16 karaktere. Teksti i kujt mbart më shumë informacion?

Zgjidhja:

1) I \u003d K * a (vëllimi i informacionit të tekstit është i barabartë me produktin e numrit të karaktereve dhe peshës së informacionit të një karakteri).

2) Sepse të dy tekstet kanë të njëjtin numër karakteresh (K), atëherë ndryshimi varet nga përmbajtja e informacionit të një karakteri të alfabetit (a).

3) 2 a1 = 32, d.m.th. a 1 = 5 bit, 2 a2 = 16, d.m.th. dhe 2 = 4 bit.

4) I 1 = K * 5 bit, I 2 = K * 4 bit.

5) Do të thotë që teksti i shkruar në Rusisht përmban 5/4 herë më shumë informacion.

Detyra 4: Vëllimi i mesazhit, që përmbante 2048 karaktere, ishte 1/512 e një MB. Përcaktoni fuqinë e alfabetit.

Zgjidhja:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bit - vëllimi i informacionit të mesazhit u shndërrua në bit.

2) një \u003d I / K \u003d 16384 / 1024 \u003d 16 bit - bie në një karakter të alfabetit.

3) 2*16*2048 = 65536 karaktere - fuqia e alfabetit të përdorur.

Detyra 5: Printeri lazer Canon LBP printon me një shpejtësi mesatare prej 6,3 Kbps. Sa kohë do të duhet për të printuar një dokument me 8 faqe nëse dihet se ka mesatarisht 45 rreshta në një faqe, 70 karaktere për rresht (1 karakter - 1 bajt)?

Zgjidhja:

1) Gjeni sasinë e informacionit që përmban 1 faqe: 45 * 70 * 8 bit = 25200 bit

2) Gjeni sasinë e informacionit në 8 faqe: 25200 * 8 = 201600 bit

3) Ne sjellim në njësitë uniforme të matjes. Për ta bërë këtë, ne përkthejmë Mbps në bit: 6.3 * 1024 = 6451.2 bps.

4) Gjeni kohën e printimit: 201600: 6451.2 = 31 sekonda.

Bibliografi

1. Ageev V.M. Teoria e informacionit dhe kodimi: diskretimi dhe kodimi i informacionit të matjes. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Bazat e teorisë dhe kodimit të informacionit. - Kiev, shkolla Vishcha, 1986.

3. Metodat më të thjeshta të kriptimit të tekstit / D.M. Zlatopolsky. - M.: Chistye Prudy, 2007 - 32 f.

4. Ugrinovich N.D. Informatika dhe teknologjia e informacionit. Libër mësuesi për klasat 10-11 / N.D. Ugrinovich. – M.: BINOM. Laboratori i Dijes, 2003. - 512 f.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Material për vetë-studim në temën Leksioni 2

Kodimi ASCII

Tabela e kodimit ASCII (ASCII - Kodi standard amerikan për shkëmbimin e informacionit - Kodi standard amerikan për shkëmbimin e informacionit).

Në total, duke përdorur tabelën e kodimit ASCII (Figura 1), mund të kodohen 256 karaktere të ndryshme. Kjo tabelë është e ndarë në dy pjesë: kryesore (me kode nga OOh në 7Fh) dhe shtesë (nga 80h në FFh, ku shkronja h tregon se kodi i përket sistemit të numrave heksadecimal).

Foto 1

Për të koduar një karakter nga tabela, ndahen 8 bit (1 bajt). Gjatë përpunimit të informacionit tekstual, një bajt mund të përmbajë kodin e disa karaktereve - shkronja, numra, shenja pikësimi, shenja veprimi, etj. Çdo karakter ka kodin e vet në formën e një numri të plotë. Në këtë rast, të gjitha kodet mblidhen në tabela të veçanta, të quajtura tabela koduese. Me ndihmën e tyre, kodi i karakterit shndërrohet në paraqitjen e tij të dukshme në ekranin e monitorit. Si rezultat, çdo tekst në kujtesën e kompjuterit përfaqësohet si një sekuencë bajtesh me kode karakteresh.

Për shembull, fjala përshëndetje! do të kodohet si më poshtë (Tabela 1).

Tabela 1

Kodi binar

Kodi dhjetor

Figura 1 tregon karakteret e përfshira në kodimin standard (anglisht) dhe të zgjeruar (rusisht) ASCII.

Gjysma e parë e tabelës ASCII është e standardizuar. Ai përmban kode kontrolli (nga 00h deri në 20h dhe 77h). Këto kode janë hequr nga tabela sepse nuk zbatohen për elementët e tekstit. Këtu vendosen edhe shenjat e pikësimit dhe shenjat matematikore: 2lh - !, 26h - &, 28h - (, 2Bh -+, ..., germa të mëdha dhe të vogla latine: 41h - A, 61h - a.

Gjysma e dytë e tabelës përmban shkronja kombëtare, simbole pseudografike nga të cilat mund të ndërtohen tabela, simbole të veçanta matematikore. Pjesa e poshtme e tabelës së kodimit mund të zëvendësohet duke përdorur drejtuesit e duhur - programet ndihmëse të kontrollit. Kjo teknikë ju lejon të përdorni shumë shkronja dhe shkronjat e tyre.

Ekrani për çdo kod karakteri duhet të shfaqë imazhin e personazhit - jo vetëm një kod dixhital, por një fotografi që i korrespondon atij, pasi çdo karakter ka formën e vet. Një përshkrim i formës së çdo karakteri ruhet në një memorie të veçantë të ekranit - një gjenerues karakteresh. Për shembull, nënvizimi i një karakteri në një ekran të kompjuterit IBM, bëhet duke përdorur pika që formojnë një matricë karakteresh. Çdo piksel në një matricë të tillë është një element imazhi dhe mund të jetë i ndritshëm ose i errët. Një pikë e errët kodohet me numrin 0, një e lehtë (e ndritshme) - me 1. Nëse pikselët e errët përfaqësohen me një pikë në fushën e matricës së shenjës, dhe pikselët e lehtë me një yll, atëherë mund ta përshkruani grafikisht formën të simbolit.

Njerëzit në vende të ndryshme përdorin simbole për të shkruar fjalët e gjuhëve të tyre amtare. Këto ditë, shumica e aplikacioneve, duke përfshirë sistemet e postës elektronike dhe shfletuesit e uebit, janë të pastër 8-bit, që do të thotë se mund të shfaqin dhe lexojnë saktë vetëm karakteret 8-bit, sipas standardit ISO-8859-1.

Ka mbi 256 karaktere në botë (duke përfshirë cirilik, arabisht, kinezisht, japonez, korean dhe tajlandez) dhe gjithnjë e më shumë karaktere po shtohen. Dhe kjo krijon boshllëqet e mëposhtme për shumë përdorues:

Nuk është e mundur të përdoren karaktere nga grupe të ndryshme kodimi në të njëjtin dokument. Meqenëse çdo dokument teksti përdor grupin e vet të kodimeve, ka vështirësi të mëdha me njohjen automatike të tekstit.

Shfaqen simbole të reja (për shembull: Euro), si rezultat i të cilave ISO zhvillon një standard të ri, ISO-8859-15, i cili është shumë i ngjashëm me ISO-8859-1. Dallimi është si më poshtë: simbolet për të treguar monedhat e vjetra që nuk përdoren aktualisht janë hequr nga tabela e kodimit të standardit të vjetër ISO-8859-1 në mënyrë që të lihet vend për simbolet e sapo shfaqura (si për shembull Euro). Si rezultat, përdoruesit mund të kenë të njëjtat dokumente në disqet e tyre, por në kodime të ndryshme. Zgjidhja e këtyre problemeve është miratimi i një grupi të vetëm ndërkombëtar të kodimeve, i cili quhet kodimi universal ose Unicode.

Kodimi Unicode

Standardi u propozua në 1991 nga organizata jofitimprurëse Unicode Consortium (Unicode Inc.). Përdorimi i këtij standardi bën të mundur kodimin e një numri shumë të madh karakteresh nga skriptet e ndryshme: karakteret kineze, simbolet matematikore, shkronjat e alfabetit grek, alfabetet latine dhe cirilike mund të bashkëjetojnë në dokumentet Unicode, ndërsa ndërrimi i faqeve të kodit bëhet i panevojshëm.

Standardi përbëhet nga dy seksione kryesore: grupi universal i karaktereve (UCS, grup karakteresh universal) dhe familja e kodimit (UTF, formati i transformimit Unicode). Kompleti universal i karaktereve specifikon një korrespondencë një-për-një të karaktereve me kodet - elementë të hapësirës së kodit që përfaqësojnë numra të plotë jo negativë. Një familje kodimi përcakton paraqitjen e makinës të një sekuence kodesh UCS.

Standardi Unicode u zhvillua me qëllimin e krijimit të një kodimi të vetëm karakteresh për të gjitha gjuhët moderne dhe shumë të lashta të shkruara. Çdo karakter në këtë standard është i koduar me 16 bit, gjë që e lejon atë të mbulojë një numër pakrahasueshëm më të madh karakteresh sesa kodimet 8-bitëshe të pranuara më parë. Një tjetër ndryshim i rëndësishëm midis Unicode dhe sistemeve të tjera të kodimit është se ai jo vetëm që cakton një kod unik për çdo karakter, por gjithashtu përcakton karakteristika të ndryshme të atij karakteri, për shembull:

    lloji i karakterit (shkronja e madhe, shkronja e vogël, numri, shenja e pikësimit, etj.);

    atributet e karaktereve (ekrani nga e majta në të djathtë ose nga e djathta në të majtë, hapësira, ndërprerja e rreshtit, etj.);

    germa përkatëse e madhe ose e vogël (përkatësisht për shkronjat e vogla dhe të mëdha);

    vlerën numerike përkatëse (për karakteret numerike).

I gjithë diapazoni i kodeve nga 0 në FFFF është i ndarë në disa nëngrupe standarde, secila prej të cilave korrespondon ose me alfabetin e një gjuhe, ose me një grup karakteresh të veçanta që janë të ngjashëm në funksionet e tyre. Diagrami më poshtë përmban një listë të përgjithshme të nëngrupeve të Unicode 3.0 (Figura 2).

Figura 2

Standardi Unicode është baza për ruajtjen dhe tekstin në shumë sisteme kompjuterike moderne. Megjithatë, ai nuk është i pajtueshëm me shumicën e protokolleve të internetit, sepse kodet e tij mund të përmbajnë çdo vlerë bajt, dhe protokollet zakonisht përdorin bajt 00 - 1F dhe FE - FF si bajt shërbimi. Për të arritur përputhshmërinë, janë zhvilluar disa formate të transformimit të Unicode (UTF, Unicode Transformation Formats), nga të cilat UTF-8 është më i zakonshmi sot. Ky format përcakton rregullat e mëposhtme për konvertimin e çdo kodi Unicode në një grup bajtësh (nga një në tre) të përshtatshëm për transport me protokollet e internetit.

Këtu x, y, z tregojnë pjesët e kodit burimor, të cilët duhet të nxirren, duke filluar me më pak të rëndësishmen, dhe të futen në bajtet e rezultatit nga e djathta në të majtë, derisa të plotësohen të gjitha pozicionet e specifikuara.

Zhvillimi i mëtejshëm i standardit Unicode shoqërohet me shtimin e planeve të reja gjuhësore, d.m.th. karaktere në rangun 10000 - 1FFFF, 20000 - 2FFFF, etj., ku supozohet të përfshijë kodimin për skriptet e gjuhëve të vdekura që nuk përfshihen në tabelën e mësipërme. Një format i ri UTF-16 u zhvillua për të koduar këto karaktere shtesë.

Kështu, ekzistojnë 4 mënyra kryesore për të koduar bajt në formatin Unicode:

UTF-8: 128 karaktere të koduara në një bajt (format ASCII), 1920 karaktere të koduara në 2 bajt ((shkronja romake, greke, cirilike, kopte, armene, hebraike, arabe), 63488 karaktere të koduara në 3 bajt (kineze, japoneze etj. .) 2,147,418,112 karakteret e mbetura (jo të përdorura ende) mund të kodohen me 4, 5 ose 6 bajt.

UCS-2: Çdo karakter përfaqësohet nga 2 bajt. Ky kodim përfshin vetëm 65,535 karakteret e para nga formati Unicode.

UTF-16: Ky është një zgjerim i UCS-2 dhe përfshin 1,114,112 karaktere Unicode. 65.535 karakteret e para përfaqësohen me 2 bajt, pjesa tjetër me 4 bajt.

USC-4: Çdo karakter është i koduar me 4 bajt.

Excel për Office 365 Word për Office 365 Outlook për Office 365 PowerPoint për Office 365 Publisher për Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Visio 2010 Excel 2007 PowerPoint 2007 PowerPoint 2007 Visio Standard 2007 Visio Standard 2010 Më pak

Në këtë artikull

Futja e një karakteri ASCII ose Unicode në një dokument

Nëse ju duhet të futni vetëm disa karaktere ose simbole të veçanta, mund të përdorni shkurtoret e tastierës. Për një listë të karaktereve ASCII, shihni tabelat e mëposhtme ose artikullin Fut alfabetet kombëtare duke përdorur shkurtoret e tastierës.

Shënime:

Futja e karaktereve ASCII

Për të futur një karakter ASCII, shtypni dhe mbani tastin ALT ndërsa futni kodin e karakterit. Për shembull, për të futur një simbol të shkallës (º), shtypni dhe mbani tastin ALT, më pas futni 0176 në tastierën numerike.

Përdorni tastierën numerike për të futur numra, jo numrat në tastierën kryesore. Nëse duhet të futni numra në tastierën numerike, sigurohuni që treguesi NUM LOCK të jetë i ndezur.

Futja e karaktereve të Unicode

Për të futur një karakter Unicode, shkruani kodin e karakterit, më pas shtypni ALT + X në sekuencë. Për shembull, për të futur një karakter dollar ($), shkruani 0024 dhe shtypni ALT + X në sekuencë. Për të gjitha kodet e karaktereve të Unicode, shihni .

E rëndësishme: Disa programe të Microsoft Office, të tilla si PowerPoint dhe InfoPath, nuk mbështesin konvertimin e kodeve të Unicode në karaktere. Nëse keni nevojë të futni një karakter Unicode në një nga këto programe, përdorni .

Shënime:

    Nëse shfaqet një karakter i pasaktë i Unicode pasi shtypni ALT+X, zgjidhni kodin e duhur dhe më pas shtypni përsëri ALT+X.

    Përveç kësaj, duhet të futni "U+" përpara kodit. Për shembull, duke shtypur "1U+B5" dhe duke shtypur ALT+X do të shfaqet teksti "1µ", ndërsa duke shtypur "1B5" dhe duke shtypur ALT+X do të shfaqet karakteri "Ƶ".

Duke përdorur tabelën e simboleve

Një tabelë karakteresh është një program i integruar në Microsoft Windows që ju lejon të shikoni karakteret e disponueshme për një font të zgjedhur.

Duke përdorur tabelën e simboleve, mund të kopjoni karaktere individuale ose një grup karakteresh në kujtesën e fragmenteve dhe t'i ngjisni në çdo program që mbështet shfaqjen e këtyre karaktereve. Hapja e tabelës së simboleve

    Në Windows 10 Fusni fjalën "simbol" në fushën e kërkimit në shiritin e detyrave dhe zgjidhni tabelën e simboleve nga rezultatet e kërkimit.

    Në Windows 8 Futni fjalën "simbol" në ekranin bazë dhe zgjidhni tabelën e simboleve nga rezultatet e kërkimit.

    Në Windows 7 Shtyp butonin Filloni, zgjidhni sipas radhës Të gjitha programet, Standard, Shërbimi dhe klikoni tabelë simbolesh.

Karakteret janë grupuar sipas fontit. Klikoni në listën e shkronjave për të zgjedhur grupin e duhur të karaktereve. Për të zgjedhur një simbol, klikoni atë dhe më pas klikoni butonin Zgjidhni. Për të futur një simbol, klikoni me të djathtën në vendndodhjen e dëshiruar në dokument dhe zgjidhni Fut.

Kodet e karaktereve të përdorura shpesh

Për një listë të plotë të karaktereve, shihni në kompjuter, tabelën e kodit të karaktereve ASCII ose tabelat e karaktereve Unicode të renditura sipas grupeve.

Glyph

Glyph

Njësitë monetare

simbolet ligjore

Simbolet matematikore

Thyesat

Simbolet e pikësimit dhe dialekteve

Simbolet e formës

Kodet për diakritikët e përdorur zakonisht

Për një listë të plotë të glifeve dhe kodeve përkatëse, shihni .

Glyph

Glyph

Karaktere kontrolli ASCII që nuk shtypen

Karakteret e përdorura për të kontrolluar disa pajisje periferike, të tilla si printerët, numërohen 0-31 në tabelën ASCII. Për shembull, karakteri i furnizimit të faqes/karakteri i faqes së re korrespondon me numrin 12. Ky karakter i thotë printerit të shkojë në fillim të faqes tjetër.

Tabela e karaktereve të kontrollit ASCII jo të printueshme

Numri dhjetor

Shenjë

Numri dhjetor

Shenjë

Lëshimi i kanalit të të dhënave

Fillimi i kokës

Kodi i parë i kontrollit të pajisjes

Fillimi i tekstit

Kodi i dytë i kontrollit të pajisjes

Fundi i tekstit

Kodi i tretë i kontrollit të pajisjes

Fundi i transmetimit

Kodi i katërt i kontrollit të pajisjes

me pesë cepa

Konfirmim negativ

Konfirmimi

Modaliteti i transferimit sinkron

Sinjali i zërit

Fundi i bllokut të të dhënave

Skeda horizontale

Fundi mediatik

Furnizimi i linjës/linja e re

Karakteri zëvendësues

Skeda vertikale

tejkalojnë

Përkthimi i faqes/Faqja e re

dymbëdhjetë

Ndarës i skedarëve

Kthim ngarkese

Ndarës grupi

Zhvendos pa ruajtur shifra

Ndarës i rekordit

Zhvendosja e ruajtjes së bitit

pesëmbëdhjetë

Ndarës i të dhënave

dhjetor heks Simboli dhjetor heks Simboli
000 00 specialist. JO 128 80 Ђ
001 01 specialist. SOH 129 81 Ѓ
002 02 specialist. STX 130 82
003 03 specialist. ETX 131 83 ѓ
004 04 specialist. EOT 132 84
005 05 specialist. ENQ 133 85
006 06 specialist. ACK 134 86
007 07 specialist. BEL 135 87
008 08 specialist. BS 136 88
009 09 specialist. TAB 137 89
010 0Aspecialist. LF 138 8AЉ
011 0Bspecialist. VT 139 8B‹ ‹
012 0Cspecialist. FF 140 8CЊ
013 0Dspecialist. CR 141 8DЌ
014 0Especialist. KËSHTU QË 142 8EЋ
015 0Fspecialist. SI 143 8FЏ
016 10 specialist. DLE 144 90 ђ
017 11 specialist. DC1 145 91
018 12 specialist. DC2 146 92
019 13 specialist. DC3 147 93
020 14 specialist. DC4 148 94
021 15 specialist. NAK 149 95
022 16 specialist. SYN 150 96
023 17 specialist. ETB 151 97
024 18 specialist. MUND 152 98
025 19 specialist. EM 153 99
026 1Aspecialist. NËN 154 9Aљ
027 1Bspecialist. ESC 155 9B
028 1Cspecialist. FS 156 9Cњ
029 1Dspecialist. GS 157 9Dќ
030 1Especialist. RS 158 9Eћ
031 1Fspecialist. SHBA 159 9Fџ
032 20 tufë SP (Hapësirë) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Jo
041 29 ) 169 A9©
042 2A* 170 AAЄ
043 2B+ 171 AB«
044 2C, 172 AC¬
045 2D- 173 pas Krishtit­
046 2E. 174 AE®
047 2F/ 175 AFЇ
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8ju
057 39 9 185 B9
058 3A: 186 BAє
059 3B; 187 BB»
060 3C< 188 para Krishtitј
061 3D= 189 BDЅ
062 3E> 190 BËHETѕ
063 3F? 191 bfї
064 40 @ 192 C0 POR
065 41 A 193 C1 B
066 42 B 194 C2
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 F
071 47 G 199 C7 W
072 48 H 200 C8 DHE
073 49 Unë 201 C9 Y
074 4AJ 202 CA TE
075 4BK 203 CB L
076 4CL 204 CC M
077 4DM 205 CD H
078 4EN 206 CE RRETH
079 4FO 207 CF P
080 50 P 208 D0 R
081 51 P 209 D1 NGA
082 52 R 210 D2 T
083 53 S 211 D3
084 54 T 212 D4 F
085 55 U 213 D5 X
086 56 V 214 D6 C
087 57 W 215 D7 H
088 58 X 216 D8 W
089 59 Y 217 D9 SCH
090 5AZ 218 DA Kommersant
091 5B[ 219 D.B. S
092 5C\ 220 DC b
093 5D] 221 DD E
094 5E^ 222 DE YU
095 5F_ 223 D.F. Unë
096 60 ` 224 E0 por
097 61 a 225 E1 b
098 62 b 226 E2
099 63 c 227 E3 G
100 64 d 228 E4 d
101 65 e 229 E5 e
102 66 f 230 E6 mirë
103 67 g 231 E7 h
104 68 h 232 E8 Dhe
105 69 i 233 E9 th
106 6Aj 234 EA te
107 6Bk 235 EB l
108 6Cl 236 BE m
109 6Dm 237 ED n
110 6En 238 EE rreth
111 6Fo 239 EF P
112 70 fq 240 F0 R
113 71 q 241 F1 nga
114 72 r 242 F2 T
115 73 s 243 F3
116 74 t 244 F4 f
117 75 u 245 F5 X
118 76 v 246 F6 c
119 77 w 247 F7 h
120 78 x 248 F8 w
121 79 y 249 F9 SCH
122 7Az 250 FA b
123 7B{ 251 Facebook s
124 7C| 252 FC b
125 7D} 253 FD uh
126 7E~ 254 F.E. Ju
127 7FSpecialist. DEL 255 FF Unë

Tabela ASCII e kodeve të karaktereve të Windows.
Përshkrimi i karaktereve speciale (kontroll).

Duhet të theksohet se fillimisht karakteret e kontrollit të tabelës ASCII u përdorën për të siguruar shkëmbimin e të dhënave nëpërmjet teletipit, futjen e të dhënave nga një kasetë e shtypur dhe për kontrollin më të thjeshtë të pajisjeve të jashtme.
Aktualisht, shumica e karaktereve të kontrollit ASCII të tabelës nuk e mbajnë më këtë ngarkesë dhe mund të përdoren për qëllime të tjera.
Kodi Përshkrim
NUL, 00E pavlefshme, bosh
SO-01Fillimi i Drejtimit
STX 02Fillimi i TeXt, fillimi i tekstit.
ETX 03Fundi i TeXt
EOT, 04Fundi i Transmetimit
ENQ, 05Pyete. Ju lutem konfirmoni
ACK, 06Mirënjohje. Unë konfirmoj
B.E.L. 07Zile, telefono
B.S. 08Backspace, kthehu një personazh prapa
TAB, 09Skeda, skeda horizontale
LF, 0AFurnizimi i linjës, furnizimi i linjës.
Tani në shumicën e gjuhëve programuese shënohet si \n
VT, 0BSkeda vertikale, tabela vertikale.
FF, 0CFurnizimi i formularit, furnizimi i faqeve, faqe e re
CR, 0DKthim ngarkese
Tani në shumicën e gjuhëve programuese shënohet si \r
SO, 0EShift Out, ndryshoni ngjyrën e shiritit të bojës në printer
SI, 0FShift In, ktheni përsëri ngjyrën e shiritit të bojës në pajisjen e printimit
DLE, 10Data Link Escape, kalimi i kanalit në transmetimin e të dhënave
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Kontrolli i pajisjes, simbolet e kontrollit të pajisjes
N.AK. 15Mirënjohje negative, nuk e konfirmoj.
SYN, 16sinkronizimi. Simboli i sinkronizimit
ETB, 17Fundi i bllokut të tekstit, fundi i bllokut të tekstit
CAN, 18Anulo, duke anuluar një të kaluar më parë
EM, 19Fundi i Mediumit
SUB, 1AZëvendësues, zëvendësues. Vendosur në vend të një personazhi vlera e të cilit humbi ose u korruptua gjatë transmetimit
ESC, 1BSekuenca e arratisjes së arratisjes
FS, 1CNdarës i skedarëve, ndarës i skedarëve
GS, 1DNdarës grupi, ndarës grupi
RS, 1ENdarësi i regjistrimeve
SHBA, 1FNdarës njësi, ndarës njësi
DEL, 7FFshi, fshi karakterin e fundit.

Kompjuteri e kupton procesin e shndërrimit të tij në një formë që lejon organizimin e një transferimi, ruajtjeje ose përpunimi automatik më të përshtatshëm të këtyre të dhënave. Për këtë qëllim përdoren tabela të ndryshme. Kodimi ASCII ishte sistemi i parë i zhvilluar në Shtetet e Bashkuara për të punuar me tekst në anglisht, i cili më pas u përhap në të gjithë botën. Artikulli më poshtë i kushtohet përshkrimit, veçorive, vetive dhe përdorimit të mëtejshëm të tij.

Shfaqja dhe ruajtja e informacionit në një kompjuter

Simbolet në monitorin e një kompjuteri ose një vegël të veçantë dixhitale celulare formohen në bazë të grupeve të formave vektoriale të karaktereve të ndryshme dhe një kodi që ju lejon të gjeni midis tyre simbolin që duhet të futet në vendin e duhur. Është një sekuencë bitash. Kështu, çdo karakter duhet të korrespondojë në mënyrë unike me një grup zero dhe njësh që qëndrojnë në një rend të caktuar, unik.

Si filloi gjithçka

Historikisht, kompjuterët e parë ishin në anglisht. Për të koduar informacionin e karaktereve në to, mjaftonte të përdoreshin vetëm 7 bit memorie, ndërsa për këtë u nda 1 bajt i përbërë nga 8 bit. Numri i karaktereve të kuptuara nga kompjuteri në këtë rast ishte 128. Këto karaktere përfshinin alfabetin anglez me shenjat e pikësimit, numrat dhe disa karaktere të veçanta. Kodimi shtatë-bit në gjuhën angleze me tabelën përkatëse (faqe kodi), i zhvilluar në vitin 1963, u quajt Kodi Standard Amerikan për Shkëmbimin e Informacionit. Zakonisht, shkurtesa "ASCII encoding" është përdorur dhe përdoret edhe sot e kësaj dite.

Kalimi në shumëgjuhësi

Me kalimin e kohës, kompjuterët janë përdorur gjerësisht në vendet jo-anglishtfolëse. Në këtë drejtim, lindi nevoja për kodime që lejojnë përdorimin e gjuhëve kombëtare. U vendos që të mos rikrijohej rrota dhe të merrej ASCII si bazë. Tabela e kodimit në edicionin e ri është zgjeruar ndjeshëm. Përdorimi i bitit të 8-të bëri të mundur përkthimin e 256 karaktereve në një gjuhë kompjuteri.

Përshkrim

Kodimi ASCII ka një tabelë që ndahet në 2 pjesë. Standardi ndërkombëtar përgjithësisht i pranuar konsiderohet të jetë vetëm gjysma e parë e tij. Ai përfshin:

  • Karakteret me numra serialë nga 0 deri në 31, të koduar nga sekuenca nga 00000000 deri në 00011111. Ato janë të rezervuara për karakteret e kontrollit që kontrollojnë procesin e shfaqjes së tekstit në një ekran ose printer, duke dhënë një sinjal zanor etj.
  • Karakteret me NN në tabelën nga 32 në 127, të koduar nga sekuencat nga 00100000 në 01111111, përbëjnë pjesën standarde të tabelës. Ato përfshijnë një hapësirë ​​(N 32), shkronja të alfabetit latin (të vogla dhe të mëdha), numra dhjetëshifrorë nga 0 në 9, shenja pikësimi, kllapa të stileve të ndryshme dhe simbole të tjera.
  • Karaktere me numra serialë nga 128 në 255, të koduar nga sekuenca nga 10000000 deri në 11111111. Ato përfshijnë shkronja të alfabeteve kombëtare të ndryshme nga latinishtja. Është kjo pjesë alternative e tabelës së kodimit ASCII që përdoret për të kthyer karakteret ruse në një formë kompjuterike.

Disa prona

Veçoritë e kodimit ASCII përfshijnë ndryshimin midis shkronjave "A" - "Z" të rasteve të poshtme dhe të sipërme me vetëm një bit. Kjo rrethanë thjeshton shumë shndërrimin e regjistrit, si dhe verifikimin e tij për përkatësinë në një gamë të caktuar vlerash. Përveç kësaj, të gjitha shkronjat në sistemin e kodimit ASCII përfaqësohen nga numrat e tyre serialë në alfabet, të cilët shkruhen me 5 shifra në sistemin e numrave binar, të paraprirë nga 011 2 për shkronjat e vogla dhe 010 2 për shkronjat e mëdha.

Paraqitja e 10 shifrave - "0" - "9" gjithashtu mund të llogaritet midis veçorive të kodimit ASCII. Në sistemin e dytë të numrave, ato fillojnë me 00112 dhe përfundojnë me 2 vlera numrash. Kështu, 0101 2 është ekuivalente me dhjetore pesë, kështu që karakteri "5" shkruhet si 0011 01012. Bazuar në sa më sipër, ju mund t'i konvertoni lehtësisht numrat BCD në një varg ASCII duke shtuar sekuencën e biteve 00112 në çdo gërmim në të majtë.

"Unicode"

Siç e dini, mijëra karaktere kërkohen për të shfaqur tekste në gjuhët e grupit të Azisë Juglindore. Një numër i tillë i tyre nuk përshkruhet në asnjë mënyrë në një bajt informacioni, prandaj edhe versionet e zgjeruara të ASCII nuk mund të plotësonin më nevojat në rritje të përdoruesve nga vende të ndryshme.

Pra, lindi nevoja për të krijuar një kodim universal të tekstit, i cili u zhvillua nga konsorciumi Unicode në bashkëpunim me shumë drejtues të industrisë globale të IT. Specialistët e tij krijuan sistemin UTF 32. Në të, 32 bit u ndanë për të koduar 1 karakter, duke përbërë 4 bajt informacion. Disavantazhi kryesor ishte një rritje e mprehtë e sasisë së kujtesës së kërkuar deri në 4 herë, gjë që solli shumë probleme.

Në të njëjtën kohë, për shumicën e vendeve me gjuhë zyrtare që i përkasin grupit indo-evropian, numri i karaktereve të barabartë me 2 32 është më shumë se i tepërt.

Si rezultat i punës së mëtejshme të specialistëve nga konsorciumi Unicode, u shfaq kodimi UTF-16. Është bërë varianti i konvertimit të informacionit të karaktereve që i përshtatet të gjithëve si për sa i përket sasisë së memories së kërkuar ashtu edhe për numrin e karaktereve të koduara. Kjo është arsyeja pse UTF-16 u miratua si parazgjedhje dhe kërkon që 2 bajt të rezervohen për një karakter.

Edhe ky version mjaft i avancuar dhe i suksesshëm i "Unicode" kishte disa të meta, dhe pas kalimit nga versioni i zgjeruar i ASCII në UTF-16, ai dyfishoi madhësinë e dokumentit.

Në këtë drejtim, u vendos që të përdoret kodimi me gjatësi të ndryshueshme UTF-8. Në këtë rast, çdo karakter i tekstit burim është i koduar nga një sekuencë prej 1 deri në 6 bajt në gjatësi.

Lidhja me kodin standard amerikan për shkëmbimin e informacionit

Të gjithë karakteret e alfabetit latin në UTF-8 me gjatësi të ndryshueshme janë të koduara në 1 bajt, si në sistemin e kodimit ASCII.

Një veçori e UTF-8 është se në rastin e tekstit në latinisht pa përdorimin e karaktereve të tjera, edhe programet që nuk e kuptojnë Unicode do ta lejojnë atë të lexohet. Me fjalë të tjera, pjesa bazë e kodimit të tekstit ASCII thjesht shkon në gjatësinë e re të ndryshueshme UTF. Karakteret cirilike në UTF-8 marrin 2 bajt, dhe, për shembull, ato gjeorgjiane marrin 3 bajtë. Duke krijuar UTF-16 dhe 8, u zgjidh problemi kryesor i krijimit të një hapësire të vetme kodi në fontet. Që atëherë, prodhuesve të shkronjave u është dashur vetëm të plotësojnë tabelën me format vektoriale të karaktereve të tekstit bazuar në nevojat e tyre.

Sisteme të ndryshme operative preferojnë kodime të ndryshme. Për të qenë në gjendje të lexoni dhe modifikoni tekstet e shtypura në një kodim tjetër, përdoren programet ruse të konvertimit të tekstit. Disa redaktues teksti përmbajnë transkoder të integruar dhe ju lejojnë të lexoni tekst pavarësisht nga kodimi.

Tani e dini se sa karaktere janë në ASCII dhe si dhe pse është projektuar. Sigurisht, sot standardi Unicode ka marrë shpërndarjen më të madhe në botë. Sidoqoftë, nuk duhet të harrojmë se ai u krijua në bazë të ASCII, ndaj duhet vlerësuar kontributi i zhvilluesve të tij në fushën e IT.

[Kodimi 8-bit: ASCII, KOI-8R dhe CP1251] Tabelat e para të kodimit të krijuara në SHBA nuk përdorën bitin e tetë në një bajt. Teksti u paraqit si një sekuencë bajtash, por biti i tetë nuk u mor parasysh (është përdorur për qëllime zyrtare).

Tabela është bërë standardi i pranuar. ASCII(Kodi Standard Amerikan për Shkëmbimin e Informacionit). 32 karakteret e para të tabelës ASCII (00 deri në 1F) u përdorën për karaktere që nuk printohen. Ato ishin krijuar për të kontrolluar një pajisje printimi dhe të ngjashme. Pjesa tjetër - nga 20 në 7 F - janë karaktere të rregullta (të printueshme).

Tabela 1 - Kodimi ASCII

dhjetorhekstetorCharPërshkrim
0 0 000 i pavlefshëm
1 1 001 fillimi i titullit
2 2 002 fillimi i tekstit
3 3 003 fundi i tekstit
4 4 004 fundi i transmetimit
5 5 005 hetim
6 6 006 pranoj
7 7 007 zile
8 8 010 backspace
9 9 011 skedë horizontale
10 A 012 linjë e re
11 B 013 skedë vertikale
12 C 014 faqe e re
13 D 015 kthim ngarkese
14 E 016 zhvendosja jashtë
15 F 017 zhvendosje brenda
16 10 020 ikja e lidhjes së të dhënave
17 11 021 kontrolli i pajisjes 1
18 12 022 kontrolli i pajisjes 2
19 13 023 kontrolli i pajisjes 3
20 14 024 kontrolli i pajisjes 4
21 15 025 pranimi negativ
22 16 026 boshe sinkron
23 17 027 fundi i trans. bllokoj
24 18 030 anuloni
25 19 031 fundi i mesëm
26 1A 032 zëvendësues
27 1B 033 arratisje
28 1C 034 ndarës i skedarëve
29 1D 035 ndarës grupi
30 1E 036 ndarës rekord
31 1F 037 ndarës njësi
32 20 040 hapësirë
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
dhjetorhekstetorChar
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 Unë
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 O
80 50 120 P
81 51 121 P
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 a
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 fq
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 x
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Siç mund ta shihni lehtësisht, vetëm shkronjat latine përfaqësohen në këtë kodim, dhe ato që përdoren në anglisht. Ekzistojnë gjithashtu simbole aritmetike dhe të tjera shërbimi. Por nuk ka shkronja ruse, madje as shkronja të veçanta latine për gjermanishten apo frëngjishten. Kjo është e lehtë për t'u shpjeguar - kodimi u zhvillua si një standard amerikan. Ndërsa kompjuterët filluan të përdoren në mbarë botën, karakteret e tjera duhej të kodoheshin.

Për ta bërë këtë, u vendos që të përdoret biti i tetë në çdo bajt. Kështu, 128 vlera të tjera ishin të disponueshme (nga 80 në FF), të cilat mund të përdoren për të koduar karakteret. E para nga tabelat me tetë bit është "ASCII e zgjeruar" ( ASCII i zgjeruar) - përfshinte variante të ndryshme të karaktereve latine të përdorura në disa gjuhë të Evropës Perëndimore. Kishte edhe karaktere të tjera shtesë, duke përfshirë pseudografinë.

Karakteret pseudografike lejojnë, duke shfaqur vetëm karaktere teksti, të japin njëfarë pamjeje grafike. Duke përdorur pseudografinë, për shembull, funksionon programi i menaxhimit të skedarëve FAR Manager.

Nuk kishte shkronja ruse në tabelën e zgjeruar ASCII. Në Rusi (ish BRSS) dhe në shtetet e tjera, u krijuan kodimet e tyre që bënë të mundur përfaqësimin e karaktereve specifike "kombëtare" në skedarë teksti 8-bit - shkronja latine të gjuhëve polake dhe çeke, cirilike (përfshirë shkronjat ruse) dhe alfabete të tjera.

Në të gjitha kodimet që janë bërë të përhapura, 127 karakteret e para (d.m.th., vlerat e bajtit me bitin e tetë të barabartë me 0) janë të njëjta me ASCII. Pra, një skedar ASCII funksionon në secilin prej këtyre kodimeve; shkronjat e gjuhës angleze përfaqësohen në të njëjtën mënyrë.

Organizimi ISO(Organizata Ndërkombëtare e Standardizimit - Organizata Ndërkombëtare për Standarde) miratoi një grup standardesh ISO 8859. Ai përcakton kodimet 8-bit për grupe të ndryshme gjuhësh. Pra, ISO 8859-1 është Extended ASCII, një tabelë për SHBA-në dhe Evropën Perëndimore. Dhe ISO 8859-5 është një tabelë për cirilik (përfshirë rusishten).

Sidoqoftë, për arsye historike, kodimi ISO 8859-5 nuk u kap. Në realitet, kodimet e mëposhtme përdoren për gjuhën ruse:

Kodi Faqe 866 ( CP866), ajo është gjithashtu "DOS", ajo është gjithashtu "kodim alternativ GOST". Përdorur gjerësisht deri në mesin e viteve 1990; tani në përdorim të kufizuar. Praktikisht nuk përdoret për shpërndarjen e teksteve në internet.
- KOI-8. Zhvilluar në vitet '70 dhe '80. Është një standard i pranuar përgjithësisht për dërgimin e mesazheve postare në internetin rus. Përdoret gjithashtu gjerësisht në sistemet operative të familjes Unix, duke përfshirë Linux. Versioni KOI-8, i krijuar për Rusisht, quhet KOI-8R; ka versione për gjuhë të tjera cirilike (për shembull, KOI8-U është një variant për gjuhën ukrainase).
- Kodi Faqe 1251, CP1251, Windows-1251. Zhvilluar nga Microsoft për të mbështetur gjuhën ruse në sistemin Windows.

Avantazhi kryesor i CP866 ishte ruajtja e karaktereve pseudografike në të njëjtat vende si në Extended ASCII; prandaj, programet me tekst të huaj, për shembull, i famshëm Norton Commander, mund të funksiononin pa ndryshime. CP866 përdoret aktualisht për programet e Windows që ekzekutohen në dritare me tekst ose në modalitetin e tekstit në ekran të plotë, duke përfshirë "Menaxherin FAR".

Tekstet në CP866 janë mjaft të rralla vitet e fundit (por përdoret për të koduar emrat e skedarëve rusë në Windows). Prandaj, ne do të ndalemi në dy kodime të tjera - KOI-8R dhe CP1251.



Siç mund ta shihni, në tabelën e kodimit CP1251, shkronjat ruse janë rregulluar sipas rendit alfabetik (me përjashtim, megjithatë, të shkronjës YO). Ky rregullim e bën shumë të lehtë që programet kompjuterike të renditen sipas alfabetit.

Por në KOI-8R, rendi i shkronjave ruse duket i rastësishëm. Por në fakt nuk është kështu.

Në shumë programe të vjetra, biti i 8-të humbi gjatë përpunimit ose transmetimit të tekstit. (Tani programe të tilla janë praktikisht "shuar", por në fund të viteve '80 dhe në fillim të viteve '90 ato ishin të përhapura). Për të marrë një vlerë 7-bitësh nga një vlerë 8-bitësh, mjafton të zbrisni 8 nga shifra e rendit të lartë; për shembull, E1 bëhet 61.

Tani krahasoni KOI-8R me tabelën ASCII (Tabela 1). Do të zbuloni se shkronjat ruse janë në përputhje të rreptë me ato latine. Nëse biti i tetë zhduket, shkronjat e vogla ruse kthehen në shkronja të mëdha latine dhe shkronjat e mëdha ruse në ato të vogla latine. Pra, E1 në KOI-8 është "A" ruse, ndërsa 61 në ASCII është latinishtja "a".

Pra, KOI-8 ju lejon të ruani lexueshmërinë e tekstit rus me humbjen e bitit të 8-të. "Përshëndetje të gjithëve" bëhet "pRIWET WSEM".

Kohët e fundit, si rendi alfabetik i karaktereve në tabelën e kodimit, ashtu edhe lexueshmëria me humbjen e bitit të 8-të kanë humbur rëndësinë e tyre vendimtare. Biti i tetë në kompjuterët modernë nuk humbet as gjatë transmetimit, as gjatë përpunimit. Dhe renditja alfabetike bëhet duke marrë parasysh kodimin, dhe jo një krahasim të thjeshtë të kodeve. (Nga rruga, kodet CP1251 nuk janë plotësisht të alfabetizuar - shkronja Y nuk është në vendin e saj).

Për shkak të faktit se kishte dy kodime të zakonshme, kur punoni me internetin (mail, shfletimi i faqeve në internet), ndonjëherë mund të shihni një grup të pakuptimtë shkronjash në vend të tekstit rus. Për shembull, "Unë jam SBYFEMHEL". Janë vetëm fjalët “me respekt”; por ato ishin të koduara në kodimin CP1251, dhe kompjuteri deshifroi tekstin sipas tabelës KOI-8. Nëse të njëjtat fjalë do të ishin, përkundrazi, të koduara në KOI-8, dhe kompjuteri do të deshifronte tekstin sipas tabelës CP1251, rezultati do të ishte "U HCHBTSEOEN".

Ndonjëherë ndodh që një kompjuter deshifron shkronjat në gjuhën ruse dhe madje sipas një tabele që nuk është menduar për gjuhën ruse. Pastaj, në vend të shkronjave ruse, shfaqet një grup i pakuptimtë karakteresh (për shembull, shkronja latine të gjuhëve të Evropës Lindore); ata shpesh quhen "crocos".

Në shumicën e rasteve, programet moderne arrijnë të përcaktojnë vetë kodimet e dokumenteve të internetit (e-mail dhe faqe në internet). Por ndonjëherë ata "shkojnë keq", dhe më pas mund të shihni sekuenca të çuditshme të shkronjave ruse ose "krokodili". Si rregull, për të shfaqur tekstin real në një situatë të tillë, mjafton të zgjidhni kodimin manualisht në menunë e programit.

Informacioni nga faqja http://open-office.edusite.ru/TextProcessor/p5aa1.html u përdor për artikullin.

Materiali i marrë nga faqja:

Artikujt kryesorë të lidhur