Tabela e plotë ascii. Kodimi ASCII (kodi standard amerikan për shkëmbimin e informacionit) - kodimi bazë i tekstit për latinisht

05.09.2019 Hekuri

Le të hedhim një vështrim në disa nga faktet që dimë:

Tërësia e karaktereve me të cilat është shkruar teksti quhet alfabet.

Numri i karaktereve në një alfabet është kardinaliteti i tij.

Formula për përcaktimin e sasisë së informacionit: N \u003d 2 b,

ku N është fuqia e alfabetit (numri i karaktereve),

b - numri i biteve (pesha e informacionit të karakterit).

Pothuajse të gjitha karakteret e nevojshme mund të vendosen në një alfabet me një kapacitet prej 256 karaktere. Një alfabet i tillë quhet i mjaftueshëm.

Sepse 256 = 28 , atëherë pesha e 1 karakteri është 8 bit.

Një njësie matëse prej 8 bitësh i është dhënë emri 1 bajt:

1 bajt = 8 bit.

Kodi binar i çdo karakteri në tekstin e kompjuterit zë 1 bajt memorie.

Si paraqitet informacioni tekstual në kujtesën e kompjuterit?

Kodimi konsiston në faktin se çdo karakteri i caktohet një kod dhjetor unik nga 0 në 255 ose kodi binar përkatës nga 00000000 në 11111111. Kështu, një person dallon karakteret sipas stilit të tyre dhe një kompjuter nga kodi i tyre.

Lehtësia e kodimit byte-pas-byte të karaktereve është e dukshme, pasi një bajt është pjesa më e vogël e adresueshme e memories dhe, për rrjedhojë, procesori mund të aksesojë secilin karakter veçmas kur kryen përpunimin e tekstit. Nga ana tjetër, 256 karaktere janë mjaft të mjaftueshme për të përfaqësuar një shumëllojshmëri të gjerë të informacionit të karaktereve.

Tani shtrohet pyetja, cilin kod binar tetë-bitësh të vendosni në korrespondencë me secilin karakter.

Është e qartë se kjo është një çështje e kushtëzuar, mund të gjeni shumë mënyra për të koduar.

Tabela ASCII është bërë standardi ndërkombëtar për PC. (shqiptohet asci) (American Standard Code for Information Interchange).

Vetëm gjysma e parë e tabelës është standard ndërkombëtar, d.m.th. karaktere me numra nga 0 (00000000) deri në 127 (01111111).

Numër serik		Simboli
	00000000 - 00011111	Funksioni i tyre është të kontrollojnë procesin e shfaqjes së tekstit në ekran ose të printimit, dhënien e një sinjali zanor, shënimin e tekstit, etj.
32 - 127	00100000 - 01111111
128 - 255	10000000 - 11111111	Gjysma e dytë e tabelës së kodeve ASCII, e quajtur faqja e kodit (128 kode, duke filluar me 10000000 dhe duke përfunduar me 11111111), mund të ketë opsione të ndryshme, secili opsion ka numrin e vet.

Unë tërheq vëmendjen tuaj për faktin se në tabelën e kodimit, shkronjat (të mëdha dhe të vogla) janë renditur sipas rendit alfabetik, dhe numrat janë renditur në rend rritës. Ky respektim i rendit leksikografik në renditjen e karaktereve quhet parimi i kodimit sekuencial të alfabetit.

Kodimi më i zakonshëm që përdoret aktualisht është Microsoft Windows, i shkurtuar si CP1251.

Që nga fundi i viteve '90, problemi i standardizimit të kodimit të karaktereve është zgjidhur me prezantimin e një standardi të ri ndërkombëtar të quajtur Unicode. . Ky është një kodim 16-bit, d.m.th. ka 2 bajt memorie për karakter. Sigurisht, në këtë rast, sasia e kujtesës së zënë rritet me 2 herë. Por një tabelë e tillë kodi lejon përfshirjen deri në 65536 karaktere. Specifikimi i plotë i standardit Unicode përfshin të gjitha alfabetet ekzistuese, të zhdukura dhe të krijuara artificialisht të botës, si dhe shumë simbole matematikore, muzikore, kimike dhe të tjera.

Le të përpiqemi të përdorim një tabelë ASCII për të imagjinuar se si do të duken fjalët në kujtesën e kompjuterit.

Fjalët

Kujtesa

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Kur informacioni i tekstit futet në një kompjuter, karakteret (shkronjat, numrat, shenjat) kodohen duke përdorur sisteme të ndryshme kodi, të cilat përbëhen nga një grup tabelash kodesh të vendosura në faqet përkatëse të standardeve për kodimin e informacionit të tekstit. Në tabela të tilla, çdo karakteri i caktohet një kod numerik specifik në shënim heksadecimal ose dhjetor, d.m.th., tabelat e kodeve pasqyrojnë korrespondencën midis imazheve të karaktereve dhe kodeve numerike dhe janë krijuar për të koduar dhe deshifruar informacionin tekstual. Kur futni informacionin e tekstit duke përdorur një tastierë kompjuteri, çdo karakter hyrës kodohet, d.m.th., konvertohet në një kod numerik, kur informacioni i tekstit nxirret në një pajisje dalëse kompjuteri (ekran, printer ose plotter), imazhi i tij ndërtohet duke përdorur kodin e karakterit numerik. . Caktimi i një kodi numerik specifik në një simbol është rezultat i një marrëveshjeje midis organizatave përkatëse në vende të ndryshme. Aktualisht, nuk ka asnjë tabelë të vetme të kodit universal që plotëson shkronjat e alfabeteve kombëtare të vendeve të ndryshme.

Tabelat moderne të kodeve përfshijnë pjesë ndërkombëtare dhe kombëtare, domethënë ato përmbajnë shkronja të alfabetit latin dhe kombëtar, numra, aritmetikë dhe shenja pikësimi, karaktere matematikore dhe kontrolluese dhe karaktere pseudografike. Pjesa ndërkombëtare e tabelës së kodit bazuar në standard ASCII (Kodi Standard Amerikan për Shkëmbimin e Informacionit), kodon gjysmën e parë të karaktereve të tabelës së kodeve me kode numerike nga 0 në 7 F16, ose në sistemin e numrave dhjetorë nga 0 në 127. Në këtë rast, kodet nga 0 deri në 20 16 (0 × 32 10) u caktohen tasteve funksionale (F1, F2, F3, etj.) të tastierës së kompjuterit personal. Në fig. 3.1 tregon pjesën ndërkombëtare të tabelave të kodit bazuar në standard ASCII. Qelizat e tabelës numërohen përkatësisht në sistemet e numrave dhjetorë dhe heksadecimalë.

Fig 3.1. Pjesa ndërkombëtare e tabelës së kodeve (standarde ASCII) me numrat e qelizave të paraqitura në sistemin e numrave dhjetorë (a) dhe heksadecimal (b).

Pjesa kombëtare e tabelave të kodeve përmban kodet e alfabeteve kombëtare, e cila quhet edhe tabela e grupeve të karaktereve. (grup karakteresh).

Aktualisht, për të mbështetur shkronjat e alfabetit rus (cirilik), ekzistojnë disa tabela kodesh (enkodime) që përdoren nga sisteme të ndryshme operative, gjë që është një pengesë e rëndësishme dhe në disa raste çon në probleme që lidhen me operacionet e dekodimit për vlerat numerike. të personazheve. Në tabelë. 3.1 tregon emrat e faqeve të kodit (standardet) në të cilat janë vendosur tabelat e kodeve cirilike (kodimet).

Tabela 3.1

Një nga standardet e para për kodimin cirilik në kompjuter ishte standardi KOI8-R. Pjesa kombëtare e tabelës së kodeve të këtij standardi është paraqitur në fig. 3.2.

Oriz. 3.2. Pjesa kombëtare e tabelës së kodit të standardit KOI8-R

Aktualisht, përdoret edhe tabela e kodit, e vendosur në faqen СР866 të standardit të kodimit të informacionit të tekstit, i cili përdoret në sistemin operativ MS DOS ose seancë MS DOS për të koduar alfabetin cirilik (Fig. 3.3, por).

Oriz. 3.3. Pjesa kombëtare e tabelës së kodit, e vendosur në faqen СР866 (a) dhe në faqen СР1251 (b) të standardit të kodimit të informacionit të tekstit

Aktualisht, për kodimin cirilik, tabela e kodit më e përdorur gjendet në faqen СР1251 të standardit përkatës, i cili përdoret në sistemet operative të familjes. Dritaret firmave Microsoft(Fig. 3.2, b). Në të gjitha tabelat e kodit të paraqitura, përveç tabelës standarde unicode, 8 bit (8 bit) ndahen për të koduar një karakter.

Në fund të shekullit të kaluar, u shfaq një standard i ri ndërkombëtar unicode, në të cilin një karakter përfaqësohet nga një kod binar dy bajtë. Zbatimi i këtij standardi është një vazhdimësi e zhvillimit të një standardi universal ndërkombëtar që lejon zgjidhjen e problemit të përputhshmërisë së kodimeve kombëtare të karaktereve. Duke përdorur këtë standard, mund të kodoni 2 16 = 65536 karaktere të ndryshme. Në fig. 3.4 tregon tabelën e kodit 0400 (alfabeti rus) i standardit Unicode.

Oriz. 3.4. Tabela e kodeve 0400 e standardit Unicode

Le të shpjegojmë atë që është thënë në lidhje me kodimin e informacionit tekstual duke përdorur një shembull.

Shembulli 3.1

Kodoni fjalën "Kompjuter" si një sekuencë numrash dhjetorë dhe heksadecimalë duke përdorur kodimin CP1251. Cilat karaktere do të shfaqen në tabelat e kodeve SR866 dhe KOI8-R kur përdorni kodin e marrë.

Sekuencat e kodit heksadecimal dhe binar për fjalën "Kompjuter" bazuar në tabelën e kodimit CP1251 (shih Fig. 3.3, b) do të duket kështu:

Kjo sekuencë kodesh në kodimet CP866 dhe KOI8-R do të shfaqë karakteret e mëposhtme:

Për të kthyer dokumentet e tekstit në gjuhën ruse nga një standard i kodimit të informacionit të tekstit në një tjetër, përdoren programe speciale - konvertues. Konvertuesit zakonisht ndërtohen në programe të tjera. Një shembull është një program shfletuesi - Internet Explorer (IE) i cili ka një konvertues të integruar. Programi i shfletuesit është një program i veçantë për shikimin e përmbajtjes faqet e internetit në rrjetin global kompjuterik të internetit. Le të përdorim këtë program për të konfirmuar rezultatin e hartës së karaktereve të marrë në shembullin 3.1. Për ta bërë këtë, kryeni hapat e mëposhtëm.

1. Ekzekutoni Notepad (Fletorja e shënimeve). Programi Notepad në sistemin operativ Windows XP niset duke përdorur komandën: [Button Filloni– Programet – Aksesorët – Notepad]. Në dritaren e programit Notepad që hapet, shkruani fjalën "Kompjuter" duke përdorur sintaksën e gjuhës së shënjimit të dokumentit të hipertekstit - HTML (Hyper Text Markup Language). Kjo gjuhë përdoret për të krijuar dokumente në ueb. Teksti duhet të duket si ky:

Kompjuter

, ku

Dhe

etiketat (konstruktet e veçanta) të gjuhës HTML për titujt. Në fig. 3.5 tregon rezultatin e këtyre veprimeve.

Oriz. 3.5. Shfaq tekstin në dritaren e Notepad

Le ta ruajmë këtë tekst duke ekzekutuar komandën: [File - Save As ...] në dosjen përkatëse në kompjuter, me rastin e ruajtjes së tekstit, skedarit do t'i japim një emër - Shënim, me shtesën e skedarit. html.

2. Ekzekutoni programin Internet Explorer, me ekzekutimin e komandës: [Button Filloni- Programet - Internet Explorer]. Kur programi fillon, dritarja e paraqitur në Fig. 3.6

Oriz. 3.6. Dritarja e hyrjes jashtë linje

Zgjidhni dhe aktivizoni butonin Jashtë linje kjo nuk do ta lidhë kompjuterin me internetin global. Do të shfaqet dritarja kryesore e programit Microsoft Internet Explorer, treguar në fig. 3.7.

Oriz. 3.7. Dritarja kryesore e Microsoft Internet Explorer

Le të ekzekutojmë komandën e mëposhtme: [File - Open], do të shfaqet një dritare (Fig. 3.8), në të cilën duhet të specifikoni emrin e skedarit dhe të klikoni butonin Ne rregull ose shtypni butonin Përmbledhje… dhe gjeni skedarin Note.html.

Oriz. 3.8. Hap dritaren

Dritarja kryesore e programit Internet Explorer do të marrë formën e treguar në Fig. 3.9. Në dritare do të shfaqet fjala "Kompjuter". Tjetra, duke përdorur menunë e sipërme të programit Internet Explorer, ekzekutoni komandën e mëposhtme: [View - Encoding - Cyrillic (DOS)]. Pas ekzekutimit të kësaj komande në dritaren e programit Internet Explorer simbolet e paraqitura në Fig. 3.10. Gjatë ekzekutimit të komandës: [Shiko - Kodimi - cirilik (KOI8-R)] në dritaren e programit Internet Explorer simbolet e paraqitura në Fig. 3.11.

Oriz. 3.9. Karakteret e shfaqura me kodimin CP1251

Oriz. 3.10. Karakteret shfaqen kur kodimi CP866 është aktivizuar për një sekuencë kodi të përfaqësuar në kodimin CP1251

Oriz. 3.11. Karakteret shfaqen kur aktivizohet kodimi KOI8-R për sekuencën e kodit të përfaqësuar në kodimin CP1251

Kështu, të marra duke përdorur programin Internet Explorer sekuencat e karaktereve përputhen me sekuencat e karaktereve të marra duke përdorur tabelat e kodit CP866 dhe KOI8-R në shembullin 3.1.

3.2. Kodimi grafik i informacionit

Informacioni grafik i paraqitur në formën e vizatimeve, fotografive, rrëshqitjeve, imazheve lëvizëse (animacion, video), diagrame, vizatimesh, mund të krijohet dhe modifikohet duke përdorur një kompjuter, ndërkohë që është i koduar siç duhet. Aktualisht, ekziston një numër mjaft i madh i programeve aplikative për përpunimin e informacionit grafik, por të gjitha ato zbatojnë tre lloje të grafikës kompjuterike: raster, vektor dhe fraktal.

Nëse shikoni më nga afër imazhin grafik në ekranin e monitorit të kompjuterit, mund të shihni një numër të madh pikash me shumë ngjyra (pikselë - nga anglishtja. pixel, formuar nga elementi i figurës element imazhi) të cilat, kur bashkohen, formojnë imazhin e dhënë grafik. Nga kjo mund të konkludojmë: një imazh grafik në një kompjuter është i koduar në një mënyrë të caktuar dhe duhet të paraqitet si skedar grafik. Skedari është njësia kryesore strukturore për organizimin dhe ruajtjen e të dhënave në një kompjuter dhe në këtë rast duhet të përmbajë informacion se si të paraqitet ky grup pikash në ekranin e monitorit.

Skedarët e krijuar në bazë të grafikëve vektoriale përmbajnë informacion në formën e varësive matematikore (funksionet matematikore që përshkruajnë varësitë lineare) dhe të dhëna të lidhura se si të ndërtoni një imazh të një objekti duke përdorur segmente të linjës (vektorë) kur shfaqen në ekranin e monitorit të kompjuterit.

Skedarët e krijuar në bazë të grafikës raster supozojnë ruajtjen e të dhënave për çdo pikë individuale në imazh. Shfaqja e grafikëve raster nuk kërkon llogaritje komplekse matematikore, mjafton vetëm të merrni të dhëna për secilën pikë të figurës (koordinatat dhe ngjyrën e saj) dhe t'i shfaqni ato në ekranin e monitorit të kompjuterit.

Në procesin e kodimit të imazhit, bëhet kampionimi i tij hapësinor, d.m.th., imazhi ndahet në pika të veçanta dhe secilës pikë i jepet një kod ngjyrash (e verdhë, e kuqe, blu, etj.). Për të koduar secilën pikë të një imazhi grafik me ngjyra, përdoret parimi i zbërthimit të një ngjyre arbitrare në përbërësit e saj kryesorë, të cilët përdoren si tre ngjyra kryesore: e kuqe (fjala angleze e kuqe, shënohet me shkronjën TE), jeshile (jeshile, shënohet me shkronjën G), blu (Blu, caktoj ahu NË).Çdo ngjyrë pikë e perceptuar nga syri i njeriut mund të merret me shtimin (përzierjen) shtesë (proporcionale) të tre ngjyrave kryesore - të kuqe, jeshile dhe blu. Ky sistem kodimi quhet sistem ngjyrash. RGB. Skedarët e imazhit që përdorin një sistem ngjyrash RGB, përfaqësojnë çdo pikë të imazhit si një treshe ngjyrash - tre vlera numerike R, G Dhe NË, që korrespondon me intensitetin e ngjyrës së kuqe, jeshile dhe blu. Procesi i kodimit të një imazhi grafik kryhet duke përdorur mjete të ndryshme teknike (skaner, aparat fotografik dixhital, kamera dixhitale video, etj.); rezultati është një imazh bitmap. Kur luani imazhe grafike me ngjyra në ekranin e një monitori kompjuterik me ngjyra, ngjyra e secilës pikë (piksel) të një imazhi të tillë merret duke përzier tre ngjyra kryesore R, G Dhe b.

Cilësia e një imazhi raster përcaktohet nga dy parametra kryesorë - rezolucioni (numri i pikave horizontale dhe vertikale) dhe paleta e ngjyrave të përdorura (numri i ngjyrave të specifikuara për secilën pikë të imazhit). Rezolucioni specifikohet duke specifikuar numrin e pikave horizontale dhe vertikale, për shembull 800 me 600 pika.

Ekziston një lidhje midis numrit të ngjyrave të caktuara për një piksel të një imazhi raster dhe sasisë së informacionit që duhet të ndahet për të ruajtur ngjyrën e një piksel, të përcaktuar nga raporti (formula e R. Hartley):

ku Unë- sasia e informacionit; N- numri i ngjyrave të dhëna në pikë.

Sasia e informacionit të kërkuar për të ruajtur ngjyrën e një pike quhet gjithashtu thellësia e ngjyrës ose cilësia e ngjyrës.

Kështu, nëse numri i ngjyrave të specifikuara për një pikë imazhi është N= 256, atëherë sasia e informacionit të kërkuar për ruajtjen e tij (thellësia e ngjyrës) në përputhje me formulën (3.1) do të jetë e barabartë me Unë= 8 bit.

Kompjuterët përdorin mënyra të ndryshme të paraqitjes grafike për të shfaqur informacionin grafik. Këtu duhet theksuar se përveç modalitetit grafik të monitorit, ekziston edhe një modalitet teksti, në të cilin ekrani i monitorit ndahet në mënyrë konvencionale në 25 rreshta me 80 karaktere për rresht. Këto mënyra grafike karakterizohen nga rezolucioni i ekranit të monitorit dhe cilësia e ngjyrës (thellësia e ngjyrës). Për të vendosur modalitetin grafik të ekranit të monitorit në sistemin operativ MS Windows XP duhet të ekzekutoni komandën: [Button Filloni– Cilësimet – Paneli i kontrollit – Ekrani]. Në kutinë e dialogut "Properties: Screen" që shfaqet (Fig. 3.12), zgjidhni skedën "Parametrat" dhe përdorni rrëshqitësin "Rezolucioni i ekranit" për të zgjedhur rezolucionin e duhur të ekranit (800x600 piksele, 1024x768 pixel, etj.). Duke përdorur listën rënëse "Cilësia e ngjyrave", mund të zgjidhni thellësinë e ngjyrës - "Më e lartë (32 bit)", "Mesatarisht (16 bit)", etj., ndërsa numri i ngjyrave të caktuara për secilën pikë të figurës do të të jetë përkatësisht e barabartë me 2 32 (4294967296), 2 16 (65536), etj.

Oriz. 3.12. Kutia e dialogut të vetive të shfaqjes

Për të zbatuar secilën nga mënyrat grafike të ekranit të monitorit, kërkohet një vëllim i caktuar informacioni i kujtesës video të kompjuterit. Vëllimi i kërkuar i informacionit të kujtesës video (V) përcaktohet nga relacioni

ku TE - numri i pikave të imazhit në ekranin e monitorit (K = A B); POR - numri i pikave horizontale në ekranin e monitorit; NË - numri i pikave vertikale në ekranin e monitorit; Unë– sasia e informacionit (thellësia e ngjyrës).

Pra, nëse ekrani i monitorit ka një rezolucion prej 1024 me 768 piksele dhe një paletë të përbërë nga 65 536 ngjyra, atëherë thellësia e ngjyrës në përputhje me formulën (3.1) do të jetë I = log 2 65 538 = 16 bit, numri i imazhit pikselët do të jenë të barabartë me: K = 1024 x 768 = 786432, dhe vëllimi i kërkuar i informacionit të kujtesës video në përputhje me (3.2) do të jetë i barabartë me

V = 786432 16 bit = 12582912 bit = 1572864 byte = 1536 KB = 1,5 MB.

Si përfundim, duhet theksuar se përveç karakteristikave të listuara, karakteristikat më të rëndësishme të monitorit janë dimensionet gjeometrike të ekranit të tij dhe pikat e imazhit. Dimensionet gjeometrike të ekranit përcaktohen nga madhësia e diagonales së monitorit. Diagonalja e monitorëve është vendosur në inç (1 inç = 1" = 25,4 mm) dhe mund të marrë vlera të barabarta me: 14", 15", 17", 21" etj. Teknologjitë moderne të prodhimit të monitorëve mund të ofrojnë një madhësi të pikës së imazhit e barabartë me 0.22 mm.

Kështu, për çdo monitor ekziston një rezolutë maksimale e mundshme fizike e ekranit, e përcaktuar nga madhësia e diagonales së tij dhe madhësia e pikës së imazhit.

Ushtrime për vetë-përmbushje

1. Përdorimi i programit MS Excel konvertoni tabelat e kodeve ASCII, СР866, СР1251, KOI8-R në tabela të formës: në qelizat e kolonës së parë të tabelave, shkruani sipas rendit alfabetik germat e mëdha dhe më pas të vogla latine dhe cirilike, në qelizat e kolonës së dytë - kodet që korrespondojnë me shkronjat në sistemin e numrave dhjetorë, në qelizat kolona e tretë - kodet që korrespondojnë me shkronjat në sistemin e numrave heksadecimal. Vlerat e kodit duhet të zgjidhen nga tabelat përkatëse të kodit.

2. Kodoni dhe shkruani fjalët e mëposhtme si një sekuencë numrash me shënime dhjetore dhe heksadecimal:

a) Internet Explorer, b) Microsoft Office në) CorelDRAW.

Kodoni për të prodhuar duke përdorur tabelën e përmirësuar të kodimit ASCII të marrë në ushtrimin e mëparshëm.

3. Dekodoni duke përdorur tabelën e kodimit të përmirësuar KOI8-R sekuencat e numrave të shkruar në sistemin heksadecimal të numrave:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Si do të duket fjala "Cybernetics" e shkruar në kodimin CP1251 kur përdorni kodimet CP866 dhe KOI8-R? Kontrolloni rezultatet me programin Internet Explorer.

5. Duke përdorur tabelën e kodeve të paraqitur në fig. 3.1 por, deshifroni sekuencat e mëposhtme të kodit të shkruara në shënim binar:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Përcaktoni vëllimin e informacionit të fjalës "Ekonomi" të koduar duke përdorur tabelat e kodeve СР866, СР1251, Unicode dhe KOI8-R.

7. Përcaktoni vëllimin e informacionit të skedarit të marrë si rezultat i skanimit të një imazhi me ngjyra 12x12 cm. Rezolucioni i skanerit të përdorur për të skanuar këtë imazh është 600 dpi. Skaneri vendos thellësinë e ngjyrës së pikës së imazhit në 16 bit.

Rezolucioni i skanerit 600 dpi (inç pika - pika për inç) përcakton aftësinë e një skaneri me këtë rezolucion për të dalluar 600 pika në një segment 1 inç.

8. Përcaktoni vëllimin e informacionit të skedarit të marrë si rezultat i skanimit të një imazhi me ngjyra të madhësisë A4. Rezolucioni i skanerit të përdorur për të skanuar këtë imazh është 1200 dpi. Skaneri vendos thellësinë e ngjyrës së pikës së imazhit në 24 bit.

9. Përcaktoni numrin e ngjyrave në paleta në një thellësi ngjyrash prej 8, 16, 24 dhe 32 bit.

10. Përcaktoni sasinë e kërkuar të kujtesës video për mënyrat grafike të ekranit të monitorit 640 me 480, 800 me 600, 1024 me 768 dhe 1280 me 1024 piksele me një thellësi ngjyrash të pikës së imazhit prej 8, 16, 24 dhe 32 bit. Rezultatet janë përmbledhur në një tabelë. Zhvilloni në MS Excel program për automatizimin e llogaritjeve.

11. Përcaktoni numrin maksimal të ngjyrave që mund të përdoren për të ruajtur një imazh prej 32 me 32 piksele nëse kompjuteri ka ndarë 2 KB memorie për imazhin.

12. Përcaktoni rezolucionin maksimal të mundshëm të ekranit të një monitori me një gjatësi diagonale prej 15" dhe një madhësi të pikës së imazhit prej 0,28 mm.

13. Cilat mënyra grafike të funksionimit të monitorit mund të ofrohen nga memoria video 64 MB?

përmbajtja

I. Historia e kodimit të informacionit…………………………………..3

II. Informacioni i kodimit…………………………………………4

III. Kodimi i informacionit tekstual……………………………….4

IV. Llojet e tabelave koduese……………………………………………………………………………………………………………

V. Llogaritja e sasisë së informacionit në tekst…………………………14

Lista e literaturës së përdorur…………………………………..16

Unë . Historia e kodimit të informacionit

Njerëzimi ka përdorur enkriptimin (kodimin) e tekstit që nga momenti kur u shfaq informacioni i parë sekret. Këtu janë disa teknika të kodimit të tekstit që u shpikën në faza të ndryshme të zhvillimit të mendimit njerëzor:

Kriptografia është kriptografi, një sistem i ndryshimit të shkrimit për ta bërë tekstin të pakuptueshëm për personat e pa iniciuar;

Kodi Morse ose kodi telegrafik jo uniform, në të cilin çdo shkronjë ose karakter përfaqësohet nga kombinimi i vet i njësive të shkurtra të rrymës elektrike (pika) dhe njësive me kohëzgjatje të trefishtë (viza);

gjuha e shenjave është një gjuhë e shenjave e përdorur nga njerëzit me dëmtim të dëgjimit.

Një nga metodat më të hershme të njohura të enkriptimit mban emrin e perandorit romak Julius Caesar (shekulli I para Krishtit). Kjo metodë bazohet në zëvendësimin e secilës shkronjë të tekstit të koduar me një tjetër duke zhvendosur alfabetin nga shkronja origjinale me një numër fiks karakteresh, dhe alfabeti lexohet në një rreth, domethënë pas shkronjës i, merret parasysh a. Pra, fjala "byte" kur zhvendoset dy karaktere në të djathtë kodohet me fjalën "gvlf". Procesi i kundërt i deshifrimit të një fjale të caktuar është zëvendësimi i secilës shkronjë të koduar me të dytën në të majtë të saj.

II. Kodimi i informacionit

Një kod është një grup konventash (ose sinjalesh) për regjistrimin (ose transmetimin) e disa koncepteve të paracaktuara.

Kodimi i informacionit është procesi i formimit të një përfaqësimi të caktuar të informacionit. Në një kuptim më të ngushtë, termi "kodim" shpesh kuptohet si kalimi nga një formë e prezantimit të informacionit në një tjetër, më i përshtatshëm për ruajtje, transmetim ose përpunim.

Zakonisht, çdo imazh, kur është i koduar (nganjëherë thonë - i koduar), përfaqësohet nga një karakter i veçantë.

Një shenjë është një element i një grupi të fundëm elementësh të ndryshëm.

Në një kuptim më të ngushtë, termi "kodim" shpesh kuptohet si kalimi nga një formë e prezantimit të informacionit në një tjetër, më i përshtatshëm për ruajtje, transmetim ose përpunim.

Kompjuteri mund të përpunojë informacionin tekstual. Kur futet në një kompjuter, çdo shkronjë kodohet me një numër të caktuar, dhe kur del në pajisje të jashtme (ekran ose printim), për perceptimin e njeriut, imazhet e shkronjave ndërtohen duke përdorur këta numra. Korrespondenca midis një grupi shkronjash dhe numrash quhet kodim i karaktereve.

Si rregull, të gjithë numrat në kompjuter përfaqësohen duke përdorur zero dhe njëshe (dhe jo dhjetë shifra, siç është zakon për njerëzit). Me fjalë të tjera, kompjuterët zakonisht punojnë në sistemin binar, pasi pajisjet për përpunimin e tyre janë shumë më të thjeshta. Futja e numrave në një kompjuter dhe nxjerrja e tyre për lexim njerëzor mund të bëhet në formën e zakonshme dhjetore dhe të gjitha konvertimet e nevojshme kryhen nga programet që funksionojnë në një kompjuter.

III. Kodimi i informacionit të tekstit

I njëjti informacion mund të paraqitet (i koduar) në disa forma. Me ardhjen e kompjuterëve, u bë e nevojshme të kodohen të gjitha llojet e informacionit me të cilat merren si individi ashtu edhe njerëzimi në tërësi. Por njerëzimi filloi të zgjidhte problemin e kodimit të informacionit shumë përpara ardhjes së kompjuterëve. Arritjet madhështore të njerëzimit - shkrimi dhe aritmetika - nuk janë gjë tjetër veçse një sistem i kodimit të fjalës dhe informacionit numerik. Informacioni nuk shfaqet kurrë në formën e tij të pastër, ai gjithmonë paraqitet në një farë mënyre, i koduar në një farë mënyre.

Kodimi binar është një nga mënyrat më të zakonshme për të paraqitur informacionin. Në kompjuterë, robotë dhe vegla makinerie me kontroll numerik, si rregull, i gjithë informacioni me të cilin merret pajisja kodohet në formën e fjalëve të alfabetit binar.

Që nga fundi i viteve '60, kompjuterët janë përdorur gjithnjë e më shumë për të përpunuar informacionin e tekstit, dhe aktualisht pjesa kryesore e kompjuterëve personalë në botë (dhe shumicën e kohës) është e zënë me përpunimin e informacionit tekstual. Të gjitha këto lloje të informacionit në një kompjuter përfaqësohen në kodin binar, d.m.th., përdoret një alfabet me fuqi dy (vetëm dy karaktere 0 dhe 1). Kjo për faktin se është i përshtatshëm për të paraqitur informacionin në formën e një sekuence të impulseve elektrike: nuk ka impuls (0), ka një impuls (1).

Një kodim i tillë zakonisht quhet binar, dhe sekuencat logjike të zerave dhe njësheve quhen gjuhë makine.

Nga pikëpamja e kompjuterit, teksti përbëhet nga karaktere individuale. Karakteret përfshijnë jo vetëm shkronjat (kapitale ose të vogla, latinisht ose rusisht), por edhe numra, shenja pikësimi, karaktere të veçanta si "=", "(", "&", etj. dhe madje (kushtojini vëmendje të veçantë!) hapësira midis fjalëve .

Tekstet futen në kujtesën e kompjuterit duke përdorur tastierën. Çelësat janë shkruar me shkronja të njohura për ne, numra, shenja pikësimi dhe simbole të tjera. Ata hyjnë në RAM në kodin binar. Kjo do të thotë që çdo karakter përfaqësohet nga një kod binar 8-bit.

Tradicionalisht, për të koduar një karakter, përdoret sasia e informacionit e barabartë me 1 bajt, d.m.th., unë \u003d 1 bajt \u003d 8 bit. Duke përdorur një formulë që lidh numrin e ngjarjeve të mundshme K dhe sasinë e informacionit I, mund të llogaritni se sa karaktere të ndryshme mund të kodohen (duke supozuar se karakteret janë ngjarje të mundshme): K = 2 I = 2 8 = 256, d.m.th. përfaqësimi i informacionit tekstual, ju mund të përdorni alfabetin me një kapacitet prej 256 karaktere.

Ky numër i karaktereve është mjaft i mjaftueshëm për të përfaqësuar informacionin tekstual, duke përfshirë shkronjat e mëdha dhe të vogla të alfabetit rus dhe latin, numrat, shenjat, simbolet grafike, etj.

Në procesin e shfaqjes së një karakteri në një ekran kompjuteri, kryhet procesi i kundërt - deshifrimi, domethënë konvertimi i kodit të karakterit në imazhin e tij. Është e rëndësishme që caktimi i një kodi specifik në një simbol të jetë një çështje marrëveshjeje, e cila është e fiksuar në tabelën e kodit.

Tani shtrohet pyetja, cilin kod binar tetë-bitësh të vendosni në korrespondencë me secilin karakter. Është e qartë se kjo është një çështje e kushtëzuar, mund të gjeni shumë mënyra për të koduar.

Të gjitha simbolet e alfabetit të kompjuterit numërohen nga 0 deri në 255. Çdo numër korrespondon me një kod binar tetëshifror nga 00000000 deri në 11111111. Ky kod është thjesht numri rendor i karakterit në sistemin e numrave binar.

IV . Llojet e tabelave koduese

Një tabelë në të cilën të gjithë karakteret e alfabetit të kompjuterit u caktohen numra serialë quhet tabelë koduese.

Për lloje të ndryshme kompjuterësh, përdoren tabela të ndryshme kodimi.

Tabela e kodeve ASCII (Kodi standard amerikan për shkëmbimin e informacionit) është miratuar si një standard ndërkombëtar, duke koduar gjysmën e parë të karaktereve me kode numerike nga 0 në 127 (kodet nga 0 në 32 nuk u caktohen karaktereve, por tasteve të funksionit).

Tabela e kodeve ASCII është e ndarë në dy pjesë.

Vetëm gjysma e parë e tabelës është standard ndërkombëtar, d.m.th. karaktere me numra nga 0 (00000000) deri në 127 (01111111).

Struktura e tabelës së kodimit ASCII

Numër serik	Kodi	Simboli
0 - 31	00000000 - 00011111	Karakteret me numra nga 0 deri në 31 quhen karaktere kontrolli. Funksioni i tyre është të kontrollojnë procesin e shfaqjes së tekstit në ekran ose të printimit, dhënien e një sinjali zanor, shënimin e tekstit, etj.
32 - 127	0100000 - 01111111	Pjesa standarde e tabelës (anglisht). Këtu përfshihen shkronjat e vogla dhe të mëdha të alfabetit latin, shifrat dhjetore, shenjat e pikësimit, të gjitha llojet e kllapave, simbolet tregtare dhe të tjera. Karakteri 32 është një hapësirë, d.m.th. pozicion bosh në tekst. Të gjitha të tjerat pasqyrohen nga shenja të caktuara.
128 - 255	10000000 - 11111111	Pjesa alternative e tabelës (rusisht). Gjysma e dytë e tabelës së kodeve ASCII, e quajtur faqja e kodit (128 kode, duke filluar me 10000000 dhe duke përfunduar me 11111111), mund të ketë opsione të ndryshme, secili opsion ka numrin e vet. Faqja e kodit përdoret kryesisht për të akomoduar shkrime kombëtare të ndryshme nga latinishtja. Në kodimet kombëtare ruse, karakteret e alfabetit rus vendosen në këtë pjesë të tabelës.

Gjysma e parë e tabelës së kodit ASCII

Tërhiqet vëmendja për faktin se në tabelën e kodimit, shkronjat (të mëdha dhe të vogla) janë renditur sipas rendit alfabetik, dhe numrat janë renditur në rend rritës. Ky respektim i rendit leksikografik në renditjen e karaktereve quhet parimi i kodimit sekuencial të alfabetit.

Për shkronjat e alfabetit rus, respektohet edhe parimi i kodimit sekuencial.

Gjysma e dytë e tabelës së kodit ASCII

Për fat të keq, aktualisht ekzistojnë pesë kodime të ndryshme cirilike (KOI8-R, Windows. MS-DOS, Macintosh dhe ISO). Për shkak të kësaj, shpesh lindin probleme me transferimin e tekstit rus nga një kompjuter në tjetrin, nga një sistem softuer në tjetrin.

Kronologjikisht, një nga standardet e para për kodimin e shkronjave ruse në kompjuter ishte KOI8 ("Kodi i shkëmbimit të informacionit, 8-bit"). Ky kodim u përdor përsëri në vitet '70 në kompjuterët e serisë së kompjuterëve EC, dhe nga mesi i viteve '80 filloi të përdoret në versionet e para të rusifikuara të sistemit operativ UNIX.

Që nga fillimi i viteve '90, koha e dominimit të sistemit operativ MS DOS, kodimi mbetet CP866 ("CP" do të thotë "Faqja e kodit", "faqja e kodit").

Kompjuterët Apple që përdorin sistemin operativ Mac OS përdorin kodimin e tyre Mac.

Për më tepër, Organizata Ndërkombëtare për Standardizim (Organizata Ndërkombëtare e Standardeve, ISO) miratoi një kodim tjetër të quajtur ISO 8859-5 si standard për gjuhën ruse.

Kodimi më i zakonshëm që përdoret aktualisht është Microsoft Windows, i shkurtuar si CP1251. Prezantuar nga Microsoft; duke pasur parasysh përdorimin e gjerë të sistemeve operative (OS) dhe produkteve të tjera softuerike të kësaj kompanie në Federatën Ruse, ai është bërë i përhapur.

Që nga fundi i viteve '90, problemi i standardizimit të kodimit të karaktereve është zgjidhur me prezantimin e një standardi të ri ndërkombëtar të quajtur Unicode.

Ky është një kodim 16-bit, d.m.th. ka 2 bajt memorie për karakter. Sigurisht, në këtë rast, sasia e kujtesës së zënë rritet me 2 herë. Por një tabelë e tillë kodi lejon përfshirjen deri në 65536 karaktere. Specifikimi i plotë i standardit Unicode përfshin të gjitha alfabetet ekzistuese, të zhdukura dhe të krijuara artificialisht të botës, si dhe shumë simbole matematikore, muzikore, kimike dhe të tjera.

Paraqitja e brendshme e fjalëve në kujtesën e kompjuterit

duke përdorur një tabelë ASCII

Ndonjëherë ndodh që teksti, i përbërë nga shkronjat e alfabetit rus, i marrë nga një kompjuter tjetër, nuk mund të lexohet - një lloj "abracadabra" është i dukshëm në ekranin e monitorit. Kjo për faktin se kompjuterët përdorin kodime të ndryshme të karaktereve të gjuhës ruse.

Kështu, çdo kodim jepet nga tabela e tij e kodit. Siç mund të shihet nga tabela, karaktere të ndryshme i caktohen të njëjtit kod binar në kodime të ndryshme.

Për shembull, sekuenca e kodeve numerike 221, 194, 204 në kodimin CP1251 formon fjalën "kompjuter", ndërsa në kodimet e tjera do të jetë një grup karakteresh pa kuptim.

Për fat të mirë, në shumicën e rasteve, përdoruesi nuk duhet të shqetësohet për transkodimin e dokumenteve tekstuale, pasi kjo bëhet nga programe të veçanta konvertuese të integruara në aplikacione.

V . Llogaritja e sasisë së informacionit të tekstit

Detyra 1: Kodoni fjalën "Romë" duke përdorur tabelat e kodimit KOI8-R dhe CP1251.

Zgjidhja:

Detyra 2: Duke supozuar se çdo karakter është i koduar nga një bajt, vlerësoni vëllimin e informacionit të fjalisë së mëposhtme:

“Xhaxhai im i rregullave më të ndershme,

Kur u sëmura rëndë,

Ai e detyroi veten të respektonte

Dhe nuk mund të mendoja për një më të mirë."

Zgjidhja: Ka 108 karaktere në këtë frazë, duke përfshirë shenjat e pikësimit, thonjëzat dhe hapësirat. Ne e shumëzojmë këtë numër me 8 bit. Marrim 108*8=864 bit.

Detyra 3: Të dy tekstet përmbajnë të njëjtin numër karakteresh. Teksti i parë është shkruar në rusisht, dhe i dyti në gjuhën e fisit Naguri, alfabeti i të cilit përbëhet nga 16 karaktere. Teksti i kujt mbart më shumë informacion?

Zgjidhja:

1) I \u003d K * a (vëllimi i informacionit të tekstit është i barabartë me produktin e numrit të karaktereve dhe peshës së informacionit të një karakteri).

2) Sepse të dy tekstet kanë të njëjtin numër karakteresh (K), atëherë ndryshimi varet nga përmbajtja e informacionit të një karakteri të alfabetit (a).

3) 2 a1 = 32, d.m.th. a 1 = 5 bit, 2 a2 = 16, d.m.th. dhe 2 = 4 bit.

4) I 1 = K * 5 bit, I 2 = K * 4 bit.

5) Do të thotë që teksti i shkruar në Rusisht përmban 5/4 herë më shumë informacion.

Detyra 4: Vëllimi i mesazhit, që përmbante 2048 karaktere, ishte 1/512 e një MB. Përcaktoni fuqinë e alfabetit.

Zgjidhja:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bit - vëllimi i informacionit të mesazhit u shndërrua në bit.

2) një \u003d I / K \u003d 16384 / 1024 \u003d 16 bit - bie në një karakter të alfabetit.

3) 2*16*2048 = 65536 karaktere - fuqia e alfabetit të përdorur.

Detyra 5: Printeri lazer Canon LBP printon me një shpejtësi mesatare prej 6,3 Kbps. Sa kohë do të duhet për të printuar një dokument me 8 faqe nëse dihet se ka mesatarisht 45 rreshta në një faqe, 70 karaktere për rresht (1 karakter - 1 bajt)?

Zgjidhja:

1) Gjeni sasinë e informacionit që përmban 1 faqe: 45 * 70 * 8 bit = 25200 bit

2) Gjeni sasinë e informacionit në 8 faqe: 25200 * 8 = 201600 bit

3) Ne sjellim në njësitë uniforme të matjes. Për ta bërë këtë, ne përkthejmë Mbps në bit: 6.3 * 1024 = 6451.2 bps.

4) Gjeni kohën e printimit: 201600: 6451.2 = 31 sekonda.

Bibliografi

1. Ageev V.M. Teoria e informacionit dhe kodimi: diskretimi dhe kodimi i informacionit të matjes. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Bazat e teorisë dhe kodimit të informacionit. - Kiev, shkolla Vishcha, 1986.

3. Metodat më të thjeshta të kriptimit të tekstit / D.M. Zlatopolsky. - M.: Chistye Prudy, 2007 - 32 f.

4. Ugrinovich N.D. Informatika dhe teknologjia e informacionit. Libër mësuesi për klasat 10-11 / N.D. Ugrinovich. – M.: BINOM. Laboratori i Dijes, 2003. - 512 f.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Material për vetë-studim në temën Leksioni 2

Kodimi ASCII

Tabela e kodimit ASCII (ASCII - Kodi standard amerikan për shkëmbimin e informacionit - Kodi standard amerikan për shkëmbimin e informacionit).

Në total, duke përdorur tabelën e kodimit ASCII (Figura 1), mund të kodohen 256 karaktere të ndryshme. Kjo tabelë është e ndarë në dy pjesë: kryesore (me kode nga OOh në 7Fh) dhe shtesë (nga 80h në FFh, ku shkronja h tregon se kodi i përket sistemit të numrave heksadecimal).

Foto 1

Për të koduar një karakter nga tabela, ndahen 8 bit (1 bajt). Gjatë përpunimit të informacionit tekstual, një bajt mund të përmbajë kodin e disa karaktereve - shkronja, numra, shenja pikësimi, shenja veprimi, etj. Çdo karakter ka kodin e vet në formën e një numri të plotë. Në këtë rast, të gjitha kodet mblidhen në tabela të veçanta, të quajtura tabela koduese. Me ndihmën e tyre, kodi i karakterit shndërrohet në paraqitjen e tij të dukshme në ekranin e monitorit. Si rezultat, çdo tekst në kujtesën e kompjuterit përfaqësohet si një sekuencë bajtesh me kode karakteresh.

Për shembull, fjala përshëndetje! do të kodohet si më poshtë (Tabela 1).

Tabela 1


Kodi binar
Kodi dhjetor

Figura 1 tregon karakteret e përfshira në kodimin standard (anglisht) dhe të zgjeruar (rusisht) ASCII.

Gjysma e parë e tabelës ASCII është e standardizuar. Ai përmban kode kontrolli (nga 00h deri në 20h dhe 77h). Këto kode janë hequr nga tabela sepse nuk zbatohen për elementët e tekstit. Këtu vendosen edhe shenjat e pikësimit dhe shenjat matematikore: 2lh - !, 26h - &, 28h - (, 2Bh -+, ..., germa të mëdha dhe të vogla latine: 41h - A, 61h - a.

Gjysma e dytë e tabelës përmban shkronja kombëtare, simbole pseudografike nga të cilat mund të ndërtohen tabela, simbole të veçanta matematikore. Pjesa e poshtme e tabelës së kodimit mund të zëvendësohet duke përdorur drejtuesit e duhur - programet ndihmëse të kontrollit. Kjo teknikë ju lejon të përdorni shumë shkronja dhe shkronjat e tyre.

Ekrani për çdo kod karakteri duhet të shfaqë imazhin e personazhit - jo vetëm një kod dixhital, por një fotografi që i korrespondon atij, pasi çdo karakter ka formën e vet. Një përshkrim i formës së çdo karakteri ruhet në një memorie të veçantë të ekranit - një gjenerues karakteresh. Për shembull, nënvizimi i një karakteri në një ekran të kompjuterit IBM, bëhet duke përdorur pika që formojnë një matricë karakteresh. Çdo piksel në një matricë të tillë është një element imazhi dhe mund të jetë i ndritshëm ose i errët. Një pikë e errët kodohet me numrin 0, një e lehtë (e ndritshme) - me 1. Nëse pikselët e errët përfaqësohen me një pikë në fushën e matricës së shenjës, dhe pikselët e lehtë me një yll, atëherë mund ta përshkruani grafikisht formën të simbolit.

Njerëzit në vende të ndryshme përdorin simbole për të shkruar fjalët e gjuhëve të tyre amtare. Këto ditë, shumica e aplikacioneve, duke përfshirë sistemet e postës elektronike dhe shfletuesit e uebit, janë të pastër 8-bit, që do të thotë se mund të shfaqin dhe lexojnë saktë vetëm karakteret 8-bit, sipas standardit ISO-8859-1.

Ka mbi 256 karaktere në botë (duke përfshirë cirilik, arabisht, kinezisht, japonez, korean dhe tajlandez) dhe gjithnjë e më shumë karaktere po shtohen. Dhe kjo krijon boshllëqet e mëposhtme për shumë përdorues:

Nuk është e mundur të përdoren karaktere nga grupe të ndryshme kodimi në të njëjtin dokument. Meqenëse çdo dokument teksti përdor grupin e vet të kodimeve, ka vështirësi të mëdha me njohjen automatike të tekstit.

Shfaqen simbole të reja (për shembull: Euro), si rezultat i të cilave ISO zhvillon një standard të ri, ISO-8859-15, i cili është shumë i ngjashëm me ISO-8859-1. Dallimi është si më poshtë: simbolet për të treguar monedhat e vjetra që nuk përdoren aktualisht janë hequr nga tabela e kodimit të standardit të vjetër ISO-8859-1 në mënyrë që të lihet vend për simbolet e sapo shfaqura (si për shembull Euro). Si rezultat, përdoruesit mund të kenë të njëjtat dokumente në disqet e tyre, por në kodime të ndryshme. Zgjidhja e këtyre problemeve është miratimi i një grupi të vetëm ndërkombëtar të kodimeve, i cili quhet kodimi universal ose Unicode.

Kodimi Unicode

Standardi u propozua në 1991 nga organizata jofitimprurëse Unicode Consortium (Unicode Inc.). Përdorimi i këtij standardi bën të mundur kodimin e një numri shumë të madh karakteresh nga skriptet e ndryshme: karakteret kineze, simbolet matematikore, shkronjat e alfabetit grek, alfabetet latine dhe cirilike mund të bashkëjetojnë në dokumentet Unicode, ndërsa ndërrimi i faqeve të kodit bëhet i panevojshëm.

Standardi përbëhet nga dy seksione kryesore: grupi universal i karaktereve (UCS, grup karakteresh universal) dhe familja e kodimit (UTF, formati i transformimit Unicode). Kompleti universal i karaktereve specifikon një korrespondencë një-për-një të karaktereve me kodet - elementë të hapësirës së kodit që përfaqësojnë numra të plotë jo negativë. Një familje kodimi përcakton paraqitjen e makinës të një sekuence kodesh UCS.

Standardi Unicode u zhvillua me qëllimin e krijimit të një kodimi të vetëm karakteresh për të gjitha gjuhët moderne dhe shumë të lashta të shkruara. Çdo karakter në këtë standard është i koduar me 16 bit, gjë që e lejon atë të mbulojë një numër pakrahasueshëm më të madh karakteresh sesa kodimet 8-bitëshe të pranuara më parë. Një tjetër ndryshim i rëndësishëm midis Unicode dhe sistemeve të tjera të kodimit është se ai jo vetëm që cakton një kod unik për çdo karakter, por gjithashtu përcakton karakteristika të ndryshme të atij karakteri, për shembull:

lloji i karakterit (shkronja e madhe, shkronja e vogël, numri, shenja e pikësimit, etj.);

atributet e karaktereve (ekrani nga e majta në të djathtë ose nga e djathta në të majtë, hapësira, ndërprerja e rreshtit, etj.);

germa përkatëse e madhe ose e vogël (përkatësisht për shkronjat e vogla dhe të mëdha);

vlerën numerike përkatëse (për karakteret numerike).

I gjithë diapazoni i kodeve nga 0 në FFFF është i ndarë në disa nëngrupe standarde, secila prej të cilave korrespondon ose me alfabetin e një gjuhe, ose me një grup karakteresh të veçanta që janë të ngjashëm në funksionet e tyre. Diagrami më poshtë përmban një listë të përgjithshme të nëngrupeve të Unicode 3.0 (Figura 2).

Figura 2

Standardi Unicode është baza për ruajtjen dhe tekstin në shumë sisteme kompjuterike moderne. Megjithatë, ai nuk është i pajtueshëm me shumicën e protokolleve të internetit, sepse kodet e tij mund të përmbajnë çdo vlerë bajt, dhe protokollet zakonisht përdorin bajt 00 - 1F dhe FE - FF si bajt shërbimi. Për të arritur përputhshmërinë, janë zhvilluar disa formate të transformimit të Unicode (UTF, Unicode Transformation Formats), nga të cilat UTF-8 është më i zakonshmi sot. Ky format përcakton rregullat e mëposhtme për konvertimin e çdo kodi Unicode në një grup bajtësh (nga një në tre) të përshtatshëm për transport me protokollet e internetit.

Këtu x, y, z tregojnë pjesët e kodit burimor, të cilët duhet të nxirren, duke filluar me më pak të rëndësishmen, dhe të futen në bajtet e rezultatit nga e djathta në të majtë, derisa të plotësohen të gjitha pozicionet e specifikuara.

Zhvillimi i mëtejshëm i standardit Unicode shoqërohet me shtimin e planeve të reja gjuhësore, d.m.th. karaktere në rangun 10000 - 1FFFF, 20000 - 2FFFF, etj., ku supozohet të përfshijë kodimin për skriptet e gjuhëve të vdekura që nuk përfshihen në tabelën e mësipërme. Një format i ri UTF-16 u zhvillua për të koduar këto karaktere shtesë.

Kështu, ekzistojnë 4 mënyra kryesore për të koduar bajt në formatin Unicode:

UTF-8: 128 karaktere të koduara në një bajt (format ASCII), 1920 karaktere të koduara në 2 bajt ((shkronja romake, greke, cirilike, kopte, armene, hebraike, arabe), 63488 karaktere të koduara në 3 bajt (kineze, japoneze etj. .) 2,147,418,112 karakteret e mbetura (jo të përdorura ende) mund të kodohen me 4, 5 ose 6 bajt.

UCS-2: Çdo karakter përfaqësohet nga 2 bajt. Ky kodim përfshin vetëm 65,535 karakteret e para nga formati Unicode.

UTF-16: Ky është një zgjerim i UCS-2 dhe përfshin 1,114,112 karaktere Unicode. 65.535 karakteret e para përfaqësohen me 2 bajt, pjesa tjetër me 4 bajt.

USC-4: Çdo karakter është i koduar me 4 bajt.

Excel për Office 365 Word për Office 365 Outlook për Office 365 PowerPoint për Office 365 Publisher për Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Visio 2010 Excel 2007 PowerPoint 2007 PowerPoint 2007 Visio Standard 2007 Visio Standard 2010 Më pak

Në këtë artikull

Futja e një karakteri ASCII ose Unicode në një dokument

Nëse ju duhet të futni vetëm disa karaktere ose simbole të veçanta, mund të përdorni shkurtoret e tastierës. Për një listë të karaktereve ASCII, shihni tabelat e mëposhtme ose artikullin Fut alfabetet kombëtare duke përdorur shkurtoret e tastierës.

Shënime:

Futja e karaktereve ASCII

Për të futur një karakter ASCII, shtypni dhe mbani tastin ALT ndërsa futni kodin e karakterit. Për shembull, për të futur një simbol të shkallës (º), shtypni dhe mbani tastin ALT, më pas futni 0176 në tastierën numerike.

Përdorni tastierën numerike për të futur numra, jo numrat në tastierën kryesore. Nëse duhet të futni numra në tastierën numerike, sigurohuni që treguesi NUM LOCK të jetë i ndezur.

Futja e karaktereve të Unicode

Për të futur një karakter Unicode, shkruani kodin e karakterit, më pas shtypni ALT + X në sekuencë. Për shembull, për të futur një karakter dollar ($), shkruani 0024 dhe shtypni ALT + X në sekuencë. Për të gjitha kodet e karaktereve të Unicode, shihni .

E rëndësishme: Disa programe të Microsoft Office, të tilla si PowerPoint dhe InfoPath, nuk mbështesin konvertimin e kodeve të Unicode në karaktere. Nëse keni nevojë të futni një karakter Unicode në një nga këto programe, përdorni .

Shënime:

Nëse shfaqet një karakter i pasaktë i Unicode pasi shtypni ALT+X, zgjidhni kodin e duhur dhe më pas shtypni përsëri ALT+X.

Përveç kësaj, duhet të futni "U+" përpara kodit. Për shembull, duke shtypur "1U+B5" dhe duke shtypur ALT+X do të shfaqet teksti "1µ", ndërsa duke shtypur "1B5" dhe duke shtypur ALT+X do të shfaqet karakteri "Ƶ".

Duke përdorur tabelën e simboleve

Një tabelë karakteresh është një program i integruar në Microsoft Windows që ju lejon të shikoni karakteret e disponueshme për një font të zgjedhur.

Duke përdorur tabelën e simboleve, mund të kopjoni karaktere individuale ose një grup karakteresh në kujtesën e fragmenteve dhe t'i ngjisni në çdo program që mbështet shfaqjen e këtyre karaktereve. Hapja e tabelës së simboleve

Në Windows 10 Fusni fjalën "simbol" në fushën e kërkimit në shiritin e detyrave dhe zgjidhni tabelën e simboleve nga rezultatet e kërkimit.

Në Windows 8 Futni fjalën "simbol" në ekranin bazë dhe zgjidhni tabelën e simboleve nga rezultatet e kërkimit.

Në Windows 7 Shtyp butonin Filloni, zgjidhni sipas radhës Të gjitha programet, Standard, Shërbimi dhe klikoni tabelë simbolesh.

Karakteret janë grupuar sipas fontit. Klikoni në listën e shkronjave për të zgjedhur grupin e duhur të karaktereve. Për të zgjedhur një simbol, klikoni atë dhe më pas klikoni butonin Zgjidhni. Për të futur një simbol, klikoni me të djathtën në vendndodhjen e dëshiruar në dokument dhe zgjidhni Fut.

Kodet e karaktereve të përdorura shpesh

Për një listë të plotë të karaktereve, shihni në kompjuter, tabelën e kodit të karaktereve ASCII ose tabelat e karaktereve Unicode të renditura sipas grupeve.

Glyph

Njësitë monetare

simbolet ligjore

Simbolet matematikore

Thyesat

Simbolet e pikësimit dhe dialekteve

Simbolet e formës

Kodet për diakritikët e përdorur zakonisht

Për një listë të plotë të glifeve dhe kodeve përkatëse, shihni .

Glyph

Karaktere kontrolli ASCII që nuk shtypen

Karakteret e përdorura për të kontrolluar disa pajisje periferike, të tilla si printerët, numërohen 0-31 në tabelën ASCII. Për shembull, karakteri i furnizimit të faqes/karakteri i faqes së re korrespondon me numrin 12. Ky karakter i thotë printerit të shkojë në fillim të faqes tjetër.

Tabela e karaktereve të kontrollit ASCII jo të printueshme

Numri dhjetor	Shenjë	Numri dhjetor	Shenjë
		Lëshimi i kanalit të të dhënave
Fillimi i kokës		Kodi i parë i kontrollit të pajisjes
Fillimi i tekstit		Kodi i dytë i kontrollit të pajisjes
Fundi i tekstit		Kodi i tretë i kontrollit të pajisjes
Fundi i transmetimit		Kodi i katërt i kontrollit të pajisjes
	me pesë cepa	Konfirmim negativ
Konfirmimi		Modaliteti i transferimit sinkron
Sinjali i zërit		Fundi i bllokut të të dhënave

Skeda horizontale		Fundi mediatik
Furnizimi i linjës/linja e re		Karakteri zëvendësues
Skeda vertikale			tejkalojnë
Përkthimi i faqes/Faqja e re	dymbëdhjetë	Ndarës i skedarëve
Kthim ngarkese		Ndarës grupi
Zhvendos pa ruajtur shifra		Ndarës i rekordit
Zhvendosja e ruajtjes së bitit	pesëmbëdhjetë	Ndarës i të dhënave

dhjetor	heks	Simboli	dhjetor	heks	Simboli
000	00	specialist. JO	128	80	Ђ
001	01	specialist. SOH	129	81	Ѓ
002	02	specialist. STX	130	82	‚
003	03	specialist. ETX	131	83	ѓ
004	04	specialist. EOT	132	84	„
005	05	specialist. ENQ	133	85	…
006	06	specialist. ACK	134	86	†
007	07	specialist. BEL	135	87	‡
008	08	specialist. BS	136	88	€
009	09	specialist. TAB	137	89	‰
010	0A	specialist. LF	138	8A	Љ
011	0B	specialist. VT	139	8B	‹ ‹
012	0C	specialist. FF	140	8C	Њ
013	0D	specialist. CR	141	8D	Ќ
014	0E	specialist. KËSHTU QË	142	8E	Ћ
015	0F	specialist. SI	143	8F	Џ
016	10	specialist. DLE	144	90	ђ
017	11	specialist. DC1	145	91	‘
018	12	specialist. DC2	146	92	’
019	13	specialist. DC3	147	93	“
020	14	specialist. DC4	148	94	”
021	15	specialist. NAK	149	95
022	16	specialist. SYN	150	96	–
023	17	specialist. ETB	151	97	—
024	18	specialist. MUND	152	98
025	19	specialist. EM	153	99	™
026	1A	specialist. NËN	154	9A	љ
027	1B	specialist. ESC	155	9B	›
028	1C	specialist. FS	156	9C	њ
029	1D	specialist. GS	157	9D	ќ
030	1E	specialist. RS	158	9E	ћ
031	1F	specialist. SHBA	159	9F	џ
032	20	tufë SP (Hapësirë)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Jo
041	29	)	169	A9	©
042	2A	*	170	AA	Є
043	2B	+	171	AB	«
044	2C	,	172	AC	¬
045	2D	-	173	pas Krishtit
046	2E	.	174	AE	®
047	2F	/	175	AF	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	ju
057	39	9	185	B9	№
058	3A	:	186	BA	є
059	3B	;	187	BB	»
060	3C	<	188	para Krishtit	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	BËHET	ѕ
063	3F	?	191	bf	ї
064	40	@	192	C0	POR
065	41	A	193	C1	B
066	42	B	194	C2	NË
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	F
071	47	G	199	C7	W
072	48	H	200	C8	DHE
073	49	Unë	201	C9	Y
074	4A	J	202	CA	TE
075	4B	K	203	CB	L
076	4C	L	204	CC	M
077	4D	M	205	CD	H
078	4E	N	206	CE	RRETH
079	4F	O	207	CF	P
080	50	P	208	D0	R
081	51	P	209	D1	NGA
082	52	R	210	D2	T
083	53	S	211	D3	Në
084	54	T	212	D4	F
085	55	U	213	D5	X
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	W
089	59	Y	217	D9	SCH
090	5A	Z	218	DA	Kommersant
091	5B	[	219	D.B.	S
092	5C	\	220	DC	b
093	5D	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	D.F.	Unë
096	60	`	224	E0	por
097	61	a	225	E1	b
098	62	b	226	E2	në
099	63	c	227	E3	G
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	f	230	E6	mirë
103	67	g	231	E7	h
104	68	h	232	E8	Dhe
105	69	i	233	E9	th
106	6A	j	234	EA	te
107	6B	k	235	EB	l
108	6C	l	236	BE	m
109	6D	m	237	ED	n
110	6E	n	238	EE	rreth
111	6F	o	239	EF	P
112	70	fq	240	F0	R
113	71	q	241	F1	nga
114	72	r	242	F2	T
115	73	s	243	F3	në
116	74	t	244	F4	f
117	75	u	245	F5	X
118	76	v	246	F6	c
119	77	w	247	F7	h
120	78	x	248	F8	w
121	79	y	249	F9	SCH
122	7A	z	250	FA	b
123	7B	{	251	Facebook	s
124	7C	\|	252	FC	b
125	7D	}	253	FD	uh
126	7E	~	254	F.E.	Ju
127	7F	Specialist. DEL	255	FF	Unë

Tabela ASCII e kodeve të karaktereve të Windows.
Përshkrimi i karaktereve speciale (kontroll).

Duhet të theksohet se fillimisht karakteret e kontrollit të tabelës ASCII u përdorën për të siguruar shkëmbimin e të dhënave nëpërmjet teletipit, futjen e të dhënave nga një kasetë e shtypur dhe për kontrollin më të thjeshtë të pajisjeve të jashtme.
Aktualisht, shumica e karaktereve të kontrollit ASCII të tabelës nuk e mbajnë më këtë ngarkesë dhe mund të përdoren për qëllime të tjera.

Kodi	Përshkrim
NUL, 00	E pavlefshme, bosh
SO-01	Fillimi i Drejtimit
STX 02	Fillimi i TeXt, fillimi i tekstit.
ETX 03	Fundi i TeXt
EOT, 04	Fundi i Transmetimit
ENQ, 05	Pyete. Ju lutem konfirmoni
ACK, 06	Mirënjohje. Unë konfirmoj
B.E.L. 07	Zile, telefono
B.S. 08	Backspace, kthehu një personazh prapa
TAB, 09	Skeda, skeda horizontale
LF, 0A	Furnizimi i linjës, furnizimi i linjës. Tani në shumicën e gjuhëve programuese shënohet si \n
VT, 0B	Skeda vertikale, tabela vertikale.
FF, 0C	Furnizimi i formularit, furnizimi i faqeve, faqe e re
CR, 0D	Kthim ngarkese Tani në shumicën e gjuhëve programuese shënohet si \r
SO, 0E	Shift Out, ndryshoni ngjyrën e shiritit të bojës në printer
SI, 0F	Shift In, ktheni përsëri ngjyrën e shiritit të bojës në pajisjen e printimit
DLE, 10	Data Link Escape, kalimi i kanalit në transmetimin e të dhënave
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Kontrolli i pajisjes, simbolet e kontrollit të pajisjes
N.AK. 15	Mirënjohje negative, nuk e konfirmoj.
SYN, 16	sinkronizimi. Simboli i sinkronizimit
ETB, 17	Fundi i bllokut të tekstit, fundi i bllokut të tekstit
CAN, 18	Anulo, duke anuluar një të kaluar më parë
EM, 19	Fundi i Mediumit
SUB, 1A	Zëvendësues, zëvendësues. Vendosur në vend të një personazhi vlera e të cilit humbi ose u korruptua gjatë transmetimit
ESC, 1B	Sekuenca e arratisjes së arratisjes
FS, 1C	Ndarës i skedarëve, ndarës i skedarëve
GS, 1D	Ndarës grupi, ndarës grupi
RS, 1E	Ndarësi i regjistrimeve
SHBA, 1F	Ndarës njësi, ndarës njësi
DEL, 7F	Fshi, fshi karakterin e fundit.

Kompjuteri e kupton procesin e shndërrimit të tij në një formë që lejon organizimin e një transferimi, ruajtjeje ose përpunimi automatik më të përshtatshëm të këtyre të dhënave. Për këtë qëllim përdoren tabela të ndryshme. Kodimi ASCII ishte sistemi i parë i zhvilluar në Shtetet e Bashkuara për të punuar me tekst në anglisht, i cili më pas u përhap në të gjithë botën. Artikulli më poshtë i kushtohet përshkrimit, veçorive, vetive dhe përdorimit të mëtejshëm të tij.

Shfaqja dhe ruajtja e informacionit në një kompjuter

Simbolet në monitorin e një kompjuteri ose një vegël të veçantë dixhitale celulare formohen në bazë të grupeve të formave vektoriale të karaktereve të ndryshme dhe një kodi që ju lejon të gjeni midis tyre simbolin që duhet të futet në vendin e duhur. Është një sekuencë bitash. Kështu, çdo karakter duhet të korrespondojë në mënyrë unike me një grup zero dhe njësh që qëndrojnë në një rend të caktuar, unik.

Si filloi gjithçka

Historikisht, kompjuterët e parë ishin në anglisht. Për të koduar informacionin e karaktereve në to, mjaftonte të përdoreshin vetëm 7 bit memorie, ndërsa për këtë u nda 1 bajt i përbërë nga 8 bit. Numri i karaktereve të kuptuara nga kompjuteri në këtë rast ishte 128. Këto karaktere përfshinin alfabetin anglez me shenjat e pikësimit, numrat dhe disa karaktere të veçanta. Kodimi shtatë-bit në gjuhën angleze me tabelën përkatëse (faqe kodi), i zhvilluar në vitin 1963, u quajt Kodi Standard Amerikan për Shkëmbimin e Informacionit. Zakonisht, shkurtesa "ASCII encoding" është përdorur dhe përdoret edhe sot e kësaj dite.

Kalimi në shumëgjuhësi

Me kalimin e kohës, kompjuterët janë përdorur gjerësisht në vendet jo-anglishtfolëse. Në këtë drejtim, lindi nevoja për kodime që lejojnë përdorimin e gjuhëve kombëtare. U vendos që të mos rikrijohej rrota dhe të merrej ASCII si bazë. Tabela e kodimit në edicionin e ri është zgjeruar ndjeshëm. Përdorimi i bitit të 8-të bëri të mundur përkthimin e 256 karaktereve në një gjuhë kompjuteri.

Përshkrim

Kodimi ASCII ka një tabelë që ndahet në 2 pjesë. Standardi ndërkombëtar përgjithësisht i pranuar konsiderohet të jetë vetëm gjysma e parë e tij. Ai përfshin:

Karakteret me numra serialë nga 0 deri në 31, të koduar nga sekuenca nga 00000000 deri në 00011111. Ato janë të rezervuara për karakteret e kontrollit që kontrollojnë procesin e shfaqjes së tekstit në një ekran ose printer, duke dhënë një sinjal zanor etj.
Karakteret me NN në tabelën nga 32 në 127, të koduar nga sekuencat nga 00100000 në 01111111, përbëjnë pjesën standarde të tabelës. Ato përfshijnë një hapësirë (N 32), shkronja të alfabetit latin (të vogla dhe të mëdha), numra dhjetëshifrorë nga 0 në 9, shenja pikësimi, kllapa të stileve të ndryshme dhe simbole të tjera.
Karaktere me numra serialë nga 128 në 255, të koduar nga sekuenca nga 10000000 deri në 11111111. Ato përfshijnë shkronja të alfabeteve kombëtare të ndryshme nga latinishtja. Është kjo pjesë alternative e tabelës së kodimit ASCII që përdoret për të kthyer karakteret ruse në një formë kompjuterike.

Disa prona

Veçoritë e kodimit ASCII përfshijnë ndryshimin midis shkronjave "A" - "Z" të rasteve të poshtme dhe të sipërme me vetëm një bit. Kjo rrethanë thjeshton shumë shndërrimin e regjistrit, si dhe verifikimin e tij për përkatësinë në një gamë të caktuar vlerash. Përveç kësaj, të gjitha shkronjat në sistemin e kodimit ASCII përfaqësohen nga numrat e tyre serialë në alfabet, të cilët shkruhen me 5 shifra në sistemin e numrave binar, të paraprirë nga 011 2 për shkronjat e vogla dhe 010 2 për shkronjat e mëdha.

Paraqitja e 10 shifrave - "0" - "9" gjithashtu mund të llogaritet midis veçorive të kodimit ASCII. Në sistemin e dytë të numrave, ato fillojnë me 00112 dhe përfundojnë me 2 vlera numrash. Kështu, 0101 2 është ekuivalente me dhjetore pesë, kështu që karakteri "5" shkruhet si 0011 01012. Bazuar në sa më sipër, ju mund t'i konvertoni lehtësisht numrat BCD në një varg ASCII duke shtuar sekuencën e biteve 00112 në çdo gërmim në të majtë.

"Unicode"

Siç e dini, mijëra karaktere kërkohen për të shfaqur tekste në gjuhët e grupit të Azisë Juglindore. Një numër i tillë i tyre nuk përshkruhet në asnjë mënyrë në një bajt informacioni, prandaj edhe versionet e zgjeruara të ASCII nuk mund të plotësonin më nevojat në rritje të përdoruesve nga vende të ndryshme.

Pra, lindi nevoja për të krijuar një kodim universal të tekstit, i cili u zhvillua nga konsorciumi Unicode në bashkëpunim me shumë drejtues të industrisë globale të IT. Specialistët e tij krijuan sistemin UTF 32. Në të, 32 bit u ndanë për të koduar 1 karakter, duke përbërë 4 bajt informacion. Disavantazhi kryesor ishte një rritje e mprehtë e sasisë së kujtesës së kërkuar deri në 4 herë, gjë që solli shumë probleme.

Në të njëjtën kohë, për shumicën e vendeve me gjuhë zyrtare që i përkasin grupit indo-evropian, numri i karaktereve të barabartë me 2 32 është më shumë se i tepërt.

Si rezultat i punës së mëtejshme të specialistëve nga konsorciumi Unicode, u shfaq kodimi UTF-16. Është bërë varianti i konvertimit të informacionit të karaktereve që i përshtatet të gjithëve si për sa i përket sasisë së memories së kërkuar ashtu edhe për numrin e karaktereve të koduara. Kjo është arsyeja pse UTF-16 u miratua si parazgjedhje dhe kërkon që 2 bajt të rezervohen për një karakter.

Edhe ky version mjaft i avancuar dhe i suksesshëm i "Unicode" kishte disa të meta, dhe pas kalimit nga versioni i zgjeruar i ASCII në UTF-16, ai dyfishoi madhësinë e dokumentit.

Në këtë drejtim, u vendos që të përdoret kodimi me gjatësi të ndryshueshme UTF-8. Në këtë rast, çdo karakter i tekstit burim është i koduar nga një sekuencë prej 1 deri në 6 bajt në gjatësi.

Lidhja me kodin standard amerikan për shkëmbimin e informacionit

Të gjithë karakteret e alfabetit latin në UTF-8 me gjatësi të ndryshueshme janë të koduara në 1 bajt, si në sistemin e kodimit ASCII.

Një veçori e UTF-8 është se në rastin e tekstit në latinisht pa përdorimin e karaktereve të tjera, edhe programet që nuk e kuptojnë Unicode do ta lejojnë atë të lexohet. Me fjalë të tjera, pjesa bazë e kodimit të tekstit ASCII thjesht shkon në gjatësinë e re të ndryshueshme UTF. Karakteret cirilike në UTF-8 marrin 2 bajt, dhe, për shembull, ato gjeorgjiane marrin 3 bajtë. Duke krijuar UTF-16 dhe 8, u zgjidh problemi kryesor i krijimit të një hapësire të vetme kodi në fontet. Që atëherë, prodhuesve të shkronjave u është dashur vetëm të plotësojnë tabelën me format vektoriale të karaktereve të tekstit bazuar në nevojat e tyre.

Sisteme të ndryshme operative preferojnë kodime të ndryshme. Për të qenë në gjendje të lexoni dhe modifikoni tekstet e shtypura në një kodim tjetër, përdoren programet ruse të konvertimit të tekstit. Disa redaktues teksti përmbajnë transkoder të integruar dhe ju lejojnë të lexoni tekst pavarësisht nga kodimi.

Tani e dini se sa karaktere janë në ASCII dhe si dhe pse është projektuar. Sigurisht, sot standardi Unicode ka marrë shpërndarjen më të madhe në botë. Sidoqoftë, nuk duhet të harrojmë se ai u krijua në bazë të ASCII, ndaj duhet vlerësuar kontributi i zhvilluesve të tij në fushën e IT.

[Kodimi 8-bit: ASCII, KOI-8R dhe CP1251] Tabelat e para të kodimit të krijuara në SHBA nuk përdorën bitin e tetë në një bajt. Teksti u paraqit si një sekuencë bajtash, por biti i tetë nuk u mor parasysh (është përdorur për qëllime zyrtare).

Tabela është bërë standardi i pranuar. ASCII(Kodi Standard Amerikan për Shkëmbimin e Informacionit). 32 karakteret e para të tabelës ASCII (00 deri në 1F) u përdorën për karaktere që nuk printohen. Ato ishin krijuar për të kontrolluar një pajisje printimi dhe të ngjashme. Pjesa tjetër - nga 20 në 7 F - janë karaktere të rregullta (të printueshme).

Tabela 1 - Kodimi ASCII

dhjetor	heks	tetor	Char	Përshkrim
0	0	000		i pavlefshëm
1	1	001		fillimi i titullit
2	2	002		fillimi i tekstit
3	3	003		fundi i tekstit
4	4	004		fundi i transmetimit
5	5	005		hetim
6	6	006		pranoj
7	7	007		zile
8	8	010		backspace
9	9	011		skedë horizontale
10	A	012		linjë e re
11	B	013		skedë vertikale
12	C	014		faqe e re
13	D	015		kthim ngarkese
14	E	016		zhvendosja jashtë
15	F	017		zhvendosje brenda
16	10	020		ikja e lidhjes së të dhënave
17	11	021		kontrolli i pajisjes 1
18	12	022		kontrolli i pajisjes 2
19	13	023		kontrolli i pajisjes 3
20	14	024		kontrolli i pajisjes 4
21	15	025		pranimi negativ
22	16	026		boshe sinkron
23	17	027		fundi i trans. bllokoj
24	18	030		anuloni
25	19	031		fundi i mesëm
26	1A	032		zëvendësues
27	1B	033		arratisje
28	1C	034		ndarës i skedarëve
29	1D	035		ndarës grupi
30	1E	036		ndarës rekord
31	1F	037		ndarës njësi
32	20	040		hapësirë
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3F	077	?

dhjetor	heks	tetor	Char
64	40	100	@
65	41	101	A
66	42	102	B
67	43	103	C
68	44	104	D
69	45	105	E
70	46	106	F
71	47	107	G
72	48	110	H
73	49	111	Unë
74	4A	112	J
75	4B	113	K
76	4C	114	L
77	4D	115	M
78	4E	116	N
79	4F	117	O
80	50	120	P
81	51	121	P
82	52	122	R
83	53	123	S
84	54	124	T
85	55	125	U
86	56	126	V
87	57	127	W
88	58	130	X
89	59	131	Y
90	5A	132	Z
91	5B	133	[
92	5C	134	\
93	5D	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	a
98	62	142	b
99	63	143	c
100	64	144	d
101	65	145	e
102	66	146	f
103	67	147	g
104	68	150	h
105	69	151	i
106	6A	152	j
107	6B	153	k
108	6C	154	l
109	6D	155	m
110	6E	156	n
111	6F	157	o
112	70	160	fq
113	71	161	q
114	72	162	r
115	73	163	s
116	74	164	t
117	75	165	u
118	76	166	v
119	77	167	w
120	78	170	x
121	79	171	y
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

Siç mund ta shihni lehtësisht, vetëm shkronjat latine përfaqësohen në këtë kodim, dhe ato që përdoren në anglisht. Ekzistojnë gjithashtu simbole aritmetike dhe të tjera shërbimi. Por nuk ka shkronja ruse, madje as shkronja të veçanta latine për gjermanishten apo frëngjishten. Kjo është e lehtë për t'u shpjeguar - kodimi u zhvillua si një standard amerikan. Ndërsa kompjuterët filluan të përdoren në mbarë botën, karakteret e tjera duhej të kodoheshin.

Për ta bërë këtë, u vendos që të përdoret biti i tetë në çdo bajt. Kështu, 128 vlera të tjera ishin të disponueshme (nga 80 në FF), të cilat mund të përdoren për të koduar karakteret. E para nga tabelat me tetë bit është "ASCII e zgjeruar" ( ASCII i zgjeruar) - përfshinte variante të ndryshme të karaktereve latine të përdorura në disa gjuhë të Evropës Perëndimore. Kishte edhe karaktere të tjera shtesë, duke përfshirë pseudografinë.

Karakteret pseudografike lejojnë, duke shfaqur vetëm karaktere teksti, të japin njëfarë pamjeje grafike. Duke përdorur pseudografinë, për shembull, funksionon programi i menaxhimit të skedarëve FAR Manager.

Nuk kishte shkronja ruse në tabelën e zgjeruar ASCII. Në Rusi (ish BRSS) dhe në shtetet e tjera, u krijuan kodimet e tyre që bënë të mundur përfaqësimin e karaktereve specifike "kombëtare" në skedarë teksti 8-bit - shkronja latine të gjuhëve polake dhe çeke, cirilike (përfshirë shkronjat ruse) dhe alfabete të tjera.

Në të gjitha kodimet që janë bërë të përhapura, 127 karakteret e para (d.m.th., vlerat e bajtit me bitin e tetë të barabartë me 0) janë të njëjta me ASCII. Pra, një skedar ASCII funksionon në secilin prej këtyre kodimeve; shkronjat e gjuhës angleze përfaqësohen në të njëjtën mënyrë.

Organizimi ISO(Organizata Ndërkombëtare e Standardizimit - Organizata Ndërkombëtare për Standarde) miratoi një grup standardesh ISO 8859. Ai përcakton kodimet 8-bit për grupe të ndryshme gjuhësh. Pra, ISO 8859-1 është Extended ASCII, një tabelë për SHBA-në dhe Evropën Perëndimore. Dhe ISO 8859-5 është një tabelë për cirilik (përfshirë rusishten).

Sidoqoftë, për arsye historike, kodimi ISO 8859-5 nuk u kap. Në realitet, kodimet e mëposhtme përdoren për gjuhën ruse:

Kodi Faqe 866 ( CP866), ajo është gjithashtu "DOS", ajo është gjithashtu "kodim alternativ GOST". Përdorur gjerësisht deri në mesin e viteve 1990; tani në përdorim të kufizuar. Praktikisht nuk përdoret për shpërndarjen e teksteve në internet.
- KOI-8. Zhvilluar në vitet '70 dhe '80. Është një standard i pranuar përgjithësisht për dërgimin e mesazheve postare në internetin rus. Përdoret gjithashtu gjerësisht në sistemet operative të familjes Unix, duke përfshirë Linux. Versioni KOI-8, i krijuar për Rusisht, quhet KOI-8R; ka versione për gjuhë të tjera cirilike (për shembull, KOI8-U është një variant për gjuhën ukrainase).
- Kodi Faqe 1251, CP1251, Windows-1251. Zhvilluar nga Microsoft për të mbështetur gjuhën ruse në sistemin Windows.

Avantazhi kryesor i CP866 ishte ruajtja e karaktereve pseudografike në të njëjtat vende si në Extended ASCII; prandaj, programet me tekst të huaj, për shembull, i famshëm Norton Commander, mund të funksiononin pa ndryshime. CP866 përdoret aktualisht për programet e Windows që ekzekutohen në dritare me tekst ose në modalitetin e tekstit në ekran të plotë, duke përfshirë "Menaxherin FAR".

Tekstet në CP866 janë mjaft të rralla vitet e fundit (por përdoret për të koduar emrat e skedarëve rusë në Windows). Prandaj, ne do të ndalemi në dy kodime të tjera - KOI-8R dhe CP1251.

Siç mund ta shihni, në tabelën e kodimit CP1251, shkronjat ruse janë rregulluar sipas rendit alfabetik (me përjashtim, megjithatë, të shkronjës YO). Ky rregullim e bën shumë të lehtë që programet kompjuterike të renditen sipas alfabetit.

Por në KOI-8R, rendi i shkronjave ruse duket i rastësishëm. Por në fakt nuk është kështu.

Në shumë programe të vjetra, biti i 8-të humbi gjatë përpunimit ose transmetimit të tekstit. (Tani programe të tilla janë praktikisht "shuar", por në fund të viteve '80 dhe në fillim të viteve '90 ato ishin të përhapura). Për të marrë një vlerë 7-bitësh nga një vlerë 8-bitësh, mjafton të zbrisni 8 nga shifra e rendit të lartë; për shembull, E1 bëhet 61.

Tani krahasoni KOI-8R me tabelën ASCII (Tabela 1). Do të zbuloni se shkronjat ruse janë në përputhje të rreptë me ato latine. Nëse biti i tetë zhduket, shkronjat e vogla ruse kthehen në shkronja të mëdha latine dhe shkronjat e mëdha ruse në ato të vogla latine. Pra, E1 në KOI-8 është "A" ruse, ndërsa 61 në ASCII është latinishtja "a".

Pra, KOI-8 ju lejon të ruani lexueshmërinë e tekstit rus me humbjen e bitit të 8-të. "Përshëndetje të gjithëve" bëhet "pRIWET WSEM".

Kohët e fundit, si rendi alfabetik i karaktereve në tabelën e kodimit, ashtu edhe lexueshmëria me humbjen e bitit të 8-të kanë humbur rëndësinë e tyre vendimtare. Biti i tetë në kompjuterët modernë nuk humbet as gjatë transmetimit, as gjatë përpunimit. Dhe renditja alfabetike bëhet duke marrë parasysh kodimin, dhe jo një krahasim të thjeshtë të kodeve. (Nga rruga, kodet CP1251 nuk janë plotësisht të alfabetizuar - shkronja Y nuk është në vendin e saj).

Për shkak të faktit se kishte dy kodime të zakonshme, kur punoni me internetin (mail, shfletimi i faqeve në internet), ndonjëherë mund të shihni një grup të pakuptimtë shkronjash në vend të tekstit rus. Për shembull, "Unë jam SBYFEMHEL". Janë vetëm fjalët “me respekt”; por ato ishin të koduara në kodimin CP1251, dhe kompjuteri deshifroi tekstin sipas tabelës KOI-8. Nëse të njëjtat fjalë do të ishin, përkundrazi, të koduara në KOI-8, dhe kompjuteri do të deshifronte tekstin sipas tabelës CP1251, rezultati do të ishte "U HCHBTSEOEN".

Ndonjëherë ndodh që një kompjuter deshifron shkronjat në gjuhën ruse dhe madje sipas një tabele që nuk është menduar për gjuhën ruse. Pastaj, në vend të shkronjave ruse, shfaqet një grup i pakuptimtë karakteresh (për shembull, shkronja latine të gjuhëve të Evropës Lindore); ata shpesh quhen "crocos".

Në shumicën e rasteve, programet moderne arrijnë të përcaktojnë vetë kodimet e dokumenteve të internetit (e-mail dhe faqe në internet). Por ndonjëherë ata "shkojnë keq", dhe më pas mund të shihni sekuenca të çuditshme të shkronjave ruse ose "krokodili". Si rregull, për të shfaqur tekstin real në një situatë të tillë, mjafton të zgjidhni kodimin manualisht në menunë e programit.

Informacioni nga faqja http://open-office.edusite.ru/TextProcessor/p5aa1.html u përdor për artikullin.

Materiali i marrë nga faqja:

Tabela e plotë ascii. Kodimi ASCII (kodi standard amerikan për shkëmbimin e informacionit) - kodimi bazë i tekstit për latinisht

Kompjuter

Dhe

3.2. Kodimi grafik i informacionit

Ushtrime për vetë-përmbushje

Në këtë artikull

Futja e një karakteri ASCII ose Unicode në një dokument

Futja e karaktereve ASCII

Futja e karaktereve të Unicode

Duke përdorur tabelën e simboleve

Kodet e karaktereve të përdorura shpesh

Kodet për diakritikët e përdorur zakonisht

Karaktere kontrolli ASCII që nuk shtypen

Tabela e karaktereve të kontrollit ASCII jo të printueshme

Tabela ASCII e kodeve të karaktereve të Windows. Përshkrimi i karaktereve speciale (kontroll).

Shfaqja dhe ruajtja e informacionit në një kompjuter

Si filloi gjithçka

Kalimi në shumëgjuhësi

Përshkrim

Disa prona

"Unicode"

Lidhja me kodin standard amerikan për shkëmbimin e informacionit

Artikujt kryesorë të lidhur

Tabela ASCII e kodeve të karaktereve të Windows.
Përshkrimi i karaktereve speciale (kontroll).