Si të konfiguroni telefonat inteligjentë dhe PC. Portali informativ
  • në shtëpi
  • Vlerësime
  • Kodi binar i tabelës së karaktereve Ascii. Kodimi ASCII (kodi standard amerikan për shkëmbimin e informacionit) - kodimi bazë i tekstit për latinisht

Kodi binar i tabelës së karaktereve Ascii. Kodimi ASCII (kodi standard amerikan për shkëmbimin e informacionit) - kodimi bazë i tekstit për latinisht

Le të kujtojmë disa fakte që dimë:

Tërësia e simboleve me të cilat shkruhet teksti quhet alfabet.

Numri i karaktereve në alfabet është kardinaliteti i tij.

Formula për përcaktimin e sasisë së informacionit: N = 2 b,

ku N është kardinaliteti i alfabetit (numri i karaktereve),

b - numri i biteve (pesha informative e karakterit).

Alfabeti me një kapacitet prej 256 karakteresh mund të strehojë pothuajse të gjitha karakteret e nevojshme. Një alfabet i tillë quhet i mjaftueshëm.

Sepse 256 = 2 8 , atëherë pesha e 1 karakteri është 8 bit.

Njësia 8-bitëshe u emërua 1 bajt:

1 bajt = 8 bit.

Kodi binar i çdo karakteri në tekstin kompjuterik merr 1 bajt memorie.

Si paraqitet informacioni i tekstit në memorien e kompjuterit?

Kodimi do të thotë që çdo karakteri i caktohet një kod unik dhjetor nga 0 në 255 ose kodi binar përkatës nga 00000000 në 11111111. Kështu, një person dallon karakteret sipas stilit të tyre, dhe një kompjuter - sipas kodit të tyre.

Lehtësia e kodimit të karaktereve me bajt është e dukshme, pasi një bajt është pjesa më e vogël e adresueshme e memories dhe, për rrjedhojë, procesori mund të aksesojë çdo karakter veç e veç, duke kryer përpunimin e tekstit. Nga ana tjetër, 256 karaktere është një numër mjaft i mjaftueshëm për të përfaqësuar një shumëllojshmëri të gjerë të informacionit të karaktereve.

Tani lind pyetja, çfarë lloj kodi binar tetë-bit të lidhet me secilin karakter.

Është e qartë se kjo është një çështje e kushtëzuar, ju mund të dilni me shumë metoda kodimi.

Tabela ASCII u bë standardi ndërkombëtar për PC (lexo asci) (Kodi standard amerikan për shkëmbimin e informacionit).

Standardi ndërkombëtar është vetëm gjysma e parë e tabelës, d.m.th. karaktere me numra nga 0 (00000000) deri në 127 (01111111).

Numër serik

Simboli

00000000 - 00011111


Funksioni i tyre është të kontrollojnë procesin e shfaqjes së tekstit në ekran ose të printimit, dhënien e një sinjali zanor, shënimin e tekstit, etj.

32 - 127

00100000 - 01111111


128 - 255

10000000 - 11111111


Gjysma e dytë e tabelës së kodeve ASCII, e quajtur faqja e kodit (128 kode, duke filluar nga 10000000 dhe duke përfunduar me 11111111), mund të ketë variante të ndryshme, secili variant ka numrin e vet.


Unë tërheq vëmendjen tuaj për faktin se në tabelën e kodimit, shkronjat (të mëdha dhe të vogla) janë renditur sipas rendit alfabetik, dhe numrat renditen në rendin rritës të vlerave. Ky respektim i rendit leksikografik në renditjen e karaktereve quhet parimi i kodimit sekuencial të alfabetit.


Aktualisht, kodimi më i zakonshëm është Microsoft Windows, i shkurtuar si CP1251.

Që nga fundi i viteve '90, problemi i standardizimit të kodimit të karaktereve është zgjidhur me prezantimin e një standardi të ri ndërkombëtar të quajtur Unicode. ... Ky është një kodim 16-bit d.m.th. cakton 2 bajt memorie për çdo karakter. Sigurisht, kjo dyfishon sasinë e memories së përdorur. Por nga ana tjetër, një tabelë e tillë kodesh lejon përfshirjen deri në 65536 karaktere. Specifikimi i plotë i standardit Unicode përfshin të gjitha alfabetet ekzistuese, të zhdukura dhe të krijuara artificialisht të botës, si dhe shumë simbole matematikore, muzikore, kimike dhe të tjera.

Le të përpiqemi të përdorim një tabelë ASCII për të imagjinuar se si do të duken fjalët në kujtesën e kompjuterit.

Fjalët

Kujtesa

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Kur informacioni i tekstit futet në një kompjuter, karakteret (shkronjat, numrat, shenjat) kodohen duke përdorur sisteme të ndryshme kodimi, të cilat përbëhen nga një grup tabelash kodesh të vendosura në faqet përkatëse të standardeve për kodimin e informacionit të tekstit. Në tabela të tilla, çdo karakteri i caktohet një kod numerik specifik në shënimin heksadecimal ose dhjetor, domethënë, tabelat e kodeve pasqyrojnë korrespondencën midis imazheve të karaktereve dhe kodeve numerike dhe janë krijuar për të koduar dhe deshifruar informacionin e tekstit. Kur futni informacionin e tekstit duke përdorur një tastierë kompjuteri, çdo karakter hyrës kodohet, domethënë konvertohet në një kod numerik; kur informacioni i tekstit nxirret në një pajisje dalëse kompjuteri (ekran, printer ose plotter), imazhi i tij ndërtohet duke përdorur kodi numerik i karakterit. Caktimi i një kodi numerik specifik në një simbol është rezultat i një marrëveshjeje midis organizatave përkatëse në vende të ndryshme. Aktualisht, nuk ka asnjë tabelë të vetme të kodit universal që plotëson shkronjat e alfabeteve kombëtare të vendeve të ndryshme.

Tabelat moderne të kodeve përfshijnë pjesë ndërkombëtare dhe kombëtare, domethënë ato përmbajnë shkronja të alfabetit latin dhe kombëtar, numra, shenja të operacioneve aritmetike dhe pikësimit, karaktere matematikore dhe kontrolluese, simbole pseudografike. Pjesa ndërkombëtare e tabelës së kodit bazuar në standard ASCII (Kodi Standard Amerikan për Shkëmbimin e Informacionit), kodon gjysmën e parë të karaktereve të tabelës së kodeve me kodet numerike 0 deri në 7 F 16, ose me shënime dhjetore nga 0 deri në 127. Kodet nga 0 deri në 20 16 (0? 32 10) u caktohen tasteve funksionale (F1, F2, F3, etj.) të tastierës së PC-së. Në fig. 3.1 tregon pjesën ndërkombëtare të tabelave të kodit bazuar në standard ASCII. Qelizat e tabelës numërohen përkatësisht me shënime dhjetore dhe heksadecimale.

Fig 3.1. Pjesa ndërkombëtare e tabelës së kodeve (standarde ASCII) me numrat e qelizave të paraqitura në sistemin e numrave dhjetorë (a) dhe heksadecimal (b).


Pjesa kombëtare e tabelave të kodeve përmban kodet e alfabeteve kombëtare, e cila quhet edhe tabela e grupeve të karaktereve (grup karakteresh).

Aktualisht, për të mbështetur shkronjat e alfabetit rus (cirilik), ekzistojnë disa tabela kodesh (enkodime) që përdoren nga sisteme të ndryshme operative, gjë që është një pengesë e rëndësishme dhe në disa raste çon në probleme që lidhen me operacionet e dekodimit numerik. vlerat e personazheve. Tabela 3.1 liston emrat e faqeve të kodit (standardet) në të cilat ndodhen tabelat e kodeve (kodimet) e alfabetit cirilik.

Tabela 3.1

Një nga standardet e para për kodimin e alfabetit cirilik në kompjuter ishte standardi KOI8-R. Pjesa kombëtare e tabelës së kodit për këtë standard është paraqitur në Fig. 3.2.

Oriz. 3.2. Pjesa kombëtare e tabelës së kodit të standardit KOI8-R


Aktualisht, përdoret gjithashtu tabela e kodit e vendosur në faqen CP866 të standardit për kodimin e informacionit të tekstit të përdorur në sistemin operativ. MS DOS ose seancë MS DOS për të koduar alfabetin cirilik (Fig. 3.3, a).

Oriz. 3.3. Pjesa kombëtare e tabelës së kodit, e vendosur në faqen CP866 (a) dhe në faqen CP1251 (b) të standardit të kodimit të informacionit tekstual


Aktualisht, tabela e kodit më e përdorur për kodimin e alfabetit cirilik ndodhet në faqen CP1251 të standardit përkatës, i cili përdoret në sistemet operative të familjes. Dritaret firmave Microsoft(fig. 3.2, b). Në të gjitha tabelat e kodit të paraqitura, përveç tabelës standarde Unicode, 8 shifra binare (8 bit) ndahen për të koduar një karakter.

Në fund të shekullit të kaluar, u shfaq një standard i ri ndërkombëtar Unicode, në të cilin një karakter përfaqësohet nga një kod binar dy bajtë. Zbatimi i këtij standardi është një vazhdimësi e zhvillimit të një standardi universal ndërkombëtar që lejon zgjidhjen e problemit të përputhshmërisë së kodimeve kombëtare të karaktereve. Me këtë standard, mund të kodohen 2 16 = 65536 karaktere të ndryshme. Në fig. 3.4 është tabela e kodit 0400 (alfabeti rus) i standardit Unicode.

Oriz. 3.4. Tabela e kodeve 0400 e standardit Unicode


Le të sqarojmë atë që është thënë në lidhje me kodimin e informacionit tekstual me një shembull.

Shembulli 3.1

Kodoni fjalën "Kompjuter" si një sekuencë numrash dhjetorë dhe heksadecimalë duke përdorur kodimin CP1251. Cilat karaktere do të shfaqen në tabelat e kodeve CP866 dhe KOI8-R kur përdorni kodin e marrë.

Sekuencat e kodeve heksadecimal dhe binare të fjalës "Kompjuter" bazuar në tabelën e kodimit CP1251 (shih Fig. 3.3, b) do të duket kështu:

Kjo sekuencë kodi në kodimet CP866 dhe KOI8-R do të rezultojë në shfaqjen e karaktereve të mëposhtme:

Për të kthyer dokumentet e tekstit në gjuhën ruse nga një standard i kodimit të tekstit në një tjetër, përdoren programe speciale - konvertues. Konvertuesit zakonisht ndërtohen në programe të tjera. Një shembull do të ishte një program shfletuesi - Internet Explorer (IE), i cili ka një konvertues të integruar. Programi i shfletuesit është një program i veçantë për shikimin e përmbajtjes faqet e internetit në rrjetin global kompjuterik të internetit. Le të përdorim këtë program për të konfirmuar rezultatin e shfaqjes së simboleve të marra në shembullin 3.1. Për ta bërë këtë, ne do të kryejmë veprimet e mëposhtme.

1. Hapni programin Notepad (NotePad). Programi Notepad në sistemin operativ Windows XP niset me komandën: [Buton Filloni- Programet - Standard - Notepad]. Në dritaren e hapur të Notepad, shkruani fjalën "Kompjuter" duke përdorur sintaksën e gjuhës së shënimit të dokumenteve të hipertekstit - HTML (Hyper Text Markup Language). Kjo gjuhë përdoret për të krijuar dokumente në internet. Teksti duhet të duket si ky:

Compywater

, ku

dhe

etiketat (konstruktet e veçanta) të gjuhës HTML për të shënuar kokat. Në fig. 3.5 tregon rezultatin e këtyre veprimeve.

Oriz. 3.5. Shfaqja e tekstit në një dritare të Notepad


Le ta ruajmë këtë tekst duke ekzekutuar komandën: [File - Save As ...] në dosjen përkatëse të kompjuterit, me rastin e ruajtjes së tekstit, do t'i caktojmë një emër skedarit - Përafërsisht, me shtesën e skedarit. html.

2. Ekzekutoni programin Internet Explorer, me ekzekutimin e komandës: [Button Filloni- Programet - Internet Explorer]. Kur programi fillon, dritarja e paraqitur në Fig. 3.6

Oriz. 3.6. Dritarja e hyrjes jashtë linje


Zgjidhni dhe aktivizoni butonin Jashtë linje në këtë rast, kompjuteri nuk do të lidhet me internetin global. Do të shfaqet dritarja kryesore e programit Microsoft Internet Explorer, treguar në Fig. 3.7.

Oriz. 3.7. Dritarja kryesore e Microsoft Internet Explorer


Ekzekutoni komandën e mëposhtme: [File - Open], do të shfaqet një dritare (Fig. 3.8), në të cilën duhet të specifikoni emrin e skedarit dhe të klikoni Ne rregull ose shtypni butonin Përmbledhje… dhe gjeni skedarin App.html.

Oriz. 3.8. Hap dritaren


Dritarja kryesore e Internet Explorer do të marrë formën e treguar në Fig. 3.9. Në dritare shfaqet fjala "Kompjuter". Më tej, duke përdorur menunë e sipërme të programit Internet Explorer, ekzekutoni komandën e mëposhtme: [View - Encoding - Cyrillic (DOS)]. Pas ekzekutimit të kësaj komande në dritaren e programit Internet Eхplorer simbolet e paraqitura në fig. 3.10. Gjatë ekzekutimit të komandës: [Shiko - Kodimi - cirilik (KOI8-R)] në dritaren e programit Internet Explorer simbolet e paraqitura në fig. 3.11.

Oriz. 3.9. Karakteret shfaqen gjatë kodimit të CP1251


Oriz. 3.10. Karakteret shfaqen kur aktivizohet kodimi CP866 për sekuencën e kodit të përfaqësuar në kodimin CP1251


Oriz. 3.11. Karakteret shfaqen kur aktivizohet kodimi KOI8-R për sekuencën e kodit të përfaqësuar në kodimin CP1251


Kështu, të marra me programin Internet Explorer sekuencat e karaktereve përkojnë me sekuencat e karaktereve të marra duke përdorur tabelat e kodeve CP866 dhe KOI8-R në shembullin 3.1.

3.2. Kodimi grafik i informacionit

Informacioni grafik i paraqitur në formën e vizatimeve, fotografive, rrëshqitjeve, imazheve lëvizëse (animacion, video), diagrame, vizatimesh, mund të krijohet dhe modifikohet duke përdorur një kompjuter, ndërkohë që është i koduar siç duhet. Aktualisht, ekziston një numër mjaft i madh aplikacionesh për përpunimin e informacionit grafik, por të gjitha ato zbatojnë tre lloje të grafikës kompjuterike: raster, vektor dhe fraktal.

Nëse shikoni më nga afër imazhin grafik në ekranin e monitorit të kompjuterit, mund të shihni një numër të madh pikash me shumë ngjyra (pikselë - nga anglishtja. pixel, edukuar nga elementi i figurës - elementi i figurës), të cilat, kur bashkohen, formojnë një imazh të caktuar grafik. Nga kjo mund të konkludojmë: një imazh grafik në një kompjuter është i koduar në një mënyrë të caktuar dhe duhet të paraqitet në formën e një skedari grafik. Skedari është njësia kryesore strukturore e organizimit dhe ruajtjes së të dhënave në një kompjuter dhe në këtë rast duhet të përmbajë informacion se si të përfaqësohet ky grup pikash në ekranin e monitorit.

Skedarët e krijuar në bazë të grafikëve vektoriale përmbajnë informacion në formën e varësive matematikore (funksionet matematikore që përshkruajnë marrëdhëniet lineare) dhe të dhënat përkatëse se si të ndërtohet një imazh i një objekti duke përdorur segmente të linjës (vektorë) kur ai shfaqet në një monitor kompjuteri. .

Skedarët e krijuar në bazë të grafikës raster supozojnë ruajtjen e të dhënave për çdo pikë individuale në imazh. Për të shfaqur grafika raster, llogaritjet komplekse matematikore nuk kërkohen, mjafton vetëm të merrni të dhëna për secilën pikë të figurës (koordinatat dhe ngjyrën e saj) dhe t'i shfaqni ato në ekranin e kompjuterit.

Në procesin e kodimit të një imazhi, kryhet kampionimi hapësinor i tij, domethënë, imazhi ndahet në pika të veçanta dhe çdo pikë i caktohet një kod ngjyrash (e verdhë, e kuqe, blu, etj.). Për të koduar çdo pikë të një imazhi grafik me ngjyra, zbatohet parimi i zbërthimit të një ngjyre arbitrare në përbërësit e saj kryesorë, të cilët janë tre ngjyra kryesore: e kuqe (fjala angleze E kuqe, shënojmë me shkronjë TE), jeshile (E gjelbër, shënojmë me shkronjë G), blu (Blu, shënoj me ahu V).Çdo ngjyrë pikë e perceptuar nga syri i njeriut mund të merret me shtimin (përzierjen) shtesë (proporcionale) të tre ngjyrave kryesore - të kuqe, jeshile dhe blu. Ky sistem kodimi quhet sistem ngjyrash. RGB. Skedarët grafikë që përdorin sistemin e ngjyrave RGB, përfaqësojnë çdo pikë të imazhit si një treshe ngjyrash - tre vlera numerike R, G dhe V, që korrespondon me intensitetin e ngjyrave të kuqe, jeshile dhe blu. Procesi i kodimit të një imazhi grafik kryhet duke përdorur mjete të ndryshme teknike (skaner, aparat fotografik dixhital, kamera dixhitale video, etj.); rezultati është një bitmap. Kur riprodhoni grafikë me ngjyra në një monitor kompjuteri me ngjyra, ngjyra e secilës pikë (piksel) të një imazhi të tillë merret duke përzier tre ngjyra kryesore R, G dhe B.

Cilësia e një imazhi raster përcaktohet nga dy parametra kryesorë - rezolucioni (numri i pikave horizontalisht dhe vertikalisht) dhe paleta e ngjyrave të përdorura (numri i ngjyrave të specifikuara për secilën pikë në imazh). Rezolucioni vendoset duke specifikuar numrin e pikave horizontalisht dhe vertikalisht, për shembull, 800 me 600 pika.

Ekziston një marrëdhënie midis numrit të ngjyrave të specifikuara për një pikë në një imazh raster dhe sasisë së informacionit që duhet të zgjidhet për të ruajtur ngjyrën e një pike, e cila përcaktohet nga marrëdhënia (formula e R. Hartley):

ku Unë- sasinë e informacionit; N - numri i ngjyrave të dhëna në pikë.

Sasia e informacionit të kërkuar për të ruajtur ngjyrën e një pike quhet gjithashtu thellësia e ngjyrës ose cilësia e ngjyrës.

Pra, nëse numri i ngjyrave të specifikuara për pikën e imazhit është N = 256, atëherë sasia e informacionit të kërkuar për ta ruajtur atë (thellësia e ngjyrës) në përputhje me formulën (3.1) do të jetë e barabartë me Unë= 8 bit.

Kompjuterët përdorin mënyra të ndryshme të paraqitjes grafike për të shfaqur informacionin grafik. Këtu duhet theksuar se përveç modalitetit grafik të monitorit, ekziston edhe një modalitet teksti, në të cilin ekrani i monitorit ndahet në mënyrë konvencionale në 25 rreshta me 80 karaktere për rresht. Këto mënyra grafike karakterizohen nga rezolucioni i ekranit të monitorit dhe cilësia e ngjyrave (thellësia e ngjyrave). Për të vendosur mënyrën grafike të ekranit të monitorit në sistemin operativ MS Windows XP duhet të ekzekutoni komandën: [Button Filloni- Cilësimet - Paneli i kontrollit - Ekrani]. Në kutinë e dialogut "Properties: Display" që shfaqet (Fig. 3.12), zgjidhni skedën "Parametrat" ​​dhe përdorni rrëshqitësin "Rezolucioni i ekranit" për të zgjedhur rezolucionin e duhur të ekranit (800 me 600 piksele, 1024 me 768 piksel, etj. ). Duke përdorur listën rënëse "Cilësia e ngjyrave", ju mund të zgjidhni thellësinë e ngjyrës - "Më e lartë (32 bit)", "Mestare (16 bit)", etj., ndërsa numri i ngjyrave të caktuara për secilën pikë të imazhit do të jetë përkatësisht e barabartë me 2 32 (4294967296), 2 16 (65536), etj.

Oriz. 3.12. Kutia e dialogut të vetive të shfaqjes


Për të zbatuar secilën nga mënyrat grafike të ekranit të monitorit, kërkohet një vëllim i caktuar informacioni i kujtesës video të kompjuterit. Vëllimi i kërkuar i informacionit të kujtesës video (V) përcaktohet nga relacioni

ku TE - numri i pikave të imazhit në ekranin e monitorit (K = A · B); A - numri i pikave horizontale në ekranin e monitorit; V - numri i pikave vertikale në ekranin e monitorit; Unë- sasia e informacionit (thellësia e ngjyrës).

Pra, nëse ekrani i monitorit ka një rezolucion prej 1024 me 768 piksele dhe një gamë të përbërë nga 65 536 ngjyra, atëherë thellësia e ngjyrës në përputhje me formulën (3.1) do të jetë I = log 2 65 538 = 16 bit, numri i imazhit pikët do të jenë të barabarta me: K = 1024 x 768 = 786432, dhe vëllimi i kërkuar i informacionit të kujtesës video në përputhje me (3.2) do të jetë i barabartë me

V = 786432 16 bit = 12582912 bit = 1572864 byte = 1536 KB = 1,5 MB.

Si përfundim, duhet theksuar se përveç karakteristikave të listuara, karakteristikat më të rëndësishme të monitorit janë dimensionet gjeometrike të ekranit të tij dhe pikat e imazhit. Dimensionet gjeometrike të ekranit përcaktohen nga diagonalja e monitorit. Madhësia e diagonales së monitorëve është vendosur në inç (1 inç = 1 "= 25,4 mm) dhe mund të marrë vlera të barabarta me: 14", 15", 17", 21 "etj. Teknologjitë moderne të prodhimit të monitorëve mund të ofrojnë një madhësia e pikselit e barabartë me 0,22 mm.

Kështu, për secilin monitor ekziston një rezolucion fizikisht maksimal i mundshëm i ekranit, i cili përcaktohet nga madhësia e diagonales së tij dhe madhësia e pikës së imazhit.

Ushtrime për vetë-përmbushje

1.Përdorimi i programit MS Excel konvertoni tabelat e kodit ASCII, CP866, CP1251, KOI8-R në tabela të formës: në qelizat e kolonës së parë të tabelave, shkruani në rend alfabetik shkronjat latine dhe cirilike të mëdha dhe më pas të vogla, në qelizat e kolonës së dytë - kodet që korrespondojnë me shkronjat në sistemin e numrave dhjetorë, në qelizat kolona e tretë - shkronjat që korrespondojnë me kodet në sistemin e numrave heksadecimal. Vlerat e kodit duhet të zgjidhen nga tabelat përkatëse të kodit.

2. Kodoni dhe shkruani fjalët e mëposhtme si një sekuencë numrash me shënime dhjetore dhe heksadecimal:

a) Internet Explorer, b) Microsoft Office; v) CorelDRAW.

Kryeni kodimin duke përdorur tabelën e kodimit të modernizuar ASCII të marrë në ushtrimin e mëparshëm.

3. Deshifroni sekuencat e numrave të shkruar në sistemin heksadecimal të numrave duke përdorur tabelën e kodimit të modernizuar KOI8-R:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Si do të duket fjala "Cybernetics" e shkruar në kodimin CP1251 kur përdorni kodimet CP866 dhe KOI8-R? Kontrolloni rezultatet e marra duke përdorur programin Internet Explorer.

5. Duke përdorur tabelën e kodeve të paraqitur në fig. 3.1 a, deshifroni sekuencat e mëposhtme të kodit të shkruara në shënim binar:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Përcaktoni vëllimin informativ të fjalës "Ekonomi" të koduar duke përdorur tabelat e kodit CP866, CP1251, Unicode dhe KOI8-R.

7. Përcaktoni vëllimin e informacionit të skedarit të marrë si rezultat i skanimit të një imazhi me ngjyra 12x12 cm. Rezolucioni i skanerit të përdorur për të skanuar këtë imazh është 600 dpi. Skaneri vendos thellësinë e ngjyrës së pikselit të imazhit në 16 bit.

Rezolucioni i skanerit 600 dpi (inç pika - pika për inç) përcakton aftësinë e një skaneri me një rezolucion të tillë për të dalluar 600 pika në një segment 1 inç.

8. Përcaktoni vëllimin e informacionit të skedarit të marrë si rezultat i skanimit të një imazhi me ngjyra të madhësisë A4. Rezolucioni i skanerit të përdorur për të skanuar këtë imazh është 1200 dpi. Skaneri vendos thellësinë e ngjyrës së pikselit të imazhit në 24 bit.

9. Përcaktoni numrin e ngjyrave në paleta në thellësi ngjyrash prej 8, 16, 24 dhe 32 bit.

10. Përcaktoni sasinë e kërkuar të kujtesës video për mënyrat e shfaqjes grafike të monitorit 640 me 480, 800 me 600, 1024 me 768 dhe 1280 me 1024 piksele në thellësinë e ngjyrës së pikës së imazhit prej 8, 16, 24 dhe 32 bit. Rezultatet janë të tabeluara. Zhvilloni në MS Excel një program për automatizimin e llogaritjeve.

11. Përcaktoni numrin maksimal të ngjyrave që mund të përdoren për të ruajtur një imazh 32 me 32 piksel nëse kompjuteri ka 2 KB memorie të caktuar për imazhin.

12. Përcaktoni rezolucionin maksimal të mundshëm të një ekrani monitori me një gjatësi diagonale prej 15" dhe një madhësi piksel prej 0,28 mm.

13. Cilat mënyra grafike të funksionimit të monitorit mund të ofrojnë memorie video 64 MB?

Djegia

I. Historia e kodimit të informacionit ………………………………… ..3

II. Kodimi i informacionit …………………………………………… 4

III. Kodimi i informacionit të tekstit ……………………………… .4

IV. Llojet e tabelave koduese …………………………………………… 6

V. Llogaritja e sasisë së informacionit në tekst ………………………… 14

Lista e literaturës së përdorur …………………………………… ..16

Unë . Historia e kodimit të informacionit

Njerëzimi ka përdorur enkriptimin (kodimin) e tekstit që nga momenti kur u shfaq informacioni i parë sekret. Para jush janë disa metoda të kodimit të tekstit që janë shpikur në faza të ndryshme të zhvillimit të mendimit njerëzor:

Kriptografia është një shkrim i fshehtë, një sistem i ndryshimit të një shkronje me synimin për ta bërë tekstin të pakuptueshëm për të painiciuarit;

Kodi Morse ose kodi i parregullt telegrafik, në të cilin çdo shkronjë ose karakter përfaqësohet nga kombinimi i vet i çipave të shkurtër të rrymës elektrike (pika) dhe çipave me kohëzgjatje të trefishtë (viza);

gjuha e shenjave është një gjuhë e shenjave e përdorur nga njerëzit me dëmtim të dëgjimit.

Një nga metodat më të hershme të njohura të enkriptimit është emëruar pas perandorit romak Julius Caesar (shekulli I para Krishtit). Kjo metodë bazohet në zëvendësimin e secilës shkronjë të tekstit të koduar me një tjetër, duke zhvendosur alfabetin nga shkronja origjinale me një numër të caktuar karakteresh, dhe alfabeti lexohet në një rreth, domethënë pas shkronjës i, a është konsiderohen. Pra, fjala "byte" kur zhvendoset me dy karaktere në të djathtë është e koduar me fjalën "gvlf". Procesi i kundërt i deshifrimit të një fjale të caktuar - është e nevojshme të zëvendësohet çdo shkronjë e koduar, me të dytën në të majtë të saj.

II. Kodimi i informacionit

Një kod është një grup konventash (ose sinjalesh) për regjistrimin (ose transmetimin) e disa koncepteve të paracaktuara.

Kodimi i informacionit është procesi i formimit të një përfaqësimi specifik të informacionit. Në një kuptim më të ngushtë, termi "kodim" shpesh kuptohet si një kalim nga një formë e prezantimit të informacionit në një tjetër, më i përshtatshëm për ruajtje, transmetim ose përpunim.

Zakonisht, çdo imazh kur është i koduar (nganjëherë thonë - i koduar) përfaqësohet nga një shenjë e veçantë.

Një shenjë është një element i një grupi të fundëm elementësh të ndryshëm.

Në një kuptim më të ngushtë, termi "kodim" shpesh kuptohet si një kalim nga një formë e prezantimit të informacionit në një tjetër, më i përshtatshëm për ruajtje, transmetim ose përpunim.

Kompjuteri mund të përpunojë informacionin e tekstit. Kur futet në një kompjuter, çdo shkronjë është e koduar me një numër të caktuar, dhe kur del në pajisje të jashtme (ekran ose printim), imazhet e shkronjave ndërtohen për perceptimin e njeriut duke përdorur këta numra. Korrespondenca midis një grupi shkronjash dhe numrash quhet kodim i karaktereve.

Si rregull, të gjithë numrat në një kompjuter përfaqësohen duke përdorur zero dhe njëshe (dhe jo dhjetë shifra, siç është zakon për njerëzit). Me fjalë të tjera, kompjuterët zakonisht punojnë në një sistem numrash binar, pasi pajisjet për përpunimin e tyre janë shumë më të thjeshta. Futja e numrave në një kompjuter dhe nxjerrja e tyre për lexim njerëzor mund të kryhet në formën e zakonshme dhjetore dhe të gjitha transformimet e nevojshme kryhen nga programet që funksionojnë në kompjuter.

III. Kodimi i informacionit të tekstit

I njëjti informacion mund të paraqitet (i koduar) në disa forma. Me ardhjen e kompjuterëve, u bë e nevojshme të kodohen të gjitha llojet e informacionit me të cilat merren si një person individual ashtu edhe njerëzimi në tërësi. Por njerëzimi filloi të zgjidhte problemin e kodimit të informacionit shumë përpara ardhjes së kompjuterëve. Arritjet e jashtëzakonshme të njerëzimit - shkrimi dhe aritmetika - nuk janë gjë tjetër veçse një sistem për kodimin e të folurit dhe informacionit numerik. Informacioni nuk shfaqet kurrë në formën e tij të pastër, ai gjithmonë paraqitet disi, disi i koduar.

Kodimi binar është një nga mënyrat e zakonshme të paraqitjes së informacionit. Në kompjuterë, robotë dhe vegla makinerie të kontrolluara numerikisht, si rregull, i gjithë informacioni me të cilin merret pajisja kodohet në formën e fjalëve në një alfabet binar.

Që nga fundi i viteve '60, kompjuterët janë përdorur gjithnjë e më shumë për të përpunuar informacionin tekstual, dhe aktualisht, pjesa më e madhe e kompjuterëve personalë në botë (dhe shumicën e kohës) është e angazhuar në përpunimin e informacionit tekstual. Të gjitha këto lloje të informacionit në një kompjuter përfaqësohen në kod binar, domethënë përdoret një alfabet me fuqi dy (vetëm dy karaktere 0 dhe 1). Kjo për faktin se është i përshtatshëm për të përfaqësuar informacionin në formën e një sekuence të impulseve elektrike: nuk ka impuls (0), ka një impuls (1).

Një kodim i tillë zakonisht quhet binar, dhe sekuencat logjike të zerave dhe njësheve quhen gjuhë makine.

Nga pikëpamja e një kompjuteri, teksti përbëhet nga karaktere individuale. Simbolet përfshijnë jo vetëm shkronjat (të mëdha ose të vogla, latinisht ose rusisht), por edhe numra, shenja pikësimi, karaktere të veçanta si "=", "(", "&", etj., madje (kushtojini vëmendje të veçantë!) hapësira ndërmjet fjalët.

Tekstet futen në kujtesën e kompjuterit duke përdorur tastierën. Shkronjat, numrat, shenjat e pikësimit dhe simbolet e tjera janë të shkruara në taste. Ata hyjnë në RAM në kodin binar. Kjo do të thotë që çdo karakter përfaqësohet nga një kod binar 8-bit.

Tradicionalisht, për të koduar një karakter, përdoret një sasi informacioni e barabartë me 1 bajt, domethënë I = 1 bajt = 8 bit. Duke përdorur një formulë që lidh numrin e ngjarjeve të mundshme K dhe sasinë e informacionit I, mund të llogarisni se sa simbole të ndryshme mund të kodohen (duke supozuar se simbolet janë ngjarje të mundshme): K = 2 I = 2 8 = 256, d.m.th. , për Përfaqësimin e informacionit tekstual mund të përdoret një alfabet me një kapacitet prej 256 karaktere.

Ky numër i karaktereve është mjaft i mjaftueshëm për të përfaqësuar informacionin tekstual, duke përfshirë shkronjat e mëdha dhe të vogla të alfabetit rus dhe latin, numrat, shenjat, simbolet grafike, etj.

Kodimi do të thotë që çdo karakteri i caktohet një kod unik dhjetor nga 0 në 255 ose kodi binar përkatës nga 00000000 në 11111111. Kështu, një person dallon karakteret sipas stilit të tyre, dhe një kompjuter - sipas kodit të tyre.

Lehtësia e kodimit të karaktereve me bajt është e dukshme, pasi një bajt është pjesa më e vogël e adresueshme e memories dhe, për rrjedhojë, procesori mund të aksesojë çdo karakter veç e veç, duke kryer përpunimin e tekstit. Nga ana tjetër, 256 karaktere është një numër mjaft i mjaftueshëm për të përfaqësuar një shumëllojshmëri të gjerë të informacionit të karaktereve.

Në procesin e shfaqjes së një karakteri në ekranin e kompjuterit, kryhet procesi i kundërt - dekodimi, domethënë shndërrimi i kodit të karakterit në imazhin e tij. Është e rëndësishme që caktimi i një kodi specifik për një simbol është një çështje konvencionale, e cila është e fiksuar në tabelën e kodeve.

Tani lind pyetja, çfarë lloj kodi binar tetë-bit të lidhet me secilin karakter. Është e qartë se kjo është një çështje e kushtëzuar, ju mund të dilni me shumë metoda kodimi.

Të gjithë karakteret e alfabetit të kompjuterit numërohen nga 0 deri në 255. Çdo numër korrespondon me një kod binar tetë-bitësh nga 00000000 deri në 11111111. Ky kod është thjesht numri rendor i karakterit në sistemin e numrave binar.

IV ... Llojet e tabelave koduese

Tabela në të cilën të gjithë karakteret e alfabetit të kompjuterit janë caktuar numra serialë quhet tabela e kodimit.

Për lloje të ndryshme kompjuterash përdoren tabela të ndryshme kodimi.

Tabela e kodeve ASCII (Kodi standard amerikan për shkëmbimin e informacionit) është miratuar si një standard ndërkombëtar, i cili kodon gjysmën e parë të karaktereve me kode numerike nga 0 në 127 (kodet nga 0 në 32 nuk u caktohen simboleve, por tasteve të funksionit ).

Tabela ASCII është e ndarë në dy pjesë.

Standardi ndërkombëtar është vetëm gjysma e parë e tabelës, d.m.th. karaktere me numra nga 0 (00000000) deri në 127 (01111111).

Struktura e tabelës koduese ASCII

Numër serik Kodi Simboli
0 - 31 00000000 - 00011111

Simbolet me numra nga 0 në 31 zakonisht quhen karaktere kontrolli.

Funksioni i tyre është të kontrollojnë procesin e shfaqjes së tekstit në ekran ose të printimit, dhënien e një sinjali zanor, shënimin e tekstit, etj.

32 - 127 0100000 - 01111111

Pjesa standarde e tabelës (anglisht). Këtu përfshihen shkronjat e vogla dhe të mëdha të alfabetit latin, shifrat dhjetore, shenjat e pikësimit, të gjitha llojet e kllapave, simbolet tregtare dhe të tjera.

Karakteri 32 është një hapësirë, d.m.th. pozicion bosh në tekst.

Të gjitha të tjerat pasqyrohen në shenja të caktuara.

128 - 255 10000000 - 11111111

Pjesa alternative e tabelës (rusisht).

Gjysma e dytë e tabelës së kodeve ASCII, e quajtur faqja e kodit (128 kode, duke filluar nga 10000000 dhe duke përfunduar me 11111111), mund të ketë variante të ndryshme, secili variant ka numrin e vet.

Faqja e kodit përdoret kryesisht për të akomoduar alfabete kombëtare të ndryshme nga latinishtja. Në kodimet kombëtare ruse, kjo pjesë e tabelës përmban simbole të alfabetit rus.

Gjysma e parë e tabelës ASCII

Tërhiqet vëmendja për faktin se në tabelën e kodimit, shkronjat (të mëdha dhe të vogla) janë renditur sipas rendit alfabetik, dhe numrat janë renditur në rendin rritës të vlerave. Ky respektim i rendit leksikografik në renditjen e karaktereve quhet parimi i kodimit sekuencial të alfabetit.

Për shkronjat e alfabetit rus, respektohet edhe parimi i kodimit sekuencial.

Gjysma e dytë e tabelës ASCII

Për fat të keq, aktualisht ekzistojnë pesë kodime të ndryshme cirilike (KOI8-R, Windows. MS-DOS, Macintosh dhe ISO). Për shkak të kësaj, shpesh lindin probleme me transferimin e tekstit rus nga një kompjuter në tjetrin, nga një sistem softuer në tjetrin.

Kronologjikisht, një nga standardet e para për kodimin e shkronjave ruse në kompjuter ishte KOI8 ("Kodi i shkëmbimit të informacionit, 8-bit"). Ky kodim u përdor përsëri në vitet '70 në kompjuterët e serisë kompjuterike ES, dhe nga mesi i viteve '80 filloi të përdoret në versionet e para të rusifikuara të sistemit operativ UNIX.

Që nga fillimi i viteve '90, koha e dominimit të sistemit operativ MS DOS, kodimi CP866 mbetet ("CP" do të thotë "Faqja e kodit").

Kompjuterët Apple me Mac OS përdorin kodimin e tyre Mac.

Për më tepër, Organizata Ndërkombëtare për Standardizim (Organizata Ndërkombëtare e Standardeve, ISO) miratoi një kodim tjetër të quajtur ISO 8859-5 si standard për gjuhën ruse.

Aktualisht, kodimi më i zakonshëm është Microsoft Windows, i shkurtuar si CP1251. Prezantuar nga Microsoft; duke marrë parasysh shpërndarjen e gjerë të sistemeve operative (OS) dhe produkteve të tjera softuerike të kësaj kompanie në Federatën Ruse, ajo ka gjetur shpërndarje të gjerë.

Që nga fundi i viteve '90, problemi i standardizimit të kodimit të karaktereve është zgjidhur me prezantimin e një standardi të ri ndërkombëtar të quajtur Unicode.

Ky është një kodim 16-bit d.m.th. cakton 2 bajt memorie për çdo karakter. Sigurisht, kjo dyfishon sasinë e memories së përdorur. Por nga ana tjetër, një tabelë e tillë kodesh lejon përfshirjen deri në 65536 karaktere. Specifikimi i plotë i standardit Unicode përfshin të gjitha alfabetet ekzistuese, të zhdukura dhe të krijuara artificialisht të botës, si dhe shumë simbole matematikore, muzikore, kimike dhe të tjera.

Paraqitja e brendshme e fjalëve në kujtesën e kompjuterit

duke përdorur tabelën ASCII

Ndonjëherë ndodh që një tekst i përbërë nga shkronja të alfabetit rus, i marrë nga një kompjuter tjetër, nuk mund të lexohet - një lloj "korrizi" është i dukshëm në ekranin e monitorit. Kjo për faktin se kompjuterët përdorin kodime të ndryshme të karaktereve të gjuhës ruse.

Kështu, çdo kodim specifikohet nga tabela e tij e kodit. Siç mund ta shihni nga tabela, simbole të ndryshme i caktohen të njëjtit kod binar në kodime të ndryshme.

Për shembull, një sekuencë e kodeve numerike 221, 194, 204 në kodimin CP1251 formon fjalën "kompjuter", ndërsa në kodime të tjera do të jetë një grup karakteresh pa kuptim.

Për fat të mirë, në shumicën e rasteve përdoruesi nuk duhet të shqetësohet për transkodimin e dokumenteve tekstuale, pasi kjo bëhet nga programe të veçanta konvertimi të integruara në aplikacione.

V ... Llogaritja e sasisë së informacionit në tekst

Objektivi 1: Kodoni fjalën "Romë" duke përdorur tabelat e kodimit KOI8-R dhe CP1251.

Zgjidhja:

Objektivi 2: Duke supozuar se çdo karakter është i koduar në një bajt, vlerësoni vëllimin e informacionit të fjalisë së mëposhtme:

“Xhaxhai im ka rregullat më të ndershme,

Kur sëmuret rëndë,

Ai e bëri veten të respektonte

Dhe nuk mund ta imagjinoja më mirë."

Zgjidhja: Kjo frazë ka 108 karaktere, duke përfshirë shenjat e pikësimit, thonjëzat dhe hapësirat. Ne e shumëzojmë këtë numër me 8 bit. Ne marrim 108 * 8 = 864 bit.

Objektivi 3: Të dy tekstet përmbajnë të njëjtin numër karakteresh. Teksti i parë është shkruar në rusisht, dhe i dyti në gjuhën e fisit Naguri, alfabeti i të cilit përbëhet nga 16 karaktere. Teksti i kujt mbart më shumë informacion?

Zgjidhja:

1) I = K * a (vëllimi i informacionit të tekstit është i barabartë me produktin e numrit të karaktereve me peshën e informacionit të një karakteri).

2) Sepse të dy tekstet kanë të njëjtin numër karakteresh (K), ndryshimi varet nga informativiteti i një karakteri të alfabetit (a).

3) 2 a1 = 32, d.m.th. a 1 = 5 bit, 2 a2 = 16, d.m.th. a 2 = 4 bit.

4) I 1 = K * 5 bit, I 2 = K * 4 bit.

5) Kjo do të thotë që teksti i shkruar në Rusisht është 5/4 herë më shumë informacion.

Detyra 4: Madhësia e mesazhit, që përmban 2048 karaktere, ishte 1/512 e një MB. Përcaktoni kardinalitetin e alfabetit.

Zgjidhja:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bit - vëllimi i informacionit të mesazhit u shndërrua në bit.

2) a = I / K = 16384/1024 = 16 bit - bie në një karakter të alfabetit.

3) 2 * 16 * 2048 = 65536 karaktere - fuqia e alfabetit të përdorur.

Detyra 5: Printeri lazer Canon LBP printon me një mesatare prej 6,3 Kbps. Sa kohë do të duhet për të printuar një dokument me 8 faqe nëse dihet se mesatarisht ka 45 rreshta në një faqe, 70 karaktere për rresht (1 karakter - 1 bajt)?

Zgjidhja:

1) Gjeni sasinë e informacionit që përmban 1 faqe: 45 * 70 * 8 bit = 25200 bit

2) Gjeni sasinë e informacionit në 8 faqe: 25200 * 8 = 201600 bit

3) Ne i sjellim njësitë uniforme të matjes. Për ta bërë këtë, përktheni Mbit në bit: 6.3 * 1024 = 6451.2 bit / s.

4) Gjeni kohën e printimit: 201600: 6451.2 = 31 sekonda.

Bibliografi

1. Ageev V.M. Teoria e informacionit dhe kodimit: diskretimi dhe kodimi i informacionit të matjes. - M .: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Bazat e teorisë dhe kodimit të informacionit. - Kiev, shkolla Vishcha, 1986.

3. Metodat më të thjeshta të kriptimit të tekstit / D.M. Zlatopolsky. - M .: Chistye Prudy, 2007 - 32 f.

4. Ugrinovich N.D. Informatika dhe teknologjia e informacionit. Libër mësuesi për klasat 10-11 / N.D. Ugrinovich. - M .: BINOM. Laboratori i Dijes, 2003 .-- 512 f.

5.http: //school497.spb.edu.ru/uchint002/les10/les.html#n

Materiali i vetëstudimit në lidhje me Leksionet 2

Kodimi ASCII

Tabela e kodeve ASCII (ASCII - Kodi standard amerikan për shkëmbimin e informacionit - Kodi standard amerikan për shkëmbimin e informacionit).

Në total, 256 karaktere të ndryshme mund të kodohen duke përdorur tabelën e kodimit ASCII (Figura 1). Kjo tabelë është e ndarë në dy pjesë: kryesore (me kode nga OOh në 7Fh) dhe shtesë (nga 80h në FFh, ku shkronja h tregon se kodi i përket sistemit të numrave heksadecimal).

Foto 1

Për të koduar një karakter nga tabela, ndahen 8 bit (1 bajt). Kur përpunoni informacionin e tekstit, një bajt mund të përmbajë kodin e një simboli të caktuar - shkronja, numra, shenjë pikësimi, shenjë veprimi, etj. Çdo karakter ka kodin e vet në formën e një numri të plotë. Në këtë rast, të gjitha kodet mblidhen në tabela të veçanta të quajtura tabela kodimi. Me ndihmën e tyre, kodi i karakterit shndërrohet në paraqitjen e tij të dukshme në ekranin e monitorit. Si rezultat, çdo tekst në kujtesën e kompjuterit përfaqësohet si një sekuencë bajtesh me kode karakteresh.

Për shembull, fjala përshëndetje! do të kodohet si më poshtë (tabela 1).

Tabela 1

Kodi binar

Kodi dhjetor

Figura 1 tregon karakteret e përfshira në kodimin standard (anglisht) dhe të zgjeruar (rusisht) ASCII.

Gjysma e parë e tabelës ASCII është e standardizuar. Ai përmban kode kontrolli (00h deri në 20h dhe 77h). Këto kode janë hequr nga tabela, pasi ato nuk zbatohen për elementët e tekstit. Këtu gjenden edhe shenjat e pikësimit dhe ato matematikore: 2lh -!, 26h - &, 28h - (, 2Bh - +, ..., shkronja të mëdha dhe të vogla latine: 41h - A, 61h - а.

Gjysma e dytë e tabelës përmban shkronja kombëtare, simbole pseudografike nga të cilat mund të ndërtohen tabela dhe shenja të veçanta matematikore. Pjesa e poshtme e tabelës së kodimit mund të zëvendësohet duke përdorur drejtuesit e duhur - programet ndihmëse të kontrollit. Kjo teknikë ju lejon të përdorni shumë shkronja dhe shkronjat e tyre.

Ekrani për çdo kod karakteri duhet të shfaqë një imazh të personazhit në ekran - jo vetëm një kod dixhital, por një fotografi që i korrespondon atij, pasi çdo karakter ka formën e vet. Përshkrimi i formës së secilit simbol ruhet në një memorie të veçantë të ekranit - një gjenerues karakteresh. Theksimi i një simboli në ekranin e ekranit të IBM PC, për shembull, kryhet duke përdorur pika që formojnë një matricë simbolike. Çdo piksel në një matricë të tillë është një element imazhi dhe mund të jetë i ndritshëm ose i errët. Pika e errët kodohet me numrin 0, drita (e ndritshme) - 1. Nëse përfaqësoni pikselët e errët në fushën e matricës së shenjës me një pikë dhe pikselat e lehta me një yll, mund të përshkruani grafikisht formën e simbolit. .

Njerëzit në vende të ndryshme përdorin simbole për të shkruar fjalë në gjuhët e tyre amtare. Shumica e aplikacioneve këto ditë, duke përfshirë sistemet e postës elektronike dhe shfletuesit e uebit, janë të pastër 8-bit, që do të thotë se ata mund të shfaqin dhe interpretojnë vetëm karaktere 8-bitësh sipas standardit ISO-8859-1.

Ka më shumë se 256 karaktere në botë (nëse marrim parasysh gjuhët cirilike, arabe, kineze, japoneze, koreane dhe tajlandeze) dhe shfaqen gjithnjë e më shumë karaktere. Dhe kjo krijon boshllëqet e mëposhtme për shumë përdorues:

Nuk është e mundur të përdoren karaktere nga grupe të ndryshme kodimi në të njëjtin dokument. Meqenëse çdo dokument teksti përdor grupin e vet të kodimeve, ka vështirësi të mëdha me njohjen automatike të tekstit.

Shfaqen simbole të reja (për shembull: Euro), si rezultat i të cilave ISO po zhvillon një standard të ri ISO-8859-15, i cili është shumë i ngjashëm me standardin ISO-8859-1. Dallimi është si më poshtë: nga tabela e kodimit të standardit të vjetër ISO-8859-1, simbolet për përcaktimin e monedhave të vjetra që nuk përdoren aktualisht janë hequr në mënyrë që të lihet vend për simbolet e saposhfaqura (si Euro ). Si rezultat, përdoruesit mund të kenë të njëjtat dokumente në disqet e tyre, por në kodime të ndryshme. Zgjidhja e këtyre problemeve është miratimi i një grupi të vetëm ndërkombëtar kodimesh të quajtur kodimi universal ose Unicode.

Kodimi Unicode

Standardi u propozua në 1991 nga Konsorciumi Unicode, Unicode Inc., një organizatë jofitimprurëse. Përdorimi i këtij standardi bën të mundur kodimin e një numri shumë të madh karakteresh nga skriptet e ndryshme: në dokumentet Unicode, karakteret kineze, karakteret matematikore, shkronjat e alfabetit grek, latinishtja dhe alfabeti cirilik mund të bashkëjetojnë, kështu që ndërrimi i faqeve të kodit bëhet i panevojshëm.

Standardi përbëhet nga dy seksione kryesore: grupi universal i karaktereve (UCS) dhe formati i transformimit të Unicode (UTF). Kompleti universal i karaktereve përcakton një korrespondencë një-për-një të karaktereve me kodet - elementë të hapësirës së kodit që përfaqësojnë numra të plotë jo negativë. Familja e kodimeve përcakton paraqitjen e makinës të një sekuence kodesh UCS.

Standardi Unicode u zhvillua me qëllimin e krijimit të një kodimi uniform të karaktereve për të gjitha gjuhët e shkruara moderne dhe shumë të lashta. Çdo karakter në këtë standard është i koduar në 16 bit, gjë që e lejon atë të mbulojë një numër pakrahasueshëm më të madh karakteresh sesa kodimet 8-bitëshe të pranuara më parë. Një tjetër ndryshim i rëndësishëm midis Unicode dhe sistemeve të tjera të kodimit është se ai jo vetëm që cakton një kod unik për secilin karakter, por gjithashtu përcakton karakteristika të ndryshme të këtij karakteri, për shembull:

    lloji i karakterit (shkronja e madhe, shkronja e vogël, numri, shenja e pikësimit, etj.);

    atributet e karaktereve (ekrani nga e majta në të djathtë ose nga e djathta në të majtë, hapësira, ndërprerja e rreshtit, etj.);

    shkronja përkatëse e madhe ose e vogël (përkatësisht për shkronjat e vogla dhe të mëdha);

    vlerën numerike përkatëse (për karakteret numerike).

I gjithë diapazoni i kodeve nga 0 në FFFF është i ndarë në disa nëngrupe standarde, secila prej të cilave korrespondon ose me alfabetin e një gjuhe të caktuar, ose me një grup karakteresh të veçanta që janë të ngjashme në funksionet e tyre. Diagrami më poshtë ofron një listë të përgjithshme të nëngrupeve Unicode 3.0 (Figura 2).

Foto 2

Standardi Unicode është baza për ruajtjen dhe tekstin në shumë sisteme kompjuterike moderne. Sidoqoftë, ai nuk është i pajtueshëm me shumicën e protokolleve të Internetit, pasi kodet e tij mund të përmbajnë çdo vlerë bajt, dhe protokollet zakonisht përdorin bajt 00 - 1F dhe FE - FF si sipër. Për të arritur ndërveprueshmërinë, janë zhvilluar disa formate të transformimit të Unicode (UTF, Unicode Transformation Formats), prej të cilave UTF-8 është më i zakonshmi sot. Ky format përcakton rregullat e mëposhtme për konvertimin e çdo kodi Unicode në një grup bajtësh (një deri në tre) të përshtatshëm për transport me protokollet e internetit.

Këtu x, y, z tregojnë pjesët e kodit burimor që duhet të nxirren, duke filluar me atë më pak të rëndësishëm, dhe të futen në bajtet e rezultatit nga e djathta në të majtë derisa të plotësohen të gjitha pozicionet e specifikuara.

Zhvillimi i mëtejshëm i standardit Unicode shoqërohet me shtimin e planeve të reja gjuhësore, d.m.th. karaktere në rangun 10000 - 1FFFF, 20000 - 2FFFF, etj., ku supozohet të përfshijë kodimin për skriptet e gjuhëve të vdekura që nuk përfshihen në tabelën e mësipërme. Një format i ri UTF-16 u zhvillua për të koduar këto karaktere shtesë.

Kështu, ekzistojnë 4 mënyra kryesore për të koduar bajtet e Unicode:

UTF-8: 128 karaktere janë të koduara në një bajt (format ASCII), 1920 karaktere janë të koduara në 2 bajt ((Romake, greke, cirilike, koptike, armene, hebraike, arabe), 63488 karaktere janë të koduara në 3 bajt (kineze , japoneze dhe të tjerë) 2,147,418,112 karakteret e mbetura (jo të përdorura ende) mund të kodohen me 4, 5 ose 6 bajt.

UCS-2: Çdo karakter përfaqësohet nga 2 bajt. Ky kodim përfshin vetëm 65,535 karakteret e para nga formati Unicode.

UTF-16: Kjo është një shtesë e UCS-2 dhe përfshin 1 114 112 karaktere Unicode. 65.535 karakteret e para përfaqësohen me 2 bajt, pjesa tjetër me 4 bajt.

USC-4: Çdo karakter është i koduar në 4 bajt.

Çdo kompjuter ka grupin e vet të simboleve, të cilat i zbaton. Ky grup përmban 26 shkronja të mëdha dhe të vogla, numra dhe karaktere speciale (periudha, hapësira, etj.). Simbolet kur përkthehen në numra të plotë quhen kode. Standardet janë zhvilluar në mënyrë që kompjuterët të kenë të njëjtin grup kodesh.

Standardi ASCII

ASCII (American Standard Code for Inmormation Interchange) është kodi standard amerikan për shkëmbimin e informacionit. Çdo karakter ASCII ka 7 bit, kështu që numri maksimal i karaktereve është 128 (Tabela 1). Kodet 0 deri në 1F janë karaktere kontrolli dhe nuk printohen. Për transferimin e të dhënave nevojiten shumë karaktere ASCII jo të printueshme. Për shembull, një mesazh mund të përbëhet nga karakteri i fillimit të titullit SOH, karakteri i titullit STX dhe i fillimit të tekstit, vetë teksti ETX dhe karakteri i fundit të tekstit dhe karakteri i fundit i transmetimit EOT. Megjithatë, të dhënat në rrjet transmetohen në pako, të cilat janë vetë përgjegjëse për fillimin dhe përfundimin e transmetimit. Pra, karakteret jo të printueshme pothuajse nuk përdoren kurrë.

Tabela 1 - Tabela e kodit ASCII

Numri Komanda Kuptimi Numri Komanda Kuptimi
0 NUL Treguesi null 10 DLE Dalja nga sistemi i transmetimit
1 SOH fillimi i titullit 11 DC1 Menaxhimi i pajisjes
2 STX Fillimi i tekstit 12 DC2 Menaxhimi i pajisjes
3 ETX Fundi i tekstit 13 DC3 Menaxhimi i pajisjes
4 EOT Fundi i transmetimit 14 DC4 Menaxhimi i pajisjes
5 ACK hetim 15 NAK Moskonfirmimi i pranimit
6 BEL Konfirmimi i pranimit 16 SYN E thjeshtë
7 BS Simboli i ziles 17 ETB Fundi i bllokut të transferimit
8 Ht Indent mbrapa 18 MUND shënim
9 LF Skeda horizontale 19 EM Fundi i medias
A VT Përkthimi i linjës 1A NËN Abonim
B FF Skeda vertikale 1B ESC Prodhimi
C CR Përkthimi i faqes 1C FS Ndarës i skedarëve
D KËSHTU QË Kthim ngarkese 1D GS Ndarës grupi
E SI Kalimi në regjistër shtesë 1E Rs Ndarës rekordesh
SI Kaloni në regjistrin standard 1F SHBA Ndarës i moduleve
Numri Simboli Numri Simboli Numri Simboli Numri Simboli Numri Simboli Numri Simboli
20 hapësirë 30 0 40 @ 50 P 60 . 70 fq
21 ! 31 1 41 A 51 P 61 a 71 q
22 32 2 42 B 52 R 62 b 72 r
23 # 33 3 43 C 53 S 63 c 73 s
24 φ 34 4 44 D 54 T 64 d 74 t
25 % 35 5 45 E 55 DHE 65 e 75 dhe
26 & 36 6 46 F 56 V 66 f 76 v
27 37 7 47 G 57 W 67 g 77 w
28 ( 38 8 48 H 58 X 68 h 78 x
29 ) 39 9 49 Unë 59 Y 69 i 70 y
2A 3A ; 4A J 5A Z 6A j 7A z
2B + 3B ; 4B K 5B [ 6B k 7B {
2C 3C < 4C L 5C \ 6C l 7C |
2D 3D = 4D M 5D ] 6D m 7D }
2E 3E > 4E N 5E 6E n 7E ~
2F / 3F g 4F O 5F _ 6F o 7F DEL

Standardi Unicode

Kodimi i mëparshëm është i shkëlqyeshëm për anglisht, por jo i përshtatshëm për gjuhët e tjera. Për shembull, në gjermanisht ka umlauts, dhe në frëngjisht ka mbishkrime. Disa gjuhë kanë alfabete krejtësisht të ndryshme. Përpjekja e parë për të zgjeruar ASCII ishte IS646, e cila zgjeroi kodimin e mëparshëm me 128 karaktere shtesë. Shtoi shkronja latine me goditje dhe diakritikë dhe mori emrin - Latin 1. Përpjekja tjetër ishte IS 8859 - e cila përmbante një faqe kodi. Kishte ende përpjekje për zgjerime, por kjo nuk ishte universale. U krijua kodimi UNICODE (është 10646). Ideja prapa kodimit është që çdo karakteri t'i caktohet një vlerë e vetme konstante 16-bitëshe, e cila quhet - treguesi i kodit... Kjo jep një total prej 65536 treguesish. Për të kursyer hapësirë, ne përdorëm Latin-1 për kodet 0-255, duke ndryshuar lehtësisht ASII në UNICODE. Ky standard zgjidhi shumë probleme, por jo të gjitha. Në lidhje me ardhjen e fjalëve të reja, për shembull, për gjuhën japoneze, duhet të rrisni numrin e termave me rreth 20 mijë. Duhet të përfshini edhe shkrimin braille.

[Kodimi 8-bit: ASCII, KOI-8R dhe CP1251] Tabelat e para të grupeve të karaktereve të krijuara në SHBA nuk përdorën bitin e tetë në një bajt. Teksti u paraqit si një sekuencë bajtash, por biti i tetë nuk u mor parasysh (është përdorur për qëllime shërbimi).

Standardi i pranuar përgjithësisht është bërë tabela ASCII(Kodi standard amerikan për shkëmbimin e informacionit). 32 karakteret e para ASCII (00 deri në 1F) u përdorën për karaktere që nuk mund të printohen. Ato ishin krijuar për të kontrolluar një pajisje printimi dhe të ngjashme. Pjesa tjetër - nga 20 në 7 F - janë karaktere normale (të printueshme).

Tabela 1 - Kodimi ASCII

dhjetorHekstetorCharPërshkrim
0 0 000 i pavlefshëm
1 1 001 fillimi i titullit
2 2 002 fillimi i tekstit
3 3 003 fundi i tekstit
4 4 004 fundi i transmetimit
5 5 005 hetim
6 6 006 pranoj
7 7 007 zile
8 8 010 backspace
9 9 011 skedë horizontale
10 A 012 linjë e re
11 B 013 skedë vertikale
12 C 014 faqe e re
13 D 015 kthim ngarkese
14 E 016 zhvendosja jashtë
15 F 017 zhvendosje brenda
16 10 020 ikja e lidhjes së të dhënave
17 11 021 kontrolli i pajisjes 1
18 12 022 kontrolli i pajisjes 2
19 13 023 kontrolli i pajisjes 3
20 14 024 kontrolli i pajisjes 4
21 15 025 pranimi negativ
22 16 026 boshe sinkron
23 17 027 fundi i trans. bllokoj
24 18 030 anuloni
25 19 031 fundi i mesëm
26 1A 032 zëvendësues
27 1B 033 arratisje
28 1C 034 ndarës i skedarëve
29 1D 035 ndarës grupi
30 1E 036 ndarës rekord
31 1F 037 ndarës njësi
32 20 040 hapësirë
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
dhjetorHekstetorChar
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 Unë
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 O
80 50 120 P
81 51 121 P
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 a
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 fq
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 x
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Siç mund ta shihni lehtësisht, ky kodim përmban vetëm shkronja latine dhe ato që përdoren në anglisht. Ekzistojnë gjithashtu simbole aritmetike dhe të tjera shërbimi. Por nuk ka shkronja ruse, madje as shkronja të veçanta latine për gjermanishten apo frëngjishten. Kjo është e lehtë për t'u shpjeguar - kodimi u zhvillua posaçërisht si një standard amerikan. Kur kompjuterët filluan të përdoren në të gjithë botën, u bë i nevojshëm kodimi i simboleve të tjera.

Për këtë, u vendos që të përdoret biti i tetë në çdo bajt. Kështu, 128 vlera të tjera ishin në dispozicion (nga 80 në FF), të cilat mund të përdoren për të koduar karakteret. E para nga tabelat me tetë bit është "ASCII e zgjeruar" ( ASCII i zgjeruar) - përfshinte variante të ndryshme të karaktereve latine të përdorura në disa gjuhë të Evropës Perëndimore. Ai gjithashtu përmbante simbole të tjera shtesë, duke përfshirë pseudografikë.

Karakteret pseudografike lejojnë, duke shfaqur vetëm karaktere teksti, të japin njëfarë pamjeje grafike. Për shembull, programi për menaxhimin e skedarëve FAR Manager funksionon me ndihmën e pseudografikës.

Nuk kishte shkronja ruse në tabelën e zgjeruar ASCII. Në Rusi (ish BRSS) dhe në shtetet e tjera, u krijuan kodimet e tyre, të cilat bënë të mundur përfaqësimin e karaktereve specifike "kombëtare" në skedarë teksti 8-bit - shkronja latine të gjuhëve polake dhe çeke, cirilike (përfshirë shkronjat ruse ) dhe alfabete të tjera.

Në të gjitha kodimet që janë bërë të përhapura, 127 karakteret e para (d.m.th., vlerat e bajtit me bitin e tetë të barabartë me 0) përkojnë me ASCII. Kështu, një skedar ASCII funksionon në cilindo nga këto kodime; shkronjat e gjuhës angleze përfaqësohen në të njëjtën mënyrë.

Organizimi ISO(Organizata Ndërkombëtare e Standardizimit) miratoi një grup standardesh ISO 8859... Ai përcakton kodimet 8-bit për grupe të ndryshme gjuhësh. Pra, ISO 8859-1 është Extended ASCII, një tabelë për Shtetet e Bashkuara dhe Evropën Perëndimore. Dhe ISO 8859-5 është një tabelë për cirilik (përfshirë rusishten).

Megjithatë, për arsye historike, kodimi ISO 8859-5 nuk ka arritur. Në realitet, kodimet e mëposhtme përdoren për gjuhën ruse:

Kodi Faqe 866 ( CP866), i njohur si "DOS", i njohur si "kodimi alternativ GOST". U përdor gjerësisht deri në mesin e viteve '90; tani përdoret në një masë të kufizuar. Praktikisht nuk përdoret për shpërndarjen e teksteve në internet.
- KOI-8. Zhvilluar në vitet '70 dhe '80. Është një standard përgjithësisht i pranuar për transmetimin e mesazheve postare në internetin rus. Përdoret gjithashtu gjerësisht në sistemet operative të familjes Unix, duke përfshirë Linux. Versioni KOI-8, i krijuar për gjuhën ruse, quhet KOI-8R; ka versione për gjuhë të tjera cirilike (për shembull, KOI8-U është një opsion për gjuhën ukrainase).
- Kodi Faqe 1251, CP1251, Windows-1251. Zhvilluar nga Microsoft për të mbështetur gjuhën ruse në Windows.

Avantazhi kryesor i CP866 ishte ruajtja e karaktereve pseudografike në të njëjtat vende si në Extended ASCII; prandaj, programet me tekst të huaj, për shembull, i famshëm Norton Commander, mund të funksiononin pa ndryshime. Në ditët e sotme CP866 përdoret për programet Windows që ekzekutohen në dritare me tekst ose në modalitetin e tekstit në ekran të plotë, duke përfshirë "FAR Manager".

Vitet e fundit, tekstet në CP866 janë mjaft të rralla (por përdoret për të koduar emrat e skedarëve rusë në Windows). Prandaj, do të ndalemi më në detaje në dy kodime të tjera - KOI-8R dhe CP1251.



Siç mund ta shihni, në tabelën e kodimit CP1251, shkronjat ruse janë rregulluar sipas rendit alfabetik (me përjashtim të shkronjës E). Ky rregullim e bën shumë të lehtë që programet kompjuterike të renditen sipas alfabetit.

Por në KOI-8R, renditja e shkronjave ruse duket të jetë e rastësishme. Por në fakt nuk është kështu.

Shumë programe të vjetra humbën bitin e 8-të gjatë përpunimit ose transmetimit të tekstit. (Tani programe të tilla praktikisht janë "shuar", por në fund të viteve '80 - fillimi i viteve '90 ato ishin të përhapura). Për të marrë një vlerë 7-bitësh nga një vlerë 8-bitësh, zbritni 8 nga shifra më e rëndësishme; për shembull E1 bëhet 61.

Tani krahasoni KOI-8R me tabelën ASCII (Tabela 1). Do të zbuloni se shkronjat ruse janë të lidhura qartë me ato latine. Nëse biti i tetë zhduket, shkronjat e vogla ruse kthehen në shkronja të mëdha latine dhe shkronjat e mëdha ruse kthehen në shkronja të vogla latine. Pra, E1 në KOI-8 është rusisht "A", ndërsa 61 në ASCII është latinisht "a".

Pra, KOI-8 ju lejon të ruani lexueshmërinë e tekstit rus duke humbur bitin e 8-të. "Përshëndetje të gjithëve" bëhet "pRIWET WSEM".

Kohët e fundit, si rendi alfabetik i karaktereve në tabelën e kodimit ashtu edhe lexueshmëria me humbjen e bitit të 8-të kanë humbur rëndësinë e tyre vendimtare. Biti i tetë në kompjuterët modernë nuk humbet as gjatë transmetimit dhe as gjatë përpunimit. Renditja sipas rendit alfabetik bazohet në kodim, dhe jo në krahasim të thjeshtë të kodeve. (Nga rruga, kodet CP1251 nuk janë plotësisht alfabetike - shkronja E nuk është në vendin e saj).

Për shkak të faktit se ekzistojnë dy kodime të zakonshme, kur punoni me internetin (mail, shfletimi i faqeve në internet), ndonjëherë mund të shihni një grup të pakuptimtë shkronjash në vend të tekstit rus. Për shembull, "Unë jam SBUFEMHEL". Këto janë vetëm fjalët "me respekt"; por ato ishin të koduara në kodimin CP1251, dhe kompjuteri deshifroi tekstin sipas tabelës KOI-8. Nëse të njëjtat fjalë ishin, përkundrazi, të koduara në KOI-8, dhe kompjuteri deshifroi tekstin sipas tabelës CP1251, rezultati do të jetë "У ХЧБЦЕОЙЕН".

Ndonjëherë ndodh që kompjuteri të deshifrojë fare shkronjat në gjuhën ruse sipas një tabele që nuk është menduar për gjuhën ruse. Pastaj, në vend të shkronjave ruse, shfaqet një grup simbolesh të pakuptimta (për shembull, shkronja latine të gjuhëve të Evropës Lindore); ata shpesh quhen "crocozyabras".

Në shumicën e rasteve, programet moderne përballen me përcaktimin e kodimeve të dokumenteve të Internetit (email dhe faqe në internet). Por ndonjëherë ata "shkojnë keq", dhe më pas mund të shihni sekuenca të çuditshme të shkronjave ruse ose "krokozyabra". Si rregull, për të shfaqur tekstin real në ekran, mjafton të zgjidhni kodimin manualisht në menunë e programit.

Për artikullin, u përdor informacioni nga faqja http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Materiali i marrë nga faqja:

Siç e dini, një kompjuter ruan informacionin në formë binare, duke e paraqitur atë si një sekuencë njësh dhe zero. Për të përkthyer informacionin në një formë që është e përshtatshme për perceptimin njerëzor, çdo sekuencë unike e numrave zëvendësohet me simbolin përkatës kur shfaqet.

Një nga sistemet për lidhjen e kodeve binare me karakteret e printueshme dhe të kontrollit është

Në nivelin aktual të zhvillimit të teknologjisë kompjuterike, përdoruesi nuk kërkohet të dijë kodin e çdo simboli specifik. Sidoqoftë, një kuptim i përgjithshëm se si kryhet kodimi është jashtëzakonisht i dobishëm, dhe për disa kategori specialistësh madje i nevojshëm.

Krijimi i ASCII

Në formën e tij origjinale, kodimi u zhvillua në 1963 dhe më pas u përditësua dy herë brenda 25 viteve.

Në versionin origjinal, tabela e karaktereve ASCII përfshinte 128 karaktere, më vonë u shfaq një version i zgjeruar, ku u ruajtën 128 karakteret e para dhe karakteret që mungonin më parë iu caktuan kodeve me bitin e tetë të përfshirë.

Për shumë vite, ky kodim ka qenë më i popullarizuari në botë. Në vitin 2006, Latin 1252 zuri pozitën udhëheqëse, dhe nga fundi i 2007 e deri më sot, Unicode ka mbajtur me vendosmëri pozicionin drejtues.

Përfaqësimi kompjuterik ASCII

Çdo karakter ASCII ka kodin e tij prej 8 karakteresh që përfaqësojnë zero ose një. Numri minimal në një paraqitje të tillë është zero (tetë zero në sistemin binar), që është kodi i elementit të parë në tabelë.

Dy kode në tabelë u rezervuan për kalimin midis standardit US-ASCII dhe versionit të tij kombëtar.

Pasi ASCII filloi të përfshijë jo 128, por 256 karaktere, një variant i kodimit u përhap gjerësisht, në të cilin versioni origjinal i tabelës u ruajt në 128 kodet e para me një bit të 8-të zero. Shenjat e shkrimit kombëtar ruheshin në gjysmën e sipërme të tabelës (pozicionet 128-255).

Përdoruesi nuk ka nevojë të dijë drejtpërdrejt kodet e karaktereve ASCII. Zakonisht mjafton që një zhvillues softuerësh të dijë numrin e një elementi në një tabelë në mënyrë që të llogarisë kodin e tij duke përdorur një sistem binar, nëse është e nevojshme.

Gjuha ruse

Pas zhvillimit të kodimeve për gjuhët skandinave, kineze, koreane, greqisht, etj në fillim të viteve 70, edhe Bashkimi Sovjetik filloi të krijojë versionin e tij. Së shpejti, u zhvillua një version i kodimit 8-bit i quajtur KOI8, i cili ruan 128 kodet e para të karaktereve ASCII dhe cakton të njëjtin numër pozicionesh për shkronjat e alfabetit kombëtar dhe karaktere shtesë.

Para prezantimit të Unicode, KOI8 dominonte segmentin rus të internetit. Kishte opsione kodimi për alfabetin rus dhe ukrainas.

Problemet ASCII

Meqenëse numri i elementeve edhe në tabelën e zgjeruar nuk i kalonte 256, nuk ekzistonte mundësia e vendosjes së disa skripteve të ndryshme në një kodim. Në vitet '90, problemi i "crocozyabr" u shfaq në Runet, kur tekstet e shtypura me karaktere ruse ASCII u shfaqën gabimisht.

Problemi ishte se kodet e varianteve të ndryshme ASCII nuk përputheshin me njëri-tjetrin. Kujtoni që pozicionet 128-255 mund të përmbajnë karaktere të ndryshme, dhe kur ndryshoni një kodim cirilik në një tjetër, të gjitha shkronjat e tekstit u zëvendësuan me të tjera që kishin një numër identik në një version tjetër të kodimit.

Gjendja e tanishme

Me ardhjen e Unicode, popullariteti i ASCII ra ndjeshëm.

Arsyeja për këtë qëndron në faktin se kodimi i ri bëri të mundur akomodimin e shenjave të pothuajse të gjitha gjuhëve të shkruara. Në këtë rast, 128 karakteret e para ASCII korrespondojnë me të njëjtat karaktere në Unicode.

Në vitin 2000, ASCII ishte kodimi më i popullarizuar në internet dhe përdorej në 60% të faqeve të internetit të indeksuara nga Google. Deri në vitin 2012, pjesa e faqeve të tilla kishte rënë në 17%, dhe Unicode (UTF-8) zuri vendin e kodimit më të njohur.

Kështu, ASCII është një pjesë e rëndësishme e historisë së teknologjisë së informacionit, por përdorimi i tij në të ardhmen shihet si jopremtues.

dhjetor Heks Simboli dhjetor Heks Simboli
000 00 specialist. JO 128 80 Ђ
001 01 specialist. SOH 129 81 Ѓ
002 02 specialist. STX 130 82
003 03 specialist. ETX 131 83 ѓ
004 04 specialist. EOT 132 84
005 05 specialist. ENQ 133 85
006 06 specialist. ACK 134 86
007 07 specialist. BEL 135 87
008 08 specialist. BS 136 88
009 09 specialist. TAB 137 89
010 0Aspecialist. LF 138 8AЉ
011 0Bspecialist. VT 139 8B‹ ‹
012 0Cspecialist. FF 140 8CЊ
013 0Dspecialist. CR 141 8DЌ
014 0Especialist. KËSHTU QË 142 8EЋ
015 0Fspecialist. SI 143 8FЏ
016 10 specialist. DLE 144 90 ђ
017 11 specialist. DC1 145 91
018 12 specialist. DC2 146 92
019 13 specialist. DC3 147 93
020 14 specialist. DC4 148 94
021 15 specialist. NAK 149 95
022 16 specialist. SYN 150 96
023 17 specialist. ETB 151 97
024 18 specialist. MUND 152 98
025 19 specialist. EM 153 99
026 1Aspecialist. NËN 154 9Aљ
027 1Bspecialist. ESC 155 9B
028 1Cspecialist. FS 156 9Cњ
029 1Dspecialist. GS 157 9Dќ
030 1Especialist. Rs 158 9Eћ
031 1Fspecialist. SHBA 159 9Fџ
032 20 tufë SP (Hapësirë) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Jo
041 29 ) 169 A9©
042 2A* 170 AAЄ
043 2B+ 171 AB«
044 2C, 172 AC¬
045 2D- 173 pas Krishtit­
046 2E. 174 AE®
047 2F/ 175 AFЇ
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 BAє
059 3B; 187 BB»
060 3C< 188 para Krishtitј
061 3D= 189 BDЅ
062 3E> 190 BËHETѕ
063 3F? 191 Bfї
064 40 @ 192 C0 A
065 41 A 193 C1 B
066 42 B 194 C2 V
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 F
071 47 G 199 C7 Z
072 48 H 200 C8 DHE
073 49 Unë 201 C9 Th
074 4AJ 202 CA TE
075 4BK 203 CB L
076 4CL 204 CC M
077 4DM 205 CD N
078 4EN 206 CE O
079 4FO 207 CF NS
080 50 P 208 D0 R
081 51 P 209 D1 ME
082 52 R 210 D2 T
083 53 S 211 D3 Kanë
084 54 T 212 D4 F
085 55 U 213 D5 NS
086 56 V 214 D6 C
087 57 W 215 D7 H
088 58 X 216 D8 NS
089 59 Y 217 D9 SCH
090 5AZ 218 DA B
091 5B[ 219 DB NS
092 5C\ 220 DC B
093 5D] 221 DD NS
094 5E^ 222 DE NS
095 5F_ 223 DF UNË JAM
096 60 ` 224 E0 a
097 61 a 225 E1 b
098 62 b 226 E2 v
099 63 c 227 E3 G
100 64 d 228 E4 d
101 65 e 229 E5 e
102 66 f 230 E6 f
103 67 g 231 E7 s
104 68 h 232 E8 dhe
105 69 i 233 E9 th
106 6Aj 234 EA për të
107 6Bk 235 EB l
108 6Cl 236 KE m
109 6Dm 237 ED n
110 6En 238 EE O
111 6Fo 239 EF NS
112 70 fq 240 F0 R
113 71 q 241 F1 me
114 72 r 242 F2 T
115 73 s 243 F3
116 74 t 244 F4 f
117 75 u 245 F5 NS
118 76 v 246 F6 c
119 77 w 247 F7 h
120 78 x 248 F8 NS
121 79 y 249 F9 SCH
122 7Az 250 FA b
123 7B{ 251 FB NS
124 7C| 252 FC b
125 7D} 253 FD NS
126 7E~ 254 FE NS
127 7FSpecialist. DEL 255 FF unë jam

Tabela e kodit të karaktereve të Windows ASCII.
Përshkrimi i karaktereve speciale (kontroll).

Duhet të theksohet se fillimisht karakteret e kontrollit të tabelës ASCII u përdorën për të siguruar shkëmbimin e të dhënave nëpërmjet teletipit, futjen e të dhënave nga shiriti i shtypur dhe për kontrollin më të thjeshtë të pajisjeve të jashtme.
Aktualisht, shumica e karaktereve të kontrollit ASCII në tabelë nuk e mbajnë më këtë barrë dhe mund të përdoren për qëllime të tjera.
Kodi Përshkrim
NUL, 00E pavlefshme, bosh
SOH, 01Fillimi i titullit, fillimi i titullit
STX, 02Fillimi i TeXt, fillimi i tekstit.
ETX, 03Fundi i TeXt, fundi i tekstit
EOT, 04Fundi i transmetimit, fundi i transmetimit
ENQ, 05Pyete. Kërkoj konfirmim
ACK, 06Mirënjohje. Unë konfirmoj
BEL, 07Zile, zile
BS, 08Backspace, kthehu një personazh
TAB, 09Skeda, skeda horizontale
LF, 0AFurnizimi i linjës, furnizimi i linjës.
Tani në shumicën e gjuhëve programuese shënohet si \ n
VT, 0BSkeda vertikale, skeda vertikale.
FF, 0CFurnizimi i formularit, Furnizimi i faqeve, Faqe e re
CR, 0DKthim ngarkese
Tani në shumicën e gjuhëve të programimit shënohet si \ r
SO, 0EShift Out, ndryshoni ngjyrën e shiritit të bojës në pajisjen e printimit
SI, 0FShift In, ktheni përsëri ngjyrën e shiritit të bojës në pajisjen e printimit
DLE, 10Data Link Escape, kaloni kanalin në transmetimin e të dhënave
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Kontrolli i pajisjes, simbolet e kontrollit të pajisjes
NAK, 15Mirënjohje negative, nuk e pranoj.
SYN, 16Sinkronizimi. Simboli i sinkronizimit
ETB, 17Fundi i bllokut të tekstit, fundi i bllokut të tekstit
CAN, 18Anulo, duke anuluar një të kaluar më parë
EM, 19Fundi i Mediumit, fundi i bartësit të të dhënave
SUB, 1AZëvendësues Vendosur në vend të një personazhi vlera e të cilit humbi ose u korruptua gjatë transmetimit
ESC, 1BEscape Escape Sequence
FS, 1CNdarës i skedarëve, ndarës i skedarëve
GS, 1DNdarës grupi, ndarës grupi
RS, 1ENdarës rekord, ndarës rekord
SHBA, 1FNdarës njësi, ndarës njësi
DEL, 7FFshi, fshi karakterin e fundit.

Artikujt kryesorë të lidhur