Tablica znakova ascii binarni kod. ASCII kodiranje (američki standardni kod za razmjenu informacija) - osnovno kodiranje teksta za latinicu

11.08.2019 Recenzije

Pogledajmo neke od činjenica koje znamo:

Skup znakova kojim je napisan tekst naziva se abeceda.

Broj znakova u abecedi je njegova kardinalnost.

Formula za određivanje količine informacija: N \u003d 2 b,

gdje je N snaga abecede (broj znakova),

b - broj bitova (informacijska težina znaka).

Gotovo svi potrebni znakovi mogu se smjestiti u abecedu kapaciteta 256 znakova. Takva abeceda naziva se dovoljna.

Jer 256 = 28 , tada je težina 1 znaka 8 bita.

Jedinici mjere od 8 bita dano je ime 1 bajt:

1 bajt = 8 bitova.

Binarni kod svakog znaka u kompjuterskom tekstu zauzima 1 bajt memorije.

Kako su tekstualne informacije predstavljene u memoriji računala?

Kodiranje se sastoji u tome da se svakom znaku dodjeljuje jedinstveni decimalni kod od 0 do 255 ili odgovarajući binarni kod od 00000000 do 11111111. Dakle, osoba razlikuje znakove po stilu, a računalo po kodu.

Pogodnost bajt-po-bajt kodiranja znakova je očigledna, budući da je bajt najmanji adresabilni dio memorije i stoga procesor može pristupiti svakom znaku zasebno prilikom obrade teksta. S druge strane, 256 znakova je sasvim dovoljno za predstavljanje široke palete informacija o znakovima.

Sada se postavlja pitanje koji osmobitni binarni kod staviti u korespondenciju sa svakim znakom.

Jasno je da je to uvjetna stvar, možete smisliti mnogo načina za kodiranje.

ASCII tablica je postala međunarodni standard za računala. (izgovara se kao asci) (Američki standardni kod za razmjenu informacija).

Samo je prva polovica tablice međunarodni standard, t.j. znakova s brojevima od 0 (00000000) do 127 (01111111).

Serijski broj		Simbol
	00000000 - 00011111	Njihova je funkcija kontrola procesa prikazivanja teksta na ekranu ili ispisa, davanja zvučnog signala, označavanja teksta itd.
32 - 127	00100000 - 01111111
128 - 255	10000000 - 11111111	Druga polovica tablice kodova ASCII, nazvana kodna stranica (128 kodova, počevši s 10000000 i završavajući s 11111111), može imati različite opcije, svaka opcija ima svoj broj.

Skrećem vam pozornost na činjenicu da su u tablici kodiranja slova (velika i mala slova) poredana abecednim redom, a brojevi uzlaznim redoslijedom. Ovo poštivanje leksikografskog reda u rasporedu znakova naziva se princip sekvencijalnog kodiranja abecede.

Najčešći kodiranje koje se trenutno koristi je Microsoft Windows, skraćeno CP1251.

Od kasnih 90-ih, problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda nazvanog Unicode. . Ovo je 16-bitno kodiranje, tj. ima 2 bajta memorije po znaku. Naravno, u ovom slučaju, količina zauzete memorije povećava se za 2 puta. Ali takva tablica kodova omogućuje uključivanje do 65536 znakova. Kompletna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene alfabete svijeta, kao i mnoge matematičke, glazbene, kemijske i druge simbole.

Pokušajmo pomoću ASCII tablice zamisliti kako će riječi izgledati u memoriji računala.

Riječi

Memorija

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Kada se tekstualne informacije unose u računalo, znakovi (slova, brojevi, znakovi) se kodiraju različitim kodnim sustavima, koji se sastoje od skupa kodnih tablica smještenih na odgovarajućim stranicama standarda za kodiranje tekstualnih informacija. U takvim je tablicama svakom znaku dodijeljen specifičan brojčani kod u heksadecimalnom ili decimalnom zapisu, tj. tablice kodova odražavaju korespondenciju između slika znakova i numeričkih kodova i dizajnirane su za kodiranje i dekodiranje tekstualnih informacija. Prilikom unosa tekstualnih informacija pomoću računalne tipkovnice, svaki ulazni znak se kodira, tj. pretvara u numerički kod, kada se tekstualna informacija izlazi na izlazni uređaj računala (zaslon, pisač ili ploter), njegova se slika gradi pomoću brojčanog koda znakova . Dodjela specifičnog numeričkog koda simbolu rezultat je sporazuma između odgovarajućih organizacija u različitim zemljama. Trenutno ne postoji jedinstvena univerzalna kodna tablica koja zadovoljava slova nacionalnih abeceda različitih zemalja.

Suvremene šifrarne tablice uključuju međunarodne i nacionalne dijelove, odnosno sadrže slova latinice i nacionalne abecede, brojeve, aritmetičke i interpunkcijske znakove, matematičke i kontrolne znakove te pseudografske znakove. Međunarodni dio tablice kodova na temelju standarda ASCII (američki standardni kod za razmjenu informacija), kodira prvu polovicu znakova tablice kodova s numeričkim kodovima od 0 do 7 F16, ili u decimalnom brojevnom sustavu od 0 do 127. U ovom slučaju, kodovi od 0 do 20 16 (0 × 32 10) dodijeljeni su funkcijskim tipkama (F1, F2, F3, itd.) tipkovnice osobnog računala. Na sl. 3.1 prikazuje međunarodni dio tablica kodova na temelju standarda ASCII.Ćelije tablice su numerirane u decimalnom i heksadecimalnom brojevnom sustavu.

Slika 3.1. Međunarodni dio tablice kodova (standard ASCII) s brojevima ćelija predstavljenim u decimalnom (a) i heksadecimalnom (b) brojevnom sustavu

Nacionalni dio tablica kodova sadrži kodove nacionalnih abeceda, koji se također naziva tablica skupa znakova. (skup znakova).

Trenutno, za podršku slova ruske abecede (ćirilice), postoji nekoliko kodnih tablica (kodiranja) koje koriste različiti operativni sustavi, što je značajan nedostatak i u nekim slučajevima dovodi do problema povezanih s operacijama dekodiranja za numeričke vrijednosti likova. U tablici. 3.1 prikazani su nazivi kodnih stranica (standarda) na kojima su postavljene ćirilične kodne tablice (kodiranja).

Tablica 3.1

Jedan od prvih standarda za kodiranje ćirilice na računalima bio je standard KOI8-R. Nacionalni dio tablice kodova ove norme prikazan je na sl. 3.2.

Riža. 3.2. Nacionalni dio tablice kodova standarda KOI8-R

Trenutno se koristi i tablica kodova, koja se nalazi na stranici CP866 standarda kodiranja tekstualnih informacija, koji se koristi u operativnom sustavu MS DOS ili sesije MS DOS za kodiranje ćirilice (slika 3.3, a).

Riža. 3.3. Nacionalni dio tablice kodova, koji se nalazi na stranici SR866 (a) i na stranici SR1251 (b) standarda za kodiranje tekstualnih informacija

Trenutno se za ćirilično kodiranje najraširenija kodna tablica nalazi na stranici SR1251 odgovarajućeg standarda, koji se koristi u operativnim sustavima obitelji Windows poduzeća Microsoft(slika 3.2, b). U svim prikazanim tablicama kodova, osim u standardnoj tablici Unicode, 8 bitova (8 bitova) dodijeljeno je za kodiranje jednog znaka.

Krajem prošlog stoljeća pojavio se novi međunarodni standard Unicode, u kojem je jedan znak predstavljen dvobajtnim binarnim kodom. Primjena ovog standarda nastavak je razvoja univerzalnog međunarodnog standarda koji omogućuje rješavanje problema kompatibilnosti nacionalnih kodiranja znakova. Koristeći ovaj standard, možete kodirati 2 16 = 65536 različitih znakova. Na sl. 3.4 prikazuje tablicu kodova 0400 (ruska abeceda) standarda Unicode.

Riža. 3.4. Tablica kodova 0400 Unicode standarda

Pojasnimo na primjeru što je rečeno o kodiranju tekstualnih informacija.

Primjer 3.1

Kodirajte riječ "Računalo" kao niz decimalnih i heksadecimalnih brojeva koristeći CP1251 kodiranje. Koji će se znakovi prikazati u tablicama kodova SR866 i KOI8-R kada se koristi primljeni kod.

Heksadecimalni i binarni kodni nizovi za riječ "Računalo" na temelju tablice kodiranja CP1251 (vidi sliku 3.3, b) izgledat će ovako:

Ovaj kodni slijed u kodovima CP866 i KOI8-R prikazat će sljedeće znakove:

Za pretvaranje tekstualnih dokumenata na ruskom jeziku iz jednog standarda kodiranja tekstualnih informacija u drugi, koriste se posebni programi - pretvarači. Pretvarači se obično ugrađuju u druge programe. Primjer je program preglednika - Internet Explorer (IE) koji ima ugrađen pretvarač. Program preglednika je poseban program za gledanje sadržaja Internet stranice u globalnoj računalnoj mreži Internet. Koristimo ovaj program za potvrdu rezultata mapiranja znakova dobivenog u primjeru 3.1. Da biste to učinili, izvršite sljedeće korake.

1. Pokrenite Notepad (Bilježnica). Program Notepad u operativnom sustavu Windows XP se pokreće pomoću naredbe: [Button Početak– Programi – Pribor – Notepad]. U prozoru programa Notepad koji se otvori upišite riječ "Računalo" koristeći sintaksu jezika za označavanje hipertekstualnog dokumenta - HTML (Hyper Text Markup Language). Ovaj jezik se koristi za izradu dokumenata na webu. Tekst bi trebao izgledati ovako:

Računalo

, gdje

i

oznake (posebne konstrukcije) jezika HTML za naslove. Na sl. 3.5 prikazuje rezultat ovih radnji.

Riža. 3.5. Prikažite tekst u prozoru Notepad

Spremimo ovaj tekst tako što ćemo izvršiti naredbu: [Datoteka - Spremi kao ...] u odgovarajuću mapu na računalu, prilikom spremanja teksta datoteci ćemo dati naziv - Napomena, s nastavkom datoteke. html.

2. Pokrenite program Internet Explorer, izvršavanjem naredbe: [Gumb Početak- Programi - Internet Explorer]. Kada se program pokrene, prozor prikazan na sl. 3.6

Riža. 3.6. Prozor za izvanmrežni pristup

Odaberite i aktivirajte gumb Izvanmrežno ovo neće povezati računalo s globalnim internetom. Pojavit će se glavni prozor programa Microsoft Internet Explorer, prikazano na sl. 3.7.

Riža. 3.7. Glavni prozor Microsoft Internet Explorera

Izvršimo sljedeću naredbu: [Datoteka - Otvori], pojavit će se prozor (slika 3.8) u kojem morate odrediti naziv datoteke i kliknuti gumb u redu ili pritisnite gumb Pregled… i pronađite datoteku Note.html.

Riža. 3.8. Otvori prozor

Glavni prozor programa Internet Explorer imat će oblik prikazan na sl. 3.9. U prozoru će se prikazati riječ "Računalo". Zatim, pomoću gornjeg izbornika programa Internet Explorer, pokrenite sljedeću naredbu: [View - Encoding - Cyrillic (DOS)]. Nakon izvršenja ove naredbe u prozoru programa Internet Explorer simboli prikazani na sl. 3.10. Prilikom izvršavanja naredbe: [Prikaz - Kodiranje - Ćirilica (KOI8-R)] u prozoru programa Internet Explorer simboli prikazani na sl. 3.11.

Riža. 3.9. Znakovi prikazani CP1251 kodiranjem

Riža. 3.10. Znakovi koji se prikazuju kada je CP866 kodiranje omogućeno za kodni niz predstavljen u CP1251 kodiranju

Riža. 3.11. Znakovi koji se prikazuju kada je KOI8-R kodiranje omogućeno za kodni niz predstavljen u kodiranju CP1251

Dakle, dobiveno pomoću programa Internet Explorer znakovni nizovi odgovaraju nizovima znakova dobivenim korištenjem kodnih tablica CP866 i KOI8-R u primjeru 3.1.

3.2. Kodiranje grafičkih informacija

Grafičke informacije predstavljene u obliku crteža, fotografija, slajdova, pokretnih slika (animacija, video), dijagrama, crteža, mogu se kreirati i uređivati pomoću računala, pri čemu su odgovarajuće kodirane. Trenutno postoji prilično velik broj aplikacijskih programa za obradu grafičkih informacija, ali svi implementiraju tri vrste računalne grafike: rastersku, vektorsku i fraktalnu.

Ako pobliže pogledate grafičku sliku na zaslonu monitora računala, možete vidjeti veliki broj raznobojnih točaka (piksela - s engleskog. piksel, nastala od element slike element slike) koji, kada se spoje, tvore zadanu grafičku sliku. Iz ovoga možemo zaključiti: grafička slika u računalu je kodirana na određeni način i mora se prikazati kao grafička datoteka. Datoteka je glavna strukturna jedinica za organiziranje i pohranjivanje podataka u računalu i u ovom slučaju treba sadržavati informacije o tome kako prikazati ovaj skup točaka na zaslonu monitora.

Datoteke stvorene na temelju vektorske grafike sadrže informacije u obliku matematičkih ovisnosti (matematičke funkcije koje opisuju linearne ovisnosti) i povezane podatke o tome kako konstruirati sliku objekta korištenjem segmenata linija (vektora) kada se prikazuju na ekranu monitora računala.

Datoteke stvorene na temelju rasterske grafike uključuju pohranjivanje podataka o svakoj pojedinoj točki na slici. Rasterski grafički prikaz ne zahtijeva složene matematičke izračune, dovoljno je samo dobiti podatke o svakoj točki slike (njezine koordinate i boju) i prikazati ih na ekranu monitora računala.

U procesu kodiranja slike vrši se njezino prostorno uzorkovanje, tj. slika se dijeli na zasebne točke i svakoj točki se daje kod boje (žuta, crvena, plava itd.). Za kodiranje svake točke grafičke slike u boji koristi se princip dekompozicije proizvoljne boje na njezine glavne komponente, koje se koriste kao tri osnovne boje: crvena (engleska riječ Crvena, označena slovom DO), zelena (zeleno, označena slovom G), plava (plava, označiti bukvu V). Bilo koja točkasta boja koju percipira ljudsko oko može se dobiti aditivnim (proporcionalnim) zbrajanjem (miješanjem) tri osnovne boje - crvene, zelene i plave. Ovaj sustav kodiranja naziva se sustav boja. RGB. Slikovne datoteke koje koriste sustav boja RGB, predstavljaju svaku točku slike kao trojku boja - tri numeričke vrijednosti R, G i V, odgovara intenzitetima crvene, zelene i plave. Proces kodiranja grafičke slike provodi se različitim tehničkim sredstvima (skener, digitalna kamera, digitalna video kamera itd.); rezultat je bitmap slika. Prilikom reprodukcije grafičkih slika u boji na zaslonu računalnog monitora u boji, boja svake točke (piksela) takve slike dobiva se miješanjem tri primarne boje R,G i b.

Kvalitetu rasterske slike određuju dva glavna parametra - razlučivost (broj vodoravnih i okomitih točaka) i korištena paleta boja (broj boja specificiranih za svaku točku slike). Razlučivost se određuje navođenjem broja vodoravnih i okomitih točaka, na primjer 800 puta 600 točaka.

Postoji odnos između broja boja dodijeljenih pikselu rasterske slike i količine informacija koje je potrebno dodijeliti za pohranu boje piksela, određen omjerom (formula R. Hartleyja):

gdje ja– količina informacija; N- broj boja danih točki.

Količina informacija potrebna za pohranu boje točke također se naziva dubina boje ili kvaliteta boje.

Dakle, ako je broj boja specificiranih za točku slike N= 256, tada će količina informacija potrebna za njihovo pohranjivanje (dubina boje) u skladu s formulom (3.1) biti jednaka ja= 8 bita.

Računala koriste različite načine grafičkog prikaza za prikaz grafičkih informacija. Ovdje treba napomenuti da osim grafičkog načina rada monitora, postoji i tekstualni način rada, u kojem je zaslon monitora konvencionalno podijeljen na 25 redaka od 80 znakova po retku. Ove grafičke načine karakterizira razlučivost zaslona monitora i kvaliteta boje (dubina boje). Za postavljanje grafičkog načina zaslona monitora u operativnom sustavu MS Windows XP trebate izvršiti naredbu: [Button Početak– Postavke – Upravljačka ploča – Zaslon]. U dijaloškom okviru "Svojstva: Zaslon" koji se pojavi (slika 3.12) odaberite karticu "Parametri" i klizačem "Rezolucija zaslona" odaberite odgovarajuću razlučivost zaslona (800x600 piksela, 1024x768 piksela itd.). Pomoću padajućeg popisa "Kvaliteta boje" možete odabrati dubinu boje - "Najveća (32 bita)", "Srednja (16 bita)" itd., dok će broj boja dodijeljen svakoj točki slike biti jednak 2 32 (4294967296), 2 16 (65536) itd.

Riža. 3.12. Dijaloški okvir Svojstva prikaza

Za implementaciju svakog od grafičkih načina zaslona monitora potreban je određeni volumen informacija video memorije računala. Potreban volumen informacija video memorije (V) određuje se iz relacije

gdje DO - broj slikovnih točaka na zaslonu monitora (K = A B); A - broj vodoravnih točaka na zaslonu monitora; V - broj okomitih točaka na zaslonu monitora; ja– količina informacija (dubina boje).

Dakle, ako zaslon monitora ima rezoluciju od 1024 x 768 piksela i paletu koja se sastoji od 65 536 boja, tada će dubina boje u skladu s formulom (3.1) biti I = log 2 65 538 = 16 bita, broj slike pikseli će biti jednaki: K = 1024 x 768 = 786432, a potrebni volumen informacija video memorije u skladu s (3.2) bit će jednak

V = 786432 16 bita = 12582912 bita = 1572864 bajtova = 1536 KB = 1,5 MB.

Zaključno, treba napomenuti da su uz navedene karakteristike najvažnije karakteristike monitora geometrijske dimenzije njegova zaslona i slikovne točke. Geometrijske dimenzije ekrana određene su veličinom dijagonale monitora. Dijagonala monitora je postavljena u inčima (1 inč = 1" = 25,4 mm) i može imati vrijednosti jednake: 14", 15", 17", 21" itd. Moderne tehnologije proizvodnje monitora mogu pružiti veličinu točke slike jednak 0,22 mm.

Dakle, za svaki monitor postoji fizički maksimalna moguća razlučivost zaslona, određena veličinom njegove dijagonale i veličinom točke slike.

Vježbe za samoispunjenje

1. Korištenje programa MS Excel pretvorite tablice kodova ASCII, SR866, SR1251, KOI8-R u tablice oblika: u ćelije prvog stupca tablice upišite abecednim redom velika, a zatim mala latinična i ćirilična slova, u ćelije drugog stupca - kodovi koji odgovaraju slovima u decimalnom brojevnom sustavu, u ćelijama treći stupac - kodovi koji odgovaraju slovima u heksadecimalnom brojevnom sustavu. Vrijednosti kodova moraju se odabrati iz odgovarajućih tablica kodova.

2. Kodirajte i zapišite sljedeće riječi kao niz brojeva u decimalnom i heksadecimalnom zapisu:

a) Internet Explorer, b) Microsoft Office v) Corel Draw.

Kodiranje za proizvodnju pomoću nadograđene ASCII tablice kodiranja dobivene u prethodnoj vježbi.

3. Dekodirajte pomoću nadograđene tablice kodiranja KOI8-R nizove brojeva napisanih u heksadecimalnom brojevnom sustavu:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Kako će izgledati riječ "Kibernetika" napisana u CP1251 kodiranju kada se koriste kodiranja CP866 i KOI8-R? Provjerite rezultate s programom Internet Explorer.

5. Koristeći tablicu kodova prikazanu na sl. 3.1 a, dekodirati sljedeće kodne sekvence napisane u binarnom zapisu:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Odredite količinu informacija riječi "Ekonomija" kodirane pomoću kodnih tablica SR866, SR1251, Unicode i KOI8-R.

7. Odredite informacijski volumen datoteke dobivene kao rezultat skeniranja slike u boji veličine 12x12 cm. Rezolucija skenera koji se koristi za skeniranje ove slike je 600 dpi. Skener postavlja dubinu boje točke slike na 16 bita.

Rezolucija skenera 600 dpi (dotper inča - dots per inch) određuje sposobnost skenera s ovom razlučivosti da razlikuje 600 točaka na segmentu od 1 inča.

8. Odredite količinu informacija datoteke dobivene kao rezultat skeniranja slike u boji veličine A4. Rezolucija skenera koji se koristi za skeniranje ove slike je 1200 dpi. Skener postavlja dubinu boje točke slike na 24 bita.

9. Odredite broj boja u paleti na dubini boje od 8, 16, 24 i 32 bita.

10. Odredite potrebnu količinu video memorije za grafičke modove zaslona monitora 640 x 480, 800 x 600, 1024 x 768 i 1280 x 1024 piksela s dubinom boje točke slike od 8, 16, 24 i 32 bita. Rezultati su sažeti u tablici. Razviti se u MS Excel program za automatizaciju proračuna.

11. Odredite maksimalni broj boja koje se mogu koristiti za pohranu slike od 32 x 32 piksela ako je računalo dodijelilo 2 KB memorije za sliku.

12. Odredite maksimalnu moguću razlučivost zaslona monitora s dijagonalnom duljinom od 15" i veličinom točke slike od 0,28 mm.

13. Koje grafičke načine rada monitora može osigurati video memorija od 64 MB?

Sadržaj

I. Povijest kodiranja informacija……………………………………………..3

II. Informacije o kodiranju……………………………………………4

III. Kodiranje tekstualnih informacija……………………………….4

IV. Vrste tablica kodiranja……………………………………………...6

V. Izračun količine tekstualnih informacija…………………………………14

Popis korištene literature……………………………………………..16

ja . Povijest kodiranja informacija

Čovječanstvo koristi šifriranje (kodiranje) teksta od samog trenutka kada su se pojavile prve tajne informacije. Evo nekoliko tehnika kodiranja teksta koje su izumljene u različitim fazama razvoja ljudske misli:

Kriptografija je kriptografija, sustav mijenjanja pisanja kako bi se tekst učinio nerazumljivim neupućenim osobama;

Morseov kod ili neuniformni telegrafski kod, u kojem je svako slovo ili znak predstavljeno svojom kombinacijom kratkih jedinica električne struje (točke) i trostrukih jedinica trajanja (crtice);

znakovni jezik je znakovni jezik koji koriste osobe s oštećenjem sluha.

Jedna od najranijih poznatih metoda šifriranja nosi ime rimskog cara Julija Cezara (1. st. pr. Kr.). Ova metoda se temelji na zamjeni svakog slova šifriranog teksta drugim pomicanjem abecede od izvornog slova za fiksni broj znakova, a abeceda se čita u krugu, odnosno nakon slova i, razmatra se a. Dakle, riječ "bajt" kada se pomakne dva znaka udesno je kodirana riječju "gvlf". Obrnuti proces dešifriranja zadane riječi je da se svako šifrirano slovo zamijeni drugim lijevo od njega.

II. Kodiranje informacija

Kod je skup konvencija (ili signala) za snimanje (ili prijenos) nekih unaprijed definiranih koncepata.

Kodiranje informacija je proces formiranja određene reprezentacije informacije. U užem smislu, pojam "kodiranje" često se shvaća kao prijelaz s jednog oblika prezentacije informacija na drugi, prikladniji za pohranu, prijenos ili obradu.

Obično je svaka slika, kada je kodirana (ponekad kažu - šifrirana), predstavljena zasebnim znakom.

Znak je element konačnog skupa različitih elemenata.

U užem smislu, pojam "kodiranje" često se shvaća kao prijelaz s jednog oblika prezentacije informacija na drugi, prikladniji za pohranu, prijenos ili obradu.

Računalo može obraditi tekstualne informacije. Kada se unese u računalo, svako slovo je kodirano određenim brojem, a pri izlazu na vanjske uređaje (screen ili print), za ljudsku percepciju, slike slova se grade pomoću tih brojeva. Korespondencija između skupa slova i brojeva naziva se kodiranjem znakova.

U pravilu su svi brojevi u računalu predstavljeni pomoću nula i jedinica (a ne deset znamenki, kao što je uobičajeno za ljude). Drugim riječima, računala obično rade u binarnom sustavu, jer su uređaji za njihovu obradu mnogo jednostavniji. Unos brojeva u računalo i njihov izlaz za ljudsko čitanje može se obaviti u uobičajenom decimalnom obliku, a sve potrebne pretvorbe izvode se programi koji rade na računalu.

III. Kodiranje tekstualnih informacija

Ista informacija može se predstaviti (kodirati) u nekoliko oblika. Pojavom računala postalo je potrebno kodirati sve vrste informacija s kojima se nosi i pojedinac i čovječanstvo u cjelini. Ali čovječanstvo je počelo rješavati problem kodiranja informacija mnogo prije pojave računala. Grandiozna dostignuća čovječanstva - pisanje i aritmetika - nisu ništa više od sustava kodiranja govora i brojčanih informacija. Informacija se nikada ne pojavljuje u svom čistom obliku, uvijek je na neki način prezentirana, na neki način kodirana.

Binarno kodiranje jedan je od najčešćih načina predstavljanja informacija. U računalima, robotima i alatnim strojevima s numeričkim upravljanjem u pravilu su sve informacije s kojima se uređaj obrađuje kodirane u obliku riječi binarne abecede.

Od kraja 60-ih, računala se sve više koriste za obradu tekstualnih informacija, a trenutno je glavni udio osobnih računala u svijetu (i većinu vremena) zauzet obradom tekstualnih informacija. Sve ove vrste informacija u računalu su predstavljene u binarnom kodu, tj. koristi se abeceda s potencijom dva (samo dva znaka 0 i 1). To je zbog činjenice da je prikladno predstaviti informacije u obliku niza električnih impulsa: nema impulsa (0), postoji impuls (1).

Takvo se kodiranje obično naziva binarnim, a sami logički nizovi nula i jedinica nazivaju se strojnim jezikom.

Sa stajališta računala, tekst se sastoji od pojedinačnih znakova. Znakovi ne uključuju samo slova (velika ili mala, latinična ili ruska), već i brojeve, interpunkcijske znakove, posebne znakove poput "=", "(", "&", itd., pa čak (obratite posebnu pozornost!) razmake između riječi. .

Tekstovi se unose u memoriju računala pomoću tipkovnice. Tipke su ispisane nama poznatim slovima, brojevima, interpunkcijskim znakovima i drugim simbolima. Oni ulaze u RAM u binarnom kodu. To znači da je svaki znak predstavljen 8-bitnim binarnim kodom.

Tradicionalno, za kodiranje jednog znaka koristi se količina informacija jednaka 1 bajtu, tj. I \u003d 1 bajt \u003d 8 bita. Koristeći formulu koja povezuje broj mogućih događaja K i količinu informacija I, možete izračunati koliko se različitih znakova može kodirati (pod pretpostavkom da su znakovi mogući događaji): K = 2 I = 2 8 = 256, tj. prikaz tekstualnih informacija, možete koristiti abecedu s kapacitetom od 256 znakova.

Ovaj broj znakova sasvim je dovoljan za predstavljanje tekstualnih informacija, uključujući velika i mala slova ruske i latinične abecede, brojeve, znakove, grafičke simbole itd.

U procesu prikazivanja znaka na ekranu računala vrši se obrnuti proces - dekodiranje, odnosno pretvaranje koda znaka u njegovu sliku. Važno je da je dodjela određene šifre simbolu stvar dogovora, što je fiksirano u tablici kodova.

Sada se postavlja pitanje koji osmobitni binarni kod staviti u korespondenciju sa svakim znakom. Jasno je da je to uvjetna stvar, možete smisliti mnogo načina za kodiranje.

Svi simboli računalne abecede numerirani su od 0 do 255. Svaki broj odgovara osmoznamenkastom binarnom kodu od 00000000 do 11111111. Ovaj kod je jednostavno redni broj znaka u binarnom brojevnom sustavu.

IV . Vrste tablica kodiranja

Tablica u kojoj su svim znakovima računalne abecede dodijeljeni serijski brojevi naziva se tablica kodiranja.

Za različite vrste računala koriste se različite tablice kodiranja.

ASCII (American Standard Code for Information Interchange) tablica kodova usvojena je kao međunarodni standard, kodiranje prve polovice znakova s numeričkim kodovima od 0 do 127 (kodovi od 0 do 32 nisu dodijeljeni znakovima, već funkcijskim tipkama).

Tablica ASCII kodova podijeljena je u dva dijela.

Samo je prva polovica tablice međunarodni standard, t.j. znakova s brojevima od 0 (00000000) do 127 (01111111).

Struktura ASCII tablice kodiranja

Serijski broj	Kod	Simbol
0 - 31	00000000 - 00011111	Znakovi s brojevima od 0 do 31 nazivaju se kontrolni znakovi. Njihova je funkcija kontrola procesa prikazivanja teksta na ekranu ili ispisa, davanja zvučnog signala, označavanja teksta itd.
32 - 127	0100000 - 01111111	Standardni dio tablice (engleski). To uključuje mala i velika slova latinice, decimalne znamenke, interpunkcijske znakove, sve vrste zagrada, komercijalne i druge simbole. Lik 32 je razmak, t.j. prazno mjesto u tekstu. Sve ostalo odražavaju se određenim znakovima.
128 - 255	10000000 - 11111111	Alternativni dio tablice (ruski). Druga polovica tablice kodova ASCII, nazvana kodna stranica (128 kodova, počevši s 10000000 i završavajući s 11111111), može imati različite opcije, svaka opcija ima svoj broj. Kodna stranica se prvenstveno koristi za smještaj nacionalnih pisama osim latinice. U ruskim nacionalnim kodovima, znakovi ruske abecede nalaze se u ovom dijelu tablice.

Prva polovica tablice ASCII kodova

Skreće se pozornost na činjenicu da su u tablici kodiranja slova (velika i mala slova) poredana abecednim redom, a brojevi uzlaznim redoslijedom. Ovo poštivanje leksikografskog reda u rasporedu znakova naziva se princip sekvencijalnog kodiranja abecede.

Za slova ruske abecede također se promatra načelo sekvencijalnog kodiranja.

Druga polovica tablice ASCII kodova

Nažalost, trenutno postoji pet različitih ćiriličkih kodiranja (KOI8-R, Windows. MS-DOS, Macintosh i ISO). Zbog toga često nastaju problemi s prijenosom ruskog teksta s jednog računala na drugo, s jednog softverskog sustava na drugi.

Kronološki, jedan od prvih standarda za kodiranje ruskih slova na računalima bio je KOI8 ("Kod za razmjenu informacija, 8-bitni"). Ovo se kodiranje koristilo još 70-ih godina na računalima serije EC računala, a od sredine 80-ih počelo se koristiti u prvim rusificiranim verzijama UNIX operativnog sustava.

Od početka 90-ih, vremena dominacije operativnog sustava MS DOS, kodiranje ostaje CP866 ("CP" znači "Code Page", "code page").

Apple računala s operativnim sustavom Mac OS koriste vlastito Mac kodiranje.

Osim toga, Međunarodna organizacija za standardizaciju (International Standards Organization, ISO) odobrila je još jedno kodiranje pod nazivom ISO 8859-5 kao standard za ruski jezik.

Najčešći kodiranje koje se trenutno koristi je Microsoft Windows, skraćeno CP1251. Uveo Microsoft; s obzirom na raširenu upotrebu operativnih sustava (OS) i drugih softverskih proizvoda ove tvrtke u Ruskoj Federaciji, postao je raširen.

Od kasnih 90-ih, problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda nazvanog Unicode.

Ovo je 16-bitno kodiranje, tj. ima 2 bajta memorije po znaku. Naravno, u ovom slučaju, količina zauzete memorije povećava se za 2 puta. Ali takva tablica kodova omogućuje uključivanje do 65536 znakova. Kompletna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene alfabete svijeta, kao i mnoge matematičke, glazbene, kemijske i druge simbole.

Unutarnji prikaz riječi u memoriji računala

korištenjem ASCII tablice

Ponekad se dogodi da se tekst, koji se sastoji od slova ruske abecede, primljen s drugog računala, ne može pročitati - na ekranu monitora vidljiva je neka vrsta "abrakadabra". To je zbog činjenice da računala koriste različita kodiranja znakova ruskog jezika.

Dakle, svako kodiranje je zadano svojom vlastitom tablicom kodova. Kao što se može vidjeti iz tablice, istom binarnom kodu se pripisuju različiti znakovi u različitim kodovima.

Na primjer, slijed brojčanih kodova 221, 194, 204 u kodiranju CP1251 tvori riječ "računalo", dok će u ostalim kodovima to biti besmislen skup znakova.

Na sreću, u većini slučajeva korisnik ne mora brinuti o transkodiranju tekstualnih dokumenata, jer to rade posebni programi pretvarači ugrađeni u aplikacije.

V . Izračun količine tekstualnih informacija

Zadatak 1: Kodirajte riječ "Rim" pomoću tablica kodiranja KOI8-R i CP1251.

Riješenje:

Zadatak 2: Uzimajući u obzir da je svaki znak kodiran jednim bajtom, procijenite količinu informacija sljedeće rečenice:

"Moj ujak najpoštenijih pravila,

Kad sam se ozbiljno razbolio,

Prisilio se na poštovanje

I nisam mogao smisliti bolji."

Riješenje: Ovaj izraz ima 108 znakova, uključujući interpunkcijske znakove, navodnike i razmake. Taj broj množimo sa 8 bita. Dobivamo 108*8=864 bita.

Zadatak 3: Dva teksta sadrže isti broj znakova. Prvi tekst je napisan na ruskom, a drugi na jeziku plemena Naguri, čija se abeceda sastoji od 16 znakova. Čiji tekst nosi više informacija?

Riješenje:

1) I \u003d K * a (volumen informacija teksta jednak je umnošku broja znakova i težine informacija jednog znaka).

2) Jer oba teksta imaju isti broj znakova (K), tada razlika ovisi o informativnom sadržaju jednog znaka abecede (a).

3) 2 a1 = 32, tj. a 1 = 5 bita, 2 a2 = 16, tj. i 2 = 4 bita.

4) I 1 = K * 5 bita, I 2 = K * 4 bita.

5) To znači da tekst napisan na ruskom jeziku nosi 5/4 puta više informacija.

Zadatak 4: Volumen poruke, koja je sadržavala 2048 znakova, iznosila je 1/512 MB. Odredite snagu abecede.

Riješenje:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bita - količina informacija poruke je pretvorena u bitove.

2) \u003d I / K \u003d 16384 / 1024 \u003d 16 bita - pada na jedan znak abecede.

3) 2*16*2048 = 65536 znakova - snaga korištene abecede.

Zadatak 5: Laserski pisač Canon LBP ispisuje prosječnom brzinom od 6,3 Kbps. Koliko će trajati ispis dokumenta od 8 stranica ako se zna da na jednoj stranici ima u prosjeku 45 redaka, 70 znakova po retku (1 znak - 1 bajt)?

Riješenje:

1) Pronađite količinu informacija sadržanu na 1 stranici: 45 * 70 * 8 bita = 25200 bita

2) Pronađite količinu informacija na 8 stranica: 25200 * 8 = 201600 bita

3) Dovodimo do uniformnih mjernih jedinica. Da bismo to učinili, prevodimo Mbps u bitove: 6,3 * 1024 = 6451,2 bps.

4) Pronađite vrijeme ispisa: 201600: 6451,2 = 31 sekunda.

Bibliografija

1. Ageev V.M. Teorija informacija i kodiranja: diskretizacija i kodiranje mjernih informacija. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Osnove teorije informacija i kodiranja. - Kijev, škola Vishcha, 1986.

3. Najjednostavniji načini šifriranja teksta / D.M. Zlatopoljskog. - M.: Chistye Prudy, 2007. - 32 str.

4. Ugrinovich N.D. Informatika i informacijske tehnologije. Udžbenik za razrede 10-11 / N.D. Ugrinovich. – M.: BINOM. Laboratorij znanja, 2003. - 512 str.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Materijal za samostalno učenje na temu Predavanje 2

Kodiranje ASCII

ASCII tablica kodiranja (ASCII - American Standard Code for Information Interchange - American Standard Code for Information Interchange).

Ukupno, korištenjem ASCII tablice kodiranja (slika 1), može se kodirati 256 različitih znakova. Ova tablica je podijeljena na dva dijela: glavni (s kodovima od OOh do 7Fh) i dodatni (od 80h do FFh, gdje slovo h označava da kod pripada heksadecimalnom brojevnom sustavu).

Slika 1

Za kodiranje jednog znaka iz tablice dodjeljuje se 8 bitova (1 bajt). Prilikom obrade tekstualnih informacija, jedan bajt može sadržavati kod nekog znaka - slova, brojeve, interpunkcijske znakove, radnje itd. Svaki znak ima svoj kod u obliku cijelog broja. U tom se slučaju svi kodovi skupljaju u posebne tablice, koje se nazivaju tablice kodiranja. Uz njihovu pomoć, kod znakova se pretvara u svoj vidljivi prikaz na ekranu monitora. Kao rezultat, svaki tekst u memoriji računala predstavljen je kao niz bajtova s kodovima znakova.

Na primjer, riječ zdravo! bit će kodiran na sljedeći način (tablica 1).

stol 1


Binarni kod
Decimalni kod

Slika 1 prikazuje znakove uključene u standardno (englesko) i prošireno (rusko) ASCII kodiranje.

Prva polovica ASCII tablice je standardizirana. Sadrži kontrolne kodove (od 00h do 20h i 77h). Ovi kodovi su uklonjeni iz tablice jer se ne odnose na tekstualne elemente. Ovdje se također postavljaju interpunkcijski i matematički znakovi: 2lh - !, 26h - &, 28h - (, 2Bh -+, ..., velika i mala latinična slova: 41h - A, 61h - a.

Druga polovica tablice sadrži nacionalne fontove, pseudografske simbole od kojih se mogu graditi tablice, posebne matematičke simbole. Donji dio tablice kodiranja može se zamijeniti odgovarajućim upravljačkim programima - upravljačkim pomoćnim programima. Ova tehnika vam omogućuje korištenje više fontova i njihovih tipova.

Zaslon za svaki znak znaka trebao bi prikazati sliku znaka – ne samo digitalni kod, već i sliku koja mu odgovara, budući da svaki znak ima svoj oblik. Opis oblika svakog znaka pohranjen je u posebnu memoriju zaslona - generator znakova. Isticanje znaka na zaslonu IBM PC-a, na primjer, vrši se pomoću točkica koje tvore matricu znakova. Svaki piksel u takvoj matrici je element slike i može biti svijetao ili taman. Tamna točka je kodirana brojem 0, svijetla (svijetla) - 1. Ako su tamni pikseli predstavljeni točkom u matričnom polju znaka, a svijetli pikseli zvjezdicom, tada možete grafički prikazati oblik simbola.

Ljudi u različitim zemljama koriste simbole za pisanje riječi svog maternjeg jezika. Danas je većina aplikacija, uključujući sustave e-pošte i web preglednike, čista 8-bitna, što znači da mogu prikazati i ispravno čitati samo 8-bitne znakove, u skladu sa standardom ISO-8859-1.

U svijetu postoji preko 256 znakova (uključujući ćirilicu, arapski, kineski, japanski, korejski i tajlandski) i dodaje se sve više znakova. I to stvara sljedeće praznine za mnoge korisnike:

Nije moguće koristiti znakove iz različitih skupova kodiranja u istom dokumentu. Budući da svaki tekstualni dokument koristi vlastiti skup kodiranja, postoje velike poteškoće s automatskim prepoznavanjem teksta.

Pojavljuju se novi simboli (na primjer: Euro), kao rezultat toga ISO razvija novi standard, ISO-8859-15, koji je vrlo sličan ISO-8859-1. Razlika je sljedeća: simboli za označavanje starih valuta koje se trenutno ne koriste uklonjeni su iz tablice kodiranja starog ISO-8859-1 standarda kako bi se napravio prostor za novonastale simbole (kao što je euro). Kao rezultat toga, korisnici mogu imati iste dokumente na svojim diskovima, ali u različitim kodovima. Rješenje ovih problema je usvajanje jedinstvenog međunarodnog skupa kodiranja, koji se naziva univerzalno kodiranje ili Unicode.

Kodiranje Unicode

Standard je 1991. godine predložila neprofitna organizacija Unicode Consortium (English Unicode Consortium, Unicode Inc.). Korištenje ovog standarda omogućuje kodiranje vrlo velikog broja znakova iz različitih pisama: kineski znakovi, matematički simboli, slova grčke abecede, latinica i ćirilica mogu koegzistirati u Unicode dokumentima, dok mijenjanje kodnih stranica postaje nepotrebno.

Standard se sastoji od dva glavna odjeljka: univerzalnog skupa znakova (UCS, univerzalni skup znakova) i obitelji kodiranja (UTF, Unicode transformacijski format). Univerzalni skup znakova specificira jedan-na-jedan korespondenciju znakova s kodovima - elementi kodnog prostora koji predstavljaju nenegativne cijele brojeve. Obitelj kodiranja definira strojni prikaz niza UCS kodova.

Unicode standard razvijen je s ciljem stvaranja jedinstvenog kodiranja znakova za sve moderne i mnoge drevne pisane jezike. Svaki znak u ovom standardu je kodiran sa 16 bita, što mu omogućuje da pokrije neusporedivo veći broj znakova od prethodno prihvaćenih 8-bitnih kodiranja. Još jedna važna razlika između Unicodea i drugih sustava kodiranja je da ne samo da svakom znaku dodjeljuje jedinstveni kod, već također definira različite karakteristike tog znaka, na primjer:

vrsta znaka (veliko slovo, malo slovo, broj, interpunkcijski znak itd.);

atributi znakova (prikaz slijeva nadesno ili zdesna nalijevo, razmak, prijelom reda itd.);

odgovarajuće veliko ili malo slovo (za mala i velika slova);

odgovarajuću brojčanu vrijednost (za numeričke znakove).

Cijeli raspon kodova od 0 do FFFF podijeljen je na nekoliko standardnih podskupova, od kojih svaki odgovara ili abecedi nekog jezika, ili skupini posebnih znakova koji su slični u svojim funkcijama. Donji dijagram sadrži opći popis podskupova Unicodea 3.0 (slika 2).

Slika 2

Unicode standard je osnova za pohranu i tekst u mnogim modernim računalnim sustavima. Međutim, nije kompatibilan s većinom internetskih protokola, jer njegovi kodovi mogu sadržavati bilo koju vrijednost bajta, a protokoli obično koriste bajtove 00 - 1F i FE - FF kao servisne bajtove. Kako bi se postigla kompatibilnost, razvijeno je nekoliko Unicode transformacijskih formata (UTF, Unicode Transformation Formats), od kojih je UTF-8 danas najčešći. Ovaj format definira sljedeća pravila za pretvaranje svakog Unicode koda u skup bajtova (od jednog do tri) prikladnih za prijenos internetskim protokolima.

Ovdje x,y,z označavaju bitove izvornog koda, koje treba izdvojiti, počevši od najmlađeg, i unijeti u bajtove rezultata s desna na lijevo, sve dok se ne popune sva navedena mjesta.

Daljnji razvoj Unicode standarda povezan je s dodavanjem novih jezičnih ravnina, t.j. znakova u rasponima 10000 - 1FFFF, 20000 - 2FFFF, itd., gdje bi trebalo uključiti kodiranje za pisma mrtvih jezika koja nisu uključena u gornju tablicu. Za kodiranje ovih dodatnih znakova razvijen je novi UTF-16 format.

Dakle, postoje 4 glavna načina za kodiranje bajtova u Unicode formatu:

UTF-8: 128 znakova kodiranih u jednom bajtu (ASCII format), 1920 znakova kodiranih u 2 bajta ((rimski, grčki, ćirilični, koptski, armenski, hebrejski, arapski znakovi), 63488 znakova kodiranih u 3 bajta (kineski, japanski itd. .) Preostalih 2.147.418.112 znakova (još nisu korišteni) mogu se kodirati s 4, 5 ili 6 bajtova.

UCS-2: Svaki znak je predstavljen s 2 bajta. Ovo kodiranje uključuje samo prvih 65.535 znakova iz Unicode formata.

UTF-16: Ovo je proširenje UCS-2 i uključuje 1,114,112 Unicode znakova. Prvih 65.535 znakova predstavljeno je s 2 bajta, a ostali s 4 bajta.

USC-4: Svaki znak je kodiran s 4 bajta.

Svako računalo ima svoj skup znakova koji implementira. Takav skup sadrži 26 velikih i malih slova, brojeva i posebnih znakova (točka, razmak itd.). Simboli kada se prevedu u cijele brojeve nazivaju se kodovi. Standardi su razvijeni kako bi računala imala iste skupove kodova.

ASCII standard

ASCII (American Standard Code for Inmormation Interchange) je američki standardni kod za razmjenu informacija. Svaki ASCII znak ima 7 bitova, tako da je maksimalni broj znakova 128 (Tablica 1). Kodovi od 0 do 1F su kontrolni znakovi koji se ne ispisuju. Za prijenos podataka potrebno je puno ASCII znakova koji se ne mogu ispisivati. Na primjer, poruka se može sastojati od početnog znaka zaglavlja SOH, samog zaglavlja i znaka početka teksta STX, samog teksta i završnog znaka teksta ETX i znaka za kraj prijenosa EOT. Međutim, podaci se preko mreže prenose u paketima, koji su sami odgovorni za početak i kraj prijenosa. Dakle, znakovi koji se ne mogu ispisati gotovo se nikada ne koriste.

Tablica 1 - tablica ASCII kodova

Broj	Tim	Značenje	Broj	Tim	Značenje
0	NUL	nulti pokazivač	10	DLE	Izlazak iz prijenosnog sustava
1	SOH	početak zaglavlja	11	DC1	Upravljanje uređajem
2	STX	Početak teksta	12	DC2	Upravljanje uređajem
3	ETX	Kraj teksta	13	DC3	Upravljanje uređajem
4	EOT	Kraj prijenosa	14	DC4	Upravljanje uređajem
5	ACK	Upit	15	NAK	Nepotvrda prijema
6	BEL	Potvrda prihvaćanja	16	SYN	Jednostavan
7	BS	Simbol zvona	17	ETB	Kraj bloka prijenosa
8	HT	Uvlačenje natrag	18	LIMENKA	ocjena
9	LF	Horizontalna kartica	19	EM	Medijski kraj
A	VT	Prijevod redaka	1A	POD	subscript
B	FF	Okomita kartica	1B	ESC	Izlaz
C	CR	Prijevod stranice	1C	FS	Razdjelnik datoteka
D	TAKO	Povrat prtljage	1D	GS	Razdjelnik grupe
E	SI	Prelazak na dodatni registar	1E	RS	Razdjelnik zapisa
	SI	Prelazak na standardni registar	1F	NAS	Razdjelnik modula

Broj	Simbol	Broj	Simbol	Broj	Simbol	Broj	Simbol	Broj	Simbol	Broj	Simbol
20	prostor	30	0	40	@	50	P	60	.	70	str
21	!	31	1	41	A	51	P	61	a	71	q
22	‘	32	2	42	B	52	R	62	b	72	r
23	#	33	3	43	C	53	S	63	c	73	s
24	φ	34	4	44	D	54	T	64	d	74	t
25	%	35	5	45	E	55	I	65	e	75	i
26	&	36	6	46	F	56	V	66	f	76	v
27	‘	37	7	47	G	57	W	67	g	77	w
28	(	38	8	48	H	58	x	68	h	78	x
29	)	39	9	49	ja	59	Y	69	i	70	y
2A	‘	3A	;	4A	J	5A	Z	6A	j	7A	z
2B	+	3B	;	4B	K	5B	[	6B	k	7B	{
2C	‘	3C	<	4C	L	5C	\	6C	l	7C	\|
2D	—	3D	=	4D	M	5D	]	6D	m	7D	}
2E		3E	>	4E	N	5E	—	6E	n	7E	~
2F	/	3F	g	4F	O	5F	_	6F	o	7F	DEL

Unicode standard

Prethodno je kodiranje izvrsno za engleski, ali nije prikladno za druge jezike. Na primjer, njemački ima umlaute, dok francuski ima naglaske. Neki jezici imaju potpuno različite abecede. Prvi pokušaj proširenja ASCII-a bio je IS646, koji je proširio prethodno kodiranje za još 128 znakova. Latinska slova dodana su crtama i dijakritičkim znacima, a nazvana je - latinica 1. Sljedeći pokušaj bio je IS 8859 - koji je sadržavao kodnu stranicu. Bilo je još pokušaja proširenja, ali to nije bilo univerzalno. Stvoren je UNICODE kodiranje (je 10646). Ideja kodiranja je dodijeliti svakom znaku jednu konstantnu 16-bitnu vrijednost, koja se zove - kodni pokazivač. Ukupno je dobiveno 65536 pokazivača. Kako bismo uštedjeli prostor, koristili smo latinicu-1 za kodove 0-255, lako mijenjajući ASII u UNICODE. Ovaj standard je riješio mnoge probleme, ali ne sve. U vezi s dolaskom novih riječi, na primjer, za japanski jezik, trebate povećati broj pojmova za oko 20 tisuća. Također morate omogućiti Brailleovo pismo.

[8-bitna kodiranja: ASCII, KOI-8R i CP1251] Prve tablice kodiranja stvorene u SAD-u nisu koristile osmi bit u bajtu. Tekst je predstavljen kao slijed bajtova, ali osmi bit nije uzet u obzir (koristio se u službene svrhe).

Tablica je postala prihvaćeni standard. ASCII(Američki standardni kod za razmjenu informacija). Prva 32 znaka ASCII tablice (00 do 1F) korištena su za znakove koji se ne ispisuju. Namijenjeni su za upravljanje uređajem za ispis i slično. Ostatak - od 20 do 7F - su obični (ispisivi) znakovi.

Tablica 1 - ASCII kodiranje

prosinca	hex	listopada	Char	Opis
0	0	000		null
1	1	001		početak naslova
2	2	002		početak teksta
3	3	003		kraj teksta
4	4	004		kraj prijenosa
5	5	005		upit
6	6	006		priznati
7	7	007		zvono
8	8	010		backspace
9	9	011		vodoravna kartica
10	A	012		nova linija
11	B	013		okomita kartica
12	C	014		nova stranica
13	D	015		povrat prtljage
14	E	016		pomaknuti se
15	F	017		prebaciti se
16	10	020		bijeg podatkovne veze
17	11	021		kontrola uređaja 1
18	12	022		kontrola uređaja 2
19	13	023		kontrola uređaja 3
20	14	024		kontrola uređaja 4
21	15	025		negativno priznanje
22	16	026		sinkroni mirovanje
23	17	027		kraj trans. blok
24	18	030		otkazati
25	19	031		kraj medija
26	1A	032		zamjena
27	1B	033		pobjeći
28	1C	034		separator datoteka
29	1D	035		separator grupe
30	1E	036		separator zapisa
31	1F	037		separator jedinica
32	20	040		prostor
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3F	077	?

prosinca	hex	listopada	Char
64	40	100	@
65	41	101	A
66	42	102	B
67	43	103	C
68	44	104	D
69	45	105	E
70	46	106	F
71	47	107	G
72	48	110	H
73	49	111	ja
74	4A	112	J
75	4B	113	K
76	4C	114	L
77	4D	115	M
78	4E	116	N
79	4F	117	O
80	50	120	P
81	51	121	P
82	52	122	R
83	53	123	S
84	54	124	T
85	55	125	U
86	56	126	V
87	57	127	W
88	58	130	x
89	59	131	Y
90	5A	132	Z
91	5B	133	[
92	5C	134	\
93	5D	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	a
98	62	142	b
99	63	143	c
100	64	144	d
101	65	145	e
102	66	146	f
103	67	147	g
104	68	150	h
105	69	151	i
106	6A	152	j
107	6B	153	k
108	6C	154	l
109	6D	155	m
110	6E	156	n
111	6F	157	o
112	70	160	str
113	71	161	q
114	72	162	r
115	73	163	s
116	74	164	t
117	75	165	u
118	76	166	v
119	77	167	w
120	78	170	x
121	79	171	y
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

Kao što možete lako vidjeti, u ovom kodiranju su zastupljena samo latinična slova, i to ona koja se koriste na engleskom. Tu su i aritmetički i drugi uslužni simboli. Ali nema ruskih slova, pa čak ni posebnih latiničnih slova za njemački ili francuski. To je lako objasniti - kodiranje je razvijeno kao američki standard. Kako su se računala počela koristiti diljem svijeta, trebalo je kodirati druge znakove.

Za to je odlučeno koristiti osmi bit u svakom bajtu. Tako je bilo dostupno još 128 vrijednosti (od 80 do FF) koje su se mogle koristiti za kodiranje znakova. Prva od osmobitnih tablica je "prošireni ASCII" ( prošireni ASCII) - uključuje različite varijante latiničnih znakova koji se koriste u nekim jezicima zapadne Europe. Imao je i druge dodatne znakove, uključujući pseudografiju.

Pseudografički znakovi dopuštaju, prikazujući samo tekstualne znakove, da pruže neki privid grafike. Koristeći pseudografiju, na primjer, funkcionira program za upravljanje datotekama FAR Manager.

U proširenoj ASCII tablici nije bilo ruskih slova. U Rusiji (bivši SSSR) iu drugim državama stvorena su vlastita kodiranja koja su omogućila predstavljanje određenih "nacionalnih" znakova u 8-bitnim tekstualnim datotekama - latinična slova poljskog i češkog jezika, ćirilica (uključujući ruska slova) i druge abecede.

U svim kodovima koji su postali široko rasprostranjeni, prvih 127 znakova (tj. vrijednosti bajta s osmim bitom jednakim 0) isti su kao ASCII. Dakle, ASCII datoteka radi u bilo kojem od ovih kodiranja; slova engleskog jezika predstavljena su na isti način.

Organizacija ISO(International Standardization Organization - International Organization for Standards) donijela je skupinu normi ISO 8859. Definira 8-bitna kodiranja za različite grupe jezika. Dakle, ISO 8859-1 je prošireni ASCII, tablica za SAD i zapadnu Europu. A ISO 8859-5 je tablica za ćirilicu (uključujući ruski).

Međutim, iz povijesnih razloga, ISO 8859-5 kodiranje se nije uhvatilo. U stvarnosti se za ruski jezik koriste sljedeća kodiranja:

Kodna stranica 866 ( CP866), ona je također "DOS", ona je također "alternativno GOST kodiranje". Široko korišten do sredine 1990-ih; sada u ograničenoj upotrebi. Praktički se ne koristi za distribuciju tekstova na Internetu.
- KOI-8. Razvijen 70-ih i 80-ih godina. To je općeprihvaćeni standard za slanje e-mail poruka na ruskom Internetu. Također se široko koristi u operativnim sustavima obitelji Unix, uključujući Linux. Zove se verzija KOI-8, dizajnirana za ruski KOI-8R; postoje verzije za druge ćiriličke jezike (na primjer, KOI8-U je varijanta za ukrajinski jezik).
- Šifra 1251, CP1251, Windows-1251. Razvio Microsoft za podršku ruskom jeziku u sustavu Windows.

Glavna prednost CP866 bila je očuvanje pseudografskih znakova na istim mjestima kao u proširenom ASCII-u; stoga bi strani tekstualni programi, na primjer, slavni Norton Commander, mogli raditi bez promjena. CP866 se trenutno koristi za Windows programe koji se izvode u tekstualnim prozorima ili u tekstualnom načinu cijelog zaslona, uključujući FAR Manager.

Tekstovi u CP866 prilično su rijetki posljednjih godina (ali se koristi za kodiranje ruskih naziva datoteka u sustavu Windows). Stoga ćemo se zadržati na dva druga kodiranja - KOI-8R i CP1251.

Kao što možete vidjeti, u tablici kodiranja CP1251 ruska slova su poredana abecednim redom (s izuzetkom, međutim, slova YO). Ovaj raspored vrlo olakšava razvrstavanje računalnih programa po abecedi.

Ali u KOI-8R redoslijed ruskih slova izgleda nasumičan. Ali zapravo nije.

U mnogim starijim programima 8. bit je izgubljen prilikom obrade ili prijenosa teksta. (Sada su takvi programi praktički "izumrli", ali su kasnih 80-ih i ranih 90-ih bili široko rasprostranjeni). Da biste dobili 7-bitnu vrijednost od 8-bitne vrijednosti, dovoljno je oduzeti 8 od znamenke višeg reda; na primjer, E1 postaje 61.

Sada usporedite KOI-8R s ASCII tablicom (Tablica 1). Vidjet ćete da su ruska slova u strogom skladu s latinskim. Ako osmi bit nestane, mala ruska slova pretvaraju se u velika latinična slova, a velika ruska slova u mala latinična. Dakle, E1 u KOI-8 je rusko "A", dok je 61 u ASCII latinično "a".

Dakle, KOI-8 vam omogućuje da zadržite čitljivost ruskog teksta uz gubitak 8. bita. “Pozdrav svima” postaje “pRIWET WSEM”.

Nedavno su i abecedni red znakova u tablici kodiranja i čitljivost s gubitkom 8. bita izgubili odlučujuću važnost. Osmi bit se u modernim računalima ne gubi ni tijekom prijenosa ni tijekom obrade. A abecedno razvrstavanje vrši se uzimajući u obzir kodiranje, a ne jednostavnu usporedbu kodova. (Usput, kodovi CP1251 nisu potpuno abecedni - slovo Y nije na svom mjestu).

Zbog činjenice da su postojala dva uobičajena kodiranja, pri radu s Internetom (pošta, pregledavanje web-stranica) ponekad možete vidjeti besmislen skup slova umjesto ruskog teksta. Na primjer, "ja sam SBYFEMHEL". To su samo riječi "s poštovanjem"; ali su bili kodirani u CP1251 kodiranju, a računalo je dekodiralo tekst prema tablici KOI-8. Da su iste riječi, naprotiv, kodirane u KOI-8, a računalo dekodira tekst prema tablici CP1251, rezultat bi bio “U HCHBTSEOEN”.

Ponekad se dogodi da računalo dešifrira slova na ruskom jeziku, pa čak i prema tablici koja nije namijenjena ruskom jeziku. Tada se umjesto ruskih slova pojavljuje besmislen skup znakova (na primjer, latinična slova istočnoeuropskih jezika); često se nazivaju "krokosima".

U većini slučajeva, moderni programi uspijevaju sami odrediti kodiranje internetskih dokumenata (e-mailova i web stranica). Ali ponekad "zapali", a onda možete vidjeti čudne sekvence ruskih slova ili "krokodila". U pravilu, da bi se u takvoj situaciji prikazao pravi tekst, dovoljno je ručno odabrati kodiranje u izborniku programa.

Za članak su korištene informacije sa stranice http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Materijal preuzet sa stranice:

Kao što znate, računalo pohranjuje informacije u binarnom obliku, predstavljajući ih kao niz jedinica i nula. Kako bi se informacija prevela u oblik prikladan za ljudsku percepciju, svaki jedinstveni niz brojeva zamjenjuje se odgovarajućim simbolom kada se prikaže.

Jedan od sustava za korelaciju binarnih kodova s tiskanim i kontrolnim znakovima je

Uz trenutnu razinu razvoja računalne tehnologije, korisnik nije dužan znati šifru svakog pojedinog znaka. Međutim, opće razumijevanje načina na koji se kodiranje provodi iznimno je korisno, a za neke kategorije stručnjaka čak je i potrebno.

Izrada ASCII-a

U svom izvornom obliku, kodiranje je razvijeno 1963., a zatim dva puta ažurirano tijekom 25 godina.

U izvornoj verziji, ASCII tablica znakova je sadržavala 128 znakova, kasnije se pojavila proširena verzija, gdje je prvih 128 znakova spremljeno, a prethodno nedostajući znakovi dodijeljeni su kodovima s uključenim osmim bitom.

Dugi niz godina ovo je kodiranje najpopularnije na svijetu. Godine 2006. prednjačio je Latin 1252, a od kraja 2007. do danas Unicode čvrsto drži vodeću poziciju.

ASCII računalni prikaz

Svaki ASCII znak ima svoj vlastiti kod, koji se sastoji od 8 znakova koji predstavljaju nulu ili jedan. Minimalni broj u ovom prikazu je nula (osam nula u binarnom obliku), što je kod za prvi element u tablici.

Dva koda u tablici su izdvojena za prebacivanje između standardnog US-ASCII i njegove nacionalne varijante.

Nakon što je ASCII počeo uključivati ne 128, već 256 znakova, varijanta kodiranja postala je široko rasprostranjena, u kojoj je izvorna verzija tablice pohranjena u prvih 128 kodova s nula 8. bita. Znakovi narodnog pisanja zadržali su se u gornjoj polovici tablice (pozicije 128-255).

Korisnik ne mora izravno znati ASCII znakovne kodove. Obično je programeru dovoljno znati broj elementa u tablici kako bi izračunao njegov kod, ako je potrebno, koristeći binarni sustav.

ruski jezik

Nakon razvoja kodiranja za skandinavske jezike, kineski, korejski, grčki, itd. početkom 70-ih, Sovjetski Savez je također preuzeo stvaranje vlastite verzije. Ubrzo je razvijena verzija 8-bitnog kodiranja pod nazivom KOI8, koja zadržava prvih 128 ASCII znakovnih kodova i dodjeljuje isti broj pozicija za slova nacionalne abecede i dodatne znakove.

Prije uvođenja Unicodea, KOI8 je dominirao ruskim segmentom interneta. Postojale su opcije kodiranja i za rusku i za ukrajinsku abecedu.

ASCII problemi

Budući da broj elemenata čak ni u proširenoj tablici nije prelazio 256, nije bilo mogućnosti smještaja nekoliko različitih skripti u jedno kodiranje. U 90-ima se u Runetu pojavio problem "crocozyabr", kada su tekstovi upisani ruskim ASCII znakovima bili pogrešno prikazani.

Problem je bio neusklađenost između različitih ASCII varijanti. Podsjetimo da su pozicije 128-255 mogle sadržavati različite znakove, a pri prelasku s jednog ćiriličnog kodiranja na drugo, sva slova teksta su zamijenjena drugim koji su imali identičan broj u drugoj verziji kodiranja.

Trenutna država

S pojavom Unicodea, popularnost ASCII-a naglo je opala.

Razlog tome leži u činjenici da je novo kodiranje omogućilo smještaj znakova gotovo svih pisanih jezika. U ovom slučaju, prvih 128 ASCII znakova odgovara istim znakovima u Unicodeu.

Godine 2000. ASCII je bio najpopularnije kodiranje na Internetu i korišten je na 60% web stranica koje je indeksirao Google. Do 2012. godine udio takvih stranica pao je na 17%, a Unicode (UTF-8) je zauzeo mjesto najpopularnijeg kodiranja.

Dakle, ASCII je važan dio povijesti informacijske tehnologije, ali se njegova upotreba u budućnosti smatra neperspektivnom.

prosinca	hex	Simbol	prosinca	hex	Simbol
000	00	specijalista. NOP	128	80	Ђ
001	01	specijalista. SOH	129	81	Ѓ
002	02	specijalista. STX	130	82	‚
003	03	specijalista. ETX	131	83	ѓ
004	04	specijalista. EOT	132	84	„
005	05	specijalista. ENQ	133	85	…
006	06	specijalista. ACK	134	86	†
007	07	specijalista. BEL	135	87	‡
008	08	specijalista. BS	136	88	€
009	09	specijalista. TAB	137	89	‰
010	0A	specijalista. LF	138	8A	Љ
011	0B	specijalista. VT	139	8B	‹ ‹
012	0C	specijalista. FF	140	8C	Њ
013	0D	specijalista. CR	141	8D	Ќ
014	0E	specijalista. TAKO	142	8E	Ћ
015	0F	specijalista. SI	143	8F	Џ
016	10	specijalista. DLE	144	90	ђ
017	11	specijalista. DC1	145	91	‘
018	12	specijalista. DC2	146	92	’
019	13	specijalista. DC3	147	93	“
020	14	specijalista. DC4	148	94	”
021	15	specijalista. NAK	149	95
022	16	specijalista. SYN	150	96	–
023	17	specijalista. ETB	151	97	—
024	18	specijalista. LIMENKA	152	98
025	19	specijalista. EM	153	99	™
026	1A	specijalista. POD	154	9A	љ
027	1B	specijalista. ESC	155	9B	›
028	1C	specijalista. FS	156	9C	њ
029	1D	specijalista. GS	157	9D	ќ
030	1E	specijalista. RS	158	9E	ћ
031	1F	specijalista. NAS	159	9F	џ
032	20	kvačilo SP (prostor)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Yo
041	29	)	169	A9	©
042	2A	*	170	AA	Є
043	2B	+	171	AB	«
044	2C	,	172	AC	¬
045	2D	-	173	OGLAS
046	2E	.	174	AE	®
047	2F	/	175	AF	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	yo
057	39	9	185	B9	№
058	3A	:	186	BA	є
059	3B	;	187	BB	»
060	3C	<	188	PRIJE KRISTA	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	BITI	ѕ
063	3F	?	191	bf	ї
064	40	@	192	C0	A
065	41	A	193	C1	B
066	42	B	194	C2	V
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	F
071	47	G	199	C7	W
072	48	H	200	C8	I
073	49	ja	201	C9	Y
074	4A	J	202	CA	DO
075	4B	K	203	CB	L
076	4C	L	204	CC	M
077	4D	M	205	CD	H
078	4E	N	206	CE	O
079	4F	O	207	CF	P
080	50	P	208	D0	R
081	51	P	209	D1	S
082	52	R	210	D2	T
083	53	S	211	D3	Na
084	54	T	212	D4	F
085	55	U	213	D5	x
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	x	216	D8	W
089	59	Y	217	D9	SCH
090	5A	Z	218	DA	Kommersant
091	5B	[	219	D.B.	S
092	5C	\	220	DC	b
093	5D	]	221	dd	E
094	5E	^	222	DE	YU
095	5F	_	223	D.F.	JA SAM
096	60	`	224	E0	a
097	61	a	225	E1	b
098	62	b	226	E2	v
099	63	c	227	E3	G
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	f	230	E6	dobro
103	67	g	231	E7	h
104	68	h	232	E8	i
105	69	i	233	E9	th
106	6A	j	234	EA	Do
107	6B	k	235	EB	l
108	6C	l	236	EU	m
109	6D	m	237	ED	n
110	6E	n	238	EE	O
111	6F	o	239	EF	P
112	70	str	240	F0	R
113	71	q	241	F1	S
114	72	r	242	F2	T
115	73	s	243	F3	na
116	74	t	244	F4	f
117	75	u	245	F5	x
118	76	v	246	F6	c
119	77	w	247	F7	h
120	78	x	248	F8	w
121	79	y	249	F9	SCH
122	7A	z	250	FA	b
123	7B	{	251	Facebook	s
124	7C	\|	252	FC	b
125	7D	}	253	F D	uh
126	7E	~	254	F.E.	Yu
127	7F	Specijalista. DEL	255	FF	Ja sam

ASCII tablica kodova znakova sustava Windows.
Opis posebnih (kontrolnih) znakova

Treba napomenuti da su se u početku kontrolni znakovi ASCII tablice koristili za razmjenu podataka putem teletipa, unos podataka s bušene vrpce i za najjednostavniju kontrolu vanjskih uređaja.
Trenutno, većina tabličnih ASCII kontrolnih znakova više ne nosi ovo opterećenje i mogu se koristiti u druge svrhe.

Kod	Opis
NUL, 00	Null, prazno
SO-01	Početak naslova
STX 02	Početak teksta, početak teksta.
ETX 03	Kraj TeXt-a
EOT, 04	Kraj prijenosa
ENQ, 05	Raspitajte se. Molim potvrdite
ACK, 06	Priznanje. potvrđujem
B.E.L. 07	Bell, zovi
B.S. 08	Povratak, povratak jedan znak unatrag
TAB, 09	Kartica, vodoravna kartica
LF, 0A	Line Feed, Line Feed. Sada se u većini programskih jezika označava kao \n
VT, 0B	Vertikalna kartica, vertikalna tablica.
FF, 0C	Feed obrasca, feed stranice, nova stranica
CR, 0D	Povrat prtljage Sada se u većini programskih jezika označava kao \r
DAKLE, 0E	Shift Out, promijenite boju vrpce s tintom u pisaču
SI, 0F	Shift In, vratite boju vrpce s tintom u uređaj za ispis
DLE, 10	Data Link Escape, prebacivanje kanala na prijenos podataka
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Kontrola uređaja, simboli za upravljanje uređajem
N.A.K. 15	Negativna potvrda, ne potvrđujem.
SYN, 16	sinkronizacija. Simbol sinkronizacije
ETB, 17	Kraj tekstualnog bloka, kraj tekstualnog bloka
MOŽE, 18	Otkazivanje, poništavanje prethodno položenog
EM, 19	Kraj medija
SUB, 1A	Zamjena, zamjena. Stavlja se na mjesto znaka čija je vrijednost izgubljena ili oštećena tijekom prijenosa
ESC, 1B	Slijed za bijeg
FS, 1C	File Separator, File Separator
GS, 1D	Grupni separator, separator grupe
RS, 1E	Razdjelnik zapisa
SAD, 1F	Razdjelnik jedinica, separator jedinica
DEL, 7F	Izbriši, izbriši zadnji znak.

Tablica znakova ascii binarni kod. ASCII kodiranje (američki standardni kod za razmjenu informacija) - osnovno kodiranje teksta za latinicu

Računalo

i

3.2. Kodiranje grafičkih informacija

Vježbe za samoispunjenje

ASCII standard

Unicode standard

Izrada ASCII-a

ASCII računalni prikaz

ruski jezik

ASCII problemi

Trenutna država

ASCII tablica kodova znakova sustava Windows. Opis posebnih (kontrolnih) znakova

Vrhunski povezani članci

ASCII tablica kodova znakova sustava Windows.
Opis posebnih (kontrolnih) znakova