Kako postaviti pametne telefone i računala. Informativni portal
  • Dom
  • Recenzije
  • Tablica znakova ascii binarni kod. ASCII kodiranje (američki standardni kod za razmjenu informacija) - osnovno kodiranje teksta za latinicu

Tablica znakova ascii binarni kod. ASCII kodiranje (američki standardni kod za razmjenu informacija) - osnovno kodiranje teksta za latinicu

Pogledajmo neke od činjenica koje znamo:

Skup znakova kojim je napisan tekst naziva se abeceda.

Broj znakova u abecedi je njegova kardinalnost.

Formula za određivanje količine informacija: N \u003d 2 b,

gdje je N snaga abecede (broj znakova),

b - broj bitova (informacijska težina znaka).

Gotovo svi potrebni znakovi mogu se smjestiti u abecedu kapaciteta 256 znakova. Takva abeceda naziva se dovoljna.

Jer 256 = 28 , tada je težina 1 znaka 8 bita.

Jedinici mjere od 8 bita dano je ime 1 bajt:

1 bajt = 8 bitova.

Binarni kod svakog znaka u kompjuterskom tekstu zauzima 1 bajt memorije.

Kako su tekstualne informacije predstavljene u memoriji računala?

Kodiranje se sastoji u tome da se svakom znaku dodjeljuje jedinstveni decimalni kod od 0 do 255 ili odgovarajući binarni kod od 00000000 do 11111111. Dakle, osoba razlikuje znakove po stilu, a računalo po kodu.

Pogodnost bajt-po-bajt kodiranja znakova je očigledna, budući da je bajt najmanji adresabilni dio memorije i stoga procesor može pristupiti svakom znaku zasebno prilikom obrade teksta. S druge strane, 256 znakova je sasvim dovoljno za predstavljanje široke palete informacija o znakovima.

Sada se postavlja pitanje koji osmobitni binarni kod staviti u korespondenciju sa svakim znakom.

Jasno je da je to uvjetna stvar, možete smisliti mnogo načina za kodiranje.

ASCII tablica je postala međunarodni standard za računala. (izgovara se kao asci) (Američki standardni kod za razmjenu informacija).

Samo je prva polovica tablice međunarodni standard, t.j. znakova s ​​brojevima od 0 (00000000) do 127 (01111111).

Serijski broj

Simbol

00000000 - 00011111


Njihova je funkcija kontrola procesa prikazivanja teksta na ekranu ili ispisa, davanja zvučnog signala, označavanja teksta itd.

32 - 127

00100000 - 01111111


128 - 255

10000000 - 11111111


Druga polovica tablice kodova ASCII, nazvana kodna stranica (128 kodova, počevši s 10000000 i završavajući s 11111111), može imati različite opcije, svaka opcija ima svoj broj.


Skrećem vam pozornost na činjenicu da su u tablici kodiranja slova (velika i mala slova) poredana abecednim redom, a brojevi uzlaznim redoslijedom. Ovo poštivanje leksikografskog reda u rasporedu znakova naziva se princip sekvencijalnog kodiranja abecede.


Najčešći kodiranje koje se trenutno koristi je Microsoft Windows, skraćeno CP1251.

Od kasnih 90-ih, problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda nazvanog Unicode. . Ovo je 16-bitno kodiranje, tj. ima 2 bajta memorije po znaku. Naravno, u ovom slučaju, količina zauzete memorije povećava se za 2 puta. Ali takva tablica kodova omogućuje uključivanje do 65536 znakova. Kompletna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene alfabete svijeta, kao i mnoge matematičke, glazbene, kemijske i druge simbole.

Pokušajmo pomoću ASCII tablice zamisliti kako će riječi izgledati u memoriji računala.

Riječi

Memorija

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Kada se tekstualne informacije unose u računalo, znakovi (slova, brojevi, znakovi) se kodiraju različitim kodnim sustavima, koji se sastoje od skupa kodnih tablica smještenih na odgovarajućim stranicama standarda za kodiranje tekstualnih informacija. U takvim je tablicama svakom znaku dodijeljen specifičan brojčani kod u heksadecimalnom ili decimalnom zapisu, tj. tablice kodova odražavaju korespondenciju između slika znakova i numeričkih kodova i dizajnirane su za kodiranje i dekodiranje tekstualnih informacija. Prilikom unosa tekstualnih informacija pomoću računalne tipkovnice, svaki ulazni znak se kodira, tj. pretvara u numerički kod, kada se tekstualna informacija izlazi na izlazni uređaj računala (zaslon, pisač ili ploter), njegova se slika gradi pomoću brojčanog koda znakova . Dodjela specifičnog numeričkog koda simbolu rezultat je sporazuma između odgovarajućih organizacija u različitim zemljama. Trenutno ne postoji jedinstvena univerzalna kodna tablica koja zadovoljava slova nacionalnih abeceda različitih zemalja.

Suvremene šifrarne tablice uključuju međunarodne i nacionalne dijelove, odnosno sadrže slova latinice i nacionalne abecede, brojeve, aritmetičke i interpunkcijske znakove, matematičke i kontrolne znakove te pseudografske znakove. Međunarodni dio tablice kodova na temelju standarda ASCII (američki standardni kod za razmjenu informacija), kodira prvu polovicu znakova tablice kodova s ​​numeričkim kodovima od 0 do 7 F16, ili u decimalnom brojevnom sustavu od 0 do 127. U ovom slučaju, kodovi od 0 do 20 16 (0 × 32 10) dodijeljeni su funkcijskim tipkama (F1, F2, F3, itd.) tipkovnice osobnog računala. Na sl. 3.1 prikazuje međunarodni dio tablica kodova na temelju standarda ASCII.Ćelije tablice su numerirane u decimalnom i heksadecimalnom brojevnom sustavu.

Slika 3.1. Međunarodni dio tablice kodova (standard ASCII) s brojevima ćelija predstavljenim u decimalnom (a) i heksadecimalnom (b) brojevnom sustavu


Nacionalni dio tablica kodova sadrži kodove nacionalnih abeceda, koji se također naziva tablica skupa znakova. (skup znakova).

Trenutno, za podršku slova ruske abecede (ćirilice), postoji nekoliko kodnih tablica (kodiranja) koje koriste različiti operativni sustavi, što je značajan nedostatak i u nekim slučajevima dovodi do problema povezanih s operacijama dekodiranja za numeričke vrijednosti likova. U tablici. 3.1 prikazani su nazivi kodnih stranica (standarda) na kojima su postavljene ćirilične kodne tablice (kodiranja).

Tablica 3.1

Jedan od prvih standarda za kodiranje ćirilice na računalima bio je standard KOI8-R. Nacionalni dio tablice kodova ove norme prikazan je na sl. 3.2.

Riža. 3.2. Nacionalni dio tablice kodova standarda KOI8-R


Trenutno se koristi i tablica kodova, koja se nalazi na stranici CP866 standarda kodiranja tekstualnih informacija, koji se koristi u operativnom sustavu MS DOS ili sesije MS DOS za kodiranje ćirilice (slika 3.3, a).

Riža. 3.3. Nacionalni dio tablice kodova, koji se nalazi na stranici SR866 (a) i na stranici SR1251 (b) standarda za kodiranje tekstualnih informacija


Trenutno se za ćirilično kodiranje najraširenija kodna tablica nalazi na stranici SR1251 odgovarajućeg standarda, koji se koristi u operativnim sustavima obitelji Windows poduzeća Microsoft(slika 3.2, b). U svim prikazanim tablicama kodova, osim u standardnoj tablici Unicode, 8 bitova (8 bitova) dodijeljeno je za kodiranje jednog znaka.

Krajem prošlog stoljeća pojavio se novi međunarodni standard Unicode, u kojem je jedan znak predstavljen dvobajtnim binarnim kodom. Primjena ovog standarda nastavak je razvoja univerzalnog međunarodnog standarda koji omogućuje rješavanje problema kompatibilnosti nacionalnih kodiranja znakova. Koristeći ovaj standard, možete kodirati 2 16 = 65536 različitih znakova. Na sl. 3.4 prikazuje tablicu kodova 0400 (ruska abeceda) standarda Unicode.

Riža. 3.4. Tablica kodova 0400 Unicode standarda


Pojasnimo na primjeru što je rečeno o kodiranju tekstualnih informacija.

Primjer 3.1

Kodirajte riječ "Računalo" kao niz decimalnih i heksadecimalnih brojeva koristeći CP1251 kodiranje. Koji će se znakovi prikazati u tablicama kodova SR866 i KOI8-R kada se koristi primljeni kod.

Heksadecimalni i binarni kodni nizovi za riječ "Računalo" na temelju tablice kodiranja CP1251 (vidi sliku 3.3, b) izgledat će ovako:

Ovaj kodni slijed u kodovima CP866 i KOI8-R prikazat će sljedeće znakove:

Za pretvaranje tekstualnih dokumenata na ruskom jeziku iz jednog standarda kodiranja tekstualnih informacija u drugi, koriste se posebni programi - pretvarači. Pretvarači se obično ugrađuju u druge programe. Primjer je program preglednika - Internet Explorer (IE) koji ima ugrađen pretvarač. Program preglednika je poseban program za gledanje sadržaja Internet stranice u globalnoj računalnoj mreži Internet. Koristimo ovaj program za potvrdu rezultata mapiranja znakova dobivenog u primjeru 3.1. Da biste to učinili, izvršite sljedeće korake.

1. Pokrenite Notepad (Bilježnica). Program Notepad u operativnom sustavu Windows XP se pokreće pomoću naredbe: [Button Početak– Programi – Pribor – Notepad]. U prozoru programa Notepad koji se otvori upišite riječ "Računalo" koristeći sintaksu jezika za označavanje hipertekstualnog dokumenta - HTML (Hyper Text Markup Language). Ovaj jezik se koristi za izradu dokumenata na webu. Tekst bi trebao izgledati ovako:

Računalo

, gdje

i

oznake (posebne konstrukcije) jezika HTML za naslove. Na sl. 3.5 prikazuje rezultat ovih radnji.

Riža. 3.5. Prikažite tekst u prozoru Notepad


Spremimo ovaj tekst tako što ćemo izvršiti naredbu: [Datoteka - Spremi kao ...] u odgovarajuću mapu na računalu, prilikom spremanja teksta datoteci ćemo dati naziv - Napomena, s nastavkom datoteke. html.

2. Pokrenite program Internet Explorer, izvršavanjem naredbe: [Gumb Početak- Programi - Internet Explorer]. Kada se program pokrene, prozor prikazan na sl. 3.6

Riža. 3.6. Prozor za izvanmrežni pristup


Odaberite i aktivirajte gumb Izvanmrežno ovo neće povezati računalo s globalnim internetom. Pojavit će se glavni prozor programa Microsoft Internet Explorer, prikazano na sl. 3.7.

Riža. 3.7. Glavni prozor Microsoft Internet Explorera


Izvršimo sljedeću naredbu: [Datoteka - Otvori], pojavit će se prozor (slika 3.8) u kojem morate odrediti naziv datoteke i kliknuti gumb u redu ili pritisnite gumb Pregled… i pronađite datoteku Note.html.

Riža. 3.8. Otvori prozor


Glavni prozor programa Internet Explorer imat će oblik prikazan na sl. 3.9. U prozoru će se prikazati riječ "Računalo". Zatim, pomoću gornjeg izbornika programa Internet Explorer, pokrenite sljedeću naredbu: [View - Encoding - Cyrillic (DOS)]. Nakon izvršenja ove naredbe u prozoru programa Internet Explorer simboli prikazani na sl. 3.10. Prilikom izvršavanja naredbe: [Prikaz - Kodiranje - Ćirilica (KOI8-R)] u prozoru programa Internet Explorer simboli prikazani na sl. 3.11.

Riža. 3.9. Znakovi prikazani CP1251 kodiranjem


Riža. 3.10. Znakovi koji se prikazuju kada je CP866 kodiranje omogućeno za kodni niz predstavljen u CP1251 kodiranju


Riža. 3.11. Znakovi koji se prikazuju kada je KOI8-R kodiranje omogućeno za kodni niz predstavljen u kodiranju CP1251


Dakle, dobiveno pomoću programa Internet Explorer znakovni nizovi odgovaraju nizovima znakova dobivenim korištenjem kodnih tablica CP866 i KOI8-R u primjeru 3.1.

3.2. Kodiranje grafičkih informacija

Grafičke informacije predstavljene u obliku crteža, fotografija, slajdova, pokretnih slika (animacija, video), dijagrama, crteža, mogu se kreirati i uređivati ​​pomoću računala, pri čemu su odgovarajuće kodirane. Trenutno postoji prilično velik broj aplikacijskih programa za obradu grafičkih informacija, ali svi implementiraju tri vrste računalne grafike: rastersku, vektorsku i fraktalnu.

Ako pobliže pogledate grafičku sliku na zaslonu monitora računala, možete vidjeti veliki broj raznobojnih točaka (piksela - s engleskog. piksel, nastala od element slike element slike) koji, kada se spoje, tvore zadanu grafičku sliku. Iz ovoga možemo zaključiti: grafička slika u računalu je kodirana na određeni način i mora se prikazati kao grafička datoteka. Datoteka je glavna strukturna jedinica za organiziranje i pohranjivanje podataka u računalu i u ovom slučaju treba sadržavati informacije o tome kako prikazati ovaj skup točaka na zaslonu monitora.

Datoteke stvorene na temelju vektorske grafike sadrže informacije u obliku matematičkih ovisnosti (matematičke funkcije koje opisuju linearne ovisnosti) i povezane podatke o tome kako konstruirati sliku objekta korištenjem segmenata linija (vektora) kada se prikazuju na ekranu monitora računala.

Datoteke stvorene na temelju rasterske grafike uključuju pohranjivanje podataka o svakoj pojedinoj točki na slici. Rasterski grafički prikaz ne zahtijeva složene matematičke izračune, dovoljno je samo dobiti podatke o svakoj točki slike (njezine koordinate i boju) i prikazati ih na ekranu monitora računala.

U procesu kodiranja slike vrši se njezino prostorno uzorkovanje, tj. slika se dijeli na zasebne točke i svakoj točki se daje kod boje (žuta, crvena, plava itd.). Za kodiranje svake točke grafičke slike u boji koristi se princip dekompozicije proizvoljne boje na njezine glavne komponente, koje se koriste kao tri osnovne boje: crvena (engleska riječ Crvena, označena slovom DO), zelena (zeleno, označena slovom G), plava (plava, označiti bukvu V). Bilo koja točkasta boja koju percipira ljudsko oko može se dobiti aditivnim (proporcionalnim) zbrajanjem (miješanjem) tri osnovne boje - crvene, zelene i plave. Ovaj sustav kodiranja naziva se sustav boja. RGB. Slikovne datoteke koje koriste sustav boja RGB, predstavljaju svaku točku slike kao trojku boja - tri numeričke vrijednosti R, G i V, odgovara intenzitetima crvene, zelene i plave. Proces kodiranja grafičke slike provodi se različitim tehničkim sredstvima (skener, digitalna kamera, digitalna video kamera itd.); rezultat je bitmap slika. Prilikom reprodukcije grafičkih slika u boji na zaslonu računalnog monitora u boji, boja svake točke (piksela) takve slike dobiva se miješanjem tri primarne boje R,G i b.

Kvalitetu rasterske slike određuju dva glavna parametra - razlučivost (broj vodoravnih i okomitih točaka) i korištena paleta boja (broj boja specificiranih za svaku točku slike). Razlučivost se određuje navođenjem broja vodoravnih i okomitih točaka, na primjer 800 puta 600 točaka.

Postoji odnos između broja boja dodijeljenih pikselu rasterske slike i količine informacija koje je potrebno dodijeliti za pohranu boje piksela, određen omjerom (formula R. Hartleyja):

gdje ja– količina informacija; N- broj boja danih točki.

Količina informacija potrebna za pohranu boje točke također se naziva dubina boje ili kvaliteta boje.

Dakle, ako je broj boja specificiranih za točku slike N= 256, tada će količina informacija potrebna za njihovo pohranjivanje (dubina boje) u skladu s formulom (3.1) biti jednaka ja= 8 bita.

Računala koriste različite načine grafičkog prikaza za prikaz grafičkih informacija. Ovdje treba napomenuti da osim grafičkog načina rada monitora, postoji i tekstualni način rada, u kojem je zaslon monitora konvencionalno podijeljen na 25 redaka od 80 znakova po retku. Ove grafičke načine karakterizira razlučivost zaslona monitora i kvaliteta boje (dubina boje). Za postavljanje grafičkog načina zaslona monitora u operativnom sustavu MS Windows XP trebate izvršiti naredbu: [Button Početak– Postavke – Upravljačka ploča – Zaslon]. U dijaloškom okviru "Svojstva: Zaslon" koji se pojavi (slika 3.12) odaberite karticu "Parametri" i klizačem "Rezolucija zaslona" odaberite odgovarajuću razlučivost zaslona (800x600 piksela, 1024x768 piksela itd.). Pomoću padajućeg popisa "Kvaliteta boje" možete odabrati dubinu boje - "Najveća (32 bita)", "Srednja (16 bita)" itd., dok će broj boja dodijeljen svakoj točki slike biti jednak 2 32 (4294967296), 2 16 (65536) itd.

Riža. 3.12. Dijaloški okvir Svojstva prikaza


Za implementaciju svakog od grafičkih načina zaslona monitora potreban je određeni volumen informacija video memorije računala. Potreban volumen informacija video memorije (V) određuje se iz relacije

gdje DO - broj slikovnih točaka na zaslonu monitora (K = A B); A - broj vodoravnih točaka na zaslonu monitora; V - broj okomitih točaka na zaslonu monitora; ja– količina informacija (dubina boje).

Dakle, ako zaslon monitora ima rezoluciju od 1024 x 768 piksela i paletu koja se sastoji od 65 536 boja, tada će dubina boje u skladu s formulom (3.1) biti I = log 2 65 538 = 16 bita, broj slike pikseli će biti jednaki: K = 1024 x 768 = 786432, a potrebni volumen informacija video memorije u skladu s (3.2) bit će jednak

V = 786432 16 bita = 12582912 bita = 1572864 bajtova = 1536 KB = 1,5 MB.

Zaključno, treba napomenuti da su uz navedene karakteristike najvažnije karakteristike monitora geometrijske dimenzije njegova zaslona i slikovne točke. Geometrijske dimenzije ekrana određene su veličinom dijagonale monitora. Dijagonala monitora je postavljena u inčima (1 inč = 1" = 25,4 mm) i može imati vrijednosti jednake: 14", 15", 17", 21" itd. Moderne tehnologije proizvodnje monitora mogu pružiti veličinu točke slike jednak 0,22 mm.

Dakle, za svaki monitor postoji fizički maksimalna moguća razlučivost zaslona, ​​određena veličinom njegove dijagonale i veličinom točke slike.

Vježbe za samoispunjenje

1. Korištenje programa MS Excel pretvorite tablice kodova ASCII, SR866, SR1251, KOI8-R u tablice oblika: u ćelije prvog stupca tablice upišite abecednim redom velika, a zatim mala latinična i ćirilična slova, u ćelije drugog stupca - kodovi koji odgovaraju slovima u decimalnom brojevnom sustavu, u ćelijama treći stupac - kodovi koji odgovaraju slovima u heksadecimalnom brojevnom sustavu. Vrijednosti kodova moraju se odabrati iz odgovarajućih tablica kodova.

2. Kodirajte i zapišite sljedeće riječi kao niz brojeva u decimalnom i heksadecimalnom zapisu:

a) Internet Explorer, b) Microsoft Office v) Corel Draw.

Kodiranje za proizvodnju pomoću nadograđene ASCII tablice kodiranja dobivene u prethodnoj vježbi.

3. Dekodirajte pomoću nadograđene tablice kodiranja KOI8-R nizove brojeva napisanih u heksadecimalnom brojevnom sustavu:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Kako će izgledati riječ "Kibernetika" napisana u CP1251 kodiranju kada se koriste kodiranja CP866 i KOI8-R? Provjerite rezultate s programom Internet Explorer.

5. Koristeći tablicu kodova prikazanu na sl. 3.1 a, dekodirati sljedeće kodne sekvence napisane u binarnom zapisu:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Odredite količinu informacija riječi "Ekonomija" kodirane pomoću kodnih tablica SR866, SR1251, Unicode i KOI8-R.

7. Odredite informacijski volumen datoteke dobivene kao rezultat skeniranja slike u boji veličine 12x12 cm. Rezolucija skenera koji se koristi za skeniranje ove slike je 600 dpi. Skener postavlja dubinu boje točke slike na 16 bita.

Rezolucija skenera 600 dpi (dotper inča - dots per inch) određuje sposobnost skenera s ovom razlučivosti da razlikuje 600 točaka na segmentu od 1 inča.

8. Odredite količinu informacija datoteke dobivene kao rezultat skeniranja slike u boji veličine A4. Rezolucija skenera koji se koristi za skeniranje ove slike je 1200 dpi. Skener postavlja dubinu boje točke slike na 24 bita.

9. Odredite broj boja u paleti na dubini boje od 8, 16, 24 i 32 bita.

10. Odredite potrebnu količinu video memorije za grafičke modove zaslona monitora 640 x 480, 800 x 600, 1024 x 768 i 1280 x 1024 piksela s dubinom boje točke slike od 8, 16, 24 i 32 bita. Rezultati su sažeti u tablici. Razviti se u MS Excel program za automatizaciju proračuna.

11. Odredite maksimalni broj boja koje se mogu koristiti za pohranu slike od 32 x 32 piksela ako je računalo dodijelilo 2 KB memorije za sliku.

12. Odredite maksimalnu moguću razlučivost zaslona monitora s dijagonalnom duljinom od 15" i veličinom točke slike od 0,28 mm.

13. Koje grafičke načine rada monitora može osigurati video memorija od 64 MB?

Sadržaj

I. Povijest kodiranja informacija……………………………………………..3

II. Informacije o kodiranju……………………………………………4

III. Kodiranje tekstualnih informacija……………………………….4

IV. Vrste tablica kodiranja……………………………………………...6

V. Izračun količine tekstualnih informacija…………………………………14

Popis korištene literature……………………………………………..16

ja . Povijest kodiranja informacija

Čovječanstvo koristi šifriranje (kodiranje) teksta od samog trenutka kada su se pojavile prve tajne informacije. Evo nekoliko tehnika kodiranja teksta koje su izumljene u različitim fazama razvoja ljudske misli:

Kriptografija je kriptografija, sustav mijenjanja pisanja kako bi se tekst učinio nerazumljivim neupućenim osobama;

Morseov kod ili neuniformni telegrafski kod, u kojem je svako slovo ili znak predstavljeno svojom kombinacijom kratkih jedinica električne struje (točke) i trostrukih jedinica trajanja (crtice);

znakovni jezik je znakovni jezik koji koriste osobe s oštećenjem sluha.

Jedna od najranijih poznatih metoda šifriranja nosi ime rimskog cara Julija Cezara (1. st. pr. Kr.). Ova metoda se temelji na zamjeni svakog slova šifriranog teksta drugim pomicanjem abecede od izvornog slova za fiksni broj znakova, a abeceda se čita u krugu, odnosno nakon slova i, razmatra se a. Dakle, riječ "bajt" kada se pomakne dva znaka udesno je kodirana riječju "gvlf". Obrnuti proces dešifriranja zadane riječi je da se svako šifrirano slovo zamijeni drugim lijevo od njega.

II. Kodiranje informacija

Kod je skup konvencija (ili signala) za snimanje (ili prijenos) nekih unaprijed definiranih koncepata.

Kodiranje informacija je proces formiranja određene reprezentacije informacije. U užem smislu, pojam "kodiranje" često se shvaća kao prijelaz s jednog oblika prezentacije informacija na drugi, prikladniji za pohranu, prijenos ili obradu.

Obično je svaka slika, kada je kodirana (ponekad kažu - šifrirana), predstavljena zasebnim znakom.

Znak je element konačnog skupa različitih elemenata.

U užem smislu, pojam "kodiranje" često se shvaća kao prijelaz s jednog oblika prezentacije informacija na drugi, prikladniji za pohranu, prijenos ili obradu.

Računalo može obraditi tekstualne informacije. Kada se unese u računalo, svako slovo je kodirano određenim brojem, a pri izlazu na vanjske uređaje (screen ili print), za ljudsku percepciju, slike slova se grade pomoću tih brojeva. Korespondencija između skupa slova i brojeva naziva se kodiranjem znakova.

U pravilu su svi brojevi u računalu predstavljeni pomoću nula i jedinica (a ne deset znamenki, kao što je uobičajeno za ljude). Drugim riječima, računala obično rade u binarnom sustavu, jer su uređaji za njihovu obradu mnogo jednostavniji. Unos brojeva u računalo i njihov izlaz za ljudsko čitanje može se obaviti u uobičajenom decimalnom obliku, a sve potrebne pretvorbe izvode se programi koji rade na računalu.

III. Kodiranje tekstualnih informacija

Ista informacija može se predstaviti (kodirati) u nekoliko oblika. Pojavom računala postalo je potrebno kodirati sve vrste informacija s kojima se nosi i pojedinac i čovječanstvo u cjelini. Ali čovječanstvo je počelo rješavati problem kodiranja informacija mnogo prije pojave računala. Grandiozna dostignuća čovječanstva - pisanje i aritmetika - nisu ništa više od sustava kodiranja govora i brojčanih informacija. Informacija se nikada ne pojavljuje u svom čistom obliku, uvijek je na neki način prezentirana, na neki način kodirana.

Binarno kodiranje jedan je od najčešćih načina predstavljanja informacija. U računalima, robotima i alatnim strojevima s numeričkim upravljanjem u pravilu su sve informacije s kojima se uređaj obrađuje kodirane u obliku riječi binarne abecede.

Od kraja 60-ih, računala se sve više koriste za obradu tekstualnih informacija, a trenutno je glavni udio osobnih računala u svijetu (i većinu vremena) zauzet obradom tekstualnih informacija. Sve ove vrste informacija u računalu su predstavljene u binarnom kodu, tj. koristi se abeceda s potencijom dva (samo dva znaka 0 i 1). To je zbog činjenice da je prikladno predstaviti informacije u obliku niza električnih impulsa: nema impulsa (0), postoji impuls (1).

Takvo se kodiranje obično naziva binarnim, a sami logički nizovi nula i jedinica nazivaju se strojnim jezikom.

Sa stajališta računala, tekst se sastoji od pojedinačnih znakova. Znakovi ne uključuju samo slova (velika ili mala, latinična ili ruska), već i brojeve, interpunkcijske znakove, posebne znakove poput "=", "(", "&", itd., pa čak (obratite posebnu pozornost!) razmake između riječi. .

Tekstovi se unose u memoriju računala pomoću tipkovnice. Tipke su ispisane nama poznatim slovima, brojevima, interpunkcijskim znakovima i drugim simbolima. Oni ulaze u RAM u binarnom kodu. To znači da je svaki znak predstavljen 8-bitnim binarnim kodom.

Tradicionalno, za kodiranje jednog znaka koristi se količina informacija jednaka 1 bajtu, tj. I \u003d 1 bajt \u003d 8 bita. Koristeći formulu koja povezuje broj mogućih događaja K i količinu informacija I, možete izračunati koliko se različitih znakova može kodirati (pod pretpostavkom da su znakovi mogući događaji): K = 2 I = 2 8 = 256, tj. prikaz tekstualnih informacija, možete koristiti abecedu s kapacitetom od 256 znakova.

Ovaj broj znakova sasvim je dovoljan za predstavljanje tekstualnih informacija, uključujući velika i mala slova ruske i latinične abecede, brojeve, znakove, grafičke simbole itd.

Kodiranje se sastoji u tome da se svakom znaku dodjeljuje jedinstveni decimalni kod od 0 do 255 ili odgovarajući binarni kod od 00000000 do 11111111. Dakle, osoba razlikuje znakove po stilu, a računalo po kodu.

Pogodnost bajt-po-bajt kodiranja znakova je očigledna, budući da je bajt najmanji adresabilni dio memorije i stoga procesor može pristupiti svakom znaku zasebno prilikom obrade teksta. S druge strane, 256 znakova je sasvim dovoljno za predstavljanje široke palete informacija o znakovima.

U procesu prikazivanja znaka na ekranu računala vrši se obrnuti proces - dekodiranje, odnosno pretvaranje koda znaka u njegovu sliku. Važno je da je dodjela određene šifre simbolu stvar dogovora, što je fiksirano u tablici kodova.

Sada se postavlja pitanje koji osmobitni binarni kod staviti u korespondenciju sa svakim znakom. Jasno je da je to uvjetna stvar, možete smisliti mnogo načina za kodiranje.

Svi simboli računalne abecede numerirani su od 0 do 255. Svaki broj odgovara osmoznamenkastom binarnom kodu od 00000000 do 11111111. Ovaj kod je jednostavno redni broj znaka u binarnom brojevnom sustavu.

IV . Vrste tablica kodiranja

Tablica u kojoj su svim znakovima računalne abecede dodijeljeni serijski brojevi naziva se tablica kodiranja.

Za različite vrste računala koriste se različite tablice kodiranja.

ASCII (American Standard Code for Information Interchange) tablica kodova usvojena je kao međunarodni standard, kodiranje prve polovice znakova s ​​numeričkim kodovima od 0 do 127 (kodovi od 0 do 32 nisu dodijeljeni znakovima, već funkcijskim tipkama).

Tablica ASCII kodova podijeljena je u dva dijela.

Samo je prva polovica tablice međunarodni standard, t.j. znakova s ​​brojevima od 0 (00000000) do 127 (01111111).

Struktura ASCII tablice kodiranja

Serijski broj Kod Simbol
0 - 31 00000000 - 00011111

Znakovi s brojevima od 0 do 31 nazivaju se kontrolni znakovi.

Njihova je funkcija kontrola procesa prikazivanja teksta na ekranu ili ispisa, davanja zvučnog signala, označavanja teksta itd.

32 - 127 0100000 - 01111111

Standardni dio tablice (engleski). To uključuje mala i velika slova latinice, decimalne znamenke, interpunkcijske znakove, sve vrste zagrada, komercijalne i druge simbole.

Lik 32 je razmak, t.j. prazno mjesto u tekstu.

Sve ostalo odražavaju se određenim znakovima.

128 - 255 10000000 - 11111111

Alternativni dio tablice (ruski).

Druga polovica tablice kodova ASCII, nazvana kodna stranica (128 kodova, počevši s 10000000 i završavajući s 11111111), može imati različite opcije, svaka opcija ima svoj broj.

Kodna stranica se prvenstveno koristi za smještaj nacionalnih pisama osim latinice. U ruskim nacionalnim kodovima, znakovi ruske abecede nalaze se u ovom dijelu tablice.

Prva polovica tablice ASCII kodova

Skreće se pozornost na činjenicu da su u tablici kodiranja slova (velika i mala slova) poredana abecednim redom, a brojevi uzlaznim redoslijedom. Ovo poštivanje leksikografskog reda u rasporedu znakova naziva se princip sekvencijalnog kodiranja abecede.

Za slova ruske abecede također se promatra načelo sekvencijalnog kodiranja.

Druga polovica tablice ASCII kodova

Nažalost, trenutno postoji pet različitih ćiriličkih kodiranja (KOI8-R, Windows. MS-DOS, Macintosh i ISO). Zbog toga često nastaju problemi s prijenosom ruskog teksta s jednog računala na drugo, s jednog softverskog sustava na drugi.

Kronološki, jedan od prvih standarda za kodiranje ruskih slova na računalima bio je KOI8 ("Kod za razmjenu informacija, 8-bitni"). Ovo se kodiranje koristilo još 70-ih godina na računalima serije EC računala, a od sredine 80-ih počelo se koristiti u prvim rusificiranim verzijama UNIX operativnog sustava.

Od početka 90-ih, vremena dominacije operativnog sustava MS DOS, kodiranje ostaje CP866 ("CP" znači "Code Page", "code page").

Apple računala s operativnim sustavom Mac OS koriste vlastito Mac kodiranje.

Osim toga, Međunarodna organizacija za standardizaciju (International Standards Organization, ISO) odobrila je još jedno kodiranje pod nazivom ISO 8859-5 kao standard za ruski jezik.

Najčešći kodiranje koje se trenutno koristi je Microsoft Windows, skraćeno CP1251. Uveo Microsoft; s obzirom na raširenu upotrebu operativnih sustava (OS) i drugih softverskih proizvoda ove tvrtke u Ruskoj Federaciji, postao je raširen.

Od kasnih 90-ih, problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda nazvanog Unicode.

Ovo je 16-bitno kodiranje, tj. ima 2 bajta memorije po znaku. Naravno, u ovom slučaju, količina zauzete memorije povećava se za 2 puta. Ali takva tablica kodova omogućuje uključivanje do 65536 znakova. Kompletna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene alfabete svijeta, kao i mnoge matematičke, glazbene, kemijske i druge simbole.

Unutarnji prikaz riječi u memoriji računala

korištenjem ASCII tablice

Ponekad se dogodi da se tekst, koji se sastoji od slova ruske abecede, primljen s drugog računala, ne može pročitati - na ekranu monitora vidljiva je neka vrsta "abrakadabra". To je zbog činjenice da računala koriste različita kodiranja znakova ruskog jezika.

Dakle, svako kodiranje je zadano svojom vlastitom tablicom kodova. Kao što se može vidjeti iz tablice, istom binarnom kodu se pripisuju različiti znakovi u različitim kodovima.

Na primjer, slijed brojčanih kodova 221, 194, 204 u kodiranju CP1251 tvori riječ "računalo", dok će u ostalim kodovima to biti besmislen skup znakova.

Na sreću, u većini slučajeva korisnik ne mora brinuti o transkodiranju tekstualnih dokumenata, jer to rade posebni programi pretvarači ugrađeni u aplikacije.

V . Izračun količine tekstualnih informacija

Zadatak 1: Kodirajte riječ "Rim" pomoću tablica kodiranja KOI8-R i CP1251.

Riješenje:

Zadatak 2: Uzimajući u obzir da je svaki znak kodiran jednim bajtom, procijenite količinu informacija sljedeće rečenice:

"Moj ujak najpoštenijih pravila,

Kad sam se ozbiljno razbolio,

Prisilio se na poštovanje

I nisam mogao smisliti bolji."

Riješenje: Ovaj izraz ima 108 znakova, uključujući interpunkcijske znakove, navodnike i razmake. Taj broj množimo sa 8 bita. Dobivamo 108*8=864 bita.

Zadatak 3: Dva teksta sadrže isti broj znakova. Prvi tekst je napisan na ruskom, a drugi na jeziku plemena Naguri, čija se abeceda sastoji od 16 znakova. Čiji tekst nosi više informacija?

Riješenje:

1) I \u003d K * a (volumen informacija teksta jednak je umnošku broja znakova i težine informacija jednog znaka).

2) Jer oba teksta imaju isti broj znakova (K), tada razlika ovisi o informativnom sadržaju jednog znaka abecede (a).

3) 2 a1 = 32, tj. a 1 = 5 bita, 2 a2 = 16, tj. i 2 = 4 bita.

4) I 1 = K * 5 bita, I 2 = K * 4 bita.

5) To znači da tekst napisan na ruskom jeziku nosi 5/4 puta više informacija.

Zadatak 4: Volumen poruke, koja je sadržavala 2048 znakova, iznosila je 1/512 MB. Odredite snagu abecede.

Riješenje:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bita - količina informacija poruke je pretvorena u bitove.

2) \u003d I / K \u003d 16384 / 1024 \u003d 16 bita - pada na jedan znak abecede.

3) 2*16*2048 = 65536 znakova - snaga korištene abecede.

Zadatak 5: Laserski pisač Canon LBP ispisuje prosječnom brzinom od 6,3 Kbps. Koliko će trajati ispis dokumenta od 8 stranica ako se zna da na jednoj stranici ima u prosjeku 45 redaka, 70 znakova po retku (1 znak - 1 bajt)?

Riješenje:

1) Pronađite količinu informacija sadržanu na 1 stranici: 45 * 70 * 8 bita = 25200 bita

2) Pronađite količinu informacija na 8 stranica: 25200 * 8 = 201600 bita

3) Dovodimo do uniformnih mjernih jedinica. Da bismo to učinili, prevodimo Mbps u bitove: 6,3 * 1024 = 6451,2 bps.

4) Pronađite vrijeme ispisa: 201600: 6451,2 = 31 sekunda.

Bibliografija

1. Ageev V.M. Teorija informacija i kodiranja: diskretizacija i kodiranje mjernih informacija. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Osnove teorije informacija i kodiranja. - Kijev, škola Vishcha, 1986.

3. Najjednostavniji načini šifriranja teksta / D.M. Zlatopoljskog. - M.: Chistye Prudy, 2007. - 32 str.

4. Ugrinovich N.D. Informatika i informacijske tehnologije. Udžbenik za razrede 10-11 / N.D. Ugrinovich. – M.: BINOM. Laboratorij znanja, 2003. - 512 str.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Materijal za samostalno učenje na temu Predavanje 2

Kodiranje ASCII

ASCII tablica kodiranja (ASCII - American Standard Code for Information Interchange - American Standard Code for Information Interchange).

Ukupno, korištenjem ASCII tablice kodiranja (slika 1), može se kodirati 256 različitih znakova. Ova tablica je podijeljena na dva dijela: glavni (s kodovima od OOh do 7Fh) i dodatni (od 80h do FFh, gdje slovo h označava da kod pripada heksadecimalnom brojevnom sustavu).

Slika 1

Za kodiranje jednog znaka iz tablice dodjeljuje se 8 bitova (1 bajt). Prilikom obrade tekstualnih informacija, jedan bajt može sadržavati kod nekog znaka - slova, brojeve, interpunkcijske znakove, radnje itd. Svaki znak ima svoj kod u obliku cijelog broja. U tom se slučaju svi kodovi skupljaju u posebne tablice, koje se nazivaju tablice kodiranja. Uz njihovu pomoć, kod znakova se pretvara u svoj vidljivi prikaz na ekranu monitora. Kao rezultat, svaki tekst u memoriji računala predstavljen je kao niz bajtova s ​​kodovima znakova.

Na primjer, riječ zdravo! bit će kodiran na sljedeći način (tablica 1).

stol 1

Binarni kod

Decimalni kod

Slika 1 prikazuje znakove uključene u standardno (englesko) i prošireno (rusko) ASCII kodiranje.

Prva polovica ASCII tablice je standardizirana. Sadrži kontrolne kodove (od 00h do 20h i 77h). Ovi kodovi su uklonjeni iz tablice jer se ne odnose na tekstualne elemente. Ovdje se također postavljaju interpunkcijski i matematički znakovi: 2lh - !, 26h - &, 28h - (, 2Bh -+, ..., velika i mala latinična slova: 41h - A, 61h - a.

Druga polovica tablice sadrži nacionalne fontove, pseudografske simbole od kojih se mogu graditi tablice, posebne matematičke simbole. Donji dio tablice kodiranja može se zamijeniti odgovarajućim upravljačkim programima - upravljačkim pomoćnim programima. Ova tehnika vam omogućuje korištenje više fontova i njihovih tipova.

Zaslon za svaki znak znaka trebao bi prikazati sliku znaka – ne samo digitalni kod, već i sliku koja mu odgovara, budući da svaki znak ima svoj oblik. Opis oblika svakog znaka pohranjen je u posebnu memoriju zaslona - generator znakova. Isticanje znaka na zaslonu IBM PC-a, na primjer, vrši se pomoću točkica koje tvore matricu znakova. Svaki piksel u takvoj matrici je element slike i može biti svijetao ili taman. Tamna točka je kodirana brojem 0, svijetla (svijetla) - 1. Ako su tamni pikseli predstavljeni točkom u matričnom polju znaka, a svijetli pikseli zvjezdicom, tada možete grafički prikazati oblik simbola.

Ljudi u različitim zemljama koriste simbole za pisanje riječi svog maternjeg jezika. Danas je većina aplikacija, uključujući sustave e-pošte i web preglednike, čista 8-bitna, što znači da mogu prikazati i ispravno čitati samo 8-bitne znakove, u skladu sa standardom ISO-8859-1.

U svijetu postoji preko 256 znakova (uključujući ćirilicu, arapski, kineski, japanski, korejski i tajlandski) i dodaje se sve više znakova. I to stvara sljedeće praznine za mnoge korisnike:

Nije moguće koristiti znakove iz različitih skupova kodiranja u istom dokumentu. Budući da svaki tekstualni dokument koristi vlastiti skup kodiranja, postoje velike poteškoće s automatskim prepoznavanjem teksta.

Pojavljuju se novi simboli (na primjer: Euro), kao rezultat toga ISO razvija novi standard, ISO-8859-15, koji je vrlo sličan ISO-8859-1. Razlika je sljedeća: simboli za označavanje starih valuta koje se trenutno ne koriste uklonjeni su iz tablice kodiranja starog ISO-8859-1 standarda kako bi se napravio prostor za novonastale simbole (kao što je euro). Kao rezultat toga, korisnici mogu imati iste dokumente na svojim diskovima, ali u različitim kodovima. Rješenje ovih problema je usvajanje jedinstvenog međunarodnog skupa kodiranja, koji se naziva univerzalno kodiranje ili Unicode.

Kodiranje Unicode

Standard je 1991. godine predložila neprofitna organizacija Unicode Consortium (English Unicode Consortium, Unicode Inc.). Korištenje ovog standarda omogućuje kodiranje vrlo velikog broja znakova iz različitih pisama: kineski znakovi, matematički simboli, slova grčke abecede, latinica i ćirilica mogu koegzistirati u Unicode dokumentima, dok mijenjanje kodnih stranica postaje nepotrebno.

Standard se sastoji od dva glavna odjeljka: univerzalnog skupa znakova (UCS, univerzalni skup znakova) i obitelji kodiranja (UTF, Unicode transformacijski format). Univerzalni skup znakova specificira jedan-na-jedan korespondenciju znakova s ​​kodovima - elementi kodnog prostora koji predstavljaju nenegativne cijele brojeve. Obitelj kodiranja definira strojni prikaz niza UCS kodova.

Unicode standard razvijen je s ciljem stvaranja jedinstvenog kodiranja znakova za sve moderne i mnoge drevne pisane jezike. Svaki znak u ovom standardu je kodiran sa 16 bita, što mu omogućuje da pokrije neusporedivo veći broj znakova od prethodno prihvaćenih 8-bitnih kodiranja. Još jedna važna razlika između Unicodea i drugih sustava kodiranja je da ne samo da svakom znaku dodjeljuje jedinstveni kod, već također definira različite karakteristike tog znaka, na primjer:

    vrsta znaka (veliko slovo, malo slovo, broj, interpunkcijski znak itd.);

    atributi znakova (prikaz slijeva nadesno ili zdesna nalijevo, razmak, prijelom reda itd.);

    odgovarajuće veliko ili malo slovo (za mala i velika slova);

    odgovarajuću brojčanu vrijednost (za numeričke znakove).

Cijeli raspon kodova od 0 do FFFF podijeljen je na nekoliko standardnih podskupova, od kojih svaki odgovara ili abecedi nekog jezika, ili skupini posebnih znakova koji su slični u svojim funkcijama. Donji dijagram sadrži opći popis podskupova Unicodea 3.0 (slika 2).

Slika 2

Unicode standard je osnova za pohranu i tekst u mnogim modernim računalnim sustavima. Međutim, nije kompatibilan s većinom internetskih protokola, jer njegovi kodovi mogu sadržavati bilo koju vrijednost bajta, a protokoli obično koriste bajtove 00 - 1F i FE - FF kao servisne bajtove. Kako bi se postigla kompatibilnost, razvijeno je nekoliko Unicode transformacijskih formata (UTF, Unicode Transformation Formats), od kojih je UTF-8 danas najčešći. Ovaj format definira sljedeća pravila za pretvaranje svakog Unicode koda u skup bajtova (od jednog do tri) prikladnih za prijenos internetskim protokolima.

Ovdje x,y,z označavaju bitove izvornog koda, koje treba izdvojiti, počevši od najmlađeg, i unijeti u bajtove rezultata s desna na lijevo, sve dok se ne popune sva navedena mjesta.

Daljnji razvoj Unicode standarda povezan je s dodavanjem novih jezičnih ravnina, t.j. znakova u rasponima 10000 - 1FFFF, 20000 - 2FFFF, itd., gdje bi trebalo uključiti kodiranje za pisma mrtvih jezika koja nisu uključena u gornju tablicu. Za kodiranje ovih dodatnih znakova razvijen je novi UTF-16 format.

Dakle, postoje 4 glavna načina za kodiranje bajtova u Unicode formatu:

UTF-8: 128 znakova kodiranih u jednom bajtu (ASCII format), 1920 znakova kodiranih u 2 bajta ((rimski, grčki, ćirilični, koptski, armenski, hebrejski, arapski znakovi), 63488 znakova kodiranih u 3 bajta (kineski, japanski itd. .) Preostalih 2.147.418.112 znakova (još nisu korišteni) mogu se kodirati s 4, 5 ili 6 bajtova.

UCS-2: Svaki znak je predstavljen s 2 bajta. Ovo kodiranje uključuje samo prvih 65.535 znakova iz Unicode formata.

UTF-16: Ovo je proširenje UCS-2 i uključuje 1,114,112 Unicode znakova. Prvih 65.535 znakova predstavljeno je s 2 bajta, a ostali s 4 bajta.

USC-4: Svaki znak je kodiran s 4 bajta.

Svako računalo ima svoj skup znakova koji implementira. Takav skup sadrži 26 velikih i malih slova, brojeva i posebnih znakova (točka, razmak itd.). Simboli kada se prevedu u cijele brojeve nazivaju se kodovi. Standardi su razvijeni kako bi računala imala iste skupove kodova.

ASCII standard

ASCII (American Standard Code for Inmormation Interchange) je američki standardni kod za razmjenu informacija. Svaki ASCII znak ima 7 bitova, tako da je maksimalni broj znakova 128 (Tablica 1). Kodovi od 0 do 1F su kontrolni znakovi koji se ne ispisuju. Za prijenos podataka potrebno je puno ASCII znakova koji se ne mogu ispisivati. Na primjer, poruka se može sastojati od početnog znaka zaglavlja SOH, samog zaglavlja i znaka početka teksta STX, samog teksta i završnog znaka teksta ETX i znaka za kraj prijenosa EOT. Međutim, podaci se preko mreže prenose u paketima, koji su sami odgovorni za početak i kraj prijenosa. Dakle, znakovi koji se ne mogu ispisati gotovo se nikada ne koriste.

Tablica 1 - tablica ASCII kodova

Broj Tim Značenje Broj Tim Značenje
0 NUL nulti pokazivač 10 DLE Izlazak iz prijenosnog sustava
1 SOH početak zaglavlja 11 DC1 Upravljanje uređajem
2 STX Početak teksta 12 DC2 Upravljanje uređajem
3 ETX Kraj teksta 13 DC3 Upravljanje uređajem
4 EOT Kraj prijenosa 14 DC4 Upravljanje uređajem
5 ACK Upit 15 NAK Nepotvrda prijema
6 BEL Potvrda prihvaćanja 16 SYN Jednostavan
7 BS Simbol zvona 17 ETB Kraj bloka prijenosa
8 HT Uvlačenje natrag 18 LIMENKA ocjena
9 LF Horizontalna kartica 19 EM Medijski kraj
A VT Prijevod redaka 1A POD subscript
B FF Okomita kartica 1B ESC Izlaz
C CR Prijevod stranice 1C FS Razdjelnik datoteka
D TAKO Povrat prtljage 1D GS Razdjelnik grupe
E SI Prelazak na dodatni registar 1E RS Razdjelnik zapisa
SI Prelazak na standardni registar 1F NAS Razdjelnik modula
Broj Simbol Broj Simbol Broj Simbol Broj Simbol Broj Simbol Broj Simbol
20 prostor 30 0 40 @ 50 P 60 . 70 str
21 ! 31 1 41 A 51 P 61 a 71 q
22 32 2 42 B 52 R 62 b 72 r
23 # 33 3 43 C 53 S 63 c 73 s
24 φ 34 4 44 D 54 T 64 d 74 t
25 % 35 5 45 E 55 I 65 e 75 i
26 & 36 6 46 F 56 V 66 f 76 v
27 37 7 47 G 57 W 67 g 77 w
28 ( 38 8 48 H 58 x 68 h 78 x
29 ) 39 9 49 ja 59 Y 69 i 70 y
2A 3A ; 4A J 5A Z 6A j 7A z
2B + 3B ; 4B K 5B [ 6B k 7B {
2C 3C < 4C L 5C \ 6C l 7C |
2D 3D = 4D M 5D ] 6D m 7D }
2E 3E > 4E N 5E 6E n 7E ~
2F / 3F g 4F O 5F _ 6F o 7F DEL

Unicode standard

Prethodno je kodiranje izvrsno za engleski, ali nije prikladno za druge jezike. Na primjer, njemački ima umlaute, dok francuski ima naglaske. Neki jezici imaju potpuno različite abecede. Prvi pokušaj proširenja ASCII-a bio je IS646, koji je proširio prethodno kodiranje za još 128 znakova. Latinska slova dodana su crtama i dijakritičkim znacima, a nazvana je - latinica 1. Sljedeći pokušaj bio je IS 8859 - koji je sadržavao kodnu stranicu. Bilo je još pokušaja proširenja, ali to nije bilo univerzalno. Stvoren je UNICODE kodiranje (je 10646). Ideja kodiranja je dodijeliti svakom znaku jednu konstantnu 16-bitnu vrijednost, koja se zove - kodni pokazivač. Ukupno je dobiveno 65536 pokazivača. Kako bismo uštedjeli prostor, koristili smo latinicu-1 za kodove 0-255, lako mijenjajući ASII u UNICODE. Ovaj standard je riješio mnoge probleme, ali ne sve. U vezi s dolaskom novih riječi, na primjer, za japanski jezik, trebate povećati broj pojmova za oko 20 tisuća. Također morate omogućiti Brailleovo pismo.

[8-bitna kodiranja: ASCII, KOI-8R i CP1251] Prve tablice kodiranja stvorene u SAD-u nisu koristile osmi bit u bajtu. Tekst je predstavljen kao slijed bajtova, ali osmi bit nije uzet u obzir (koristio se u službene svrhe).

Tablica je postala prihvaćeni standard. ASCII(Američki standardni kod za razmjenu informacija). Prva 32 znaka ASCII tablice (00 do 1F) korištena su za znakove koji se ne ispisuju. Namijenjeni su za upravljanje uređajem za ispis i slično. Ostatak - od 20 do 7F - su obični (ispisivi) znakovi.

Tablica 1 - ASCII kodiranje

prosincahexlistopadaCharOpis
0 0 000 null
1 1 001 početak naslova
2 2 002 početak teksta
3 3 003 kraj teksta
4 4 004 kraj prijenosa
5 5 005 upit
6 6 006 priznati
7 7 007 zvono
8 8 010 backspace
9 9 011 vodoravna kartica
10 A 012 nova linija
11 B 013 okomita kartica
12 C 014 nova stranica
13 D 015 povrat prtljage
14 E 016 pomaknuti se
15 F 017 prebaciti se
16 10 020 bijeg podatkovne veze
17 11 021 kontrola uređaja 1
18 12 022 kontrola uređaja 2
19 13 023 kontrola uređaja 3
20 14 024 kontrola uređaja 4
21 15 025 negativno priznanje
22 16 026 sinkroni mirovanje
23 17 027 kraj trans. blok
24 18 030 otkazati
25 19 031 kraj medija
26 1A 032 zamjena
27 1B 033 pobjeći
28 1C 034 separator datoteka
29 1D 035 separator grupe
30 1E 036 separator zapisa
31 1F 037 separator jedinica
32 20 040 prostor
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
prosincahexlistopadaChar
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 ja
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 O
80 50 120 P
81 51 121 P
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 x
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 a
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 str
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 x
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Kao što možete lako vidjeti, u ovom kodiranju su zastupljena samo latinična slova, i to ona koja se koriste na engleskom. Tu su i aritmetički i drugi uslužni simboli. Ali nema ruskih slova, pa čak ni posebnih latiničnih slova za njemački ili francuski. To je lako objasniti - kodiranje je razvijeno kao američki standard. Kako su se računala počela koristiti diljem svijeta, trebalo je kodirati druge znakove.

Za to je odlučeno koristiti osmi bit u svakom bajtu. Tako je bilo dostupno još 128 vrijednosti (od 80 do FF) koje su se mogle koristiti za kodiranje znakova. Prva od osmobitnih tablica je "prošireni ASCII" ( prošireni ASCII) - uključuje različite varijante latiničnih znakova koji se koriste u nekim jezicima zapadne Europe. Imao je i druge dodatne znakove, uključujući pseudografiju.

Pseudografički znakovi dopuštaju, prikazujući samo tekstualne znakove, da pruže neki privid grafike. Koristeći pseudografiju, na primjer, funkcionira program za upravljanje datotekama FAR Manager.

U proširenoj ASCII tablici nije bilo ruskih slova. U Rusiji (bivši SSSR) iu drugim državama stvorena su vlastita kodiranja koja su omogućila predstavljanje određenih "nacionalnih" znakova u 8-bitnim tekstualnim datotekama - latinična slova poljskog i češkog jezika, ćirilica (uključujući ruska slova) i druge abecede.

U svim kodovima koji su postali široko rasprostranjeni, prvih 127 znakova (tj. vrijednosti bajta s osmim bitom jednakim 0) isti su kao ASCII. Dakle, ASCII datoteka radi u bilo kojem od ovih kodiranja; slova engleskog jezika predstavljena su na isti način.

Organizacija ISO(International Standardization Organization - International Organization for Standards) donijela je skupinu normi ISO 8859. Definira 8-bitna kodiranja za različite grupe jezika. Dakle, ISO 8859-1 je prošireni ASCII, tablica za SAD i zapadnu Europu. A ISO 8859-5 je tablica za ćirilicu (uključujući ruski).

Međutim, iz povijesnih razloga, ISO 8859-5 kodiranje se nije uhvatilo. U stvarnosti se za ruski jezik koriste sljedeća kodiranja:

Kodna stranica 866 ( CP866), ona je također "DOS", ona je također "alternativno GOST kodiranje". Široko korišten do sredine 1990-ih; sada u ograničenoj upotrebi. Praktički se ne koristi za distribuciju tekstova na Internetu.
- KOI-8. Razvijen 70-ih i 80-ih godina. To je općeprihvaćeni standard za slanje e-mail poruka na ruskom Internetu. Također se široko koristi u operativnim sustavima obitelji Unix, uključujući Linux. Zove se verzija KOI-8, dizajnirana za ruski KOI-8R; postoje verzije za druge ćiriličke jezike (na primjer, KOI8-U je varijanta za ukrajinski jezik).
- Šifra 1251, CP1251, Windows-1251. Razvio Microsoft za podršku ruskom jeziku u sustavu Windows.

Glavna prednost CP866 bila je očuvanje pseudografskih znakova na istim mjestima kao u proširenom ASCII-u; stoga bi strani tekstualni programi, na primjer, slavni Norton Commander, mogli raditi bez promjena. CP866 se trenutno koristi za Windows programe koji se izvode u tekstualnim prozorima ili u tekstualnom načinu cijelog zaslona, ​​uključujući FAR Manager.

Tekstovi u CP866 prilično su rijetki posljednjih godina (ali se koristi za kodiranje ruskih naziva datoteka u sustavu Windows). Stoga ćemo se zadržati na dva druga kodiranja - KOI-8R i CP1251.



Kao što možete vidjeti, u tablici kodiranja CP1251 ruska slova su poredana abecednim redom (s izuzetkom, međutim, slova YO). Ovaj raspored vrlo olakšava razvrstavanje računalnih programa po abecedi.

Ali u KOI-8R redoslijed ruskih slova izgleda nasumičan. Ali zapravo nije.

U mnogim starijim programima 8. bit je izgubljen prilikom obrade ili prijenosa teksta. (Sada su takvi programi praktički "izumrli", ali su kasnih 80-ih i ranih 90-ih bili široko rasprostranjeni). Da biste dobili 7-bitnu vrijednost od 8-bitne vrijednosti, dovoljno je oduzeti 8 od znamenke višeg reda; na primjer, E1 postaje 61.

Sada usporedite KOI-8R s ASCII tablicom (Tablica 1). Vidjet ćete da su ruska slova u strogom skladu s latinskim. Ako osmi bit nestane, mala ruska slova pretvaraju se u velika latinična slova, a velika ruska slova u mala latinična. Dakle, E1 u KOI-8 je rusko "A", dok je 61 u ASCII latinično "a".

Dakle, KOI-8 vam omogućuje da zadržite čitljivost ruskog teksta uz gubitak 8. bita. “Pozdrav svima” postaje “pRIWET WSEM”.

Nedavno su i abecedni red znakova u tablici kodiranja i čitljivost s gubitkom 8. bita izgubili odlučujuću važnost. Osmi bit se u modernim računalima ne gubi ni tijekom prijenosa ni tijekom obrade. A abecedno razvrstavanje vrši se uzimajući u obzir kodiranje, a ne jednostavnu usporedbu kodova. (Usput, kodovi CP1251 nisu potpuno abecedni - slovo Y nije na svom mjestu).

Zbog činjenice da su postojala dva uobičajena kodiranja, pri radu s Internetom (pošta, pregledavanje web-stranica) ponekad možete vidjeti besmislen skup slova umjesto ruskog teksta. Na primjer, "ja sam SBYFEMHEL". To su samo riječi "s poštovanjem"; ali su bili kodirani u CP1251 kodiranju, a računalo je dekodiralo tekst prema tablici KOI-8. Da su iste riječi, naprotiv, kodirane u KOI-8, a računalo dekodira tekst prema tablici CP1251, rezultat bi bio “U HCHBTSEOEN”.

Ponekad se dogodi da računalo dešifrira slova na ruskom jeziku, pa čak i prema tablici koja nije namijenjena ruskom jeziku. Tada se umjesto ruskih slova pojavljuje besmislen skup znakova (na primjer, latinična slova istočnoeuropskih jezika); često se nazivaju "krokosima".

U većini slučajeva, moderni programi uspijevaju sami odrediti kodiranje internetskih dokumenata (e-mailova i web stranica). Ali ponekad "zapali", a onda možete vidjeti čudne sekvence ruskih slova ili "krokodila". U pravilu, da bi se u takvoj situaciji prikazao pravi tekst, dovoljno je ručno odabrati kodiranje u izborniku programa.

Za članak su korištene informacije sa stranice http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Materijal preuzet sa stranice:

Kao što znate, računalo pohranjuje informacije u binarnom obliku, predstavljajući ih kao niz jedinica i nula. Kako bi se informacija prevela u oblik prikladan za ljudsku percepciju, svaki jedinstveni niz brojeva zamjenjuje se odgovarajućim simbolom kada se prikaže.

Jedan od sustava za korelaciju binarnih kodova s ​​tiskanim i kontrolnim znakovima je

Uz trenutnu razinu razvoja računalne tehnologije, korisnik nije dužan znati šifru svakog pojedinog znaka. Međutim, opće razumijevanje načina na koji se kodiranje provodi iznimno je korisno, a za neke kategorije stručnjaka čak je i potrebno.

Izrada ASCII-a

U svom izvornom obliku, kodiranje je razvijeno 1963., a zatim dva puta ažurirano tijekom 25 godina.

U izvornoj verziji, ASCII tablica znakova je sadržavala 128 znakova, kasnije se pojavila proširena verzija, gdje je prvih 128 znakova spremljeno, a prethodno nedostajući znakovi dodijeljeni su kodovima s uključenim osmim bitom.

Dugi niz godina ovo je kodiranje najpopularnije na svijetu. Godine 2006. prednjačio je Latin 1252, a od kraja 2007. do danas Unicode čvrsto drži vodeću poziciju.

ASCII računalni prikaz

Svaki ASCII znak ima svoj vlastiti kod, koji se sastoji od 8 znakova koji predstavljaju nulu ili jedan. Minimalni broj u ovom prikazu je nula (osam nula u binarnom obliku), što je kod za prvi element u tablici.

Dva koda u tablici su izdvojena za prebacivanje između standardnog US-ASCII i njegove nacionalne varijante.

Nakon što je ASCII počeo uključivati ​​ne 128, već 256 znakova, varijanta kodiranja postala je široko rasprostranjena, u kojoj je izvorna verzija tablice pohranjena u prvih 128 kodova s ​​nula 8. bita. Znakovi narodnog pisanja zadržali su se u gornjoj polovici tablice (pozicije 128-255).

Korisnik ne mora izravno znati ASCII znakovne kodove. Obično je programeru dovoljno znati broj elementa u tablici kako bi izračunao njegov kod, ako je potrebno, koristeći binarni sustav.

ruski jezik

Nakon razvoja kodiranja za skandinavske jezike, kineski, korejski, grčki, itd. početkom 70-ih, Sovjetski Savez je također preuzeo stvaranje vlastite verzije. Ubrzo je razvijena verzija 8-bitnog kodiranja pod nazivom KOI8, koja zadržava prvih 128 ASCII znakovnih kodova i dodjeljuje isti broj pozicija za slova nacionalne abecede i dodatne znakove.

Prije uvođenja Unicodea, KOI8 je dominirao ruskim segmentom interneta. Postojale su opcije kodiranja i za rusku i za ukrajinsku abecedu.

ASCII problemi

Budući da broj elemenata čak ni u proširenoj tablici nije prelazio 256, nije bilo mogućnosti smještaja nekoliko različitih skripti u jedno kodiranje. U 90-ima se u Runetu pojavio problem "crocozyabr", kada su tekstovi upisani ruskim ASCII znakovima bili pogrešno prikazani.

Problem je bio neusklađenost između različitih ASCII varijanti. Podsjetimo da su pozicije 128-255 mogle sadržavati različite znakove, a pri prelasku s jednog ćiriličnog kodiranja na drugo, sva slova teksta su zamijenjena drugim koji su imali identičan broj u drugoj verziji kodiranja.

Trenutna država

S pojavom Unicodea, popularnost ASCII-a naglo je opala.

Razlog tome leži u činjenici da je novo kodiranje omogućilo smještaj znakova gotovo svih pisanih jezika. U ovom slučaju, prvih 128 ASCII znakova odgovara istim znakovima u Unicodeu.

Godine 2000. ASCII je bio najpopularnije kodiranje na Internetu i korišten je na 60% web stranica koje je indeksirao Google. Do 2012. godine udio takvih stranica pao je na 17%, a Unicode (UTF-8) je zauzeo mjesto najpopularnijeg kodiranja.

Dakle, ASCII je važan dio povijesti informacijske tehnologije, ali se njegova upotreba u budućnosti smatra neperspektivnom.

prosinca hex Simbol prosinca hex Simbol
000 00 specijalista. NOP 128 80 Ђ
001 01 specijalista. SOH 129 81 Ѓ
002 02 specijalista. STX 130 82
003 03 specijalista. ETX 131 83 ѓ
004 04 specijalista. EOT 132 84
005 05 specijalista. ENQ 133 85
006 06 specijalista. ACK 134 86
007 07 specijalista. BEL 135 87
008 08 specijalista. BS 136 88
009 09 specijalista. TAB 137 89
010 0Aspecijalista. LF 138 8AЉ
011 0Bspecijalista. VT 139 8B‹ ‹
012 0Cspecijalista. FF 140 8CЊ
013 0Dspecijalista. CR 141 8DЌ
014 0Especijalista. TAKO 142 8EЋ
015 0Fspecijalista. SI 143 8FЏ
016 10 specijalista. DLE 144 90 ђ
017 11 specijalista. DC1 145 91
018 12 specijalista. DC2 146 92
019 13 specijalista. DC3 147 93
020 14 specijalista. DC4 148 94
021 15 specijalista. NAK 149 95
022 16 specijalista. SYN 150 96
023 17 specijalista. ETB 151 97
024 18 specijalista. LIMENKA 152 98
025 19 specijalista. EM 153 99
026 1Aspecijalista. POD 154 9Aљ
027 1Bspecijalista. ESC 155 9B
028 1Cspecijalista. FS 156 9Cњ
029 1Dspecijalista. GS 157 9Dќ
030 1Especijalista. RS 158 9Eћ
031 1Fspecijalista. NAS 159 9Fџ
032 20 kvačilo SP (prostor) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Yo
041 29 ) 169 A9©
042 2A* 170 AAЄ
043 2B+ 171 AB«
044 2C, 172 AC¬
045 2D- 173 OGLAS­
046 2E. 174 AE®
047 2F/ 175 AFЇ
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8yo
057 39 9 185 B9
058 3A: 186 BAє
059 3B; 187 BB»
060 3C< 188 PRIJE KRISTAј
061 3D= 189 BDЅ
062 3E> 190 BITIѕ
063 3F? 191 bfї
064 40 @ 192 C0 A
065 41 A 193 C1 B
066 42 B 194 C2 V
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 F
071 47 G 199 C7 W
072 48 H 200 C8 I
073 49 ja 201 C9 Y
074 4AJ 202 CA DO
075 4BK 203 CB L
076 4CL 204 CC M
077 4DM 205 CD H
078 4EN 206 CE O
079 4FO 207 CF P
080 50 P 208 D0 R
081 51 P 209 D1 S
082 52 R 210 D2 T
083 53 S 211 D3 Na
084 54 T 212 D4 F
085 55 U 213 D5 x
086 56 V 214 D6 C
087 57 W 215 D7 H
088 58 x 216 D8 W
089 59 Y 217 D9 SCH
090 5AZ 218 DA Kommersant
091 5B[ 219 D.B. S
092 5C\ 220 DC b
093 5D] 221 dd E
094 5E^ 222 DE YU
095 5F_ 223 D.F. JA SAM
096 60 ` 224 E0 a
097 61 a 225 E1 b
098 62 b 226 E2 v
099 63 c 227 E3 G
100 64 d 228 E4 d
101 65 e 229 E5 e
102 66 f 230 E6 dobro
103 67 g 231 E7 h
104 68 h 232 E8 i
105 69 i 233 E9 th
106 6Aj 234 EA Do
107 6Bk 235 EB l
108 6Cl 236 EU m
109 6Dm 237 ED n
110 6En 238 EE O
111 6Fo 239 EF P
112 70 str 240 F0 R
113 71 q 241 F1 S
114 72 r 242 F2 T
115 73 s 243 F3 na
116 74 t 244 F4 f
117 75 u 245 F5 x
118 76 v 246 F6 c
119 77 w 247 F7 h
120 78 x 248 F8 w
121 79 y 249 F9 SCH
122 7Az 250 FA b
123 7B{ 251 Facebook s
124 7C| 252 FC b
125 7D} 253 F D uh
126 7E~ 254 F.E. Yu
127 7FSpecijalista. DEL 255 FF Ja sam

ASCII tablica kodova znakova sustava Windows.
Opis posebnih (kontrolnih) znakova

Treba napomenuti da su se u početku kontrolni znakovi ASCII tablice koristili za razmjenu podataka putem teletipa, unos podataka s bušene vrpce i za najjednostavniju kontrolu vanjskih uređaja.
Trenutno, većina tabličnih ASCII kontrolnih znakova više ne nosi ovo opterećenje i mogu se koristiti u druge svrhe.
Kod Opis
NUL, 00Null, prazno
SO-01Početak naslova
STX 02Početak teksta, početak teksta.
ETX 03Kraj TeXt-a
EOT, 04Kraj prijenosa
ENQ, 05Raspitajte se. Molim potvrdite
ACK, 06Priznanje. potvrđujem
B.E.L. 07Bell, zovi
B.S. 08Povratak, povratak jedan znak unatrag
TAB, 09Kartica, vodoravna kartica
LF, 0ALine Feed, Line Feed.
Sada se u većini programskih jezika označava kao \n
VT, 0BVertikalna kartica, vertikalna tablica.
FF, 0CFeed obrasca, feed stranice, nova stranica
CR, 0DPovrat prtljage
Sada se u većini programskih jezika označava kao \r
DAKLE, 0EShift Out, promijenite boju vrpce s tintom u pisaču
SI, 0FShift In, vratite boju vrpce s tintom u uređaj za ispis
DLE, 10Data Link Escape, prebacivanje kanala na prijenos podataka
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Kontrola uređaja, simboli za upravljanje uređajem
N.A.K. 15Negativna potvrda, ne potvrđujem.
SYN, 16sinkronizacija. Simbol sinkronizacije
ETB, 17Kraj tekstualnog bloka, kraj tekstualnog bloka
MOŽE, 18Otkazivanje, poništavanje prethodno položenog
EM, 19Kraj medija
SUB, 1AZamjena, zamjena. Stavlja se na mjesto znaka čija je vrijednost izgubljena ili oštećena tijekom prijenosa
ESC, 1BSlijed za bijeg
FS, 1CFile Separator, File Separator
GS, 1DGrupni separator, separator grupe
RS, 1ERazdjelnik zapisa
SAD, 1FRazdjelnik jedinica, separator jedinica
DEL, 7FIzbriši, izbriši zadnji znak.

Vrhunski povezani članci