Proširena ascii tabela. Kodiranje tekstualnih informacija

05.09.2019 Windows Phone

Excel za Office 365 Word za Office 365 Outlook za Office 365 PowerPoint za Office 365 Publisher za Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Excel 2007 Word 2010 Excel 2007 Word 2007 Visio07 Office2007 Power07 Office202 Access07 Visio Standard 2007 Visio Standard 2010 Manje

U ovom članku

Umetnite ASCII ili Unicode znak u dokument

Ako trebate unijeti samo nekoliko posebnih znakova ili simbola, možete koristiti bilo koje tipkovne prečice. Za listu ASCII znakova, pogledajte sljedeće tabele ili članak Umetanje nacionalnih alfabeta pomoću prečica na tastaturi.

napomene:

Umetnite ASCII znakove

Da unesete ASCII znak, pritisnite i držite tipku ALT dok unosite kod karaktera. Na primjer, da biste umetnuli simbol stepena (º), pritisnite i držite tipku Alt, a zatim unesite 0176 na numeričkoj tastaturi.

Koristite numeričku tastaturu za unos brojeva umjesto brojeva na glavnoj tastaturi. Ako trebate unijeti brojeve na numeričkoj tastaturi, provjerite je li indikator NUM LOCK uključen.

Umetanje Unicode znakova

Da biste umetnuli Unicode znak, unesite kod karaktera, a zatim pritisnite ALT i X u nizu. Na primjer, da biste umetnuli znak dolara ($), unesite 0024 i pritisnite ALT i X u nizu. Za sve kodove Unicode znakova pogledajte.

Bitan: Neki Microsoft Office programi, kao što su PowerPoint i InfoPath, ne podržavaju pretvaranje Unicode kodova u znakove. Ako trebate umetnuti Unicode znak u jedan od ovih programa, koristite.

napomene:

Ako vidite pogrešan Unicode znak nakon što pritisnete ALT + X, odaberite ispravan kod, a zatim ponovo pritisnite ALT + X.

Osim toga, "U +" se mora unijeti prije koda. Na primjer, ako unesete "1U + B5" i pritisnete Alt + X, prikazuje se tekst "1µ", a ako unesete "1B5" i pritisnete Alt + X, prikazuje se znak "Ƶ".

Korišćenje tabele simbola

Symbol Map je program ugrađen u Microsoft Windows koji vam omogućava da vidite simbole dostupne za odabrani font.

Koristeći tablicu simbola, možete kopirati pojedinačne simbole ili grupu simbola u međuspremnik i zalijepiti ih u bilo koji program koji može prikazati te simbole. Otvaranje tabele simbola

Na Windows 10 Unesite riječ "simbol" u okvir za pretraživanje na traci zadataka i odaberite tablicu simbola iz rezultata pretraživanja.

Na Windows 8 Unesite riječ "znak" na početnom ekranu i odaberite tabelu znakova iz rezultata pretraživanja.

Na Windows 7 pritisnite dugme Počni, uzastopno odaberite Svi programi, Standard, Servis i kliknite tabela simbola.

Znakovi su grupirani po fontu. Kliknite na listu fontova da odaberete odgovarajući skup znakova. Da biste odabrali simbol, kliknite na njega, a zatim kliknite Odaberite... Da biste umetnuli simbol, desnom tipkom miša kliknite željenu lokaciju u dokumentu i odaberite Insert.

Često korišteni kodovi simbola

Za kompletnu listu znakova pogledajte svoj računar, tabelu kodova ASCII znakova ili tabele skupova Unicode znakova.

Glif

Monetarne jedinice

Pravni simboli

Matematički simboli

Razlomci

Znakovi interpunkcije i dijalekatski simboli

Simboli obrazaca

Često korišteni dijakritički kodovi

Za kompletnu listu glifova i povezanih kodova, pogledajte.

Glif

ASCII kontrolni znakovi koji se ne mogu ispisati

Znakovi koji se koriste za kontrolu nekih perifernih uređaja, kao što su štampači, označeni su brojevima od 0 do 31 u ASCII tabeli. Na primjer, znak za feed / nova stranica je broj 12. Ovaj znak govori štampaču da ide na vrh sljedeće stranice.

ASCII tablica kontrolnih znakova koja se ne može ispisati

Decimala	Potpiši	Decimala	Potpiši
		Oslobađanje kanala podataka
Početak naslova		Prvi kontrolni kod uređaja
Početak teksta		Drugi kontrolni kod uređaja
Kraj teksta		Kontrolni kod trećeg uređaja
Kraj prijenosa		Četvrti kontrolni kod uređaja
	petokraka	Negativna potvrda
Potvrda		Sinhroni način prijenosa
Zvučni signal		Kraj bloka prenesenih podataka

Horizontalna kartica		Kraj medija
Prijelaz na red / novi red		Zamjenski karakter
Vertikalna kartica			premašiti
Prijevod stranice / nova stranica	Dvanaesti	File separator
Povrat kočije		Grupni separator
Shift bez pohranjivanja cifara		Razdjelnik zapisa
Pomak sa očuvanjem cifara	petnaest	Razdjelnik podataka

Skup znakova kojim se piše tekst naziva se abeceda.

Broj znakova u abecedi je njegov moć.

Formula za određivanje količine informacija: N = 2 b,

gdje je N kardinalnost abecede (broj znakova),

b - broj bitova (informaciona težina karaktera).

Abeceda kapaciteta 256 znakova može primiti gotovo sve potrebne znakove. Ova abeceda se zove dovoljno.

Jer 256 = 2 8, tada je težina 1 znaka 8 bita.

8-bitna jedinica je dobila ime 1 bajt:

1 bajt = 8 bitova.

Binarni kod svakog znaka u kompjuterskom tekstu zauzima 1 bajt memorije.

Kako su tekstualne informacije predstavljene u memoriji računara?

Pogodnost bajt kodiranja znakova je očigledna, budući da je bajt najmanji adresabilni dio memorije i stoga procesor može pristupiti svakom karakteru zasebno, obavljajući obradu teksta. S druge strane, 256 znakova je sasvim dovoljan broj za predstavljanje širokog spektra informacija o znakovima.

Sada se postavlja pitanje kakvu vrstu osmobitnog binarnog koda povezati sa svakim znakom.

Jasno je da je ovo uslovna stvar, možete smisliti mnoge metode kodiranja.

Svi znakovi kompjuterske abecede su numerisani od 0 do 255. Svaki broj odgovara osmobitnom binarnom kodu od 00000000 do 11111111. Ovaj kod je jednostavno redni broj znaka u binarnom brojevnom sistemu.

Tabela u kojoj su svim znakovima kompjuterske abecede dodijeljeni serijski brojevi naziva se tabela kodiranja.

Za različite tipove računara koriste se različite tablice kodiranja.

Međunarodni standard za PC je postao stol ASCII(čitaj asci) (Američki standardni kod za razmjenu informacija).

ASCII tabela je podijeljena na dva dijela.

Međunarodni standard je samo prva polovina tabele, tj. simboli sa brojevima iz 0 (00000000), do 127 (01111111).

Struktura ASCII tablice kodiranja

Serijski broj	Šifra	Simbol
0 - 31	00000000 - 00011111	Simboli sa brojevima od 0 do 31 obično se nazivaju kontrolni znakovi. Njihova funkcija je kontrola procesa prikazivanja teksta na ekranu ili štampanja, davanja zvučnog signala, označavanja teksta itd.
32 - 127	00100000 - 01111111	Standardni dio tabele (engleski). Ovo uključuje mala i velika slova latinice, decimalne cifre, znakove interpunkcije, sve vrste zagrada, komercijalne i druge simbole. Znak 32 je razmak, tj. prazna pozicija u tekstu. Svi ostali se ogledaju u određenim znacima.
128 - 255	10000000 - 11111111	Alternativni dio tabele (ruski). Druga polovina tabele kodova ASCII, nazvana kodna stranica (128 kodova, počevši od 10000000 i završavajući sa 11111111), može imati različite varijante, svaka varijanta ima svoj broj. Kodna stranica se prvenstveno koristi za smještaj nacionalnih alfabeta osim latinice. U ruskim nacionalnim kodovima, ovaj dio tabele sadrži simbole ruskog alfabeta.

Prva polovina ASCII tabele

Skrećem vam pažnju da su u tablici kodiranja slova (velika i mala slova) raspoređena abecednim redom, a brojevi rastućim redoslijedom vrijednosti. Ovo poštovanje leksikografskog reda u rasporedu znakova naziva se princip sekvencijalnog kodiranja abecede.

Za slova ruske abecede također se poštuje princip sekvencijalnog kodiranja.

Druga polovina ASCII tabele

Nažalost, trenutno postoji pet različitih ćiriličkih kodiranja (KOI8-R, Windows. MS-DOS, Macintosh i ISO). Zbog toga često nastaju problemi sa prenosom ruskog teksta sa jednog računara na drugi, iz jednog softverskog sistema u drugi.

Hronološki, jedan od prvih standarda za kodiranje ruskih slova na računarima bio je KOI8 („Kod za razmjenu informacija, 8-bitni“). Ovo kodiranje je korišćeno još 70-ih godina na računarima serije računara ES, a od sredine 80-ih počelo je da se koristi u prvim rusifikovanim verzijama UNIX operativnog sistema.

Od početka 90-ih, vremena dominacije operativnog sistema MS DOS, ostaje CP866 kodiranje („CP“ znači „Code Page“).

Apple računari koji koriste Mac OS koriste vlastito Mac kodiranje.

Pored toga, Međunarodna organizacija za standardizaciju (International Standards Organization, ISO) odobrila je još jedno kodiranje pod nazivom ISO 8859-5 kao standard za ruski jezik.

Trenutno, najčešće kodiranje je Microsoft Windows, skraćeno CP1251.

Od kasnih 90-ih, problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda tzv. Unicode... Ovo je 16-bitno kodiranje, tj. dodjeljuje 2 bajta memorije za svaki znak. Naravno, ovo udvostručuje količinu korištene memorije. Ali s druge strane, takva kodna tabela omogućava uključivanje do 65536 znakova. Kompletna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene alfabete svijeta, kao i mnoge matematičke, muzičke, hemijske i druge simbole.

Pokušajmo koristiti ASCII tablicu da zamislimo kako će riječi izgledati u memoriji računara.

Interno predstavljanje riječi u memoriji računara

Ponekad se desi da se tekst koji se sastoji od slova ruske abecede, primljen sa drugog računara, ne može pročitati - na ekranu monitora je vidljiva neka vrsta "blebetanja". To je zbog činjenice da računari koriste različito kodiranje znakova ruskog jezika.

Prisjetimo se nekih činjenica koje znamo:

Skup simbola kojim se piše tekst naziva se abeceda.

Broj znakova u abecedi je njegova kardinalnost.

Formula za određivanje količine informacija: N = 2 b,

gdje je N kardinalnost abecede (broj znakova),

b - broj bitova (informaciona težina karaktera).

Abeceda kapaciteta 256 znakova može primiti gotovo sve potrebne znakove. Takva abeceda se naziva dovoljna.

Jer 256 = 2 8 , tada je težina 1 znaka 8 bita.

8-bitna jedinica je dobila naziv 1 bajt:

1 bajt = 8 bitova.

Binarni kod svakog znaka u kompjuterskom tekstu zauzima 1 bajt memorije.

Kako su tekstualne informacije predstavljene u memoriji računara?

Kodiranje znači da se svakom znaku dodjeljuje jedinstven decimalni kod od 0 do 255 ili odgovarajući binarni kod od 00000000 do 11111111. Dakle, osoba razlikuje znakove po stilu, a kompjuter - po kodu.

Sada se postavlja pitanje kakvu vrstu osmobitnog binarnog koda povezati sa svakim znakom.

Jasno je da je ovo uslovna stvar, možete smisliti mnoge metode kodiranja.

ASCII tabela je postala međunarodni standard za PC (čitaj asci) (Američki standardni kod za razmjenu informacija).

Međunarodni standard je samo prva polovina tabele, tj. znakova sa brojevima od 0 (00000000) do 127 (01111111).

Serijski broj		Simbol
	00000000 - 00011111	Njihova funkcija je kontrola procesa prikazivanja teksta na ekranu ili štampanja, davanja zvučnog signala, označavanja teksta itd.
32 - 127	00100000 - 01111111
128 - 255	10000000 - 11111111	Druga polovina tabele kodova ASCII, nazvana kodna stranica (128 kodova, počevši od 10000000 i završavajući sa 11111111), može imati različite varijante, svaka varijanta ima svoj broj.

Trenutno, najčešće kodiranje je Microsoft Windows, skraćeno CP1251.

Od kasnih 90-ih, problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda pod nazivom Unicode. ... Ovo je 16-bitno kodiranje, tj. dodjeljuje 2 bajta memorije za svaki znak. Naravno, ovo udvostručuje količinu korištene memorije. Ali s druge strane, takva kodna tabela omogućava uključivanje do 65536 znakova. Kompletna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene alfabete svijeta, kao i mnoge matematičke, muzičke, hemijske i druge simbole.

Pokušajmo koristiti ASCII tablicu da zamislimo kako će riječi izgledati u memoriji računara.

Riječi

Memorija

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Kada se tekstualne informacije unose u računar, znakovi (slova, brojevi, znakovi) se kodiraju korištenjem različitih sistema kodiranja, koji se sastoje od skupa kodnih tablica smještenih na odgovarajućim stranicama standarda za kodiranje tekstualnih informacija. U takvim tabelama, svakom znaku je dodijeljen specifičan numerički kod u heksadecimalnom ili decimalnom zapisu, odnosno tablice kodova odražavaju korespondenciju između slika znakova i numeričkih kodova i dizajnirane su za kodiranje i dekodiranje tekstualnih informacija. Prilikom unosa tekstualnih informacija pomoću kompjuterske tastature, svaki ulazni znak je kodiran, odnosno pretvara se u numerički kod; kada se tekstualne informacije izlaze na izlazni uređaj računara (displej, štampač ili kater), njegova slika se gradi pomoću numerički kod znaka. Dodjela specifičnog numeričkog koda simbolu je rezultat sporazuma između odgovarajućih organizacija u različitim zemljama. Trenutno ne postoji jedinstvena univerzalna šifra koja zadovoljava slova nacionalnih abeceda različitih zemalja.

Savremene šifre obuhvataju internacionalne i nacionalne delove, odnosno sadrže slova latiničnog i nacionalnog alfabeta, brojeve, znakove aritmetičkih operacija i interpunkcije, matematičke i kontrolne znakove, pseudografske simbole. Međunarodni dio tablice kodova baziran na standardu ASCII (američki standardni kod za razmjenu informacija), kodira prvu polovinu znakova tablice kodova s numeričkim kodovima od 0 do 7 F 16, ili u decimalnom zapisu od 0 do 127. Kodovi od 0 do 20 16 (0? 32 10) se dodeljuju funkcijskim tasterima (F1, F2, F3, itd.) na tastaturi računara. Na sl. 3.1 prikazuje međunarodni dio tablica kodova na osnovu standarda ASCII.Ćelije tabele su numerisane decimalnim i heksadecimalnim zapisom.

Slika 3.1. Međunarodni dio tablice kodova (standard ASCII) sa brojevima ćelija predstavljenim u decimalnom (a) i heksadecimalnom (b) brojevnom sistemu

Nacionalni dio tablica kodova sadrži kodove nacionalnih abeceda, koji se još nazivaju tablica skupa znakova (set znakova).

Trenutno, za podršku slova ruske abecede (ćirilice), postoji nekoliko kodnih tablica (kodiranja) koje koriste različiti operativni sistemi, što je značajan nedostatak i u nekim slučajevima dovodi do problema povezanih s operacijama dekodiranja numeričkih brojeva. vrijednosti znakova. Table 3.1 navodi nazive kodnih stranica (standarda) na kojima se nalaze tablice kodova (kodiranja) ćiriličnog pisma.

Tabela 3.1

Jedan od prvih standarda za kodiranje ćiriličnog pisma na računarima bio je standard KOI8-R. Nacionalni dio tablice kodova za ovaj standard prikazan je na Sl. 3.2.

Rice. 3.2. Nacionalni dio tablice kodova standarda KOI8-R

Trenutno se koristi i kodna tabela koja se nalazi na stranici CP866 standarda za kodiranje tekstualnih informacija koje se koriste u operativnom sistemu. MS DOS ili sesije MS DOS za kodiranje ćirilice (slika 3.3, a).

Rice. 3.3. Nacionalni dio tablice kodova, koji se nalazi na stranici CP866 (a) i na stranici CP1251 (b) standarda kodiranja tekstualnih informacija

Trenutno, najčešće korištena kodna tabela za kodiranje ćirilice nalazi se na stranici odgovarajućeg standarda CP1251, koji se koristi u operativnim sistemima porodice Windows firme Microsoft(sl. 3.2, b). U svim prikazanim tabelama kodova, osim u standardnoj tabeli Unicode, 8 binarnih cifara (8 bitova) je dodijeljeno za kodiranje jednog znaka.

Krajem prošlog stoljeća pojavio se novi međunarodni standard Unicode, u kojoj je jedan znak predstavljen dvobajtnim binarnim kodom. Primjena ovog standarda je nastavak razvoja univerzalnog međunarodnog standarda koji omogućava rješavanje problema kompatibilnosti nacionalnih kodiranja znakova. Ovim standardom se može kodirati 2 16 = 65536 različitih znakova. Na sl. 3.4 je tabela kodova 0400 (rusko pismo) standarda Unicode.

Rice. 3.4. Tabela kodova 0400 Unicode standarda

Pojasnimo na primjeru ono što je rečeno o kodiranju tekstualnih informacija.

Primjer 3.1

Kodirajte riječ "Računar" kao niz decimalnih i heksadecimalnih brojeva koristeći CP1251 kodiranje. Koji će znakovi biti prikazani u tablicama kodova CP866 i KOI8-R kada se koristi primljeni kod.

Sekvence heksadecimalnih i binarnih kodova riječi "Računar" na osnovu tablice kodiranja CP1251 (vidi sliku 3.3, b) izgledat će ovako:

Ovaj kodni niz u CP866 i KOI8-R kodiranju će rezultirati prikazom sljedećih znakova:

Za pretvaranje tekstualnih dokumenata na ruskom jeziku iz jednog standarda za kodiranje teksta u drugi, koriste se posebni programi - pretvarači. Konvertori su obično ugrađeni u druge programe. Primjer bi bio program pretraživača - Internet Explorer (IE), koji ima ugrađeni pretvarač. Program pretraživača je poseban program za pregled sadržaja Web stranice u globalnoj kompjuterskoj mreži Internet. Koristimo ovaj program da potvrdimo rezultat prikaza simbola dobijenih u primjeru 3.1. Da bismo to učinili, izvršit ćemo sljedeće radnje.

1. Pokrenite program Notepad (Beležnica). Program Notepad u operativnom sistemu Windows XP se pokreće naredbom: [Dugme Počni- Programi - Standardno - Notepad]. U otvorenom prozoru Notepad upišite riječ "Računar" koristeći sintaksu jezika za označavanje hipertekstualnih dokumenata - HTML (Hyper Text Markup Language). Ovaj jezik se koristi za kreiranje dokumenata na Internetu. Tekst bi trebao izgledati ovako:

Compywater

, gdje

i

oznake (posebne konstrukcije) jezika Html na zaglavlja za označavanje. Na sl. 3.5 pokazuje rezultat ovih radnji.

Rice. 3.5. Prikaz teksta u prozoru Notepad-a

Sačuvajmo ovaj tekst tako što ćemo izvršiti naredbu: [File - Save As ...] u odgovarajućoj fascikli na računaru, prilikom snimanja teksta, datoteci ćemo dodeliti naziv - Approx, sa ekstenzijom datoteke. html.

2. Pokrenite program Internet Explorer, izvršavanjem naredbe: [Dugme Počni- Programi - Internet Explorer]. Kada se program pokrene, prozor prikazan na sl. 3.6

Rice. 3.6. Prozor za vanmrežni pristup

Odaberite i aktivirajte dugme Offline u ovom slučaju, računar neće biti povezan na globalni Internet. Pojavit će se glavni prozor programa Microsoft Internet Explorer, prikazano na sl. 3.7.

Rice. 3.7. Glavni prozor Microsoft Internet Explorer-a

Pokrenite sljedeću naredbu: [File - Open], pojavit će se prozor (slika 3.8), u kojem morate navesti naziv datoteke i kliknuti uredu ili pritisnite dugme Pregled… i pronađite datoteku App.html.

Rice. 3.8. Otvori prozor

Glavni prozor Internet Explorer-a će poprimiti oblik prikazan na sl. 3.9. Prozor prikazuje riječ "Računar". Dalje, koristeći gornji meni programa Internet Explorer, izvršite sljedeću naredbu: [Prikaz - Kodiranje - Ćirilica (DOS)]. Nakon izvršenja ove naredbe u prozoru programa Internet Ehplorer simboli prikazani na sl. 3.10. Prilikom izvršavanja naredbe: [Prikaz - Kodiranje - Ćirilica (KOI8-R)] u prozoru programa Internet Explorer simboli prikazani na sl. 3.11.

Rice. 3.9. Znakovi prikazani prilikom kodiranja CP1251

Rice. 3.10. Znakovi koji se prikazuju kada je CP866 kodiranje omogućeno za kodni niz predstavljen u CP1251 kodiranju

Rice. 3.11. Znakovi koji se prikazuju kada je KOI8-R kodiranje uključeno za kodni niz predstavljen u CP1251 kodiranju

Tako dobijeno sa programom Internet Explorer sekvence znakova se poklapaju sa nizovima znakova dobijenim korištenjem kodnih tablica CP866 i KOI8-R u primjeru 3.1.

3.2. Kodiranje grafičkih informacija

Grafičke informacije predstavljene u obliku crteža, fotografija, slajdova, pokretnih slika (animacija, video), dijagrama, crteža, mogu se kreirati i uređivati pomoću računara, pri čemu su odgovarajuće kodirane. Trenutno postoji prilično veliki broj aplikacija za obradu grafičkih informacija, ali sve implementiraju tri vrste kompjuterske grafike: rastersku, vektorsku i fraktalnu.

Ako bolje pogledate grafičku sliku na ekranu monitora računara, možete vidjeti veliki broj raznobojnih tačaka (piksela - sa engleskog. piksel, obrazovan iz element slike - element slike), koji, kada se sastave, formiraju datu grafičku sliku. Iz ovoga možemo zaključiti: grafička slika u kompjuteru je kodirana na određeni način i mora biti predstavljena u obliku grafičke datoteke. Fajl je glavna strukturna jedinica organizacije i skladištenja podataka u računaru i u ovom slučaju treba da sadrži informacije o tome kako da se ovaj skup tačaka predstavi na ekranu monitora.

Datoteke kreirane na bazi vektorske grafike sadrže informacije u obliku matematičkih odnosa (matematičke funkcije koje opisuju linearne odnose) i povezane podatke o tome kako konstruisati sliku objekta koristeći segmente (vektore) kada se prikazuje na monitoru računara.

Fajlovi kreirani na osnovu rasterske grafike pretpostavljaju skladištenje podataka o svakoj pojedinačnoj tački na slici. Za prikaz rasterske grafike nisu potrebni složeni matematički proračuni, dovoljno je samo dobiti podatke o svakoj tački slike (njene koordinate i boju) i prikazati ih na ekranu računara.

U procesu kodiranja slike vrši se njeno prostorno uzorkovanje, odnosno slika se deli na zasebne tačke i svakoj tački se dodeljuje kod boje (žuta, crvena, plava itd.). Za kodiranje svake tačke grafičke slike u boji primjenjuje se princip dekompozicije proizvoljne boje na njene glavne komponente, a to su tri osnovne boje: crvena (engleska riječ crvena, označiti slovom TO), zeleno (zelena, označiti slovom G), plava (plava, označiti sa bukvom V). Bilo koja tačkasta boja koju percipira ljudsko oko može se dobiti aditivnim (proporcionalnim) dodavanjem (miješanjem) tri osnovne boje - crvene, zelene i plave. Ovaj sistem kodiranja naziva se sistem boja. RGB. Grafičke datoteke koje koriste sistem boja RGB, predstavljaju svaku tačku slike kao trojku boja - tri numeričke vrijednosti R, G i V, odgovara intenzitetima crvene, zelene i plave boje. Proces kodiranja grafičke slike odvija se uz pomoć različitih tehničkih sredstava (skener, digitalna kamera, digitalna video kamera, itd.); rezultat je bitmap. Prilikom reprodukcije grafike u boji na kompjuterskom monitoru u boji, boja svake tačke (piksela) takve slike dobija se miješanjem tri primarne boje R, G i B.

Kvalitet rasterske slike određuju dva glavna parametra - rezolucija (broj tačaka horizontalno i vertikalno) i korišćena paleta boja (broj određenih boja za svaku tačku na slici). Rezolucija se postavlja navođenjem broja tačaka horizontalno i vertikalno, na primjer, 800 puta 600 tačaka.

Postoji odnos između broja boja specificiranih za tačku na rasterskoj slici i količine informacija koje se moraju odabrati da bi se pohranila boja tačke, a koja je određena odnosom (formula R. Hartleya):

gdje I- količina informacija; N - broj boja datih tački.

Količina informacija potrebna za pohranjivanje boje tačke naziva se i dubina boje ili kvalitet boje.

Dakle, ako je broj boja specificiranih za tačku slike N = 256, tada će količina informacija koja je potrebna za njihovo pohranjivanje (dubina boje) u skladu s formulom (3.1) biti jednaka I= 8 bita.

Računari koriste različite načine grafičkog prikaza za prikaz grafičkih informacija. Ovdje treba napomenuti da pored grafičkog načina rada monitora, postoji i tekstualni mod, u kojem je ekran monitora konvencionalno podijeljen na 25 redova od 80 znakova po redu. Ove grafičke režime karakteriše rezolucija ekrana monitora i kvalitet boje (dubina boje). Za postavljanje grafičkog režima ekrana monitora u operativnom sistemu MS Windows XP potrebno je izvršiti naredbu: [Dugme Počni- Postavke - Kontrolna tabla - Ekran]. U dijaloškom okviru "Svojstva: Prikaz" koji se pojavi (slika 3.12), odaberite karticu "Parametri" i pomoću klizača "Rezolucija ekrana" odaberite odgovarajuću rezoluciju ekrana (800 x 600 piksela, 1024 x 768 piksela, itd. ). Pomoću padajuće liste "Kvaliteta boje" možete odabrati dubinu boje - "Najveća (32 bita)", "Srednja (16 bita)" itd., dok će broj boja dodijeljen svakoj tački slike biti redom jednako 2 32 (4294967296), 2 16 (65536), itd.

Rice. 3.12. Dijaloški okvir za svojstva prikaza

Za implementaciju svakog od grafičkih režima ekrana monitora, potreban je određeni volumen informacija video memorije računara. Potrebna količina informacija o video memoriji (V) određuje se iz relacije

gdje DO - broj tačaka slike na ekranu monitora (K = A · B); A - broj horizontalnih tačaka na ekranu monitora; V - broj vertikalnih tačaka na ekranu monitora; I- količina informacija (dubina boje).

Dakle, ako ekran monitora ima rezoluciju od 1024 x 768 piksela i paletu koja se sastoji od 65 536 boja, tada će dubina boje u skladu sa formulom (3.1) biti I = log 2 65 538 = 16 bita, broj slike bodovi će biti jednaki: K = 1024 x 768 = 786432, a potrebni volumen informacija video memorije u skladu sa (3.2) će biti jednak

V = 786432 16 bita = 12582912 bita = 1572864 bajtova = 1536 KB = 1,5 MB.

U zaključku treba napomenuti da su pored navedenih karakteristika najvažnije karakteristike monitora geometrijske dimenzije njegovog ekrana i tačke slike. Geometrijske dimenzije ekrana su postavljene dijagonalom monitora. Veličina dijagonale monitora je postavljena u inčima (1 inč = 1"=25,4 mm) i može imati vrijednosti jednake: 14", 15", 17", 21" itd. Moderne tehnologije proizvodnje monitora mogu obezbijediti veličina piksela jednaka 0,22 mm.

Dakle, za svaki monitor postoji fizički maksimalna moguća rezolucija ekrana, koja je određena veličinom njegove dijagonale i veličinom tačke slike.

Vježbe za samoispunjenje

1. Korištenje programa MS Excel pretvoriti tablice kodova ASCII, CP866, CP1251, KOI8-R u tablice oblika: upišite velika, a zatim mala latinična i ćirilična slova abecednim redom u ćelije prve kolone tablice; treći stupac - slova koja odgovaraju kodovima u heksadecimalnom brojevnom sistemu. Vrijednosti kodova moraju se odabrati iz odgovarajućih tablica kodova.

2. Kodirajte i zapišite sljedeće riječi kao niz brojeva u decimalnom i heksadecimalnom zapisu:

a) Internet Explorer, b) Microsoft office; v) CorelDRAW.

Izvršite kodiranje koristeći moderniziranu ASCII tablicu kodiranja dobivenu u prethodnoj vježbi.

3. Dešifrirajte nizove brojeva napisanih u heksadecimalnom brojevnom sistemu koristeći moderniziranu tablicu kodiranja KOI8-R:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Kako će izgledati riječ "Kibernetika" napisana u CP1251 kodiranju kada se koriste kodiranja CP866 i KOI8-R? Provjerite rezultate dobivene korištenjem programa Internet Explorer.

5. Koristeći tabelu kodova prikazanu na sl. 3.1 a, dekodirati sljedeće kodne sekvence napisane u binarnoj notaciji:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Odredite informativni volumen riječi "Ekonomija" kodirane korištenjem kodnih tablica CP866, CP1251, Unicode i KOI8-R.

7. Odredite količinu informacija datoteke dobijene kao rezultat skeniranja slike u boji veličine 12x12 cm Rezolucija skenera koji se koristi za skeniranje ove slike je 600 dpi. Skener postavlja dubinu boje piksela slike na 16 bita.

Rezolucija skenera 600 dpi (dotper inča - tačaka po inču) određuje sposobnost skenera sa takvom rezolucijom da razlikuje 600 tačaka na segmentu od 1 inča.

8. Odredite količinu informacija datoteke dobijene kao rezultat skeniranja slike u boji veličine A4. Rezolucija skenera koji se koristi za skeniranje ove slike je 1200 dpi. Skener postavlja dubinu boje piksela slike na 24 bita.

9. Odredite broj boja u paleti na dubinama boja od 8, 16, 24 i 32 bita.

10. Odredite potrebnu količinu video memorije za režime grafičkog prikaza monitora 640 x 480, 800 x 600, 1024 x 768 i 1280 x 1024 piksela pri dubini boje tačke slike od 8, 16, 24 i 32 bita. Rezultati su prikazani u tabeli. Razvijajte se u MS Excel program za automatizaciju proračuna.

11. Odredite maksimalan broj boja koje se mogu koristiti za pohranjivanje slike veličine 32 x 32 piksela ako računar ima 2 KB memorije dodijeljene za sliku.

12. Odredite maksimalnu moguću rezoluciju ekrana monitora sa dužinom dijagonale 15" i veličinom piksela od 0,28 mm.

13. Koje grafičke načine rada monitora može pružiti 64 MB video memorije?

Spaljivanje

I. Istorija kodiranja informacija ……………………………… ..3

II. Kodiranje informacija ………………………………………… 4

III. Kodiranje tekstualnih informacija …………………………… .4

IV. Vrste tablica kodiranja …………………………………………… 6

V. Proračun količine tekstualnih informacija ……………………………… 14

Spisak korištene literature …………………………………………… ..16

I . Istorija kodiranja informacija

Čovječanstvo koristi šifriranje (kodiranje) teksta od samog trenutka kada su se pojavile prve tajne informacije. Pred vama je nekoliko metoda kodiranja teksta koje su izmišljene u različitim fazama razvoja ljudske misli:

Kriptografija je tajno pisanje, sistem izmjene pisma s ciljem da se tekst učini nerazumljivim neupućenima;

Morzeov kod ili nepravilni telegrafski kod, u kojem je svako slovo ili znak predstavljeno svojom kombinacijom kratkih čipova električne struje (tačke) i čipova trostrukog trajanja (crtice);

znakovni jezik je znakovni jezik koji koriste osobe sa oštećenjem sluha.

Jedna od najranijih poznatih metoda šifriranja nazvana je po rimskom caru Juliju Cezaru (1. vijek prije nove ere). Ova metoda se zasniva na zamjeni svakog slova šifriranog teksta drugim, pomjeranjem abecede u odnosu na originalno slovo za fiksni broj znakova, a abeceda se čita u krug, odnosno nakon slova i, a je razmatrano. Dakle, riječ "bajt" kada se pomakne za dva znaka udesno je kodirana riječju "gvlf". Obrnuti proces dekodiranja date riječi - potrebno je zamijeniti svako šifrirano slovo, drugim lijevo od njega.

II. Kodiranje informacija

Kod je skup konvencija (ili signala) za snimanje (ili prijenos) nekih unaprijed definiranih koncepata.

Kodiranje informacija je proces formiranja specifične reprezentacije informacije. U užem smislu, termin "kodiranje" se često shvata kao prelazak sa jednog oblika prezentacije informacija na drugi, pogodniji za skladištenje, prenos ili obradu.

Obično je svaka slika kada je kodirana (ponekad kažu - šifrirana) predstavljena posebnim znakom.

Znak je element konačnog skupa različitih elemenata.

U užem smislu, termin "kodiranje" se često shvata kao prelazak sa jednog oblika prezentacije informacija na drugi, pogodniji za skladištenje, prenos ili obradu.

Računar može obraditi tekstualne informacije. Kada se unese u kompjuter, svako slovo je kodirano određenim brojem, a prilikom izlaza na eksterne uređaje (ekran ili štampanje), slike slova se konstruišu za ljudsku percepciju pomoću ovih brojeva. Korespondencija između skupa slova i brojeva naziva se kodiranje znakova.

Po pravilu, svi brojevi u računaru su predstavljeni pomoću nula i jedinica (a ne deset cifara, kao što je uobičajeno za ljude). Drugim riječima, računari obično rade u binarnom brojevnom sistemu, jer su uređaji za njihovu obradu mnogo jednostavniji. Unošenje brojeva u računar i njihovo ispisivanje za ljudsko čitanje može se izvršiti u uobičajenom decimalnom obliku, a sve potrebne transformacije izvode programi koji rade na računaru.

III. Kodiranje tekstualnih informacija

Ista informacija se može predstaviti (kodirati) u nekoliko oblika. Pojavom kompjutera postalo je neophodno kodirati sve vrste informacija sa kojima se nosi i pojedinačna osoba i čovječanstvo u cjelini. Ali čovječanstvo je počelo rješavati problem kodiranja informacija mnogo prije pojave kompjutera. Ogromna dostignuća čovječanstva - pisanje i aritmetika - nisu ništa više od sistema za kodiranje govora i numeričkih informacija. Informacija se nikada ne pojavljuje u svom čistom obliku, uvijek je nekako predstavljena, nekako kodirana.

Binarno kodiranje je jedan od uobičajenih načina predstavljanja informacija. U kompjuterima, robotima i numerički upravljanim mašinama alatnim mašinama, po pravilu, sve informacije sa kojima se neki uređaj bavi šifruju se u obliku reči u binarnom alfabetu.

Od kraja 60-ih, računari se sve više koriste za obradu tekstualnih informacija, a trenutno se najveći deo personalnih računara u svetu (i većinu vremena) bavi obradom tekstualnih informacija. Sve ove vrste informacija u računaru su predstavljene u binarnom kodu, odnosno koristi se abeceda sa stepenom dva (samo dva znaka 0 i 1). To je zbog činjenice da je zgodno predstaviti informacije u obliku niza električnih impulsa: nema impulsa (0), postoji impuls (1).

Takvo kodiranje se obično naziva binarnim, a sami logički nizovi nula i jedinica nazivaju se mašinskim jezikom.

Sa stanovišta računara, tekst se sastoji od pojedinačnih znakova. Simboli uključuju ne samo slova (velika ili mala, latinična ili ruska), već i brojeve, interpunkcijske znakove, posebne znakove poput "=", "(", "&", itd., pa čak (obratite posebnu pažnju!) razmake između njih. riječi.

Tekstovi se unose u memoriju računara pomoću tastature. Slova, brojevi, znaci interpunkcije i drugi simboli su ispisani na tipkama. Oni ulaze u RAM u binarnom kodu. To znači da je svaki znak predstavljen 8-bitnim binarnim kodom.

Tradicionalno, za kodiranje jednog znaka koristi se količina informacija jednaka 1 bajtu, odnosno I = 1 bajt = 8 bita. Koristeći formulu koja povezuje broj mogućih događaja K i količinu informacija I, možete izračunati koliko različitih simbola može biti kodirano (pod pretpostavkom da su simboli mogući događaji): K = 2 I = 2 8 = 256, tj. , za Reprezentaciju tekstualnih informacija može se koristiti abeceda kapaciteta 256 znakova.

Ovaj broj znakova sasvim je dovoljan za predstavljanje tekstualnih informacija, uključujući velika i mala slova ruske i latinične abecede, brojeve, znakove, grafičke simbole itd.

U procesu prikazivanja znaka na ekranu računara vrši se obrnuti proces - dekodiranje, odnosno pretvaranje koda znaka u njegovu sliku. Važno je da je dodjela specifičnog koda simbolu stvar konvencije, koja je fiksirana u tablici kodova.

Sada se postavlja pitanje kakvu vrstu osmobitnog binarnog koda povezati sa svakim znakom. Jasno je da je ovo uslovna stvar, možete smisliti mnoge metode kodiranja.

IV ... Vrste tablica kodiranja

Tabela u kojoj su svim znakovima kompjuterske abecede dodijeljeni serijski brojevi naziva se tabela kodiranja.

Za različite tipove računara koriste se različite tablice kodiranja.

ASCII tabela kodova (American Standard Code for Information Interchange) usvojena je kao međunarodni standard, koji kodira prvu polovinu znakova numeričkim kodovima od 0 do 127 (kodovi od 0 do 32 nisu dodijeljeni simbolima, već funkcijskim tipkama ).

ASCII tabela je podijeljena na dva dijela.

Međunarodni standard je samo prva polovina tabele, tj. znakova sa brojevima od 0 (00000000) do 127 (01111111).

Struktura ASCII tablice kodiranja

Serijski broj	Šifra	Simbol
0 - 31	00000000 - 00011111	Simboli sa brojevima od 0 do 31 obično se nazivaju kontrolni znakovi. Njihova funkcija je kontrola procesa prikazivanja teksta na ekranu ili štampanja, davanja zvučnog signala, označavanja teksta itd.
32 - 127	0100000 - 01111111	Standardni dio tabele (engleski). Ovo uključuje mala i velika slova latinice, decimalne cifre, znakove interpunkcije, sve vrste zagrada, komercijalne i druge simbole. Znak 32 je razmak, tj. prazna pozicija u tekstu. Svi ostali se ogledaju u određenim znacima.
128 - 255	10000000 - 11111111	Alternativni dio tabele (ruski). Druga polovina tabele kodova ASCII, nazvana kodna stranica (128 kodova, počevši od 10000000 i završavajući sa 11111111), može imati različite varijante, svaka varijanta ima svoj broj. Kodna stranica se prvenstveno koristi za smještaj nacionalnih alfabeta osim latinice. U ruskim nacionalnim kodovima, ovaj dio tabele sadrži simbole ruskog alfabeta.

Prva polovina ASCII tabele

Skreće se pažnja na činjenicu da su u tablici kodiranja slova (velika i mala) raspoređena abecednim redom, a brojevi rastućim redoslijedom vrijednosti. Ovo poštovanje leksikografskog reda u rasporedu znakova naziva se princip sekvencijalnog kodiranja abecede.

Za slova ruske abecede također se poštuje princip sekvencijalnog kodiranja.

Druga polovina ASCII tabele

Od početka 90-ih, vremena dominacije operativnog sistema MS DOS, ostaje CP866 kodiranje („CP“ znači „Code Page“).

Apple računari koji koriste Mac OS koriste vlastito Mac kodiranje.

Pored toga, Međunarodna organizacija za standardizaciju (International Standards Organization, ISO) odobrila je još jedno kodiranje pod nazivom ISO 8859-5 kao standard za ruski jezik.

Trenutno, najčešće kodiranje je Microsoft Windows, skraćeno CP1251. Uveo Microsoft; uzimajući u obzir široku distribuciju operativnih sistema (OS) i drugih softverskih proizvoda ove kompanije u Ruskoj Federaciji, našao je široku distribuciju.

Od kasnih 90-ih, problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda pod nazivom Unicode.

Ovo je 16-bitno kodiranje, tj. dodjeljuje 2 bajta memorije za svaki znak. Naravno, ovo udvostručuje količinu korištene memorije. Ali s druge strane, takva kodna tabela omogućava uključivanje do 65536 znakova. Kompletna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene alfabete svijeta, kao i mnoge matematičke, muzičke, hemijske i druge simbole.

Interno predstavljanje riječi u memoriji računara

koristeći ASCII tablicu

Dakle, svako kodiranje je specificirano svojom vlastitom tablicom kodova. Kao što možete vidjeti iz tabele, različiti simboli su dodijeljeni istom binarnom kodu u različitim kodovima.

Na primjer, niz numeričkih kodova 221, 194, 204 u CP1251 kodiranju formira riječ "kompjuter", dok će u drugim kodovima to biti besmislen skup znakova.

Na sreću, u većini slučajeva korisnik ne mora da brine o pretvaranju tekstualnih dokumenata, jer se to radi pomoću posebnih programa za konverziju ugrađenih u aplikacije.

V ... Izračunavanje količine tekstualnih informacija

Cilj 1: Kodirajte riječ “Rim” koristeći tablice kodiranja KOI8-R i CP1251.

Rješenje:

Cilj 2: Uz pretpostavku da je svaki znak kodiran u jednom bajtu, procijenite količinu informacija sljedeće rečenice:

“Moj ujak ima najpoštenija pravila,

Kada je ozbiljno bolestan,

Učinio je sebi poštovanje

I nisam to mogao bolje zamisliti."

Rješenje: Ova fraza ima 108 znakova, uključujući znakove interpunkcije, navodnike i razmake. Ovaj broj množimo sa 8 bita. Dobijamo 108 * 8 = 864 bita.

Cilj 3: Dva teksta sadrže isti broj znakova. Prvi tekst je napisan na ruskom, a drugi na jeziku plemena Naguri, čija se abeceda sastoji od 16 znakova. Čiji tekst nosi više informacija?

Rješenje:

1) I = K * a (obim informacija teksta jednak je proizvodu broja znakova na informacijsku težinu jednog znaka).

2) Jer oba teksta imaju isti broj znakova (K), razlika zavisi od informativnosti jednog znaka abecede (a).

3) 2 a1 = 32, tj. a 1 = 5 bita, 2 a2 = 16, tj. a 2 = 4 bita.

4) I 1 = K * 5 bita, I 2 = K * 4 bita.

5) To znači da je tekst napisan na ruskom jeziku 5/4 puta više informacija.

Zadatak 4: Veličina poruke, koja je sadržavala 2048 karaktera, bila je 1/512 MB. Odredite kardinalnost abecede.

Rješenje:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bita - količina informacija poruke je pretvorena u bitove.

2) a = I / K = 16384/1024 = 16 bita - pada na jedan znak abecede.

3) 2 * 16 * 2048 = 65536 znakova - snaga korištene abecede.

Zadatak 5: Canon LBP laserski štampač štampa u proseku brzinom od 6,3 Kbps. Koliko će vremena trebati da se odštampa dokument od 8 stranica ako se zna da u prosjeku na jednoj stranici ima 45 redova, 70 znakova po redu (1 karakter - 1 bajt)?

Rješenje:

1) Pronađite količinu informacija sadržanih na 1 stranici: 45 * 70 * 8 bita = 25200 bita

2) Pronađite količinu informacija na 8 stranica: 25200 * 8 = 201600 bita

3) Dovodimo do uniformnih mjernih jedinica. Da biste to učinili, prevedite Mbitove u bitove: 6,3 * 1024 = 6451,2 bit / s.

4) Pronađite vrijeme ispisa: 201600: 6451,2 = 31 sekunda.

Bibliografija

1. Ageev V.M. Teorija informacija i kodiranja: diskretizacija i kodiranje mjernih informacija. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Osnove teorije informacija i kodiranja. - Kijev, škola Vishcha, 1986.

3. Najjednostavniji načini šifriranja teksta / D.M. Zlatopolsky. - M.: Chistye Prudy, 2007. - 32 str.

4. Ugrinovich N.D. Informatika i informacione tehnologije. Udžbenik za 10-11 razred / N.D. Ugrinovich. - M.: BINOM. Laboratorij znanja, 2003.-- 512 str.

5.http: //school497.spb.edu.ru/uchint002/les10/les.html#n

Materijal za samostalno učenje vezano za predavanja 2

Kodiranje ASCII

ASCII tabela kodova (ASCII - američki standardni kod za razmjenu informacija - američki standardni kod za razmjenu informacija).

Ukupno, 256 različitih znakova može se kodirati korištenjem ASCII tablice kodiranja (slika 1). Ova tabela je podeljena na dva dela: glavni (sa kodovima od OOh do 7Fh) i dodatni (od 80h do FFh, gde slovo h označava da kod pripada heksadecimalnom brojevnom sistemu).

Slika 1

Za kodiranje jednog znaka iz tabele, dodeljuje se 8 bitova (1 bajt). Prilikom obrade tekstualnih informacija, jedan bajt može sadržavati kod određenog simbola - slova, brojeve, interpunkcijski znak, znak radnje itd. Svaki znak ima svoj kod u obliku cijelog broja. U ovom slučaju, svi kodovi se skupljaju u posebne tablice koje se nazivaju tablice kodiranja. Uz njihovu pomoć, kod karaktera se pretvara u svoj vidljivi prikaz na ekranu monitora. Kao rezultat, svaki tekst u memoriji računara je predstavljen kao niz bajtova sa kodovima znakova.

Na primjer, riječ zdravo! će biti kodiran na sljedeći način (tabela 1).

Tabela 1


Binarni kod
Decimalni kod

Slika 1 prikazuje znakove uključene u standardno (englesko) i prošireno (rusko) ASCII kodiranje.

Prva polovina ASCII tabele je standardizovana. Sadrži kontrolne kodove (00h do 20h i 77h). Ovi kodovi su uklonjeni iz tabele, jer se ne odnose na tekstualne elemente. Ovdje se također nalaze interpunkcijski i matematički znaci: 2lh -!, 26h - &, 28h - (, 2Bh - +, ..., velika i mala latinična slova: 41h - A, 61h - a.

Druga polovina tabele sadrži nacionalne fontove, pseudografske simbole od kojih se mogu graditi tabele i posebne matematičke znakove. Donji dio tablice kodiranja može se zamijeniti korištenjem odgovarajućih upravljačkih programa - pomoćnih upravljačkih programa. Ova tehnika vam omogućava da koristite više fontova i njihovih tipova.

Displej za svaki kod karaktera mora prikazati sliku znaka na ekranu – ne samo digitalni kod, već i sliku koja mu odgovara, jer svaki znak ima svoj oblik. Opis oblika svakog simbola pohranjen je u posebnoj displej memoriji - generatoru znakova. Isticanje simbola na ekranu IBM PC-a, na primjer, izvodi se pomoću tačaka koje čine simboličku matricu. Svaki piksel u takvoj matrici je element slike i može biti svijetao ili taman. Tamna tačka je kodirana brojem 0, svijetla (svijetla) - 1. Ako tamne piksele predstavljate tačkom u matričnom polju znaka, a svijetle piksele zvjezdicom, možete grafički prikazati oblik simbola .

Ljudi u različitim zemljama koriste simbole za pisanje riječi na svojim maternjim jezicima. Većina aplikacija ovih dana, uključujući sisteme e-pošte i web pretraživače, su čiste 8-bitne, što znači da mogu prikazati i interpretirati samo 8-bitne znakove u skladu sa standardom ISO-8859-1.

U svijetu postoji više od 256 znakova (ako uzmemo u obzir ćirilicu, arapski, kineski, japanski, korejski i tajlandski jezik), a pojavljuje se sve više znakova. I to stvara sljedeće praznine za mnoge korisnike:

Nije moguće koristiti znakove iz različitih skupova kodiranja u istom dokumentu. Budući da svaki tekstualni dokument koristi vlastiti skup kodiranja, postoje velike poteškoće s automatskim prepoznavanjem teksta.

Pojavljuju se novi simboli (na primjer: Euro), zbog čega ISO razvija novi standard ISO-8859-15, koji je vrlo sličan standardu ISO-8859-1. Razlika je sljedeća: iz tabele kodiranja starog standarda ISO-8859-1 uklonjeni su simboli za označavanje starih valuta koje se trenutno ne koriste kako bi se napravio prostor za novonastale simbole (kao što je euro ). Kao rezultat toga, korisnici mogu imati iste dokumente na svojim diskovima, ali u različitim kodovima. Rješenje ovih problema je usvajanje jedinstvenog međunarodnog skupa kodiranja nazvanog univerzalno kodiranje ili Unicode.

Kodiranje Unicode

Standard je 1991. godine predložio Unicode Consortium, Unicode Inc., neprofitna organizacija. Upotreba ovog standarda omogućava kodiranje vrlo velikog broja znakova iz različitih pisama: u Unicode dokumentima mogu koegzistirati kineski znakovi, matematički znakovi, slova grčkog alfabeta, latinice i ćirilice, tako da mijenjanje kodnih stranica postaje nepotrebno.

Standard se sastoji od dva glavna odjeljka: univerzalnog skupa znakova (UCS) i Unicode formata transformacije (UTF). Univerzalni skup znakova definira jedan-na-jedan korespondenciju znakova kodovima - elementima kodnog prostora koji predstavljaju nenegativne cijele brojeve. Porodica kodiranja definira mašinski prikaz niza UCS kodova.

Unicode standard je razvijen sa ciljem stvaranja jedinstvenog kodiranja znakova za sve moderne i mnoge drevne pisane jezike. Svaki znak u ovom standardu je kodiran u 16 bita, što mu omogućava da pokrije neuporedivo veći broj znakova od prethodno prihvaćenih 8-bitnih kodiranja. Još jedna bitna razlika između Unicode-a i drugih sistema kodiranja je da ne samo da svakom karakteru dodeljuje jedinstveni kod, već i definiše različite karakteristike ovog znaka, na primjer:

tip karaktera (veliko slovo, malo slovo, broj, interpunkcijski znak, itd.);

atributi znakova (prikaz slijeva nadesno ili zdesna nalijevo, razmak, prijelom reda, itd.);

odgovarajuće veliko ili malo slovo (za mala i velika slova, respektivno);

odgovarajuću numeričku vrijednost (za numeričke znakove).

Cijeli raspon kodova od 0 do FFFF podijeljen je na nekoliko standardnih podskupova, od kojih svaki odgovara ili alfabetu određenog jezika, ili grupi specijalnih znakova koji su slični u svojim funkcijama. Dijagram ispod daje opšti popis Unicode 3.0 podskupova (slika 2).

Slika 2

Unicode standard je osnova za skladištenje i tekst u mnogim modernim računarskim sistemima. Međutim, nije kompatibilan sa većinom Internet protokola, budući da njegovi kodovi mogu sadržavati bilo koje vrijednosti bajtova, a protokoli obično koriste bajtove 00 - 1F i FE - FF kao nadjačavanje. Da bi se postigla interoperabilnost, razvijeno je nekoliko Unicode formata transformacije (UTF, Unicode Transformation Formats), od kojih je UTF-8 danas najčešći. Ovaj format definira sljedeća pravila za pretvaranje svakog Unicode koda u skup bajtova (jedan do tri) pogodnih za transport putem Internet protokola.

Ovdje x, y, z označavaju bitove izvornog koda koje treba izdvojiti, počevši od najmanje značajnog, i unijeti u bajtove rezultata s desna na lijevo dok se ne popune sve navedene pozicije.

Dalji razvoj Unicode standarda povezan je sa dodavanjem novih jezičkih ravni, tj. znakova u rasponima 10000 - 1FFFF, 20000 - 2FFFF, itd., gdje bi trebalo uključiti kodiranje za skripte mrtvih jezika koji nisu uključeni u gornju tabelu. Za kodiranje ovih dodatnih znakova razvijen je novi UTF-16 format.

Dakle, postoje 4 glavna načina kodiranja Unicode bajtova:

UTF-8: 128 znakova je kodirano u jednom bajtu (ASCII format), 1920 znakova je kodirano u 2 bajta ((rimski, grčki, ćirilični, koptski, armenski, hebrejski, arapski znakovi), 63488 znakova je kodirano u 3 bajta (kineski , japanski i drugi) Preostalih 2.147.418.112 znakova (još nisu korišteni) mogu se kodirati sa 4, 5 ili 6 bajtova.

UCS-2: Svaki znak je predstavljen sa 2 bajta. Ovo kodiranje uključuje samo prvih 65.535 znakova iz Unicode formata.

UTF-16: Ovo je proširenje za UCS-2 i uključuje 1 114 112 Unicode znakova. Prvih 65.535 karaktera predstavljeno je sa 2 bajta, a ostali sa 4 bajta.

USC-4: Svaki znak je kodiran u 4 bajta.

[8-bitna kodiranja: ASCII, KOI-8R i CP1251] Prve tabele skupova znakova kreirane u SAD-u nisu koristile osmi bit u bajtu. Tekst je predstavljen kao niz bajtova, ali osmi bit nije uzet u obzir (koristio se u servisne svrhe).

Općeprihvaćeni standard je postao tabela ASCII(Američki standardni kod za razmjenu informacija). Prva 32 ASCII znaka (00 do 1F) korištena su za znakove koji se ne mogu ispisati. Dizajnirani su za kontrolu uređaja za štampanje i slično. Ostatak - od 20 do 7F - su normalni (štampavi) znakovi.

Tabela 1 - ASCII kodiranje

dec	Hex	okt	Char	Opis
0	0	000		null
1	1	001		početak naslova
2	2	002		početak teksta
3	3	003		kraj teksta
4	4	004		kraj prenosa
5	5	005		upit
6	6	006		priznati
7	7	007		zvono
8	8	010		backspace
9	9	011		horizontalni jezičak
10	A	012		nova linija
11	B	013		vertikalna kartica
12	C	014		nova stranica
13	D	015		povrat kočije
14	E	016		prebaciti se
15	F	017		prebaciti se
16	10	020		bijeg podatkovne veze
17	11	021		kontrola uređaja 1
18	12	022		kontrola uređaja 2
19	13	023		kontrola uređaja 3
20	14	024		kontrola uređaja 4
21	15	025		negativno priznanje
22	16	026		sinhroni mirovanje
23	17	027		kraj trans. blok
24	18	030		otkaži
25	19	031		kraj medija
26	1A	032		zamjena
27	1B	033		bijeg
28	1C	034		separator fajlova
29	1D	035		separator grupe
30	1E	036		separator zapisa
31	1F	037		separator jedinice
32	20	040		svemir
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3F	077	?

dec	Hex	okt	Char
64	40	100	@
65	41	101	A
66	42	102	B
67	43	103	C
68	44	104	D
69	45	105	E
70	46	106	F
71	47	107	G
72	48	110	H
73	49	111	I
74	4A	112	J
75	4B	113	K
76	4C	114	L
77	4D	115	M
78	4E	116	N
79	4F	117	O
80	50	120	P
81	51	121	Q
82	52	122	R
83	53	123	S
84	54	124	T
85	55	125	U
86	56	126	V
87	57	127	W
88	58	130	X
89	59	131	Y
90	5A	132	Z
91	5B	133	[
92	5C	134	\
93	5D	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	a
98	62	142	b
99	63	143	c
100	64	144	d
101	65	145	e
102	66	146	f
103	67	147	g
104	68	150	h
105	69	151	i
106	6A	152	j
107	6B	153	k
108	6C	154	l
109	6D	155	m
110	6E	156	n
111	6F	157	o
112	70	160	str
113	71	161	q
114	72	162	r
115	73	163	s
116	74	164	t
117	75	165	u
118	76	166	v
119	77	167	w
120	78	170	x
121	79	171	y
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

Kao što možete lako vidjeti, ovo kodiranje sadrži samo latinična slova, i to ona koja se koriste u engleskom jeziku. Tu su i aritmetički i drugi uslužni simboli. Ali ne postoje ruska slova, pa čak ni posebna latinična slova za njemački ili francuski. Ovo je lako objasniti - kodiranje je razvijeno posebno kao američki standard. Kada su kompjuteri počeli da se koriste širom sveta, postalo je neophodno kodiranje drugih simbola.

Za to je odlučeno da se koristi osmi bit u svakom bajtu. Tako je bilo dostupno još 128 vrijednosti (od 80 do FF), koje su se mogle koristiti za kodiranje znakova. Prva od osmobitnih tabela je "prošireni ASCII" ( Prošireni ASCII) - uključuje različite varijante latiničnih znakova koji se koriste u nekim jezicima zapadne Evrope. Sadržao je i druge dodatne simbole, uključujući pseudo grafiku.

Pseudografički znakovi omogućavaju, prikazujući samo tekstualne znakove, da pruže neki privid grafike. Na primjer, program za upravljanje datotekama FAR Manager radi uz pomoć pseudo-grafike.

U proširenoj ASCII tabeli nije bilo ruskih slova. U Rusiji (bivši SSSR) i drugim državama stvorena su vlastita kodiranja koja su omogućila predstavljanje specifičnih „nacionalnih“ znakova u 8-bitnim tekstualnim datotekama - latinična slova poljskog i češkog jezika, ćirilica (uključujući ruska slova ) i druga pisma.

U svim kodiranjima koja su postala široko rasprostranjena, prvih 127 znakova (to jest, vrijednosti bajtova s osmim bitom jednakim 0) poklapaju se sa ASCII. Dakle, ASCII datoteka radi u bilo kojem od ovih kodiranja; slova engleskog jezika su predstavljena na isti način.

Organizacija ISO(Međunarodna organizacija za standardizaciju) usvojila je grupu standarda ISO 8859... Definira 8-bitna kodiranja za različite grupe jezika. Dakle, ISO 8859-1 je prošireni ASCII, tabela za Sjedinjene Države i Zapadnu Evropu. A ISO 8859-5 je tabela za ćirilicu (uključujući ruski).

Međutim, iz istorijskih razloga, ISO 8859-5 kodiranje se nije uhvatilo. U stvarnosti, za ruski jezik se koriste sljedeća kodiranja:

Kodna stranica 866 ( CP866), zvani “DOS”, zvani “alternativno GOST kodiranje”. Bio je u širokoj upotrebi do sredine 90-ih; sada se koristi u ograničenoj mjeri. Praktično se ne koristi za distribuciju tekstova na Internetu.
- KOI-8. Razvijen 70-ih i 80-ih godina. To je općeprihvaćeni standard za prijenos mail poruka na ruskom Internetu. Takođe se široko koristi u operativnim sistemima porodice Unix, uključujući Linux. Zove se verzija KOI-8, dizajnirana za ruski jezik KOI-8R; postoje verzije za druge ćiriličke jezike (na primjer, KOI8-U je opcija za ukrajinski jezik).
- Šifra 1251, CP1251, Windows-1251. Razvijen od strane Microsofta za podršku ruskom jeziku u Windows-u.

Glavna prednost CP866 bila je očuvanje pseudografskih znakova na istim mjestima kao u proširenom ASCII-u; stoga bi strani tekstualni programi, na primjer, čuveni Norton Commander, mogli raditi bez promjena. Danas se CP866 koristi za Windows programe koji rade u tekstualnim prozorima ili tekstualnom režimu preko celog ekrana, uključujući FAR Manager.

Poslednjih godina tekstovi u CP866 su prilično retki (ali se koristi za kodiranje ruskih imena datoteka u Windows-u). Stoga ćemo se detaljnije zadržati na dva druga kodiranja - KOI-8R i CP1251.

Kao što možete vidjeti, u tablici kodiranja CP1251 ruska slova su raspoređena po abecednom redu (osim, međutim, slova E). Ovaj raspored olakšava kompjuterskim programima da sortiraju po abecednom redu.

Ali u KOI-8R, redoslijed ruskih slova izgleda nasumičan. Ali zapravo nije.

Mnogi stariji programi izgubili su 8. bit prilikom obrade ili prijenosa teksta. (Sada su takvi programi praktički "izumrli", ali su kasnih 80-ih - ranih 90-ih bili široko rasprostranjeni). Da biste dobili 7-bitnu vrijednost od 8-bitne vrijednosti, oduzmite 8 od najznačajnije cifre; na primjer E1 postaje 61.

Sada uporedite KOI-8R sa ASCII tabelom (Tabela 1). Videćete da su ruska slova jasno usklađena sa latiničnim. Ako osmi bit nestane, mala ruska slova pretvaraju se u velika latinična slova, a velika ruska slova pretvaraju se u mala latinična slova. Dakle, E1 u KOI-8 je rusko "A", dok je 61 u ASCII latinično "a".

Dakle, KOI-8 vam omogućava da sačuvate čitljivost ruskog teksta dok gubite 8. bit. “Zdravo svima” postaje “pRIWET WSEM”.

Nedavno su i abecedni red znakova u tablici kodiranja i čitljivost sa gubitkom 8. bita izgubili odlučujuću važnost. Osmi bit se u savremenim računarima ne gubi ni tokom prenosa ni obrade. Sortiranje po abecednom redu zasniva se na kodiranju, a ne samo na upoređivanju kodova. (Usput, CP1251 kodovi nisu potpuno abecedni - slovo E nije na svom mjestu).

Zbog činjenice da postoje dva uobičajena kodiranja, kada radite sa Internetom (pošta, pregledavanje web stranica), ponekad možete vidjeti besmislen skup slova umjesto ruskog teksta. Na primjer, "Ja sam SBUFEMHEL". Ovo su samo riječi "s poštovanjem"; ali su bili kodirani u CP1251 kodiranju, a kompjuter je dekodirao tekst prema tabeli KOI-8. Ako su iste riječi, naprotiv, kodirane u KOI-8, a kompjuter je dekodirao tekst prema tabeli CP1251, rezultat će biti “U HČBCEOJEN”.

Ponekad se desi da kompjuter uopšte dešifruje slova ruskog jezika prema tabeli koja nije namenjena ruskom jeziku. Tada se umjesto ruskih slova pojavljuje besmislen skup simbola (na primjer, latinična slova istočnoevropskih jezika); često se nazivaju "krokozijabre".

U većini slučajeva, moderni programi se sami nose sa određivanjem kodiranja internetskih dokumenata (e-pošte i web stranica). Ali ponekad "zapadnu", i tada možete vidjeti čudne sekvence ruskih slova ili "krokozyabra". U pravilu, da bi se na ekranu prikazao pravi tekst, dovoljno je ručno odabrati kodiranje u meniju programa.

Za članak su korištene informacije sa stranice http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Materijal preuzet sa sajta:

Kao što znate, računar pohranjuje informacije u binarnom obliku, predstavljajući ih kao niz jedinica i nula. Za prevođenje informacija u oblik koji je prikladan za ljudsku percepciju, svaki jedinstveni niz brojeva zamjenjuje se odgovarajućim simbolom kada se prikaže.

Jedan od sistema za korelaciju binarnih kodova sa ispisnim i kontrolnim znakovima je

Na sadašnjem nivou razvoja računarske tehnologije, korisnik nije obavezan da zna šifru svakog specifičnog simbola. Međutim, opće razumijevanje načina na koji se provodi kodiranje je izuzetno korisno, a za neke kategorije stručnjaka čak i neophodno.

ASCII kreiranje

U svom izvornom obliku, kodiranje je razvijeno 1963. godine, a zatim dva puta ažurirano u roku od 25 godina.

U originalnoj verziji, ASCII tablica znakova je sadržavala 128 znakova, kasnije se pojavila proširena verzija, gdje je prvih 128 znakova sačuvano, a prethodno odsutni znakovi su dodijeljeni kodovima sa uključenim osmim bitom.

Dugi niz godina ovo kodiranje je bilo najpopularnije na svijetu. 2006. godine latinica 1252 zauzima vodeću poziciju, a od kraja 2007. do danas, Unicode čvrsto drži vodeću poziciju.

ASCII kompjuterska reprezentacija

Svaki ASCII znak ima svoj vlastiti kod od 8 znakova koji predstavljaju nulu ili jedan. Minimalni broj u takvoj reprezentaciji je nula (osam nula u binarnom sistemu), što je kod prvog elementa u tabeli.

Dva koda u tabeli bila su rezervirana za prebacivanje između standardnog US-ASCII i njegove nacionalne verzije.

Nakon što je ASCII počeo da uključuje ne 128, već 256 znakova, varijanta kodiranja je postala široko rasprostranjena, u kojoj je originalna verzija tablice sačuvana u prvih 128 kodova sa nultim 8. bitom. U gornjoj polovini tabele (pozicije 128-255) zadržani su znaci nacionalnog pisma.

Korisnik ne mora direktno znati ASCII znakovne kodove. Obično je dovoljno da programer softvera zna broj elementa u tabeli kako bi izračunao njegov kod koristeći binarni sistem, ako je potrebno.

ruski jezik

Nakon razvoja kodiranja za skandinavske jezike, kineski, korejski, grčki, itd. početkom 70-ih, Sovjetski Savez je također počeo stvarati svoju verziju. Ubrzo je razvijena verzija 8-bitnog kodiranja pod nazivom KOI8, koja čuva prvih 128 ASCII znakovnih kodova i dodjeljuje isti broj pozicija za slova nacionalne abecede i dodatne znakove.

Prije uvođenja Unicode-a, KOI8 je dominirao ruskim segmentom interneta. Postojale su opcije kodiranja i za rusko i za ukrajinsko pismo.

ASCII problemi

Budući da broj elemenata čak ni u proširenoj tabeli nije prelazio 256, nije postojala mogućnost smještaja nekoliko različitih skripti u jednom kodiranju. 90-ih godina u Runetu se pojavio problem "crocozyabra", kada su tekstovi upisani ruskim ASCII znakovima bili pogrešno prikazani.

Problem je bio u tome što se kodovi različitih ASCII varijanti nisu podudarali. Podsjetimo da pozicije 128-255 mogu sadržavati različite znakove, a prilikom promjene jednog ćiriličnog kodiranja u drugi, sva slova teksta su zamijenjena drugim koji imaju identičan broj u drugoj verziji kodiranja.

Trenutna drzava

Sa pojavom Unicode-a, popularnost ASCII-a je naglo opala.

Razlog tome leži u činjenici da je novo kodiranje omogućilo prilagođavanje znakova gotovo svih pisanih jezika. U ovom slučaju, prvih 128 ASCII znakova odgovara istim znakovima u Unicode-u.

Godine 2000. ASCII je bio najpopularniji kodiranje na Internetu i korišten je na 60% web stranica koje je indeksirao Google. Do 2012. godine udio takvih stranica je pao na 17%, a Unicode (UTF-8) je zauzeo mjesto najpopularnijeg kodiranja.

Dakle, ASCII je važan dio povijesti informatičke tehnologije, ali se njegova upotreba u budućnosti smatra neperspektivnom.

Proširena ascii tabela. Kodiranje tekstualnih informacija

U ovom članku

Umetnite ASCII ili Unicode znak u dokument

Umetnite ASCII znakove

Umetanje Unicode znakova

Korišćenje tabele simbola

Često korišteni kodovi simbola

Često korišteni dijakritički kodovi

ASCII kontrolni znakovi koji se ne mogu ispisati

ASCII tablica kontrolnih znakova koja se ne može ispisati

Kako su tekstualne informacije predstavljene u memoriji računara?

Sada se postavlja pitanje kakvu vrstu osmobitnog binarnog koda povezati sa svakim znakom.

Tabela u kojoj su svim znakovima kompjuterske abecede dodijeljeni serijski brojevi naziva se tabela kodiranja.

Struktura ASCII tablice kodiranja

Serijski broj

Šifra

Simbol

0 - 31

00000000 - 00011111

32 - 127

00100000 - 01111111

128 - 255

10000000 - 11111111

Prva polovina ASCII tabele

Druga polovina ASCII tabele

Pokušajmo koristiti ASCII tablicu da zamislimo kako će riječi izgledati u memoriji računara.

Interno predstavljanje riječi u memoriji računara

Compywater

i

3.2. Kodiranje grafičkih informacija

Vježbe za samoispunjenje

ASCII kreiranje

ASCII kompjuterska reprezentacija

ruski jezik

ASCII problemi

Trenutna drzava

Top srodni članci