Proširena ascii tablica. Kodiranje tekstualnih informacija

05.09.2019 Windows Phone

Excel za Office 365 Word za Office 365 Outlook za Office 365 PowerPoint za Office 365 Publisher za Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Excel 2007 Word 2007 Outlook 07 Office 2007 Power07 Office 2007 Visio Standard 2007 Visio Standard 2010 Manji

U ovom članku

Umetnite ASCII ili Unicode znak u dokument

Ako trebate unijeti samo nekoliko posebnih znakova ili simbola, možete koristiti bilo koji tipkovnički prečac. Za popis ASCII znakova pogledajte sljedeće tablice ili članak Umetanje nacionalnih abeceda pomoću tipkovničkih prečaca.

Bilješke:

Umetnite ASCII znakove

Da biste umetnuli ASCII znak, pritisnite i držite tipku ALT dok unosite kod znaka. Na primjer, da biste umetnuli simbol stupnja (º), pritisnite i držite tipku Alt, a zatim unesite 0176 na numeričkoj tipkovnici.

Koristite numeričku tipkovnicu za unos brojeva umjesto brojeva na glavnoj tipkovnici. Ako trebate unijeti brojeve na numeričkoj tipkovnici, provjerite je li indikator NUM LOCK uključen.

Umetanje Unicode znakova

Da biste umetnuli Unicode znak, unesite kôd znaka, a zatim pritisnite ALT i X u nizu. Na primjer, da biste umetnuli znak dolara ($), unesite 0024 i pritisnite ALT i X u nizu. Za sve kodove Unicode znakova pogledajte.

Važno: Neki programi Microsoft Officea, kao što su PowerPoint i InfoPath, ne podržavaju pretvaranje Unicode kodova u znakove. Ako trebate umetnuti Unicode znak u jedan od ovih programa, upotrijebite.

Bilješke:

Ako nakon pritiskanja ALT + X vidite pogrešan Unicode znak, odaberite ispravan kod, a zatim ponovno pritisnite ALT + X.

Osim toga, "U +" se mora unijeti prije koda. Na primjer, ako unesete "1U + B5" i pritisnete Alt + X, prikazuje se tekst "1µ", a ako unesete "1B5" i pritisnete Alt + X, prikazuje se znak "Ƶ".

Koristeći tablicu simbola

Symbol Map je program ugrađen u Microsoft Windows koji vam omogućuje pregled simbola dostupnih za odabrani font.

Pomoću tablice simbola možete kopirati pojedinačne simbole ili grupu simbola u međuspremnik i zalijepiti ih u bilo koji program koji može prikazati te simbole. Otvaranje tablice simbola

U sustavu Windows 10 Unesite riječ "simbol" u okvir za pretraživanje na programskoj traci i odaberite tablicu simbola iz rezultata pretraživanja.

Na sustavu Windows 8 Unesite riječ "znak" na početnom zaslonu i odaberite tablicu znakova iz rezultata pretraživanja.

Na sustavu Windows 7 pritisni gumb Početak, uzastopno odaberite Svi programi, Standard, Servis i kliknite tablica simbola.

Znakovi su grupirani prema fontu. Kliknite na popis fontova kako biste odabrali odgovarajući skup znakova. Da biste odabrali simbol, kliknite ga, a zatim kliknite Odaberi... Da biste umetnuli simbol, desnom tipkom miša kliknite željeno mjesto u dokumentu i odaberite Umetnuti.

Često korišteni kodovi simbola

Za potpuni popis znakova pogledajte svoje računalo, tablicu kodova ASCII znakova ili tablice skupa znakova Unicode.

Glif

Novčane jedinice

Pravni simboli

Matematički simboli

Razlomci

Interpunkcijski i dijalektni simboli

Simboli oblika

Često korišteni dijakritički kodovi

Za potpuni popis glifova i povezanih kodova, pogledajte.

Glif

ASCII kontrolni znakovi koji se ne mogu ispisati

Znakovi koji se koriste za upravljanje nekim perifernim uređajima, kao što su pisači, označeni su brojevima od 0 do 31 u ASCII tablici. Na primjer, znak feed / nova stranica je broj 12. Ovaj znak govori pisaču da ide na vrh sljedeće stranice.

Tablica kontrolnih znakova ASCII koja se ne može ispisati

Decimal	Znak	Decimal	Znak
		Oslobađanje podatkovnog kanala
Početak naslova		Prvi kontrolni kod uređaja
Početak teksta		Drugi kontrolni kod uređaja
Kraj teksta		Kontrolni kod trećeg uređaja
Kraj prijenosa		Četvrti kontrolni kod uređaja
	petokraka	Negativna potvrda
Potvrda		Sinkroni način prijenosa
Zvučni signal		Kraj bloka prenesenih podataka

Horizontalna kartica		Kraj medija
Prijenos reda / novi redak		Zamjenski lik
Okomita kartica			premašiti
Prijevod stranice / nova stranica	Dvanaesti	Razdjelnik datoteka
Povrat prtljage		Razdjelnik grupe
Shift bez spremanja znamenki		Razdjelnik zapisa
Pomak s očuvanjem znamenki	petnaest	Razdjelnik podataka

Skup znakova kojim se piše tekst naziva se abeceda.

Broj znakova u abecedi je njegov vlast.

Formula za određivanje količine informacija: N = 2 b,

gdje je N kardinalnost abecede (broj znakova),

b - broj bitova (informacijska težina znaka).

Abeceda kapaciteta 256 znakova može primiti gotovo sve potrebne znakove. Ova abeceda se zove dovoljan.

Jer 256 = 2 8, tada je težina 1 znaka 8 bitova.

8-bitna jedinica je dobila ime 1 bajt:

1 bajt = 8 bita.

Binarni kod svakog znaka u kompjuterskom tekstu zauzima 1 bajt memorije.

Kako su tekstualne informacije predstavljene u memoriji računala?

Pogodnost bajt kodiranja znakova je očigledna, budući da je bajt najmanji adresabilni dio memorije i stoga procesor može pristupiti svakom znaku zasebno, obavljajući obradu teksta. S druge strane, 256 znakova je sasvim dovoljan broj za predstavljanje široke palete informacija o znakovima.

Sada se postavlja pitanje kakav osmobitni binarni kod pridružiti svakom znaku.

Jasno je da je to uvjetno, možete smisliti mnoge metode kodiranja.

Svi znakovi računalne abecede numerirani su od 0 do 255. Svaki broj odgovara osmoznamenkastom binarnom kodu od 00000000 do 11111111. Ovaj kod je jednostavno redni broj znaka u binarnom sustavu.

Tablica u kojoj su svim znakovima računalne abecede dodijeljeni serijski brojevi naziva se tablica kodiranja.

Za različite vrste računala koriste se različite tablice kodiranja.

Međunarodni standard za PC postao je stol ASCII(čitaj asci) (Američki standardni kod za razmjenu informacija).

ASCII tablica podijeljena je na dva dijela.

Međunarodni standard je samo prva polovica tablice, t.j. simboli s brojevima iz 0 (00000000), do 127 (01111111).

Struktura ASCII tablice kodiranja

Serijski broj	Kodirati	Simbol
0 - 31	00000000 - 00011111	Simboli s brojevima od 0 do 31 obično se nazivaju kontrolni znakovi. Njihova je funkcija kontrola procesa prikazivanja teksta na ekranu ili ispisa, davanja zvučnog signala, označavanja teksta itd.
32 - 127	00100000 - 01111111	Standardni dio tablice (engleski). To uključuje mala i velika slova latinice, decimalne znamenke, interpunkcijske znakove, sve vrste zagrada, komercijalne i druge simbole. Lik 32 je razmak, t.j. prazno mjesto u tekstu. Svi ostali se odražavaju u određenim znakovima.
128 - 255	10000000 - 11111111	Alternativni dio tablice (ruski). Druga polovica tablice kodova ASCII, nazvana kodna stranica (128 kodova, počevši od 10000000 i završava s 11111111), može imati različite varijante, svaka varijanta ima svoj broj. Kodna stranica se prvenstveno koristi za smještaj nacionalnih alfabeta osim latinice. U ruskim nacionalnim kodovima ovaj dio tablice sadrži simbole ruske abecede.

Prva polovica ASCII tablice

Skrećem vam pozornost na činjenicu da su u tablici kodiranja slova (velika i mala slova) poredana abecednim redom, a brojevi uzlaznim redoslijedom vrijednosti. Ovo poštivanje leksikografskog reda u rasporedu znakova naziva se princip sekvencijalnog kodiranja abecede.

Za slova ruske abecede također se promatra načelo sekvencijalnog kodiranja.

Druga polovica ASCII tablice

Nažalost, trenutno postoji pet različitih ćiriličkih kodiranja (KOI8-R, Windows. MS-DOS, Macintosh i ISO). Zbog toga često nastaju problemi s prijenosom ruskog teksta s jednog računala na drugo, s jednog softverskog sustava na drugi.

Kronološki, jedan od prvih standarda za kodiranje ruskih slova na računalima bio je KOI8 ("Kod za razmjenu informacija, 8-bitni"). Ovo se kodiranje koristilo još 70-ih godina na računalima serije ES računala, a od sredine 80-ih počelo se koristiti u prvim rusificiranim verzijama UNIX operativnog sustava.

Od početka 90-ih, vremena dominacije operativnog sustava MS DOS, ostaje kodiranje CP866 ("CP" znači "Code Page").

Apple računala s Mac OS-om koriste vlastito Mac kodiranje.

Osim toga, Međunarodna organizacija za standardizaciju (International Standards Organization, ISO) odobrila je još jedno kodiranje pod nazivom ISO 8859-5 kao standard za ruski jezik.

Trenutno je najčešće kodiranje Microsoft Windows, skraćeno CP1251.

Od kasnih 90-ih, problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda tzv. Unicode... Ovo je 16-bitno kodiranje, tj. dodjeljuje 2 bajta memorije za svaki znak. Naravno, to udvostručuje količinu korištene memorije. No, s druge strane, takva kodna tablica omogućuje uključivanje do 65536 znakova. Kompletna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene alfabete svijeta, kao i mnoge matematičke, glazbene, kemijske i druge simbole.

Pokušajmo upotrijebiti ASCII tablicu da zamislimo kako će riječi izgledati u memoriji računala.

Unutarnji prikaz riječi u memoriji računala

Ponekad se dogodi da se tekst koji se sastoji od slova ruske abecede, primljen s drugog računala, ne može pročitati - na ekranu monitora vidljiva je neka vrsta "besmislica". To je zbog činjenice da računala koriste različito kodiranje znakova ruskog jezika.

Prisjetimo se nekih činjenica koje znamo:

Skup simbola kojima se piše tekst naziva se abeceda.

Broj znakova u abecedi je njegova kardinalnost.

Formula za određivanje količine informacija: N = 2 b,

gdje je N kardinalnost abecede (broj znakova),

b - broj bitova (informacijska težina znaka).

Abeceda kapaciteta 256 znakova može primiti gotovo sve potrebne znakove. Takva abeceda se naziva dovoljna.

Jer 256 = 2 8 , tada je težina 1 znaka 8 bita.

8-bitna jedinica dobila je naziv 1 bajt:

1 bajt = 8 bita.

Binarni kod svakog znaka u kompjuterskom tekstu zauzima 1 bajt memorije.

Kako su tekstualne informacije predstavljene u memoriji računala?

Kodiranje znači da je svakom znaku dodijeljen jedinstveni decimalni kod od 0 do 255 ili odgovarajući binarni kod od 00000000 do 11111111. Dakle, osoba razlikuje znakove po stilu, a računalo - po kodu.

Sada se postavlja pitanje kakav osmobitni binarni kod pridružiti svakom znaku.

Jasno je da je to uvjetno, možete smisliti mnoge metode kodiranja.

ASCII tablica postala je međunarodni standard za PC (čitaj asci) (Američki standardni kod za razmjenu informacija).

Međunarodni standard je samo prva polovica tablice, t.j. znakova s brojevima od 0 (00000000) do 127 (01111111).

Serijski broj		Simbol
	00000000 - 00011111	Njihova je funkcija kontrola procesa prikazivanja teksta na ekranu ili ispisa, davanja zvučnog signala, označavanja teksta itd.
32 - 127	00100000 - 01111111
128 - 255	10000000 - 11111111	Druga polovica tablice kodova ASCII, nazvana kodna stranica (128 kodova, počevši od 10000000 i završava s 11111111), može imati različite varijante, svaka varijanta ima svoj broj.

Trenutno je najčešće kodiranje Microsoft Windows, skraćeno CP1251.

Od kasnih 90-ih, problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda nazvanog Unicode. ... Ovo je 16-bitno kodiranje, tj. dodjeljuje 2 bajta memorije za svaki znak. Naravno, to udvostručuje količinu korištene memorije. No, s druge strane, takva kodna tablica omogućuje uključivanje do 65536 znakova. Kompletna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene alfabete svijeta, kao i mnoge matematičke, glazbene, kemijske i druge simbole.

Pokušajmo upotrijebiti ASCII tablicu da zamislimo kako će riječi izgledati u memoriji računala.

Riječi

Memorija

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Kada se tekstualne informacije unose u računalo, znakovi (slova, brojevi, znakovi) se kodiraju različitim sustavima kodiranja, koji se sastoje od skupa kodnih tablica smještenih na odgovarajućim stranicama standarda za kodiranje tekstualnih informacija. U takvim je tablicama svakom znaku dodijeljen specifičan brojčani kod u heksadecimalnom ili decimalnom zapisu, odnosno tablice kodova odražavaju korespondenciju između slika znakova i numeričkih kodova i dizajnirane su za kodiranje i dekodiranje tekstualnih informacija. Prilikom unosa tekstualnih informacija pomoću računalne tipkovnice, svaki ulazni znak se kodira, odnosno pretvara u numerički kod; kada se tekstualna informacija izlazi na izlazni uređaj računala (zaslon, pisač ili ploter), njegova se slika gradi pomoću numerički kod znaka. Dodjela određenog numeričkog koda simbolu rezultat je sporazuma između odgovarajućih organizacija u različitim zemljama. Trenutno ne postoji jedinstvena univerzalna tablica kodova koja zadovoljava slova nacionalnih abeceda različitih zemalja.

Suvremene šifrarne tablice uključuju međunarodne i nacionalne dijelove, odnosno sadrže slova latinične i nacionalne abecede, brojeve, znakove aritmetičkih operacija i interpunkcije, matematičke i kontrolne znakove, pseudografske simbole. Međunarodni dio tablice kodova na temelju standarda ASCII (američki standardni kod za razmjenu informacija), kodira prvu polovicu znakova tablice kodova s numeričkim kodovima od 0 do 7 F 16, ili u decimalnom zapisu od 0 do 127. Kodovi od 0 do 20 16 (0? 32 10) dodijeljeni su funkcijskim tipkama (F1, F2, F3, itd.) tipkovnice računala. Na sl. 3.1 prikazuje međunarodni dio tablica kodova na temelju standarda ASCII.Ćelije tablice numerirane su decimalnim, odnosno heksadecimalnim zapisom.

Slika 3.1. Međunarodni dio tablice kodova (standard ASCII) s brojevima ćelija predstavljenim u decimalnom (a) i heksadecimalnom (b) brojevnom sustavu

Nacionalni dio tablica kodova sadrži kodove nacionalnih abeceda, koji se također naziva tablica skupa znakova (skup znakova).

Trenutno, za podršku slova ruske abecede (ćirilice), postoji nekoliko kodnih tablica (kodiranja) koje koriste različiti operativni sustavi, što je značajan nedostatak i u nekim slučajevima dovodi do problema povezanih s operacijama dekodiranja brojčanog vrijednosti znakova. Stol 3.1 navedeni su nazivi kodnih stranica (standarda) na kojima se nalaze kodne tablice (kodiranja) ćiriličnog pisma.

Tablica 3.1

Jedan od prvih standarda za kodiranje ćirilice na računalima bio je standard KOI8-R. Nacionalni dio tablice kodova za ovaj standard prikazan je na Sl. 3.2.

Riža. 3.2. Nacionalni dio tablice kodova standarda KOI8-R

Trenutno se također koristi tablica kodova koja se nalazi na stranici CP866 standarda za kodiranje tekstualnih informacija koje se koriste u operacijskom sustavu. MS DOS ili sesije MS DOS za kodiranje ćirilice (slika 3.3, a).

Riža. 3.3. Nacionalni dio tablice kodova, koji se nalazi na stranici CP866 (a) i na stranici CP1251 (b) standarda kodiranja tekstualnih informacija

Trenutno se najraširenija kodna tablica za kodiranje ćirilice nalazi na stranici odgovarajućeg standarda CP1251 koji se koristi u operativnim sustavima obitelji Windows poduzeća Microsoft(slika 3.2, b). U svim prikazanim tablicama kodova, osim u standardnoj tablici Unicode, Za kodiranje jednog znaka dodijeljeno je 8 binarnih znamenki (8 bitova).

Krajem prošlog stoljeća pojavio se novi međunarodni standard Unicode, u kojem je jedan znak predstavljen dvobajtnim binarnim kodom. Primjena ove norme nastavak je razvoja univerzalnog međunarodnog standarda koji omogućuje rješavanje problema kompatibilnosti nacionalnih kodiranja znakova. Ovim standardom može se kodirati 2 16 = 65536 različitih znakova. Na sl. 3.4 je kodna tablica 0400 (ruska abeceda) standarda Unicode.

Riža. 3.4. Tablica kodova 0400 Unicode standarda

Pojasnimo na primjeru ono što je rečeno o kodiranju tekstualnih informacija.

Primjer 3.1

Kodirajte riječ "Računalo" kao niz decimalnih i heksadecimalnih brojeva koristeći CP1251 kodiranje. Koji će se znakovi prikazati u tablicama kodova CP866 i KOI8-R kada se koristi primljeni kod.

Sekvence heksadecimalnih i binarnih kodova riječi "Računalo" na temelju tablice kodiranja CP1251 (vidi sliku 3.3, b) izgledat će ovako:

Ovaj kodni slijed u kodovima CP866 i KOI8-R rezultirat će prikazom sljedećih znakova:

Za pretvaranje tekstualnih dokumenata na ruskom jeziku iz jednog standarda za kodiranje teksta u drugi, koriste se posebni programi - pretvarači. Pretvarači se obično ugrađuju u druge programe. Primjer bi bio program preglednika - Internet Explorer (IE), koji ima ugrađen pretvarač. Program preglednika je poseban program za gledanje sadržaja Internet stranice u globalnoj računalnoj mreži Internet. Koristimo ovaj program za potvrdu rezultata prikaza simbola dobivenih u primjeru 3.1. Da bismo to učinili, izvršit ćemo sljedeće radnje.

1. Pokrenite program Notepad (Bilježnica). Program Notepad u operativnom sustavu Windows XP se pokreće naredbom: [Button Početak- Programi - Standardno - Notepad]. U otvorenom prozoru Notepad upišite riječ "Računalo" koristeći sintaksu označnog jezika hipertekstualnih dokumenata - HTML (Hyper Text Markup Language). Ovaj jezik se koristi za izradu dokumenata na Internetu. Tekst bi trebao izgledati ovako:

Compywater

, gdje

i

oznake (posebne konstrukcije) jezika HTML na zaglavlja za označavanje. Na sl. 3.5 prikazuje rezultat ovih radnji.

Riža. 3.5. Prikaz teksta u prozoru Notepad-a

Spremimo ovaj tekst tako što ćemo izvršiti naredbu: [Datoteka - Spremi kao ...] u odgovarajuću mapu računala, prilikom spremanja teksta datoteci ćemo dodijeliti naziv - Približno, s nastavkom datoteke. html.

2. Pokrenite program Internet Explorer, izvršavanjem naredbe: [Button Početak- Programi - Internet Explorer]. Kada se program pokrene, prozor prikazan na sl. 3.6

Riža. 3.6. Prozor za izvanmrežni pristup

Odaberite i aktivirajte gumb Izvanmrežno u tom slučaju računalo neće biti spojeno na globalni internet. Pojavit će se glavni prozor programa Microsoft Internet Explorer, prikazano na sl. 3.7.

Riža. 3.7. Glavni prozor Microsoft Internet Explorera

Pokrenite sljedeću naredbu: [Datoteka - Otvori], pojavit će se prozor (slika 3.8), u kojem morate odrediti naziv datoteke i kliknuti u redu ili pritisnite tipku Pregled… i pronađite datoteku App.html.

Riža. 3.8. Otvori prozor

Glavni prozor Internet Explorera imat će oblik prikazan na sl. 3.9. Prozor prikazuje riječ "Računalo". Nadalje, pomoću gornjeg izbornika programa Internet Explorer, izvršite sljedeću naredbu: [Prikaz - Kodiranje - ćirilica (DOS)]. Nakon izvršenja ove naredbe u prozoru programa Internet Eplorer simboli prikazani na sl. 3.10. Prilikom izvršavanja naredbe: [Prikaz - Kodiranje - Ćirilica (KOI8-R)] u prozoru programa Internet Explorer simboli prikazani na sl. 3.11.

Riža. 3.9. Znakovi koji se prikazuju prilikom kodiranja CP1251

Riža. 3.10. Znakovi koji se prikazuju kada je CP866 kodiranje omogućeno za kodni niz predstavljen u CP1251 kodiranju

Riža. 3.11. Znakovi koji se prikazuju kada je kodiranje KOI8-R uključeno za kodni niz predstavljen u kodiranju CP1251

Tako dobiveno s programom Internet Explorer znakovni nizovi se podudaraju sa nizovima znakova dobivenim korištenjem kodnih tablica CP866 i KOI8-R u primjeru 3.1.

3.2. Kodiranje grafičkih informacija

Grafičke informacije predstavljene u obliku crteža, fotografija, slajdova, pokretnih slika (animacija, video), dijagrama, crteža, mogu se kreirati i uređivati pomoću računala, pri čemu su odgovarajuće kodirane. Trenutno postoji prilično velik broj aplikacija za obradu grafičkih informacija, ali sve implementiraju tri vrste računalne grafike: rastersku, vektorsku i fraktalnu.

Ako pobliže pogledate grafičku sliku na zaslonu monitora računala, možete vidjeti veliki broj raznobojnih točaka (piksela - s engleskog. piksel, obrazovan iz element slike - slikovni element), koji, kada se spoje, tvore zadanu grafičku sliku. Iz ovoga možemo zaključiti: grafička slika u računalu je kodirana na određeni način i mora biti predstavljena u obliku grafičke datoteke. Datoteka je glavna strukturna jedinica organizacije i pohrane podataka u računalu i u ovom slučaju treba sadržavati informacije o tome kako prikazati ovaj skup točaka na zaslonu monitora.

Datoteke stvorene na temelju vektorske grafike sadrže informacije u obliku matematičkih odnosa (matematičke funkcije koje opisuju linearne odnose) i povezane podatke o tome kako konstruirati sliku objekta pomoću segmenata linija (vektora) kada se prikazuje na monitoru računala.

Datoteke stvorene na temelju rasterske grafike pretpostavljaju pohranu podataka o svakoj pojedinoj točki na slici. Za prikaz rasterske grafike nisu potrebni složeni matematički izračuni, dovoljno je samo dobiti podatke o svakoj točki slike (njezine koordinate i boju) i prikazati ih na zaslonu računala.

U procesu kodiranja slike vrši se njezino prostorno uzorkovanje, odnosno slika se dijeli na zasebne točke i svakoj točki se dodjeljuje kod boje (žuta, crvena, plava itd.). Za kodiranje svake točke grafičke slike u boji primjenjuje se princip dekompozicije proizvoljne boje na njezine glavne komponente, a to su tri osnovne boje: crvena (engleska riječ Crvena, označiti slovom DO), zelena (zeleno, označiti slovom G), plava (plava, označiti s bukvom V). Bilo koja točkasta boja koju percipira ljudsko oko može se dobiti aditivnim (proporcionalnim) zbrajanjem (miješanjem) tri osnovne boje - crvene, zelene i plave. Ovaj sustav kodiranja naziva se sustav boja. RGB. Grafičke datoteke koje koriste sustav boja RGB, predstavljaju svaku točku slike kao trojku boja - tri numeričke vrijednosti R, G i V, odgovara intenzitetu crvene, zelene i plave boje. Proces kodiranja grafičke slike provodi se različitim tehničkim sredstvima (skener, digitalna kamera, digitalna video kamera itd.); rezultat je bitmap. Prilikom reprodukcije grafike u boji na monitoru računala u boji, boja svake točke (piksela) takve slike dobiva se miješanjem tri primarne boje R, G i B.

Kvalitetu rasterske slike određuju dva glavna parametra - razlučivost (broj točaka vodoravno i okomito) i korištena paleta boja (broj određenih boja za svaku točku na slici). Rezolucija se postavlja navođenjem broja točaka vodoravno i okomito, na primjer, 800 puta 600 točaka.

Postoji odnos između broja boja specificiranih za točku na rasterskoj slici i količine informacija koja se mora odabrati za pohranjivanje boje točke, a koja je određena odnosom (formula R. Hartleyja):

gdje ja- količina informacija; N - broj boja danih točki.

Količina informacija potrebna za pohranu boje točke naziva se i dubina boje ili kvaliteta boje.

Dakle, ako je broj boja naveden za točku slike N = 256, tada će količina informacija potrebna za pohranjivanje (dubina boje) u skladu s formulom (3.1) biti jednaka ja= 8 bita.

Računala koriste različite načine grafičkog prikaza za prikaz grafičkih informacija. Ovdje treba napomenuti da osim grafičkog načina rada monitora, postoji i tekstualni način rada, u kojem je zaslon monitora konvencionalno podijeljen na 25 redaka od 80 znakova po retku. Ove grafičke načine karakterizira razlučivost zaslona monitora i kvaliteta boje (dubina boje). Za postavljanje grafičkog načina zaslona monitora u operativnom sustavu MS Windows XP trebate izvršiti naredbu: [Button Početak- Postavke - Upravljačka ploča - Zaslon]. U dijaloškom okviru "Svojstva: Prikaz" koji se pojavi (slika 3.12) odaberite karticu "Parametri" i klizačem "Razlučivost zaslona" odaberite odgovarajuću razlučivost zaslona (800 x 600 piksela, 1024 x 768 piksela, itd.). ). Pomoću padajućeg popisa "Kvaliteta boje" možete odabrati dubinu boje - "Najviša (32 bita)", "Srednja (16 bita)" itd., dok će broj boja dodijeljen svakoj točki slike biti redom jednako 2 32 (4294967296), 2 16 (65536) itd.

Riža. 3.12. Dijaloški okvir Svojstva prikaza

Za implementaciju svakog od grafičkih načina zaslona monitora potreban je određeni volumen informacija video memorije računala. Potreban volumen informacija video memorije (V) određuje se iz relacije

gdje DO - broj slikovnih točaka na zaslonu monitora (K = A · B); A - broj vodoravnih točaka na zaslonu monitora; V - broj okomitih točaka na zaslonu monitora; ja- količina informacija (dubina boje).

Dakle, ako zaslon monitora ima rezoluciju od 1024 x 768 piksela i paletu koja se sastoji od 65 536 boja, tada će dubina boje u skladu s formulom (3.1) biti I = log 2 65 538 = 16 bita, broj slike bodovi će biti jednaki: K = 1024 x 768 = 786432, a potrebni volumen informacija video memorije u skladu s (3.2) bit će jednak

V = 786432 16 bita = 12582912 bita = 1572864 bajtova = 1536 KB = 1,5 MB.

Zaključno, treba napomenuti da su uz navedene karakteristike najvažnije karakteristike monitora geometrijske dimenzije njegova zaslona i slikovne točke. Geometrijske dimenzije ekrana su postavljene dijagonalom monitora. Veličina dijagonale monitora je postavljena u inčima (1 inč = 1 "= 25,4 mm) i može imati vrijednosti jednake: 14", 15", 17", 21" itd. Moderne tehnologije proizvodnje monitora mogu osigurati veličina piksela jednaka 0,22 mm.

Dakle, za svaki monitor postoji fizički maksimalna moguća razlučivost zaslona, koja je određena veličinom njegove dijagonale i veličinom točke slike.

Vježbe za samoispunjenje

1. Korištenje programa MS Excel pretvoriti tablice kodova ASCII, CP866, CP1251, KOI8-R u tablice oblika: upišite velika, a zatim mala latinična i ćirilična slova abecednim redom u ćelije prvog stupca tablica; treći stupac - slova koja odgovaraju kodovima u heksadecimalnom brojevnom sustavu. Vrijednosti kodova moraju se odabrati iz odgovarajućih tablica kodova.

2. Kodirajte i zapišite sljedeće riječi kao niz brojeva u decimalnom i heksadecimalnom zapisu:

a) Internet Explorer, b) Microsoft Office; v) Corel Draw.

Izvedite kodiranje koristeći moderniziranu ASCII tablicu kodiranja dobivenu u prethodnoj vježbi.

3. Dekodirajte nizove brojeva zapisanih u heksadecimalnom brojevnom sustavu koristeći moderniziranu tablicu kodiranja KOI8-R:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Kako će izgledati riječ "Kibernetika" napisana u CP1251 kodiranju kada se koriste kodiranja CP866 i KOI8-R? Provjerite rezultate dobivene pomoću programa Internet Explorer.

5. Koristeći tablicu kodova prikazanu na sl. 3.1 a, dekodirati sljedeće kodne sekvence napisane u binarnom zapisu:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Odredite informativni volumen riječi "Ekonomija" kodirane pomoću kodnih tablica CP866, CP1251, Unicode i KOI8-R.

7. Odredite informacijski volumen datoteke dobivene kao rezultat skeniranja slike u boji veličine 12x12 cm Rezolucija skenera koji se koristi za skeniranje ove slike je 600 dpi. Skener postavlja dubinu boje piksela slike na 16 bita.

Rezolucija skenera 600 dpi (dotper inča - dots per inch) određuje sposobnost skenera s takvom razlučivosti da razlikuje 600 točaka na segmentu od 1 inča.

8. Odredite količinu informacija datoteke dobivene kao rezultat skeniranja slike u boji veličine A4. Rezolucija skenera koji se koristi za skeniranje ove slike je 1200 dpi. Skener postavlja dubinu boje piksela slike na 24 bita.

9. Odredite broj boja u paleti na dubinama boja od 8, 16, 24 i 32 bita.

10. Odredite potrebnu količinu video memorije za modove grafičkog prikaza monitora 640 x 480, 800 x 600, 1024 x 768 i 1280 x 1024 piksela pri dubini boje točke slike od 8, 16, 24 i 32 bita. Rezultati su tablični. Razviti se u MS Excel program za automatizaciju proračuna.

11. Odredite maksimalni broj boja koje se mogu koristiti za pohranjivanje slike veličine 32 x 32 piksela ako računalo ima 2 KB memorije dodijeljene za sliku.

12. Odredite maksimalnu moguću razlučivost zaslona monitora duljine dijagonale 15" i veličine piksela od 0,28 mm.

13. Koje grafičke načine rada monitora može pružiti 64 MB video memorije?

Spaljivanje

I. Povijest kodiranja informacija ……………………………… ..3

II. Kodiranje informacija ………………………………………… 4

III. Kodiranje tekstualnih informacija …………………………… .4

IV. Vrste tablica kodiranja …………………………………………… 6

V. Izračun količine tekstualnih informacija ……………………………… 14

Popis korištene literature …………………………………………… ..16

ja . Povijest kodiranja informacija

Čovječanstvo koristi šifriranje (kodiranje) teksta od samog trenutka kada su se pojavile prve tajne informacije. Pred vama je nekoliko metoda kodiranja teksta koje su izumljene u različitim fazama razvoja ljudske misli:

Kriptografija je tajno pisanje, sustav izmjene slova s ciljem da se tekst učini nerazumljivim neupućenima;

Morseov kod ili nepravilni telegrafski kod, u kojem je svako slovo ili znak predstavljeno svojom kombinacijom kratkih čipova električne struje (točke) i čipova trostrukog trajanja (crtice);

znakovni jezik je znakovni jezik koji koriste osobe s oštećenjem sluha.

Jedna od najranijih poznatih metoda šifriranja nazvana je po rimskom caru Juliju Cezaru (1. st. pr. Kr.). Ova metoda se temelji na zamjeni svakog slova šifriranog teksta drugim, pomicanjem abecede od izvornog slova za fiksni broj znakova, a abeceda se čita u krug, odnosno nakon slova i, a je razmatrao. Dakle, riječ "bajt" kada se pomakne za dva znaka udesno je kodirana riječju "gvlf". Obrnuti proces dekodiranja zadane riječi - potrebno je svako šifrirano slovo zamijeniti drugim lijevo od njega.

II. Kodiranje informacija

Kod je skup konvencija (ili signala) za snimanje (ili prijenos) nekih unaprijed definiranih koncepata.

Informacijsko kodiranje je proces formiranja specifične reprezentacije informacije. U užem smislu, pojam "kodiranje" često se shvaća kao prijelaz s jednog oblika prezentacije informacija na drugi, prikladniji za pohranu, prijenos ili obradu.

Obično je svaka slika kada je kodirana (ponekad kažu - šifrirana) predstavljena zasebnim znakom.

Znak je element konačnog skupa različitih elemenata.

U užem smislu, pojam "kodiranje" često se shvaća kao prijelaz s jednog oblika prezentacije informacija na drugi, prikladniji za pohranu, prijenos ili obradu.

Računalo može obraditi tekstualne informacije. Kada se unese u računalo, svako slovo je kodirano određenim brojem, a pri izlazu na vanjske uređaje (zaslon ili ispis), slike slova se grade za ljudsku percepciju pomoću tih brojeva. Korespondencija između skupa slova i brojeva naziva se kodiranjem znakova.

U pravilu su svi brojevi u računalu predstavljeni pomoću nula i jedinica (a ne deset znamenki, kao što je uobičajeno za ljude). Drugim riječima, računala obično rade u binarnom brojevnom sustavu, budući da su uređaji za njihovu obradu mnogo jednostavniji. Unos brojeva u računalo i njihov izlaz za ljudsko čitanje može se izvesti u uobičajenom decimalnom obliku, a sve potrebne transformacije izvode programi koji se izvode na računalu.

III. Kodiranje tekstualnih informacija

Ista informacija može se predstaviti (kodirati) u nekoliko oblika. Pojavom računala postalo je potrebno kodirati sve vrste informacija s kojima barata i pojedinačna osoba i čovječanstvo u cjelini. Ali čovječanstvo je počelo rješavati problem kodiranja informacija mnogo prije pojave računala. Ogromna dostignuća čovječanstva - pisanje i aritmetika - nisu ništa više od sustava za kodiranje govora i brojčanih informacija. Informacija se nikada ne pojavljuje u svom čistom obliku, uvijek je nekako prezentirana, nekako kodirana.

Binarno kodiranje jedan je od uobičajenih načina predstavljanja informacija. U računalima, robotima i numerički upravljanim alatnim strojevima u pravilu su sve informacije s kojima se uređaj bavi kodirane u obliku riječi u binarnoj abecedi.

Od kraja 60-ih, računala se sve više koriste za obradu tekstualnih informacija, a trenutno se najveći dio osobnih računala u svijetu (i većinu vremena) bavi obradom tekstualnih informacija. Sve ove vrste informacija u računalu su predstavljene u binarnom kodu, odnosno koristi se abeceda s stepenom dva (samo dva znaka 0 i 1). To je zbog činjenice da je prikladno predstaviti informacije u obliku niza električnih impulsa: nema impulsa (0), postoji impuls (1).

Takvo se kodiranje obično naziva binarnim, a sami logički nizovi nula i jedinica nazivaju se strojnim jezikom.

Sa stajališta računala, tekst se sastoji od pojedinačnih znakova. Simboli ne uključuju samo slova (velika ili mala, latinica ili ruski), već i brojeve, interpunkcijske znakove, posebne znakove poput "=", "(", "&", itd., pa čak (obratite posebnu pozornost!) razmake između njih. riječi.

Tekstovi se unose u memoriju računala pomoću tipkovnice. Slova, brojevi, interpunkcijski znaci i drugi simboli ispisani su na tipkama. Oni ulaze u RAM u binarnom kodu. To znači da je svaki znak predstavljen 8-bitnim binarnim kodom.

Tradicionalno, za kodiranje jednog znaka koristi se količina informacija jednaka 1 bajtu, odnosno I = 1 bajt = 8 bita. Koristeći formulu koja povezuje broj mogućih događaja K i količinu informacija I, možete izračunati koliko se različitih simbola može kodirati (pod pretpostavkom da su simboli mogući događaji): K = 2 I = 2 8 = 256, tj. , za Prikaz tekstualnih informacija može koristiti abecedu s kapacitetom od 256 znakova.

Ovaj broj znakova sasvim je dovoljan za predstavljanje tekstualnih informacija, uključujući velika i mala slova ruske i latinične abecede, brojeve, znakove, grafičke simbole itd.

U procesu prikazivanja znaka na ekranu računala vrši se obrnuti proces - dekodiranje, odnosno pretvaranje koda znaka u njegovu sliku. Važno je da je dodjela specifičnog koda simbolu stvar konvencije, što je fiksirano u tablici kodova.

Sada se postavlja pitanje kakav osmobitni binarni kod pridružiti svakom znaku. Jasno je da je to uvjetno, možete smisliti mnoge metode kodiranja.

Svi znakovi računalne abecede numerirani su od 0 do 255. Svaki broj odgovara osmoznamenkastom binarnom kodu od 00000000 do 11111111. Ovaj kod je jednostavno redni broj znaka u binarnom sustavu.

IV ... Vrste tablica kodiranja

Tablica u kojoj su svim znakovima računalne abecede dodijeljeni serijski brojevi naziva se tablica kodiranja.

Za različite vrste računala koriste se različite tablice kodiranja.

Tablica ASCII kodova (American Standard Code for Information Interchange) usvojena je kao međunarodni standard, koji kodira prvu polovicu znakova numeričkim kodovima od 0 do 127 (kodovi od 0 do 32 nisu dodijeljeni znakovima, već funkcijskim tipkama) .

ASCII tablica podijeljena je na dva dijela.

Međunarodni standard je samo prva polovica tablice, t.j. znakova s brojevima od 0 (00000000) do 127 (01111111).

Struktura ASCII tablice kodiranja

Serijski broj	Kodirati	Simbol
0 - 31	00000000 - 00011111	Simboli s brojevima od 0 do 31 obično se nazivaju kontrolni znakovi. Njihova je funkcija kontrola procesa prikazivanja teksta na ekranu ili ispisa, davanja zvučnog signala, označavanja teksta itd.
32 - 127	0100000 - 01111111	Standardni dio tablice (engleski). To uključuje mala i velika slova latinice, decimalne znamenke, interpunkcijske znakove, sve vrste zagrada, komercijalne i druge simbole. Lik 32 je razmak, t.j. prazno mjesto u tekstu. Svi ostali se odražavaju u određenim znakovima.
128 - 255	10000000 - 11111111	Alternativni dio tablice (ruski). Druga polovica tablice kodova ASCII, nazvana kodna stranica (128 kodova, počevši od 10000000 i završava s 11111111), može imati različite varijante, svaka varijanta ima svoj broj. Kodna stranica se prvenstveno koristi za smještaj nacionalnih alfabeta osim latinice. U ruskim nacionalnim kodovima ovaj dio tablice sadrži simbole ruske abecede.

Prva polovica ASCII tablice

Skreće se pozornost na činjenicu da su u tablici kodiranja slova (velika i mala) raspoređena abecednim redom, a brojevi uzlaznim redoslijedom vrijednosti. Ovo poštivanje leksikografskog reda u rasporedu znakova naziva se princip sekvencijalnog kodiranja abecede.

Za slova ruske abecede također se promatra načelo sekvencijalnog kodiranja.

Druga polovica ASCII tablice

Od početka 90-ih, vremena dominacije operativnog sustava MS DOS, ostaje kodiranje CP866 ("CP" znači "Code Page").

Apple računala s Mac OS-om koriste vlastito Mac kodiranje.

Osim toga, Međunarodna organizacija za standardizaciju (International Standards Organization, ISO) odobrila je još jedno kodiranje pod nazivom ISO 8859-5 kao standard za ruski jezik.

Trenutno je najčešće kodiranje Microsoft Windows, skraćeno CP1251. Uveo Microsoft; uzimajući u obzir široku distribuciju operativnih sustava (OS) i drugih softverskih proizvoda ove tvrtke u Ruskoj Federaciji, pronašao je široku distribuciju.

Od kasnih 90-ih, problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda nazvanog Unicode.

Ovo je 16-bitno kodiranje, tj. dodjeljuje 2 bajta memorije za svaki znak. Naravno, to udvostručuje količinu korištene memorije. No, s druge strane, takva kodna tablica omogućuje uključivanje do 65536 znakova. Kompletna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene alfabete svijeta, kao i mnoge matematičke, glazbene, kemijske i druge simbole.

Unutarnji prikaz riječi u memoriji računala

koristeći ASCII tablicu

Stoga je svako kodiranje specificirano vlastitom tablicom kodova. Kao što možete vidjeti iz tablice, različiti simboli su dodijeljeni istom binarnom kodu u različitim kodovima.

Na primjer, slijed brojčanih kodova 221, 194, 204 u kodiranju CP1251 tvori riječ "računalo", dok će u drugim kodovima to biti besmislen skup znakova.

Na sreću, u većini slučajeva korisnik ne mora brinuti o pretvaranju tekstualnih dokumenata, jer se to radi pomoću posebnih programa za pretvorbu ugrađenih u aplikacije.

V ... Izračunavanje količine tekstualnih informacija

Cilj 1: Kodirajte riječ "Rim" pomoću tablica kodiranja KOI8-R i CP1251.

Riješenje:

Cilj 2: Uz pretpostavku da je svaki znak kodiran u jednom bajtu, procijenite količinu informacija sljedeće rečenice:

“Moj ujak ima najpoštenija pravila,

Kada je ozbiljno bolestan,

Učinio je sebi poštovanje

I nisam to mogao bolje zamisliti."

Riješenje: Ovaj izraz ima 108 znakova, uključujući interpunkcijske znakove, navodnike i razmake. Taj broj množimo sa 8 bita. Dobivamo 108 * 8 = 864 bita.

Cilj 3: Dva teksta sadrže isti broj znakova. Prvi tekst je napisan na ruskom, a drugi na jeziku plemena Naguri, čija se abeceda sastoji od 16 znakova. Čiji tekst nosi više informacija?

Riješenje:

1) I = K * a (informacijski volumen teksta jednak je umnošku broja znakova s informacijskom težinom jednog znaka).

2) Jer oba teksta imaju isti broj znakova (K), razlika ovisi o informativnosti jednog znaka abecede (a).

3) 2 a1 = 32, tj. a 1 = 5 bita, 2 a2 = 16, tj. a 2 = 4 bita.

4) I 1 = K * 5 bita, I 2 = K * 4 bita.

5) To znači da je tekst napisan na ruskom jeziku 5/4 puta više informacija.

Zadatak 4: Veličina poruke, koja je sadržavala 2048 znakova, bila je 1/512 MB. Odredite kardinalnost abecede.

Riješenje:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bita - količina informacija poruke je pretvorena u bitove.

2) a = I / K = 16384/1024 = 16 bita - pada na jedan znak abecede.

3) 2 * 16 * 2048 = 65536 znakova - snaga korištene abecede.

Zadatak 5: Laserski pisač Canon LBP ispisuje u prosjeku 6,3 Kbps. Koliko će vremena biti potrebno za ispis dokumenta od 8 stranica ako se zna da u prosjeku na jednoj stranici ima 45 redaka, 70 znakova po retku (1 znak - 1 bajt)?

Riješenje:

1) Pronađite količinu informacija sadržanu na 1 stranici: 45 * 70 * 8 bita = 25200 bita

2) Pronađite količinu informacija na 8 stranica: 25200 * 8 = 201600 bita

3) Dovodimo do uniformnih mjernih jedinica. Da biste to učinili, prevedite Mbitove u bitove: 6,3 * 1024 = 6451,2 bit / s.

4) Pronađite vrijeme ispisa: 201600: 6451,2 = 31 sekunda.

Bibliografija

1. Ageev V.M. Teorija informacija i kodiranja: diskretizacija i kodiranje mjernih informacija. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Osnove teorije informacija i kodiranja. - Kijev, škola Vishcha, 1986.

3. Najjednostavniji načini šifriranja teksta / D.M. Zlatopoljskog. - M .: Chistye Prudy, 2007. - 32 str.

4. Ugrinovich N.D. Informatika i informacijska tehnologija. Udžbenik za razrede 10-11 / N.D. Ugrinovich. - M .: BINOM. Laboratorij znanja, 2003 .-- 512 str.

5.http: //school497.spb.edu.ru/uchint002/les10/les.html#n

Materijal za samostalno učenje vezano uz predavanja 2

Kodiranje ASCII

ASCII kodna tablica (ASCII - American Standard Code for Information Interchange - American standard code for information interchange).

Ukupno, 256 različitih znakova može se kodirati pomoću ASCII tablice kodiranja (slika 1). Ova tablica je podijeljena na dva dijela: glavni (s kodovima od OOh do 7Fh) i dodatni (od 80h do FFh, gdje slovo h označava da kod pripada heksadecimalnom brojevnom sustavu).

Slika 1

Za kodiranje jednog znaka iz tablice dodjeljuje se 8 bitova (1 bajt). Prilikom obrade tekstualnih informacija, jedan bajt može sadržavati kod određenog simbola - slova, brojeve, interpunkcijski znak, radni znak itd. Svaki znak ima svoj kod u obliku cijelog broja. U tom se slučaju svi kodovi skupljaju u posebne tablice koje se nazivaju tablice kodiranja. Uz njihovu pomoć, kod znakova se pretvara u svoj vidljivi prikaz na zaslonu monitora. Kao rezultat, svaki tekst u memoriji računala predstavljen je kao niz bajtova s kodovima znakova.

Na primjer, riječ zdravo! bit će kodiran na sljedeći način (tablica 1).

stol 1


Binarni kod
Decimalni kod

Slika 1 prikazuje znakove uključene u standardno (englesko) i prošireno (rusko) ASCII kodiranje.

Prva polovica ASCII tablice je standardizirana. Sadrži kontrolne kodove (00h do 20h i 77h). Ovi kodovi su uklonjeni iz tablice jer se ne odnose na tekstualne elemente. Ovdje se također nalaze interpunkcijski i matematički znakovi: 2lh -!, 26h - &, 28h - (, 2Bh - +, ..., velika i mala latinična slova: 41h - A, 61h - a.

Druga polovica tablice sadrži nacionalne fontove, pseudografske simbole od kojih se mogu graditi tablice i posebne matematičke znakove. Donji dio tablice kodiranja može se zamijeniti odgovarajućim upravljačkim programima - upravljačkim pomoćnim programima. Ova tehnika vam omogućuje korištenje više fontova i njihovih slova.

Zaslon za svaki kod znakova mora prikazati sliku znaka na ekranu – ne samo digitalni kod, već i sliku koja mu odgovara, budući da svaki znak ima svoj oblik. Opis oblika svakog simbola pohranjen je u posebnu memoriju zaslona - generator znakova. Isticanje simbola na zaslonu IBM PC-a, na primjer, provodi se pomoću točaka koje tvore simboličku matricu. Svaki piksel u takvoj matrici je element slike i može biti svijetao ili taman. Tamna točka je kodirana brojem 0, svijetla (svijetla) - 1. Ako tamne piksele u matričnom polju znaka predstavljate točkom, a svijetle piksele zvjezdicom, možete grafički prikazati oblik simbola .

Ljudi u različitim zemljama koriste simbole za pisanje riječi na svojim materinskim jezicima. Većina aplikacija ovih dana, uključujući sustave e-pošte i web preglednike, čiste su 8-bitne, što znači da mogu prikazati i interpretirati samo 8-bitne znakove prema standardu ISO-8859-1.

U svijetu postoji više od 256 znakova (uzmemo li u obzir ćirilicu, arapski, kineski, japanski, korejski i tajlandski jezik), a pojavljuje se sve više znakova. I to stvara sljedeće praznine za mnoge korisnike:

Nije moguće koristiti znakove iz različitih skupova kodiranja u istom dokumentu. Budući da svaki tekstualni dokument koristi vlastiti skup kodiranja, postoje velike poteškoće s automatskim prepoznavanjem teksta.

Pojavljuju se novi simboli (na primjer: Euro), zbog čega ISO razvija novi standard ISO-8859-15, koji je vrlo sličan standardu ISO-8859-1. Razlika je sljedeća: iz tablice kodiranja starog standarda ISO-8859-1 uklonjeni su simboli za označavanje starih valuta koji se trenutno ne koriste kako bi se napravio prostor za novonastale simbole (kao što je euro ). Kao rezultat toga, korisnici mogu imati iste dokumente na svojim diskovima, ali u različitim kodovima. Rješenje ovih problema je usvajanje jedinstvenog međunarodnog skupa kodiranja nazvanog univerzalno kodiranje ili Unicode.

Kodiranje Unicode

Standard je 1991. godine predložio Unicode Consortium, Unicode Inc., neprofitna organizacija. Korištenje ovog standarda omogućuje kodiranje vrlo velikog broja znakova iz različitih pisama: u Unicode dokumentima mogu koegzistirati kineski znakovi, matematički znakovi, slova grčke abecede, latinice i ćirilice, pa mijenjanje kodnih stranica postaje nepotrebno.

Standard se sastoji od dva glavna odjeljka: univerzalnog skupa znakova (UCS) i Unicode formata transformacije (UTF). Univerzalni skup znakova definira jedan-na-jedan korespondenciju znakova kodovima - elementima kodnog prostora koji predstavljaju nenegativne cijele brojeve. Obitelj kodiranja definira strojni prikaz niza UCS kodova.

Unicode standard razvijen je s ciljem stvaranja jedinstvenog kodiranja znakova za sve moderne i mnoge drevne pisane jezike. Svaki znak u ovom standardu je kodiran u 16 bita, što mu omogućuje da pokrije neusporedivo veći broj znakova od prethodno prihvaćenih 8-bitnih kodiranja. Još jedna važna razlika između Unicodea i drugih sustava kodiranja je da ne samo da svakom znaku dodjeljuje jedinstveni kod, već također definira različite karakteristike ovog znaka, na primjer:

vrsta znaka (veliko slovo, malo slovo, broj, interpunkcijski znak itd.);

atributi znakova (prikaz slijeva nadesno ili zdesna nalijevo, razmak, prijelom reda itd.);

odgovarajuće veliko ili malo slovo (za mala i velika slova, respektivno);

odgovarajuću brojčanu vrijednost (za numeričke znakove).

Cijeli raspon kodova od 0 do FFFF podijeljen je u nekoliko standardnih podskupova, od kojih svaki odgovara ili abecedi određenog jezika, ili skupini posebnih znakova koji su slični u svojim funkcijama. Dijagram ispod daje opći popis Unicode 3.0 podskupova (slika 2).

Slika 2

Unicode standard je osnova za pohranu i tekst u mnogim modernim računalnim sustavima. Međutim, nije kompatibilan s većinom internetskih protokola, budući da njegovi kodovi mogu sadržavati bilo koje vrijednosti bajtova, a protokoli obično koriste bajtove 00 - 1F i FE - FF kao nadređene. Za postizanje interoperabilnosti razvijeno je nekoliko Unicode transformacijskih formata (UTF, Unicode Transformation Formats), od kojih je UTF-8 danas najčešći. Ovaj format definira sljedeća pravila za pretvaranje svakog Unicode koda u skup bajtova (jedan do tri) prikladnih za prijenos internetskim protokolima.

Ovdje x, y, z označavaju bitove izvornog koda koje treba izdvojiti, počevši od najmanje značajnog, i unijeti u bajtove rezultata s desna na lijevo dok se ne popune sva navedena mjesta.

Daljnji razvoj Unicode standarda povezan je s dodavanjem novih jezičnih ravnina, t.j. znakova u rasponima 10000 - 1FFFF, 20000 - 2FFFF, itd., gdje bi trebalo uključiti kodiranje za pisma mrtvih jezika koja nisu uključena u gornju tablicu. Za kodiranje ovih dodatnih znakova razvijen je novi UTF-16 format.

Dakle, postoje 4 glavna načina kodiranja Unicode bajtova:

UTF-8: 128 znakova je kodirano u jednom bajtu (ASCII format), 1920 znakova je kodirano u 2 bajta ((rimski, grčki, ćirilični, koptski, armenski, hebrejski, arapski znakovi), 63488 znakova je kodirano u 3 bajta (kineski , japanski i drugi) Preostalih 2,147,418,112 znakova (još nisu korišteni) mogu se kodirati s 4, 5 ili 6 bajtova.

UCS-2: Svaki znak je predstavljen s 2 bajta. Ovo kodiranje uključuje samo prvih 65.535 znakova iz Unicode formata.

UTF-16: Ovo je proširenje za UCS-2 i uključuje 1 114 112 Unicode znakova. Prvih 65.535 znakova predstavljeno je s 2 bajta, a ostali s 4 bajta.

USC-4: Svaki znak je kodiran u 4 bajta.

[8-bitna kodiranja: ASCII, KOI-8R i CP1251] Prve tablice skupa znakova stvorene u SAD-u nisu koristile osmi bit u bajtu. Tekst je predstavljen kao slijed bajtova, ali osmi bit nije uzet u obzir (koristio se u servisne svrhe).

Općeprihvaćeni standard postao je stol ASCII(Američki standardni kod za razmjenu informacija). Prva 32 ASCII znaka (00 do 1F) korištena su za znakove koji se ne mogu ispisati. Namijenjeni su za upravljanje uređajem za ispis i slično. Ostatak - od 20 do 7F - su normalni (ispisivi) znakovi.

Tablica 1 - ASCII kodiranje

prosinca	Hex	listopada	Char	Opis
0	0	000		null
1	1	001		početak naslova
2	2	002		početak teksta
3	3	003		kraj teksta
4	4	004		kraj prijenosa
5	5	005		upit
6	6	006		priznati
7	7	007		zvono
8	8	010		backspace
9	9	011		vodoravna kartica
10	A	012		nova linija
11	B	013		okomita kartica
12	C	014		nova stranica
13	D	015		povrat prtljage
14	E	016		pomaknuti se
15	F	017		prebaciti se
16	10	020		bijeg podatkovne veze
17	11	021		kontrola uređaja 1
18	12	022		kontrola uređaja 2
19	13	023		kontrola uređaja 3
20	14	024		kontrola uređaja 4
21	15	025		negativno priznanje
22	16	026		sinkroni mirovanje
23	17	027		kraj trans. blok
24	18	030		otkazati
25	19	031		kraj medija
26	1A	032		zamjena
27	1B	033		pobjeći
28	1C	034		separator datoteka
29	1D	035		separator grupe
30	1E	036		separator zapisa
31	1F	037		separator jedinica
32	20	040		prostor
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3F	077	?

prosinca	Hex	listopada	Char
64	40	100	@
65	41	101	A
66	42	102	B
67	43	103	C
68	44	104	D
69	45	105	E
70	46	106	F
71	47	107	G
72	48	110	H
73	49	111	ja
74	4A	112	J
75	4B	113	K
76	4C	114	L
77	4D	115	M
78	4E	116	N
79	4F	117	O
80	50	120	P
81	51	121	P
82	52	122	R
83	53	123	S
84	54	124	T
85	55	125	U
86	56	126	V
87	57	127	W
88	58	130	x
89	59	131	Y
90	5A	132	Z
91	5B	133	[
92	5C	134	\
93	5D	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	a
98	62	142	b
99	63	143	c
100	64	144	d
101	65	145	e
102	66	146	f
103	67	147	g
104	68	150	h
105	69	151	i
106	6A	152	j
107	6B	153	k
108	6C	154	l
109	6D	155	m
110	6E	156	n
111	6F	157	o
112	70	160	str
113	71	161	q
114	72	162	r
115	73	163	s
116	74	164	t
117	75	165	u
118	76	166	v
119	77	167	w
120	78	170	x
121	79	171	y
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

Kao što možete lako vidjeti, ovo kodiranje sadrži samo latinična slova, i to ona koja se koriste na engleskom. Tu su i aritmetički i drugi uslužni simboli. Ali nema ruskih slova, pa čak ni posebnih latiničnih slova za njemački ili francuski. To je lako objasniti - kodiranje je razvijeno posebno kao američki standard. Kada su se računala počela koristiti diljem svijeta, postalo je potrebno kodirati druge simbole.

Za to je odlučeno koristiti osmi bit u svakom bajtu. Tako je bilo dostupno još 128 vrijednosti (od 80 do FF), koje su se mogle koristiti za kodiranje znakova. Prva od osmobitnih tablica je "prošireni ASCII" ( Prošireni ASCII) - uključuje različite varijante latinskih znakova koji se koriste u nekim jezicima zapadne Europe. Također je sadržavao druge dodatne simbole, uključujući pseudo grafiku.

Pseudografički znakovi dopuštaju, prikazujući samo tekstualne znakove, da pruže neki privid grafike. Na primjer, program za upravljanje datotekama FAR Manager radi uz pomoć pseudo-grafike.

U proširenoj ASCII tablici nije bilo ruskih slova. U Rusiji (bivši SSSR) i u drugim državama stvorena su vlastita kodiranja koja su omogućila predstavljanje specifičnih "nacionalnih" znakova u 8-bitnim tekstualnim datotekama - latinična slova poljskog i češkog jezika, ćirilica (uključujući ruska slova ) i druge abecede.

U svim kodiranjima koja su postala široko rasprostranjena, prvih 127 znakova (to jest, vrijednosti bajta s osmim bitom jednakim 0) podudaraju se s ASCII. Dakle, ASCII datoteka radi u bilo kojem od ovih kodiranja; slova engleskog jezika predstavljena su na isti način.

Organizacija ISO(Međunarodna organizacija za standardizaciju) donijela je skupinu normi ISO 8859... Definira 8-bitna kodiranja za različite grupe jezika. Dakle, ISO 8859-1 je prošireni ASCII, tablica za Sjedinjene Države i Zapadnu Europu. A ISO 8859-5 je tablica za ćirilicu (uključujući ruski).

Međutim, iz povijesnih razloga, ISO 8859-5 kodiranje nije uhvaćeno. U stvarnosti, sljedeća se kodiranja koriste za ruski jezik:

Kodna stranica 866 ( CP866), zvani “DOS”, zvani “alternativno GOST kodiranje”. Bio je naširoko korišten do sredine 90-ih; sada se koristi u ograničenoj mjeri. Praktički se ne koristi za distribuciju tekstova na Internetu.
- KOI-8. Razvijen 70-ih i 80-ih godina. To je općeprihvaćeni standard za prijenos e-mail poruka na ruskom Internetu. Također se široko koristi u operativnim sustavima obitelji Unix, uključujući Linux. Zove se verzija KOI-8, dizajnirana za ruski jezik KOI-8R; postoje verzije za druge ćiriličke jezike (na primjer, KOI8-U je opcija za ukrajinski jezik).
- Šifra 1251, CP1251, Windows-1251. Razvio Microsoft za podršku ruskom jeziku u sustavu Windows.

Glavna prednost CP866 bila je očuvanje pseudografskih znakova na istim mjestima kao u proširenom ASCII-u; stoga bi strani tekstualni programi, na primjer, slavni Norton Commander, mogli raditi bez promjena. Danas se CP866 koristi za Windows programe koji se izvode u tekstualnim prozorima ili tekstualnom modu preko cijelog zaslona, uključujući FAR Manager.

Posljednjih godina tekstovi u CP866 su prilično rijetki (ali se koristi za kodiranje ruskih naziva datoteka u Windowsima). Stoga ćemo se detaljnije zadržati na dva druga kodiranja - KOI-8R i CP1251.

Kao što možete vidjeti, u tablici kodiranja CP1251 ruska slova su poredana abecednim redom (osim, međutim, slova E). Ovaj raspored vrlo olakšava razvrstavanje računalnih programa po abecedi.

Ali u KOI-8R redoslijed ruskih slova izgleda nasumičan. Ali zapravo nije.

Mnogi stariji programi izgubili su 8. bit prilikom obrade ili prijenosa teksta. (Sada su takvi programi praktički "izumrli", ali su kasnih 80-ih - ranih 90-ih bili široko rasprostranjeni). Da biste dobili 7-bitnu vrijednost od 8-bitne vrijednosti, oduzmite 8 od najznačajnije znamenke; na primjer E1 postaje 61.

Sada usporedite KOI-8R s ASCII tablicom (Tablica 1). Vidjet ćete da su ruska slova jasno usklađena s latinskim. Ako osmi bit nestane, mala ruska slova pretvaraju se u velika latinična slova, a velika ruska slova pretvaraju se u mala latinična slova. Dakle, E1 u KOI-8 je rusko "A", dok je 61 u ASCII latinično "a".

Dakle, KOI-8 vam omogućuje da sačuvate čitljivost ruskog teksta dok izgubite 8. bit. “Pozdrav svima” postaje “pRIWET WSEM”.

Nedavno su i abecedni red znakova u tablici kodiranja i čitljivost s gubitkom 8. bita izgubili odlučujuću važnost. Osmi bit u modernim računalima ne gubi se ni tijekom prijenosa ni obrade. Razvrstavanje po abecednom redu temelji se na kodiranju, a ne samo na usporedbi kodova. (Usput, kodovi CP1251 nisu potpuno abecedni - slovo E nije na svom mjestu).

Zbog činjenice da postoje dva uobičajena kodiranja, kada radite s Internetom (pošta, pregledavanje web-stranica), ponekad možete vidjeti besmislen skup slova umjesto ruskog teksta. Na primjer, "Ja sam SBUFEMHEL". Ovo su samo riječi "s poštovanjem"; ali su bili kodirani u CP1251 kodiranju, a računalo je dekodiralo tekst prema tablici KOI-8. Ako su iste riječi, naprotiv, kodirane u KOI-8, a računalo dekodira tekst prema tablici CP1251, rezultat će biti “U HČBCEOJEN”.

Ponekad se dogodi da računalo uopće dešifrira slova na ruskom jeziku prema tablici koja nije namijenjena ruskom jeziku. Tada se umjesto ruskih slova pojavljuje besmislen skup simbola (na primjer, latinska slova istočnoeuropskih jezika); često se nazivaju "crocozyabras".

U većini slučajeva, moderni programi sami se nose s određivanjem kodiranja internetskih dokumenata (e-pošte i web-stranica). Ali ponekad "zapali", i tada možete vidjeti čudne sekvence ruskih slova ili "krokozyabra". U pravilu, da bi se na zaslonu prikazao pravi tekst, dovoljno je ručno odabrati kodiranje u izborniku programa.

Za članak su korištene informacije sa stranice http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Materijal preuzet sa stranice:

Kao što znate, računalo pohranjuje informacije u binarnom obliku, predstavljajući ih kao niz jedinica i nula. Za prevođenje informacija u oblik koji je prikladan za ljudsku percepciju, svaki jedinstveni niz brojeva zamjenjuje se odgovarajućim simbolom kada se prikaže.

Jedan od sustava za korelaciju binarnih kodova s ispisnim i kontrolnim znakovima je

Na trenutnoj razini razvoja računalne tehnologije, korisnik nije dužan znati šifru svakog pojedinog simbola. Međutim, opće razumijevanje načina na koji se kodiranje provodi iznimno je korisno, a za neke kategorije stručnjaka čak i potrebno.

ASCII stvaranje

U svom izvornom obliku, kodiranje je razvijeno 1963. godine, a zatim dva puta ažurirano unutar 25 godina.

U izvornoj verziji, ASCII tablica znakova sadržavala je 128 znakova, kasnije se pojavila proširena verzija, gdje je prvih 128 znakova spremljeno, a prethodno odsutni znakovi dodijeljeni su kodovima s uključenim osmim bitom.

Dugi niz godina ovo je kodiranje najpopularnije na svijetu. U 2006. godini latinica 1252 zauzela je vodeću poziciju, a od kraja 2007. do danas Unicode čvrsto drži vodeću poziciju.

ASCII računalni prikaz

Svaki ASCII znak ima vlastiti kod od 8 znakova koji predstavljaju nulu ili jedan. Minimalni broj u takvom prikazu je nula (osam nula u binarnom sustavu), što je kod prvog elementa u tablici.

Dva koda u tablici bila su rezervirana za prebacivanje između standardnog US-ASCII i njegove nacionalne verzije.

Nakon što je ASCII počeo uključivati ne 128, već 256 znakova, postala je raširena varijanta kodiranja, u kojoj je izvorna verzija tablice spremljena u prvih 128 kodova s nultim 8. bitom. Znakovi narodnog pisma čuvani su u gornjoj polovici tablice (pozicije 128-255).

Korisnik ne mora izravno znati ASCII znakovne kodove. Obično je programeru dovoljno znati broj elementa u tablici kako bi, ako je potrebno, izračunao njegov kod korištenjem binarnog sustava.

ruski jezik

Nakon razvoja kodiranja za skandinavske jezike, kineski, korejski, grčki itd. početkom 70-ih, Sovjetski Savez je također počeo stvarati vlastitu verziju. Ubrzo je razvijena verzija 8-bitnog kodiranja pod nazivom KOI8, koja čuva prvih 128 ASCII znakovnih kodova i dodjeljuje isti broj pozicija za slova nacionalne abecede i dodatne znakove.

Prije uvođenja Unicodea, KOI8 je dominirao ruskim segmentom interneta. Postojale su opcije kodiranja i za rusku i za ukrajinsku abecedu.

ASCII problemi

Budući da broj elemenata čak ni u proširenoj tablici nije prelazio 256, nije bilo mogućnosti smještaja nekoliko različitih skripti u jednom kodiranju. U 90-ima se u Runetu pojavio problem "crocozyabr", kada su se tekstovi upisani ruskim ASCII znakovima pogrešno prikazivali.

Problem je bio u tome što se kodovi različitih ASCII varijanti nisu međusobno podudarali. Podsjetimo da su pozicije 128-255 mogle sadržavati različite znakove, a prilikom promjene jednog ćiriličnog kodiranja u drugo, sva slova teksta su zamijenjena drugim s identičnim brojem u drugoj verziji kodiranja.

Trenutna država

S pojavom Unicodea, popularnost ASCII-a naglo je opala.

Razlog tome leži u činjenici da je novo kodiranje omogućilo smještaj znakova gotovo svih pisanih jezika. U ovom slučaju, prvih 128 ASCII znakova odgovara istim znakovima u Unicodeu.

Godine 2000. ASCII je bio najpopularnije kodiranje na Internetu i korišten je na 60% web stranica koje je indeksirao Google. Do 2012. godine udio takvih stranica pao je na 17%, a Unicode (UTF-8) je zauzeo mjesto najpopularnijeg kodiranja.

Dakle, ASCII je važan dio povijesti informacijske tehnologije, ali se njegova upotreba u budućnosti smatra neperspektivnom.

Proširena ascii tablica. Kodiranje tekstualnih informacija

U ovom članku

Umetnite ASCII ili Unicode znak u dokument

Umetnite ASCII znakove

Umetanje Unicode znakova

Koristeći tablicu simbola

Često korišteni kodovi simbola

Često korišteni dijakritički kodovi

ASCII kontrolni znakovi koji se ne mogu ispisati

Tablica kontrolnih znakova ASCII koja se ne može ispisati

Kako su tekstualne informacije predstavljene u memoriji računala?

Sada se postavlja pitanje kakav osmobitni binarni kod pridružiti svakom znaku.

Tablica u kojoj su svim znakovima računalne abecede dodijeljeni serijski brojevi naziva se tablica kodiranja.

Struktura ASCII tablice kodiranja

Serijski broj

Kodirati

Simbol

0 - 31

00000000 - 00011111

32 - 127

00100000 - 01111111

128 - 255

10000000 - 11111111

Prva polovica ASCII tablice

Druga polovica ASCII tablice

Pokušajmo upotrijebiti ASCII tablicu da zamislimo kako će riječi izgledati u memoriji računala.

Unutarnji prikaz riječi u memoriji računala

Compywater

i

3.2. Kodiranje grafičkih informacija

Vježbe za samoispunjenje

ASCII stvaranje

ASCII računalni prikaz

ruski jezik

ASCII problemi

Trenutna država

Vrhunski povezani članci