Kako postaviti pametne telefone i računala. Informativni portal
  • Dom
  • Windows 7, XP
  • Međunarodna tablica ascii kodova. ASCII (američki standardni kod za razmjenu informacija) kodiranje - osnovno kodiranje teksta za latinicu

Međunarodna tablica ascii kodova. ASCII (američki standardni kod za razmjenu informacija) kodiranje - osnovno kodiranje teksta za latinicu

Računalo razumije proces svoje transformacije u oblik koji omogućuje organiziranje praktičnijeg prijenosa, pohrane ili automatske obrade ovih podataka. U tu svrhu koriste se razne tablice. ASCII kodiranje je prvi sustav razvijen u Sjedinjenim Državama za rad s tekstom na engleskom jeziku, koji je kasnije postao široko rasprostranjen u cijelom svijetu. Donji članak posvećen je njegovom opisu, značajkama, svojstvima i daljnjoj upotrebi.

Prikaz i pohranjivanje informacija u računalu

Simboli na monitoru računala ili jednom ili drugom mobilnom digitalnom gadgetu formiraju se na temelju skupova vektorskih oblika svih vrsta znakova i koda koji vam omogućuje da među njima pronađete simbol koji treba umetnuti na pravo mjesto. To je niz bitova. Dakle, svaki znak mora jedinstveno odgovarati skupu nula i jedinica, koji stoje određenim, jedinstvenim redoslijedom.

Kako je sve počelo

Povijesno gledano, prva računala bila su na engleskom. Za kodiranje simboličkih informacija u njima bilo je dovoljno koristiti samo 7 bitova memorije, dok je za tu svrhu dodijeljen 1 bajt koji se sastoji od 8 bitova. Broj znakova koje je računalo razumjelo u ovom slučaju bio je jednak 128. Broj takvih znakova uključivao je englesku abecedu sa svojim interpunkcijskim znakovima, brojevima i nekim posebnim znakovima. Sedmobitno kodiranje na engleskom jeziku s odgovarajućom tablicom (kodnom stranicom), razvijeno 1963., nazvano je američkim standardnim kodom za razmjenu informacija. Obično se za označavanje koristila skraćenica "ASCII encoding" koja se koristi i danas.

Prijelaz na višejezičnost

S vremenom su računala postala naširoko korištena iu zemljama gdje se ne govori engleski. U tom smislu, postojala je potreba za kodiranjem koje bi omogućilo korištenje nacionalnih jezika. Odlučeno je da se točak ne izmišlja, već da se za osnovu uzme ASCII. Tablica kodiranja u novom izdanju značajno je proširena. Korištenje 8. bita omogućilo je prevođenje 256 znakova u računalni jezik.

Opis

ASCII kodiranje ima tablicu koja je podijeljena na 2 dijela. Samo prva polovica se smatra općeprihvaćenim međunarodnim standardom. Uključuje:

  • Znakovi s rednim brojevima od 0 do 31, kodirani nizovima od 00000000 do 00011111. Oni su rezervirani za kontrolne znakove koji upravljaju procesom prikazivanja teksta na ekranu ili pisaču, davanjem zvučnog signala i sl.
  • Znakovi s NN u tablici od 32 do 127, kodirani nizovima od 00100000 do 01111111, čine standardni dio tablice. Tu spadaju razmak (N 32), slova latinice (mala i velika), deseteroznamenkasti brojevi od 0 do 9, interpunkcijski znakovi, zagrade različitih stilova i drugi simboli.
  • Znakovi s rednim brojevima od 128 do 255, kodirani nizovima od 10000000 do 11111111. To uključuje slova nacionalnih abeceda osim latinice. Upravo ovaj alternativni dio tablice ASCII kodiranje se koristi za pretvaranje ruskih znakova u računalni oblik.

Neka svojstva

Osobitosti ASCII kodiranja uključuju razliku između slova "A" - "Z" malih i velikih slova za samo jedan bit. Ova okolnost uvelike pojednostavljuje pretvorbu registra, kao i njegovu provjeru pripadnosti navedenom rasponu vrijednosti. Osim toga, sva slova u ASCII sustavu kodiranja predstavljena su vlastitim rednim brojevima u abecedi, koji su napisani u 5 znamenki u binarnom zapisu, kojima prethodi 011 2 za mala slova i 010 2 za velika slova.

Među značajkama ASCII kodiranja može se smatrati prikaz 10 znamenki - "0" - "9". U drugom brojevnom sustavu počinju s 00112 i završavaju s 2 broja. Na primjer, 0101 2 je ekvivalent decimalnoj petici, pa je znak "5" napisan kao 0011 01012. Na temelju toga možete jednostavno pretvoriti BCD-ove u ASCII niz dodavanjem 00112 svakom grickanju s lijeve strane.

"Unicode"

Kao što znate, tisuće znakova potrebne su za prikaz tekstova na jezicima grupe jugoistočne Azije. Toliki broj njih ni na koji način nije opisan u jednom bajtu informacija, pa čak ni proširene ASCII verzije više nisu mogle zadovoljiti povećane potrebe korisnika iz različitih zemalja.

Stoga se pojavila potreba za stvaranjem univerzalnog kodiranja teksta, koje je razvio Unicode konzorcij u suradnji s brojnim liderima globalne IT industrije. Njegovi stručnjaci stvorili su sustav UTF 32. U njemu su 32 bita dodijeljena za kodiranje 1 znaka, što čini 4 bajta informacija. Glavni nedostatak bio je naglo povećanje količine potrebne memorije za čak 4 puta, što je za sobom povlačilo mnoge probleme.

Istodobno, za većinu zemalja sa službenim jezicima koji pripadaju indoeuropskoj skupini, broj znakova jednak 2 32 je više nego suvišan.

Kao rezultat daljnjeg rada stručnjaka iz Unicode konzorcija, pojavio se UTF-16 kodiranje. Postala je opcija za transformaciju simboličkih informacija koja je svima odgovarala i po količini potrebne memorije i po broju kodiranih znakova. Zato je UTF-16 prihvaćen prema zadanim postavkama i zahtijeva da se za jedan znak rezerviraju 2 bajta.

Čak je i ova prilično napredna i uspješna verzija "Unicodea" imala neke nedostatke, a nakon prijelaza s proširene verzije ASCII-a na UTF-16, udvostručila je težinu dokumenta.

S tim u vezi, odlučeno je koristiti kodiranje promjenjive duljine UTF-8. U ovom slučaju, svaki znak izvornog teksta je kodiran nizom od 1 do 6 bajtova.

Odnos s američkim standardnim kodom za razmjenu informacija

Svi znakovi latinice u UTF-8 promjenjive duljine kodirani su u 1 bajt, kao u ASCII sustavu kodiranja.

Posebnost UTP-8 je da u slučaju teksta na latinici bez korištenja drugih znakova, čak i programi koji ne razumiju "Unicode" i dalje će vam omogućiti da ga pročitate. Drugim riječima, osnovni dio ASCII kodiranja teksta jednostavno se spaja u novi UTF promjenjive duljine. Ćirilični znakovi u UTP-8 zauzimaju 2 bajta, a, na primjer, gruzijski - 3 bajta. Izrada UTF-16 i 8 riješila je glavni problem stvaranja jedinstvenog kodnog prostora u fontovima. Od tada proizvođači fontova mogu ispuniti tablicu samo vektorskim oblicima tekstualnih znakova na temelju svojih potreba.

Na različitim operativnim sustavima preferiraju se različita kodiranja. Da biste mogli čitati i uređivati ​​tekstove upisane u drugom kodiranju, koriste se ruski programi za pretvorbu teksta. Neki uređivači teksta sadrže ugrađene transkodere i omogućuju čitanje teksta bez obzira na kodiranje.

Sada znate koliko znakova ima u ASCII-u te kako i zašto je razvijen. Naravno, danas je najrašireniji standard u svijetu "Unicode". Međutim, ne smijemo zaboraviti da je stvoren na temelju ASCII-a, stoga treba cijeniti doprinos njegovih programera području IT-a.

Prema podacima Međunarodne telekomunikacijske unije, 2016. godine tri i pol milijarde ljudi koristilo je internet s različitom redovitošću. Većina njih niti ne razmišlja o tome da su sve poruke koje šalju putem računala ili mobilnih gadgeta, kao i tekstovi koji se prikazuju na svim vrstama monitora, zapravo kombinacije 0 i 1. Ovakav prikaz informacija naziva se kodiranje . Omogućuje i uvelike olakšava provedbu njegove pohrane, obrade i prijenosa. Godine 1963. razvijeno je američko ASCII kodiranje, čemu je i posvećen ovaj članak.

Prezentacija informacija na računalu

Sa stajališta svakog elektroničkog računala, tekst je skup pojedinačnih znakova. To uključuje ne samo slova, uključujući velika slova, već i interpunkcijske znakove i brojeve. Osim toga, koriste se posebni znakovi "=", "&", "(" i razmaci.

Skup simbola koji čine tekst naziva se abeceda, a njihov broj kardinalitet (označen kao N). Za njegovo definiranje koristi se izraz N = 2 ^ b, gdje je b broj bitova ili informacijska težina određenog znaka.

Dokazano je da abeceda kapaciteta 256 znakova može predstavljati sve potrebne znakove.

Budući da je 256 8. stepen dvojke, težina svakog znaka je 8 bita.

Mjerna jedinica od 8 bita naziva se 1 bajt, pa je uobičajeno reći da bilo koji znak u tekstu pohranjenom na računalu zauzima jedan bajt memorije.

Kako se radi kodiranje

Tekstovi se unose u memoriju osobnog računala pomoću tipki na tipkovnici na kojima su ispisani brojevi, slova, interpunkcijski znakovi i drugi simboli. Oni se prenose u RAM u binarnom kodu, odnosno svaki znak je povezan s decimalnim kodom poznatim ljudima, od 0 do 255, što odgovara binarnom kodu - od 00000000 do 11111111.

Kodiranje znakova u bajtu omogućuje procesoru teksta pristup svakom znaku zasebno. U isto vrijeme, 256 znakova je dovoljno za predstavljanje bilo koje informacije o znakovima.

ASCII kodiranje znakova

Ova skraćenica na engleskom znači kod za razmjenu informacija.

Čak i u zoru informatizacije postalo je očito da možete smisliti širok izbor načina za kodiranje informacija. Međutim, za prijenos informacija s jednog računala na drugo bilo je potrebno razviti jedinstveni standard. Tako se 1963. godine u Sjedinjenim Državama pojavila ASCII tablica kodiranja. U njemu je bilo koji simbol računalne abecede povezan s njegovim rednim brojem u binarnom prikazu. U početku se ASCII koristio samo u Sjedinjenim Državama, a kasnije je postao međunarodni standard za računala.

ASCII kodovi su podijeljeni u 2 dijela. Samo prva polovica ove tablice smatra se međunarodnim standardom. Sadrži znakove s rednim brojevima od 0 (kodirano kao 00000000) do 127 (šifra 01111111).

Serijski broj

ASCII kodiranje teksta

Simbol

0000 0000 - 0001 1111

Znakovi s N od 0 do 31 nazivaju se kontrolni znakovi. Njihova je funkcija "voditi" proces prikazivanja teksta na monitoru ili uređaju za ispis, davanje zvučnog signala itd.

0010 0000 - 0111 1111

Znakovi s N od 32 do 127 (standardni dio tablice) - velika i mala slova latinice, 10 znamenki, interpunkcijski znakovi, kao i razne zagrade, komercijalni i drugi simboli. Znak 32 označava razmak.

1000 0000 - 1111 1111

Znakovi s N od 128 do 255 (alternativni dio tablice ili kodne stranice) mogu imati različite varijante, od kojih svaka ima svoj broj. Kodna stranica se koristi za određivanje nacionalnih abeceda koje se razlikuju od latinice. Konkretno, uz njegovu pomoć se provodi ASCII kodiranje za ruske znakove.

U tablici kodiranja, velika slova i slijede jedan za drugim abecednim redom, a brojevi - uzlaznim redoslijedom vrijednosti. Ovaj princip vrijedi i za rusku abecedu.

Kontrolni znakovi

ASCII tablica kodiranja izvorno je stvorena za primanje i prijenos informacija na takvom uređaju koji se dugo nije koristio, kao što je teletip. S tim u vezi, znakovi koji se ne mogu ispisivati ​​uključeni su u skup znakova, koji se koriste kao naredbe za upravljanje ovim uređajem. Slične naredbe korištene su u takvim metodama slanja poruka prije računala kao što su Morseov kod itd.

Najčešći znak "teletipa" je NUL (00, "nula"). Još uvijek se koristi u većini programskih jezika do danas, označavajući terminator linije.

Gdje se koristi ASCII kodiranje?

Američki standardni kod potreban je za više od samog unosa tekstualnih informacija s tipkovnice. Također se koristi u grafici. Točnije, u ASCII Art Makeru, slike različitih ekstenzija predstavljaju spektar ASCII znakova.

Takvi proizvodi su dvije vrste: obavljaju funkciju grafičkih uređivača pretvarajući slike u tekst i pretvaraju "slike" u ASCII grafiku. Na primjer, poznati emotikon je izvrstan primjer znaka za kodiranje.

ASCII se također može koristiti pri izradi HTML dokumenta. U tom slučaju možete unijeti određeni skup znakova, a prilikom pregleda stranice na ekranu će se pojaviti znak koji odgovara ovom kodu.

ASCII je također neophodan za stvaranje višejezičnih stranica, budući da se znakovi koji nisu uključeni u određenu nacionalnu tablicu zamjenjuju ASCII kodovima.

Neke značajke

Za kodiranje tekstualnih informacija u ASCII kodiranju izvorno je korišteno 7 bitova (jedan je ostavljen prazan), ali danas radi kao 8-bitni.

Slova u gornjem i donjem stupcu razlikuju se jedno od drugog za samo jedan bit. To uvelike smanjuje složenost provjere.

Korištenje ASCII-a u Microsoft Officeu

Ako je potrebno, ova vrsta kodiranja teksta može se koristiti u Microsoftovim uređivačima teksta kao što su Notepad i Office Word. Međutim, prilikom tipkanja u ovom slučaju neće biti moguće koristiti neke funkcije. Na primjer, nećete moći podebljati, jer ASCII samo čuva značenje informacija, zanemarujući njihov opći izgled i oblik.

Standardizacija

Organizacija ISO usvojila je standarde ISO 8859. Ova grupa definira osmobitna kodiranja za različite jezične skupine. Točnije, ISO 8859-1 je prošireni ASCII, što je tablica za Sjedinjene Države i Zapadnu Europu. A ISO 8859-5 je tablica koja se koristi za ćirilično pismo, uključujući ruski jezik.

Iz brojnih povijesnih razloga, standard ISO 8859-5 bio je u upotrebi vrlo kratko vrijeme.

Za ruski jezik trenutno se zapravo koriste kodiranja:

  • CP866 (kodna stranica 866) ili DOS, koji se često naziva alternativnim GOST kodiranjem. Aktivno se koristio do sredine 90-ih godina prošlog stoljeća. Trenutno se praktički ne koristi.
  • KOI-8. Kodiranje je razvijeno 1970-80-ih, a trenutno je općeprihvaćeni standard za poruke pošte na Runetu. Široko se koristi u OS obitelji Unix, uključujući Linux. "Ruska" verzija KOI-8 zove se KOI-8R. Osim toga, postoje verzije za druge ćiriličke jezike, kao što je ukrajinski.
  • Kodna stranica 1251 (CP 1251, Windows - 1251). Razvio ga je Microsoft za pružanje podrške za ruski jezik u Windows okruženju.

Glavna prednost prvog standarda CP866 bila je očuvanje pseudografskih znakova na istim pozicijama kao u proširenom ASCII-u. To je omogućilo pokretanje bez promjena stranih tekstualnih programa, kao što je dobro poznati Norton Commander. Trenutno se CP866 koristi za programe razvijene pod Windowsima koji rade u tekstualnom modu preko cijelog zaslona ili u tekstualnim prozorima, uključujući FAR Manager.

Računalni tekstovi napisani u kodiranju CP866 u posljednje su vrijeme rijetki, ali se upravo taj kodiranje koristi za ruske nazive datoteka u Windowsima.

"Unicode"

U ovom trenutku, upravo je ovo kodiranje dobilo najširu upotrebu. Unicode kodovi su podijeljeni u područja. Prvi (U + 0000 do U + 007F) uključuje ASCII znakove s kodovima. Slijede područja znakova raznih nacionalnih pisama, kao i interpunkcijskih i tehničkih simbola. Osim toga, neki od "Unicode" kodova su rezervirani u slučaju da u budućnosti bude potrebno uključiti nove znakove.

Sada znate da je u ASCII-u svaki znak predstavljen kao kombinacija 8 nula i jedinica. Nespecijalistima se ova informacija može činiti nepotrebnom i nezanimljivom, ali zar ne želite znati što se događa "u mozgu" vašeg računala ?!

Skup znakova kojim se piše tekst naziva se abeceda.

Broj znakova u abecedi je njegov vlast.

Formula za određivanje količine informacija: N = 2 b,

gdje je N kardinalnost abecede (broj znakova),

b - broj bitova (informacijska težina znaka).

Abeceda kapaciteta 256 znakova može primiti gotovo sve potrebne znakove. Ova abeceda se zove dovoljan.

Jer 256 = 2 8, tada je težina 1 znaka 8 bitova.

8-bitna jedinica je dobila ime 1 bajt:

1 bajt = 8 bitova.

Binarni kod svakog znaka u kompjuterskom tekstu zauzima 1 bajt memorije.

Kako su tekstualne informacije predstavljene u memoriji računala?

Pogodnost bajt kodiranja znakova je očigledna, budući da je bajt najmanji adresabilni dio memorije i stoga procesor može pristupiti svakom znaku zasebno, obavljajući obradu teksta. S druge strane, 256 znakova je sasvim dovoljan broj za predstavljanje široke palete informacija o znakovima.

Sada se postavlja pitanje kakav osmobitni binarni kod pridružiti svakom znaku.

Jasno je da je to uvjetna stvar, možete smisliti mnoge metode kodiranja.

Svi znakovi računalne abecede numerirani su od 0 do 255. Svaki broj odgovara osmobitnom binarnom kodu od 00000000 do 11111111. Ovaj kod je jednostavno redni broj znaka u binarnom brojevnom sustavu.

Tablica u kojoj su svim znakovima računalne abecede dodijeljeni serijski brojevi naziva se tablica kodiranja.

Za različite vrste računala koriste se različite tablice kodiranja.

Međunarodni standard za PC postao je stol ASCII(čitaj asci) (Američki standardni kod za razmjenu informacija).

ASCII tablica podijeljena je na dva dijela.

Međunarodni standard je samo prva polovica tablice, t.j. simboli s brojevima iz 0 (00000000), do 127 (01111111).

Struktura ASCII tablice kodiranja

Serijski broj

Kod

Simbol

0 - 31

00000000 - 00011111

Simboli s brojevima od 0 do 31 obično se nazivaju kontrolni znakovi.
Njihova funkcija je kontrola procesa prikazivanja teksta na ekranu ili ispisa, davanja zvučnog signala, označavanja teksta itd.

32 - 127

00100000 - 01111111

Standardni dio tablice (engleski). To uključuje mala i velika slova latinice, decimalne znamenke, interpunkcijske znakove, sve vrste zagrada, komercijalne i druge simbole.
Lik 32 je razmak, t.j. prazno mjesto u tekstu.
Svi ostali se odražavaju u određenim znakovima.

128 - 255

10000000 - 11111111

Alternativni dio tablice (ruski).
Druga polovica tablice kodova ASCII, nazvana kodna stranica (128 kodova, počevši od 10000000 i završava s 11111111), može imati različite varijante, svaka varijanta ima svoj broj.
Kodna stranica se prvenstveno koristi za smještaj nacionalnih alfabeta osim latinice. U ruskim nacionalnim kodovima ovaj dio tablice sadrži simbole ruske abecede.

Prva polovica ASCII tablice


Skrećem vam pozornost na činjenicu da su u tablici kodiranja slova (velika i mala slova) poredana abecednim redom, a brojevi uzlaznim redoslijedom vrijednosti. Ovo poštivanje leksikografskog reda u rasporedu znakova naziva se princip sekvencijalnog kodiranja abecede.

Za slova ruske abecede također se promatra načelo sekvencijalnog kodiranja.

Druga polovica ASCII tablice


Nažalost, trenutno postoji pet različitih ćiriličkih kodiranja (KOI8-R, Windows. MS-DOS, Macintosh i ISO). Zbog toga često nastaju problemi s prijenosom ruskog teksta s jednog računala na drugo, s jednog softverskog sustava na drugi.

Kronološki, jedan od prvih standarda za kodiranje ruskih slova na računalima bio je KOI8 ("Kod za razmjenu informacija, 8-bitni"). Ovo se kodiranje koristilo još 70-ih godina na računalima serije ES računala, a od sredine 80-ih počelo se koristiti u prvim rusificiranim verzijama UNIX operativnog sustava.

Od početka 90-ih, vremena dominacije operativnog sustava MS DOS, ostaje kodiranje CP866 ("CP" znači "Code Page").

Apple računala s Mac OS-om koriste vlastito Mac kodiranje.

Osim toga, Međunarodna organizacija za standardizaciju (International Standards Organization, ISO) odobrila je još jedno kodiranje pod nazivom ISO 8859-5 kao standard za ruski jezik.

Trenutno je najčešće kodiranje Microsoft Windows, skraćeno CP1251.

Od kasnih 90-ih, problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda tzv. Unicode... Ovo je 16-bitno kodiranje, tj. dodjeljuje 2 bajta memorije za svaki znak. Naravno, to udvostručuje količinu korištene memorije. No, s druge strane, takva kodna tablica omogućuje uključivanje do 65536 znakova. Kompletna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene alfabete svijeta, kao i mnoge matematičke, glazbene, kemijske i druge simbole.

Pokušajmo upotrijebiti ASCII tablicu da zamislimo kako će riječi izgledati u memoriji računala.

Unutarnji prikaz riječi u memoriji računala

Ponekad se dogodi da se tekst koji se sastoji od slova ruske abecede, primljen s drugog računala, ne može pročitati - na ekranu monitora vidljiva je neka vrsta "brbljanja". To je zbog činjenice da računala koriste različito kodiranje znakova ruskog jezika.

Preklapanje simbola

Znak BS (backspace) omogućuje pisaču da prepiše jedan znak. U ASCII-u je predviđeno dodavanje dijakritičkih znakova slovima na ovaj način, na primjer:

  • a BS "→ á
  • a BS `→ à
  • a BS ^ → â
  • o BS / → ø
  • c BS, → ç
  • n BS ~ → ñ

Bilješka: u starim fontovima, apostrof "je nacrtan s kosom ulijevo, a tilda ~ je pomaknuta prema gore, tako da samo odgovaraju ulozi akutne i tilde na vrhu.

Ako se isti simbol preloži na znak, tada se dobiva efekt podebljanog fonta, a ako se na znak stavi podvlaka, onda se dobiva podvučeni tekst.

  • a BS a → a
  • a BS _ → a

Bilješka: ovo se koristi, na primjer, u sustavu pomoći za čovjeka.

Nacionalne ASCII varijante

Standard ISO 646 (ECMA-6) predviđa mogućnost postavljanja nacionalnih znakova na svoje mjesto @ [ \ ] ^ ` { | } ~ ... Pored ovoga, na mjestu # može se smjestiti £ , i na mjestu $ - ¤ ... Ovaj sustav je vrlo prikladan za europske jezike gdje je potrebno samo nekoliko dodatnih znakova. ASCII verzija bez nacionalnih znakova naziva se US-ASCII ili "Međunarodna referentna verzija".

Nakon toga se pokazalo prikladnijim za korištenje 8-bitnih kodiranja (kodnih stranica), gdje je donja polovica kodne tablice (0-127) zauzeta US-ASCII znakovima, a gornja (128-255) je zauzimaju dodatni znakovi, uključujući skup nacionalnih znakova. Dakle, gornja polovica ASCII tablice, prije širokog usvajanja Unicodea, aktivno se koristila za predstavljanje lokaliziranih znakova, slova lokalnog jezika. Nedostatak jedinstvenog standarda za postavljanje ćiriličnih znakova u ASCII tablicu uzrokovao je mnoge probleme s kodiranjem (KOI-8, Windows-1251 i drugi). Drugi jezici s nelatinskim pismom također su patili od prisutnosti nekoliko različitih kodiranja.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
0. NUL SOM EOA EOM EQT WRU RU ZVONO BKSP Ht LF VT FF CR TAKO SI
1. DC 0 DC 1 DC 2 DC 3 DC 4 ERR SYNC LEM S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7
2.
3.
4. PRAZAN ! " # $ % & " ( ) * + , - . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
A. @ A B C D E F G H ja J K L M N O
B. P P R S T U V W x Y Z [ \ ]
C.
D.
E. a b c d e f g h i j k l m n o
F. str q r s t u v w x y z ESC DEL

Na onim računalima gdje je minimalna adresabilna jedinica memorije bila 36-bitna riječ, u početku su korišteni 6-bitni znakovi (1 riječ = 6 znakova). Nakon prelaska na ASCII na takvim računalima, počeli su stavljati ili 5 sedmobitnih znakova u jednu riječ (1 bit je ostao suvišan), ili 4 devetobitna znaka.

ASCII kodovi se također koriste za identifikaciju pritisnute tipke tijekom programiranja. Za standardnu ​​QWERTY tipkovnicu tablica kodova izgleda ovako:

[8-bitna kodiranja: ASCII, KOI-8R i CP1251] Prve tablice skupa znakova stvorene u SAD-u nisu koristile osmi bit u bajtu. Tekst je predstavljen kao slijed bajtova, ali osmi bit nije uzet u obzir (koristio se u servisne svrhe).

Općeprihvaćeni standard postao je stol ASCII(Američki standardni kod za razmjenu informacija). Prva 32 ASCII znaka (00 do 1F) korištena su za znakove koji se ne mogu ispisati. Namijenjeni su za upravljanje uređajem za ispis i slično. Ostatak - od 20 do 7F - su normalni (ispisivi) znakovi.

Tablica 1 - ASCII kodiranje

prosincaHexlistopadaCharOpis
0 0 000 null
1 1 001 početak naslova
2 2 002 početak teksta
3 3 003 kraj teksta
4 4 004 kraj prijenosa
5 5 005 upit
6 6 006 priznati
7 7 007 zvono
8 8 010 backspace
9 9 011 vodoravna kartica
10 A 012 nova linija
11 B 013 okomita kartica
12 C 014 nova stranica
13 D 015 povrat prtljage
14 E 016 pomaknuti se
15 F 017 prebaciti se
16 10 020 bijeg podatkovne veze
17 11 021 kontrola uređaja 1
18 12 022 kontrola uređaja 2
19 13 023 kontrola uređaja 3
20 14 024 kontrola uređaja 4
21 15 025 negativno priznanje
22 16 026 sinkroni mirovanje
23 17 027 kraj trans. blok
24 18 030 otkazati
25 19 031 kraj medija
26 1A 032 zamjena
27 1B 033 pobjeći
28 1C 034 separator datoteka
29 1D 035 separator grupe
30 1E 036 separator zapisa
31 1F 037 separator jedinica
32 20 040 prostor
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
prosincaHexlistopadaChar
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 ja
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 O
80 50 120 P
81 51 121 P
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 x
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 a
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 str
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 x
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Kao što možete lako vidjeti, ovo kodiranje sadrži samo latinična slova, i to ona koja se koriste na engleskom. Tu su i aritmetički i drugi uslužni simboli. Ali nema ruskih slova, pa čak ni posebnih latiničnih slova za njemački ili francuski. To je lako objasniti - kodiranje je razvijeno posebno kao američki standard. Kada su se računala počela koristiti diljem svijeta, postalo je potrebno kodirati druge simbole.

Za to je odlučeno koristiti osmi bit u svakom bajtu. Tako je bilo dostupno još 128 vrijednosti (od 80 do FF), koje su se mogle koristiti za kodiranje znakova. Prva od osmobitnih tablica je "prošireni ASCII" ( Prošireni ASCII) - uključuje različite varijante latiničnih znakova koji se koriste u nekim jezicima zapadne Europe. Također je sadržavao i druge dodatne simbole, uključujući pseudo grafiku.

Pseudografički znakovi dopuštaju, prikazujući samo tekstualne znakove, da pruže neki privid grafike. Na primjer, program za upravljanje datotekama FAR Manager radi uz pomoć pseudo-grafike.

U proširenoj ASCII tablici nije bilo ruskih slova. U Rusiji (bivši SSSR) i u drugim državama stvorena su vlastita kodiranja koja su omogućila predstavljanje specifičnih "nacionalnih" znakova u 8-bitnim tekstualnim datotekama - latinična slova poljskog i češkog jezika, ćirilica (uključujući ruska slova ) i druge abecede.

U svim kodiranjima koja su postala široko rasprostranjena, prvih 127 znakova (to jest, vrijednosti bajta s osmim bitom jednakim 0) podudaraju se s ASCII. Dakle, ASCII datoteka radi u bilo kojem od ovih kodiranja; na isti su način predstavljena i slova engleskog jezika.

Organizacija ISO(Međunarodna organizacija za standardizaciju) donijela je skupinu normi ISO 8859... Definira 8-bitna kodiranja za različite grupe jezika. Dakle, ISO 8859-1 je prošireni ASCII, tablica za Sjedinjene Države i Zapadnu Europu. A ISO 8859-5 je tablica za ćirilicu (uključujući ruski).

Međutim, iz povijesnih razloga, ISO 8859-5 kodiranje nije uhvaćeno. U stvarnosti se za ruski jezik koriste sljedeća kodiranja:

Kodna stranica 866 ( CP866), zvani "DOS", zvani "alternativno GOST kodiranje". Bio je naširoko korišten do sredine 90-ih; sada se koristi u ograničenoj mjeri. Praktično se ne koristi za distribuciju tekstova na Internetu.
- KOI-8. Razvijen 70-ih i 80-ih godina. To je općeprihvaćeni standard za prijenos e-mail poruka na ruskom Internetu. Također se široko koristi u operativnim sustavima obitelji Unix, uključujući Linux. Zove se verzija KOI-8, dizajnirana za ruski jezik KOI-8R; postoje verzije za druge ćirilične jezike (na primjer, KOI8-U je opcija za ukrajinski jezik).
- Šifra 1251, CP1251, Windows-1251. Razvio Microsoft za podršku ruskom jeziku u sustavu Windows.

Glavna prednost CP866 bila je očuvanje pseudografskih znakova na istim mjestima kao u proširenom ASCII-u; stoga bi strani tekstualni programi, na primjer, slavni Norton Commander, mogli raditi bez promjena. Danas se CP866 koristi za Windows programe koji se izvode u tekstualnim prozorima ili tekstualnom modu preko cijelog zaslona, ​​uključujući FAR Manager.

Posljednjih godina tekstovi u CP866 su prilično rijetki (ali se koristi za kodiranje ruskih naziva datoteka u Windowsima). Stoga ćemo se detaljnije zadržati na dva druga kodiranja - KOI-8R i CP1251.



Kao što možete vidjeti, u tablici kodiranja CP1251 ruska slova poredana su abecednim redom (osim, međutim, slova E). Ovaj raspored vrlo olakšava razvrstavanje računalnih programa po abecedi.

Ali u KOI-8R, čini se da je redoslijed ruskih slova nasumičan. Ali zapravo nije.

Mnogi stariji programi izgubili su 8. bit prilikom obrade ili prijenosa teksta. (Sada su takvi programi praktički "izumrli", ali su kasnih 80-ih - ranih 90-ih bili široko rasprostranjeni). Da biste dobili 7-bitnu vrijednost od 8-bitne vrijednosti, oduzmite 8 od najznačajnije znamenke; na primjer E1 postaje 61.

Sada usporedite KOI-8R s ASCII tablicom (Tablica 1). Vidjet ćete da su ruska slova jasno usklađena s latinskim. Ako osmi bit nestane, mala ruska slova pretvaraju se u velika latinična slova, a velika ruska slova pretvaraju se u mala latinična slova. Dakle, E1 u KOI-8 je rusko "A", dok je 61 u ASCII latinično "a".

Dakle, KOI-8 vam omogućuje da sačuvate čitljivost ruskog teksta uz gubljenje 8. bita. “Pozdrav svima” postaje “pRIWET WSEM”.

Nedavno su i abecedni red znakova u tablici kodiranja i čitljivost s gubitkom 8. bita izgubili odlučujuću važnost. Osmi bit se u modernim računalima ne gubi ni tijekom prijenosa ni obrade. Razvrstavanje po abecednom redu temelji se na kodiranju, a ne samo na usporedbi kodova. (Usput, kodovi CP1251 nisu potpuno abecedni - slovo E nije na svom mjestu).

Zbog činjenice da postoje dva uobičajena kodiranja, kada radite s internetom (pošta, pregledavanje web-stranica), ponekad možete vidjeti besmislen skup slova umjesto ruskog teksta. Na primjer, "Ja sam SBUFEMHEL". Ovo su samo riječi "s poštovanjem"; ali su bili kodirani u CP1251 kodiranju, a računalo je dekodiralo tekst prema tablici KOI-8. Ako su iste riječi, naprotiv, kodirane u KOI-8, a računalo dekodira tekst prema tablici CP1251, rezultat će biti “U HČBCEOJEN”.

Ponekad se dogodi da računalo uopće dešifrira slova na ruskom jeziku prema tablici koja nije namijenjena ruskom jeziku. Tada se umjesto ruskih slova pojavljuje besmislen skup simbola (na primjer, latinska slova istočnoeuropskih jezika); često se nazivaju "crocozyabras".

U većini slučajeva, moderni programi sami se nose s određivanjem kodiranja internetskih dokumenata (e-pošte i web-stranica). Ali ponekad "zapali", a onda možete vidjeti čudne sekvence ruskih slova ili "krokozyabra". U pravilu, da bi se na zaslonu prikazao pravi tekst, dovoljno je ručno odabrati kodiranje u izborniku programa.

Za članak su korištene informacije sa stranice http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Materijal preuzet sa stranice:

Vrhunski povezani članci