Kako podesiti pametne telefone i računare. Informativni portal
  • Dom
  • Zanimljivo
  • Latinski kodovi znakova. ASCII (američki standardni kod za razmjenu informacija) kodiranje - osnovno kodiranje teksta za latinicu

Latinski kodovi znakova. ASCII (američki standardni kod za razmjenu informacija) kodiranje - osnovno kodiranje teksta za latinicu

dec Hex Simbol dec Hex Simbol
000 00 specijalista. NOP 128 80 Ђ
001 01 specijalista. SOH 129 81 Ѓ
002 02 specijalista. STX 130 82
003 03 specijalista. ETX 131 83 ѓ
004 04 specijalista. EOT 132 84
005 05 specijalista. ENQ 133 85
006 06 specijalista. ACK 134 86
007 07 specijalista. BEL 135 87
008 08 specijalista. BS 136 88
009 09 specijalista. TAB 137 89
010 0Aspecijalista. LF 138 8AЉ
011 0Bspecijalista. VT 139 8B‹ ‹
012 0Cspecijalista. FF 140 8CЊ
013 0Dspecijalista. CR 141 8DЌ
014 0Especijalista. SO 142 8EЋ
015 0Fspecijalista. SI 143 8FЏ
016 10 specijalista. DLE 144 90 ђ
017 11 specijalista. DC1 145 91
018 12 specijalista. DC2 146 92
019 13 specijalista. DC3 147 93
020 14 specijalista. DC4 148 94
021 15 specijalista. NAK 149 95
022 16 specijalista. SYN 150 96
023 17 specijalista. ETB 151 97
024 18 specijalista. CAN 152 98
025 19 specijalista. EM 153 99
026 1Aspecijalista. SUB 154 9Aљ
027 1Bspecijalista. ITD 155 9B
028 1Cspecijalista. FS 156 9Cњ
029 1Dspecijalista. GS 157 9Dќ
030 1Especijalista. Rs 158 9Eћ
031 1Fspecijalista. US 159 9Fџ
032 20 kvačilo SP (prostor) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Yo
041 29 ) 169 A9©
042 2A* 170 aaЄ
043 2B+ 171 AB«
044 2C, 172 AC¬
045 2D- 173 AD­
046 2E. 174 AE®
047 2F/ 175 AFЇ
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 BAє
059 3B; 187 BB»
060 3C< 188 BCј
061 3D= 189 BDЅ
062 3E> 190 BEѕ
063 3F? 191 Bfї
064 40 @ 192 C0 A
065 41 A 193 C1 B
066 42 B 194 C2 V
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 F
071 47 G 199 C7 Z
072 48 H 200 C8 I
073 49 I 201 C9 Th
074 4AJ 202 CA TO
075 4BK 203 CB L
076 4CL 204 CC M
077 4DM 205 CD N
078 4EN 206 CE O
079 4FO 207 CF NS
080 50 P 208 D0 R
081 51 Q 209 D1 WITH
082 52 R 210 D2 T
083 53 S 211 D3 Imati
084 54 T 212 D4 F
085 55 U 213 D5 NS
086 56 V 214 D6 C
087 57 W 215 D7 H
088 58 X 216 D8 NS
089 59 Y 217 D9 SCH
090 5AZ 218 DA B
091 5B[ 219 DB NS
092 5C\ 220 DC B
093 5D] 221 DD NS
094 5E^ 222 DE NS
095 5F_ 223 DF JA SAM
096 60 ` 224 E0 a
097 61 a 225 E1 b
098 62 b 226 E2 v
099 63 c 227 E3 G
100 64 d 228 E4 d
101 65 e 229 E5 e
102 66 f 230 E6 f
103 67 g 231 E7 s
104 68 h 232 E8 i
105 69 i 233 E9 th
106 6Aj 234 EA To
107 6Bk 235 EB l
108 6Cl 236 EC m
109 6Dm 237 ED n
110 6En 238 EE O
111 6Fo 239 EF NS
112 70 str 240 F0 R
113 71 q 241 F1 sa
114 72 r 242 F2 T
115 73 s 243 F3 at
116 74 t 244 F4 f
117 75 u 245 F5 NS
118 76 v 246 F6 c
119 77 w 247 F7 h
120 78 x 248 F8 NS
121 79 y 249 F9 SCH
122 7Az 250 FA b
123 7B{ 251 FB NS
124 7C| 252 FC b
125 7D} 253 FD NS
126 7E~ 254 FE NS
127 7FSpecijalista. DEL 255 FF ja sam

Windows ASCII tabela kodova znakova.
Opis posebnih (kontrolnih) znakova

Treba napomenuti da su se u početku kontrolni znakovi ASCII tabele koristili za razmjenu podataka putem teletipa, unos podataka sa bušene trake i za najjednostavniju kontrolu vanjskih uređaja.
Trenutno, većina ASCII kontrolnih znakova u tabeli više ne nosi ovo opterećenje i može se koristiti u druge svrhe.
Kod Opis
NUL, 00Null, prazno
SOH, 01Početak naslova, početak naslova
STX, 02Početak teksta, početak teksta.
ETX, 03Kraj teksta, kraj teksta
EOT, 04Kraj prijenosa, kraj prijenosa
ENQ, 05Raspitati se. Tražim potvrdu
ACK, 06Priznanje. Potvrđujem
BEL, 07Zvono, zvono
BS, 08Povratak, povratak za jedan znak
TAB, 09Kartica, horizontalna kartica
LF, 0ALine Feed, Line Feed.
Sada se u većini programskih jezika označava kao \ n
VT, 0BVertikalni jezičak, vertikalni jezičak.
FF, 0CSažetak obrasca, Feed stranice, Nova stranica
CR, 0DPovrat kočije
Sada se u većini programskih jezika označava kao \ r
SO, 0EShift Out, promijenite boju trake s mastilom u uređaju za štampanje
SI, 0FShift In, vratite boju trake sa mastilom u uređaj za štampanje
DLE, 10Data Link Escape, prebacite kanal na prijenos podataka
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Kontrola uređaja, simboli za kontrolu uređaja
NAK, 15Negativna potvrda, ne priznajem.
SYN, 16Sinhronizacija. Simbol sinhronizacije
ETB, 17Kraj tekstualnog bloka, kraj tekstualnog bloka
MOŽE, 18Otkazivanje, poništavanje prethodno položenog
EM, 19Kraj medija, kraj nosača podataka
SUB, 1AZamena Stavlja se na mjesto znaka čija je vrijednost izgubljena ili oštećena tokom prijenosa
ESC, 1BEscape Escape Sequence
FS, 1CFile Separator, File Separator
GS, 1DGrupni separator, separator grupe
RS, 1ERazdjelnik zapisa, separator zapisa
SAD, 1FJedinica separator, jedinica separator
DEL, 7FIzbriši, izbriši zadnji znak.

Računar razumije proces svoje transformacije u formu koja omogućava organiziranje praktičnijeg prijenosa, skladištenja ili automatske obrade ovih podataka. U tu svrhu koriste se različite tablice. ASCII kodiranje je prvi sistem razvijen u Sjedinjenim Državama za rad s tekstom na engleskom jeziku, koji je kasnije postao široko rasprostranjen u cijelom svijetu. Donji članak posvećen je njegovom opisu, karakteristikama, svojstvima i daljnjoj upotrebi.

Prikaz i skladištenje informacija u računaru

Simboli na kompjuterskom monitoru ili jednom ili drugom mobilnom digitalnom gadgetu formiraju se na osnovu skupova vektorskih oblika svih vrsta znakova i koda koji vam omogućava da među njima pronađete simbol koji treba umetnuti na pravo mjesto. To je serija bitova. Dakle, svaki znak mora jedinstveno odgovarati skupu nula i jedinica, koji stoje u specifičnom, jedinstvenom poretku.

Kako je sve počelo

Istorijski gledano, prvi kompjuteri su bili na engleskom. Za kodiranje simboličkih informacija u njima bilo je dovoljno koristiti samo 7 bitova memorije, dok je za tu svrhu dodijeljen 1 bajt koji se sastoji od 8 bitova. Broj znakova koje je kompjuter razumio u ovom slučaju bio je jednak 128. Broj takvih znakova uključivao je englesku abecedu sa svojim interpunkcijskim znacima, brojevima i nekim posebnim znakovima. Sedmobitno kodiranje na engleskom jeziku sa odgovarajućom tablicom (kodnom stranicom), razvijeno 1963. godine, nazvano je američkim standardnim kodom za razmjenu informacija. Obično se za označavanje koristila skraćenica "ASCII encoding" koja se i danas koristi.

Prelazak na višejezičnost

Vremenom su kompjuteri postali široko korišćeni iu zemljama u kojima se ne govori engleski. U tom smislu, postojala je potreba za kodiranjem koje bi omogućilo upotrebu nacionalnih jezika. Odlučeno je da se ne izmišlja ponovo točak, i da se kao osnova uzme ASCII. Tabela kodiranja u novom izdanju značajno je proširena. Upotreba 8. bita omogućila je prevođenje 256 znakova na kompjuterski jezik.

Opis

ASCII kodiranje ima tabelu koja je podijeljena na 2 dijela. Samo prva polovina se smatra opšteprihvaćenim međunarodnim standardom. To uključuje:

  • Znakovi sa rednim brojevima od 0 do 31, kodirani sekvencama od 00000000 do 00011111. Rezervisani su za kontrolne znakove koji kontrolišu proces prikazivanja teksta na ekranu ili štampaču, davanja zvučnog signala itd.
  • Znakovi sa NN u tabeli od 32 do 127, kodirani sekvencama od 00100000 do 01111111, čine standardni deo tabele. To uključuje razmak (N 32), slova latinice (mala i velika), desetocifreni brojevi od 0 do 9, znakove interpunkcije, zagrade različitih stilova i druge simbole.
  • Znakovi sa rednim brojevima od 128 do 255, kodirani nizovima od 10000000 do 11111111. Ovo uključuje slova nacionalnog alfabeta osim latinice. Upravo ovaj alternativni dio tabele koristi se ASCII kodiranjem za pretvaranje ruskih znakova u kompjuterski oblik.

Neke nekretnine

Posebnosti ASCII kodiranja uključuju razliku između slova "A" - "Z" malih i velikih slova za samo jedan bit. Ova okolnost uvelike pojednostavljuje konverziju registra, kao i njegovu provjeru pripadnosti navedenom rasponu vrijednosti. Osim toga, sva slova u sistemu ASCII kodiranja su predstavljena sopstvenim rednim brojevima u abecedi, koji su u binarnom sistemu napisani sa 5 cifara, kojima prethodi 011 2 za mala slova i 010 2 za velika slova.

Među karakteristikama ASCII kodiranja može se smatrati predstavljanje 10 cifara - "0" - "9". U drugom brojevnom sistemu počinju sa 00112 i završavaju sa 2 broja. Na primjer, 0101 2 je ekvivalentno decimalnoj petici, tako da je znak "5" napisan kao 0011 01012. Na osnovu toga, možete lako pretvoriti BCD-ove u ASCII niz dodavanjem 00112 svakom grickanju s lijeve strane.

"Unicode"

Kao što znate, hiljade znakova su potrebne za prikaz tekstova na jezicima grupe jugoistočne Azije. Toliki broj njih ni na koji način nije opisan u jednom bajtu informacija, pa čak ni proširene ASCII verzije više ne mogu zadovoljiti povećane potrebe korisnika iz različitih zemalja.

Tako se pojavila potreba za stvaranjem univerzalnog kodiranja teksta, koje je razvio Unicode konzorcij u saradnji sa mnogim liderima globalne IT industrije. Njegovi stručnjaci kreirali su sistem UTF 32. U njemu su 32 bita dodijeljena za kodiranje 1 znaka, što čini 4 bajta informacija. Glavni nedostatak je bio naglo povećanje količine potrebne memorije za čak 4 puta, što je za sobom povlačilo mnoge probleme.

Istovremeno, za većinu zemalja sa službenim jezicima koji pripadaju indoevropskoj grupi, broj znakova jednak 2 32 je više nego suvišan.

Kao rezultat daljeg rada stručnjaka iz Unicode konzorcijuma, pojavio se UTF-16 kodiranje. Postala je opcija za transformaciju simboličkih informacija koja je svima odgovarala i po količini potrebne memorije i po broju kodiranih znakova. Zbog toga je UTF-16 prihvaćen po defaultu i zahtijeva da se za jedan znak rezerviraju 2 bajta.

Čak je i ova prilično napredna i uspješna verzija "Unicode-a" imala neke nedostatke, a nakon prelaska sa proširene verzije ASCII na UTF-16 udvostručila je težinu dokumenta.

S tim u vezi, odlučeno je da se koristi kodiranje promjenjive dužine UTF-8. U ovom slučaju, svaki znak izvornog teksta je kodiran nizom od 1 do 6 bajtova.

Odnos sa američkim standardnim kodom za razmjenu informacija

Svi znakovi latinice u UTF-8 varijabilne dužine kodirani su u 1 bajt, kao u ASCII sistemu kodiranja.

Posebnost UTP-8 je da u slučaju teksta na latinici bez korištenja drugih znakova, čak i programi koji ne razumiju "Unicode" će vam i dalje omogućiti da ga pročitate. Drugim riječima, osnovni dio ASCII kodiranja teksta jednostavno se spaja u novi UTF promjenjive dužine. Ćirilični znakovi u UTP-8 zauzimaju 2 bajta, a, na primjer, gruzijski - 3 bajta. Kreiranje UTF-16 i 8 riješilo je glavni problem stvaranja jedinstvenog kodnog prostora u fontovima. Od tada, proizvođači fontova mogu popuniti tabelu samo vektorskim oblicima tekstualnih znakova na osnovu svojih potreba.

Na različitim operativnim sistemima preferiraju se različita kodiranja. Da biste mogli čitati i uređivati ​​tekstove ukucane u drugom kodiranju, koriste se ruski programi za konverziju teksta. Neki uređivači teksta sadrže ugrađene transkodere i omogućavaju vam čitanje teksta bez obzira na kodiranje.

Sada znate koliko znakova ima u ASCII-u i kako i zašto je razvijen. Naravno, danas je najrašireniji standard u svijetu "Unicode". Međutim, ne smijemo zaboraviti da je kreiran na bazi ASCII-a, stoga treba cijeniti doprinos njegovih programera na polju IT-a.

Kao što znate, računar pohranjuje informacije u binarnom obliku, predstavljajući ih kao niz jedinica i nula. Za prevođenje informacija u oblik koji je prikladan za ljudsku percepciju, svaki jedinstveni niz brojeva zamjenjuje se odgovarajućim simbolom kada se prikaže.

Jedan od sistema za korelaciju binarnih kodova sa ispisnim i kontrolnim znakovima je

Na sadašnjem nivou razvoja računarske tehnologije, korisnik nije obavezan da zna šifru svakog specifičnog simbola. Međutim, opće razumijevanje načina na koji se provodi kodiranje je izuzetno korisno, a za neke kategorije stručnjaka čak i neophodno.

ASCII kreiranje

U svom izvornom obliku, kodiranje je razvijeno 1963. godine, a zatim dva puta ažurirano u roku od 25 godina.

U originalnoj verziji, ASCII tablica znakova je sadržavala 128 znakova, kasnije se pojavila proširena verzija, gdje je prvih 128 znakova sačuvano, a prethodno odsutni znakovi su dodijeljeni kodovima sa uključenim osmim bitom.

Dugi niz godina ovo kodiranje je bilo najpopularnije na svijetu. 2006. godine latinica 1252 zauzima vodeću poziciju, a od kraja 2007. do danas, Unicode čvrsto drži vodeću poziciju.

ASCII kompjuterska reprezentacija

Svaki ASCII znak ima svoj vlastiti kod od 8 znakova koji predstavljaju nulu ili jedan. Minimalni broj u takvoj reprezentaciji je nula (osam nula u binarnom sistemu), što je kod prvog elementa u tabeli.

Dva koda u tabeli bila su rezervirana za prebacivanje između standardnog US-ASCII i njegove nacionalne verzije.

Nakon što je ASCII počeo da uključuje ne 128, već 256 znakova, varijanta kodiranja je postala široko rasprostranjena, u kojoj je originalna verzija tablice sačuvana u prvih 128 kodova sa nultim 8. bitom. U gornjoj polovini tabele (pozicije 128-255) zadržani su znaci nacionalnog pisma.

Korisnik ne mora direktno znati ASCII znakovne kodove. Obično je dovoljno da programer softvera zna broj elementa u tabeli kako bi izračunao njegov kod koristeći binarni sistem, ako je potrebno.

ruski jezik

Nakon razvoja kodiranja za skandinavske jezike, kineski, korejski, grčki, itd. početkom 70-ih, Sovjetski Savez je također počeo stvarati svoju verziju. Ubrzo je razvijena verzija 8-bitnog kodiranja pod nazivom KOI8, koja čuva prvih 128 ASCII znakovnih kodova i dodjeljuje isti broj pozicija za slova nacionalne abecede i dodatne znakove.

Prije uvođenja Unicode-a, KOI8 je dominirao ruskim segmentom interneta. Postojale su opcije kodiranja i za rusko i za ukrajinsko pismo.

ASCII problemi

Budući da broj elemenata čak ni u proširenoj tabeli nije prelazio 256, nije postojala mogućnost smještaja nekoliko različitih skripti u jednom kodiranju. Devedesetih godina u Runetu se pojavio problem "crocozyabra", kada su tekstovi ukucani ruskim ASCII znakovima bili pogrešno prikazani.

Problem je bio u tome što se kodovi različitih ASCII varijanti nisu podudarali. Podsjetimo da su pozicije 128-255 mogle sadržavati različite znakove, a prilikom promjene jednog ćiriličnog kodiranja u drugi, sva slova teksta su zamijenjena drugim s identičnim brojem u drugoj verziji kodiranja.

Trenutna drzava

Sa pojavom Unicode-a, popularnost ASCII-a je naglo opala.

Razlog tome leži u činjenici da je novo kodiranje omogućilo prilagođavanje znakova gotovo svih pisanih jezika. U ovom slučaju, prvih 128 ASCII znakova odgovara istim znakovima u Unicode-u.

Godine 2000. ASCII je bio najpopularniji kodiranje na Internetu i korišten je na 60% web stranica koje je indeksirao Google. Do 2012. godine udio takvih stranica je pao na 17%, a Unicode (UTF-8) je zauzeo mjesto najpopularnijeg kodiranja.

Dakle, ASCII je važan dio povijesti informatičke tehnologije, ali se njegova upotreba u budućnosti smatra neperspektivnom.

Prema podacima Međunarodne unije za telekomunikacije, 2016. godine, tri i po milijarde ljudi koristilo je internet s različitom redovnošću. Većina njih i ne razmišlja o tome da su sve poruke koje šalju preko računara ili mobilnih uređaja, kao i tekstovi koji se prikazuju na svim vrstama monitora, zapravo kombinacije 0 i 1. Ovakav prikaz informacija naziva se kodiranje . Omogućava i uvelike olakšava njegovo skladištenje, obradu i prijenos. Godine 1963. razvijeno je američko ASCII kodiranje, čemu je i posvećen ovaj članak.

Prezentacija informacija u kompjuteru

Sa stanovišta svakog elektronskog računara, tekst je skup pojedinačnih znakova. To uključuje ne samo slova, uključujući velika slova, već i znakove interpunkcije i brojeve. Osim toga, koriste se posebni znakovi "=", "&", "(" i razmaci.

Skup simbola koji čine tekst naziva se abeceda, a njihov broj kardinalitet (označen kao N). Da bi se to definiralo, koristi se izraz N = 2 ^ b, gdje je b broj bitova ili informacijska težina određenog karaktera.

Dokazano je da abeceda kapaciteta 256 znakova može predstavljati sve potrebne znakove.

Pošto je 256 8. stepen dvojke, težina svakog znaka je 8 bita.

Mjerna jedinica od 8 bita naziva se 1 bajt, pa je uobičajeno reći da bilo koji znak u tekstu pohranjenom na računaru zauzima jedan bajt memorije.

Kako se radi kodiranje

Bilo koji tekst se unosi u memoriju personalnog računara pomoću tastera na tastaturi na kojima su ispisani brojevi, slova, interpunkcijski znaci i drugi simboli. Oni se prenose u RAM u binarnom kodu, odnosno svaki znak je povezan sa decimalnim kodom poznatim ljudima, od 0 do 255, što odgovara binarnom kodu - od 00000000 do 11111111.

Kodiranje znakova u bajtu omogućava procesoru teksta da pristupi svakom karakteru zasebno. U isto vrijeme, 256 znakova je dovoljno za predstavljanje bilo koje informacije o karakteru.

ASCII kodiranje znakova

Ova skraćenica na engleskom znači kod za razmjenu informacija.

Čak i u zoru kompjuterizacije, postalo je očigledno da možete smisliti širok izbor načina za kodiranje informacija. Međutim, za prijenos informacija s jednog računala na drugi, bilo je potrebno razviti jedinstveni standard. Tako se 1963. godine u Sjedinjenim Državama pojavila ASCII tablica kodiranja. U njemu je bilo koji simbol kompjuterske abecede povezan sa njegovim rednim brojem u binarnom prikazu. U početku se ASCII koristio samo u Sjedinjenim Državama, a kasnije je postao međunarodni standard za PC.

ASCII kodovi su podijeljeni u 2 dijela. Samo prva polovina ove tabele se smatra međunarodnim standardom. Sadrži znakove sa rednim brojevima od 0 (kodirano kao 00000000) do 127 (šifra 01111111).

Serijski broj

ASCII kodiranje teksta

Simbol

0000 0000 - 0001 1111

Znakovi sa N od 0 do 31 nazivaju se kontrolni znakovi. Njihova funkcija je da „vode“ proces prikazivanja teksta na monitoru ili uređaju za štampanje, daju zvučni signal itd.

0010 0000 - 0111 1111

Znakovi sa N od 32 do 127 (standardni dio tabele) - velika i mala slova latinice, 10-cifreni brojevi, znaci interpunkcije, kao i razni zagrade, komercijalni i drugi simboli. Znak 32 označava razmak.

1000 0000 - 1111 1111

Znakovi sa N od 128 do 255 (alternativni dio tabele ili kodne stranice) mogu imati različite varijante, od kojih svaka ima svoj broj. Kodna stranica se koristi za određivanje nacionalnih alfabeta koje se razlikuju od latinice. Konkretno, uz njegovu pomoć se provodi ASCII kodiranje za ruske znakove.

U tablici kodiranja, velika slova i slijede jedan za drugim abecednim redom, a brojevi - uzlaznim redoslijedom vrijednosti. Ovaj princip važi i za rusko pismo.

Kontrolni znakovi

ASCII tablica kodiranja prvobitno je kreirana za primanje i prijenos informacija na takvom uređaju koji se dugo nije koristio, kao što je teletip. S tim u vezi, znakovi koji se ne mogu štampati su uključeni u skup znakova, koji se koriste kao komande za kontrolu ovog uređaja. Slične komande su korištene u takvim metodama razmjene poruka prije kompjutera kao što su Morzeov kod, itd.

Najčešći "teletip" znak je NUL (00, "nula"). Još uvijek se koristi u većini programskih jezika do danas, označavajući terminator linije.

Gdje se koristi ASCII kodiranje?

Američki standardni kod je potreban za više od samog unosa tekstualnih informacija sa tastature. Takođe se koristi u grafici. Konkretno, u ASCII Art Maker-u, slike različitih ekstenzija predstavljaju spektar ASCII znakova.

Takvi proizvodi su dvije vrste: oni obavljaju funkciju grafičkih uređivača tako što pretvaraju slike u tekst i pretvaraju "slike" u ASCII grafiku. Na primjer, poznati emotikon je odličan primjer kodirajućeg karaktera.

ASCII se također može koristiti prilikom kreiranja HTML dokumenta. U tom slučaju možete unijeti određeni skup znakova, a prilikom pregleda stranice na ekranu će se pojaviti znak koji odgovara ovom kodu.

ASCII je takođe neophodan za kreiranje višejezičnih sajtova, pošto se znakovi koji nisu uključeni u određenu nacionalnu tabelu zamenjuju ASCII kodovima.

Neke karakteristike

Za kodiranje tekstualnih informacija u ASCII kodiranju prvobitno je korišteno 7 bitova (jedan je ostavljen prazan), ali danas radi kao 8-bitni.

Slova u gornjem i donjem stupcu razlikuju se jedno od drugog za samo jedan bit. Ovo uvelike smanjuje složenost provjere.

Korišćenje ASCII-a u Microsoft Office-u

Ako je potrebno, ovaj tip kodiranja teksta može se koristiti u Microsoft uređivačima teksta kao što su Notepad i Office Word. Međutim, prilikom kucanja u ovom slučaju, neke funkcije neće biti moguće koristiti. Na primjer, nećete moći podebljati, jer ASCII samo čuva značenje informacija, zanemarujući njihov opći izgled i oblik.

Standardizacija

ISO organizacija je usvojila standarde ISO 8859. Ova grupa definiše osmobitna kodiranja za različite jezičke grupe. Konkretno, ISO 8859-1 je prošireni ASCII, što je tabela za Sjedinjene Države i Zapadnu Evropu. A ISO 8859-5 je tabela koja se koristi za ćirilično pismo, uključujući ruski jezik.

Iz brojnih istorijskih razloga, standard ISO 8859-5 je u upotrebi veoma kratko vreme.

Za ruski jezik se trenutno koriste kodiranja:

  • CP866 (kod stranice 866) ili DOS, koji se često naziva alternativnim GOST kodiranjem. Aktivno se koristio do sredine 90-ih godina prošlog stoljeća. Trenutno se praktično ne koristi.
  • KOI-8. Kodiranje je razvijeno 1970-80-ih i trenutno je općeprihvaćeni standard za poruke pošte na Runetu. Široko se koristi u OS porodice Unix, uključujući Linux. "Ruska" verzija KOI-8 zove se KOI-8R. Osim toga, postoje verzije za druge ćiriličke jezike, kao što je ukrajinski.
  • Kodna stranica 1251 (CP 1251, Windows - 1251). Razvijen od strane Microsofta za pružanje podrške za ruski jezik u Windows okruženju.

Glavna prednost prvog standarda CP866 bila je očuvanje pseudografskih znakova na istim pozicijama kao u proširenom ASCII-u. Ovo je omogućilo pokretanje bez izmjena stranih tekstualnih programa, kao što je dobro poznati Norton Commander. Trenutno se CP866 koristi za programe razvijene pod Windows-om koji rade u tekstualnom modu preko cijelog ekrana ili u tekstualnim prozorima, uključujući FAR Manager.

Kompjuterski tekstovi pisani u CP866 kodiranju su prilično rijetki u posljednje vrijeme, ali se upravo to kodiranje koristi za ruske nazive datoteka u Windows-u.

"Unicode"

U ovom trenutku, upravo je ovo kodiranje dobilo najširu upotrebu. Unicode kodovi su podijeljeni na područja. Prvi (U + 0000 do U + 007F) uključuje ASCII znakove sa kodovima. Zatim slijede područja znakova različitih nacionalnih pisama, kao i znakova interpunkcije i tehničkih simbola. Osim toga, neki od "Unicode" kodova su rezervirani u slučaju da u budućnosti bude potrebe za uključivanjem novih znakova.

Sada znate da je u ASCII-u svaki znak predstavljen kao kombinacija 8 nula i jedinica. Nespecijalistima ove informacije mogu izgledati nepotrebne i nezanimljive, ali zar ne želite da znate šta se dešava "u mozgu" vašeg računara ?!

Skup znakova kojim se piše tekst naziva se abeceda.

Broj znakova u abecedi je njegov moć.

Formula za određivanje količine informacija: N = 2 b,

gdje je N kardinalnost abecede (broj znakova),

b - broj bitova (informaciona težina karaktera).

Abeceda kapaciteta 256 znakova može primiti gotovo sve potrebne znakove. Ova abeceda se zove dovoljno.

Jer 256 = 2 8, tada je težina 1 znaka 8 bita.

8-bitna jedinica je dobila ime 1 bajt:

1 bajt = 8 bitova.

Binarni kod svakog znaka u kompjuterskom tekstu zauzima 1 bajt memorije.

Kako su tekstualne informacije predstavljene u memoriji računara?

Pogodnost bajt kodiranja znakova je očigledna, budući da je bajt najmanji adresabilni dio memorije i stoga procesor može pristupiti svakom karakteru zasebno, obavljajući obradu teksta. S druge strane, 256 znakova je sasvim dovoljan broj za predstavljanje širokog spektra informacija o znakovima.

Sada se postavlja pitanje kakvu vrstu osmobitnog binarnog koda povezati sa svakim znakom.

Jasno je da je ovo uslovna stvar, možete smisliti mnoge metode kodiranja.

Svi znakovi kompjuterske abecede su numerisani od 0 do 255. Svaki broj odgovara osmocifrenom binarnom kodu od 00000000 do 11111111. Ovaj kod je jednostavno redni broj znaka u binarnom sistemu.

Tabela u kojoj su svim znakovima kompjuterske abecede dodijeljeni serijski brojevi naziva se tabela kodiranja.

Za različite tipove računara koriste se različite tablice kodiranja.

Međunarodni standard za PC je postao stol ASCII(čitaj asci) (Američki standardni kod za razmjenu informacija).

ASCII tabela je podijeljena na dva dijela.

Međunarodni standard je samo prva polovina tabele, tj. simboli sa brojevima iz 0 (00000000), do 127 (01111111).

Struktura ASCII tablice kodiranja

Serijski broj

Kod

Simbol

0 - 31

00000000 - 00011111

Simboli s brojevima od 0 do 31 obično se nazivaju kontrolni znakovi.
Njihova funkcija je kontrola procesa prikazivanja teksta na ekranu ili štampanja, davanja zvučnog signala, označavanja teksta itd.

32 - 127

00100000 - 01111111

Standardni dio tabele (engleski). Ovo uključuje mala i velika slova latinice, decimalne cifre, znakove interpunkcije, sve vrste zagrada, komercijalne i druge simbole.
Znak 32 je razmak, tj. prazna pozicija u tekstu.
Svi ostali se ogledaju u određenim znacima.

128 - 255

10000000 - 11111111

Alternativni dio tabele (ruski).
Druga polovina tabele kodova ASCII, nazvana kodna stranica (128 kodova, počevši od 10000000 i završavajući sa 11111111), može imati različite varijante, svaka varijanta ima svoj broj.
Kodna stranica se prvenstveno koristi za smještaj nacionalnih alfabeta osim latinice. U ruskim nacionalnim kodovima, ovaj dio tabele sadrži simbole ruskog alfabeta.

Prva polovina ASCII tabele


Skrećem vam pažnju da su u tablici kodiranja slova (velika i mala slova) raspoređena abecednim redom, a brojevi rastućim redoslijedom vrijednosti. Ovo poštovanje leksikografskog reda u rasporedu znakova naziva se princip sekvencijalnog kodiranja abecede.

Za slova ruske abecede također se poštuje princip sekvencijalnog kodiranja.

Druga polovina ASCII tabele


Nažalost, trenutno postoji pet različitih ćiriličkih kodiranja (KOI8-R, Windows. MS-DOS, Macintosh i ISO). Zbog toga često nastaju problemi sa prenosom ruskog teksta sa jednog računara na drugi, iz jednog softverskog sistema u drugi.

Hronološki, jedan od prvih standarda za kodiranje ruskih slova na računarima bio je KOI8 („Kod za razmjenu informacija, 8-bitni“). Ovo kodiranje je korišćeno još 70-ih godina na računarima serije računara ES, a od sredine 80-ih počelo je da se koristi u prvim rusifikovanim verzijama UNIX operativnog sistema.

Od početka 90-ih, vremena dominacije operativnog sistema MS DOS, ostaje CP866 kodiranje („CP“ znači „Code Page“).

Apple računari koji koriste Mac OS koriste vlastito Mac kodiranje.

Pored toga, Međunarodna organizacija za standardizaciju (International Standards Organization, ISO) odobrila je još jedno kodiranje pod nazivom ISO 8859-5 kao standard za ruski jezik.

Trenutno, najčešće kodiranje je Microsoft Windows, skraćeno CP1251.

Od kasnih 90-ih, problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda tzv. Unicode... Ovo je 16-bitno kodiranje, tj. dodjeljuje 2 bajta memorije za svaki znak. Naravno, ovo udvostručuje količinu korištene memorije. Ali s druge strane, takva kodna tabela omogućava uključivanje do 65536 znakova. Kompletna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene alfabete svijeta, kao i mnoge matematičke, muzičke, hemijske i druge simbole.

Pokušajmo koristiti ASCII tablicu da zamislimo kako će riječi izgledati u memoriji računara.

Interno predstavljanje riječi u memoriji računara

Ponekad se desi da se tekst koji se sastoji od slova ruske abecede, primljen sa drugog računara, ne može pročitati - na ekranu monitora je vidljiva neka vrsta "blebetanja". To je zbog činjenice da računari koriste različito kodiranje znakova ruskog jezika.

Top srodni članci