Dec | Hex | Simbol | Dec | Hex | Simbol | |
000 | 00 | specialist. NOP | 128 | 80 | Ђ | |
001 | 01 | specialist. DECI H | 129 | 81 | Ѓ | |
002 | 02 | specialist. STX | 130 | 82 | ‚ | |
003 | 03 | specialist. ETX | 131 | 83 | ѓ | |
004 | 04 | specialist. EOT | 132 | 84 | „ | |
005 | 05 | specialist. ENQ | 133 | 85 | … | |
006 | 06 | specialist. ACK | 134 | 86 | † | |
007 | 07 | specialist. BEL | 135 | 87 | ‡ | |
008 | 08 | specialist. BS | 136 | 88 | € | |
009 | 09 | specialist. TAB | 137 | 89 | ‰ | |
010 | 0A | specialist. LF | 138 | 8A | Љ | |
011 | 0B | specialist. VT | 139 | 8B | ‹ ‹ | |
012 | 0C | specialist. FF | 140 | 8C | Њ | |
013 | 0D | specialist. CR | 141 | 8 D | Ќ | |
014 | 0E | specialist. ASA DE | 142 | 8E | Ћ | |
015 | 0F | specialist. SI | 143 | 8F | Џ | |
016 | 10 | specialist. DLE | 144 | 90 | ђ | |
017 | 11 | specialist. DC1 | 145 | 91 | ‘ | |
018 | 12 | specialist. DC2 | 146 | 92 | ’ | |
019 | 13 | specialist. DC3 | 147 | 93 | “ | |
020 | 14 | specialist. DC4 | 148 | 94 | ” | |
021 | 15 | specialist. NAK | 149 | 95 | ||
022 | 16 | specialist. SYN | 150 | 96 | – | |
023 | 17 | specialist. ETB | 151 | 97 | — | |
024 | 18 | specialist. POATE SA | 152 | 98 | ||
025 | 19 | specialist. EM | 153 | 99 | ™ | |
026 | 1A | specialist. SUB | 154 | 9A | љ | |
027 | 1B | specialist. ESC | 155 | 9B | › | |
028 | 1C | specialist. FS | 156 | 9C | њ | |
029 | 1D | specialist. GS | 157 | 9D | ќ | |
030 | 1E | specialist. Rs | 158 | 9E | ћ | |
031 | 1F | specialist. S.U.A. | 159 | 9F | џ | |
032 | 20 | ambreiaj SP (Spațiu) | 160 | A0 | ||
033 | 21 | ! | 161 | A1 | Ў | |
034 | 22 | " | 162 | A2 | ў | |
035 | 23 | # | 163 | A3 | Ћ | |
036 | 24 | $ | 164 | A4 | ¤ | |
037 | 25 | % | 165 | A5 | Ґ | |
038 | 26 | & | 166 | A6 | ¦ | |
039 | 27 | " | 167 | A7 | § | |
040 | 28 | ( | 168 | A8 | Eu | |
041 | 29 | ) | 169 | A9 | © | |
042 | 2A | * | 170 | AA | Є | |
043 | 2B | + | 171 | AB | « | |
044 | 2C | , | 172 | AC | ¬ | |
045 | 2D | - | 173 | ANUNȚ | | |
046 | 2E | . | 174 | AE | ® | |
047 | 2F | / | 175 | AF | Ї | |
048 | 30 | 0 | 176 | B0 | ° | |
049 | 31 | 1 | 177 | B1 | ± | |
050 | 32 | 2 | 178 | B2 | І | |
051 | 33 | 3 | 179 | B3 | і | |
052 | 34 | 4 | 180 | B4 | ґ | |
053 | 35 | 5 | 181 | B5 | µ | |
054 | 36 | 6 | 182 | B6 | ¶ | |
055 | 37 | 7 | 183 | B7 | · | |
056 | 38 | 8 | 184 | B8 | e | |
057 | 39 | 9 | 185 | B9 | № | |
058 | 3A | : | 186 | BA | є | |
059 | 3B | ; | 187 | BB | » | |
060 | 3C | < | 188 | î.Hr | ј | |
061 | 3D | = | 189 | BD | Ѕ | |
062 | 3E | > | 190 | FI | ѕ | |
063 | 3F | ? | 191 | Bf | ї | |
064 | 40 | @ | 192 | C0 | A | |
065 | 41 | A | 193 | C1 | B | |
066 | 42 | B | 194 | C2 | V | |
067 | 43 | C | 195 | C3 | G | |
068 | 44 | D | 196 | C4 | D | |
069 | 45 | E | 197 | C5 | E | |
070 | 46 | F | 198 | C6 | F | |
071 | 47 | G | 199 | C7 | Z | |
072 | 48 | H | 200 | C8 | ȘI | |
073 | 49 | eu | 201 | C9 | Th | |
074 | 4A | J | 202 | CA | LA | |
075 | 4B | K | 203 | CB | L | |
076 | 4C | L | 204 | CC | M | |
077 | 4D | M | 205 | CD | N | |
078 | 4E | N | 206 | CE | O | |
079 | 4F | O | 207 | CF | P | |
080 | 50 | P | 208 | D0 | R | |
081 | 51 | Q | 209 | D1 | CU | |
082 | 52 | R | 210 | D2 | T | |
083 | 53 | S | 211 | D3 | Avea | |
084 | 54 | T | 212 | D4 | F | |
085 | 55 | U | 213 | D5 | X | |
086 | 56 | V | 214 | D6 | C | |
087 | 57 | W | 215 | D7 | H | |
088 | 58 | X | 216 | D8 | SH | |
089 | 59 | Y | 217 | D9 | SCH | |
090 | 5A | Z | 218 | DA | B | |
091 | 5B | [ | 219 | DB | S | |
092 | 5C | \ | 220 | DC | B | |
093 | 5D | ] | 221 | DD | E | |
094 | 5E | ^ | 222 | DE | YU | |
095 | 5F | _ | 223 | DF | EU SUNT | |
096 | 60 | ` | 224 | E0 | A | |
097 | 61 | A | 225 | E1 | b | |
098 | 62 | b | 226 | E2 | v | |
099 | 63 | c | 227 | E3 | G | |
100 | 64 | d | 228 | E4 | d | |
101 | 65 | e | 229 | E5 | e | |
102 | 66 | f | 230 | E6 | f | |
103 | 67 | g | 231 | E7 | s | |
104 | 68 | h | 232 | E8 | și | |
105 | 69 | i | 233 | E9 | al | |
106 | 6A | j | 234 | EA | La | |
107 | 6B | k | 235 | EB | l | |
108 | 6C | l | 236 | EC | m | |
109 | 6D | m | 237 | ED | n | |
110 | 6E | n | 238 | EE | O | |
111 | 6F | o | 239 | EF | P | |
112 | 70 | p | 240 | F0 | R | |
113 | 71 | q | 241 | F1 | Cu | |
114 | 72 | r | 242 | F2 | T | |
115 | 73 | s | 243 | F3 | la | |
116 | 74 | t | 244 | F4 | f | |
117 | 75 | u | 245 | F5 | X | |
118 | 76 | v | 246 | F6 | c | |
119 | 77 | w | 247 | F7 | h | |
120 | 78 | X | 248 | F8 | w | |
121 | 79 | y | 249 | F9 | SCH | |
122 | 7A | z | 250 | FA | b | |
123 | 7B | { | 251 | FB | s | |
124 | 7C | | | 252 | FC | b | |
125 | 7D | } | 253 | FD | eh | |
126 | 7E | ~ | 254 | FE | Yu | |
127 | 7F | Specialist. DEL | 255 | FF | eu sunt |
Tabelul de coduri de caractere ASCII Windows.
Descrierea caracterelor speciale (de control).
De menționat că inițial caracterele de control ale tabelului ASCII au fost folosite pentru a asigura schimbul de date prin teletip, introducerea datelor de pe bandă perforată și pentru cel mai simplu control al dispozitivelor externe. În prezent, majoritatea caracterelor de control ASCII din tabel nu mai poartă această sarcină și pot fi utilizate în alte scopuri.
Codul | Descriere |
---|---|
NUL, 00 | Nulă, goală |
SOH, 01 | Start Of Heading, începutul titlului |
STX, 02 | Începutul textului, începutul textului. |
ETX, 03 | Sfârșitul textului, sfârșitul textului |
EOT, 04 | Sfârșitul transmisiei, sfârșitul transmisiei |
ENQ, 05 | Întreba. Cer confirmare |
ACK, 06 | Confirmare. confirm |
BEL, 07 | Clopot, clopot |
BS, 08 | Backspace, întoarceți un caracter înapoi |
TAB, 09 | Filă, filă orizontală |
LF, 0A | Line Feed, line feed. Acum, în majoritatea limbajelor de programare este notat ca \ n |
VT, 0B | Filă verticală, filă verticală. |
FF, 0C | Feed de formulare, Feed de pagină, pagină nouă |
CR, 0D | Retur transport Acum, în majoritatea limbajelor de programare este notat ca \ r |
deci, 0E | Shift Out, schimbați culoarea benzii de cerneală din dispozitivul de imprimare |
SI, 0F | Schimbați, întoarceți înapoi culoarea benzii de cerneală din dispozitivul de imprimare |
DLE, 10 | Data Link Escape, comutați canalul la transmisia de date |
DC1, 11 DC2, 12 DC3, 13 DC4, 14 | Controlul dispozitivului, simboluri de control al dispozitivului |
NAK, 15 | Recunoaștere negativă, nu recunosc. |
SYN, 16 | Sincronizare. Simbol de sincronizare |
ETB, 17 | Sfârșitul blocului de text, sfârșitul blocului de text |
CAN, 18 | Anulare, anularea unuia trecut anterior |
EM, 19 | Sfârșitul mediului, sfârșitul suportului de date |
SUB, 1A | Substitui Plasat în locul unui personaj a cărui valoare a fost pierdută sau coruptă în timpul transmiterii |
ESC, 1B | Secvență de evacuare |
FS, 1C | Separator de fișiere, separator de fișiere |
GS, 1D | Separator de grup, separator de grup |
RS, 1E | Separator de înregistrări, separator de înregistrări |
SUA, 1F | Separator de unități, separator de unități |
DEL, 7F | Șterge, șterge ultimul caracter. |
Un computer înțelege procesul de transformare a acestuia într-o formă care permite organizarea unui transfer, stocare sau prelucrare automată mai convenabilă a acestor date. În acest scop, se folosesc diverse tabele. Codificarea ASCII este primul sistem dezvoltat în Statele Unite pentru lucrul cu text în limba engleză, care a devenit ulterior răspândit în întreaga lume. Articolul de mai jos este dedicat descrierii, caracteristicilor, proprietăților și utilizării ulterioare.
Afișarea și stocarea informațiilor într-un computer
Simbolurile de pe un monitor de computer sau unul sau altul gadget digital mobil sunt formate pe baza unor seturi de forme vectoriale de tot felul de semne și a unui cod care vă permite să găsiți printre ele simbolul care trebuie introdus la locul potrivit. Este o serie de biți. Astfel, fiecare caracter trebuie să corespundă în mod unic unui set de zerouri și unu, care stau într-o ordine specifică, unică.
Cum a început totul
Din punct de vedere istoric, primele computere au fost în limba engleză. Pentru a codifica informațiile simbolice în ele, a fost suficient să folosiți doar 7 biți de memorie, în timp ce în acest scop a fost alocat 1 octet, format din 8 biți. Numărul de caractere înțeles de computer în acest caz a fost egal cu 128. Numărul de astfel de caractere includea alfabetul englez cu semnele de punctuație, numerele și unele caractere speciale. Codificarea pe șapte biți în limba engleză cu tabelul corespunzătoare (pagina de cod), dezvoltată în 1963, a fost denumită Codul standard american pentru schimbul de informații. De obicei, abrevierea „codificare ASCII” a fost folosită pentru a o desemna și este încă folosită până în prezent.
Trecerea la multilingvism
De-a lungul timpului, computerele au devenit utilizate pe scară largă și în țările care nu vorbesc engleza. În acest sens, era nevoie de codificări care să permită utilizarea limbilor naționale. S-a decis să nu se reinventeze roata și să se ia ca bază ASCII. Tabelul de codificare din noua ediție s-a extins semnificativ. Utilizarea celui de-al 8-lea bit a făcut posibilă traducerea a 256 de caractere în limbajul computerului.
Descriere
Codificarea ASCII are un tabel care este împărțit în 2 părți. Doar prima jumătate este considerată a fi standardul internațional general acceptat. Include:
- Caractere cu numere ordinale de la 0 la 31, codificate prin secvențe de la 00000000 la 00011111. Sunt rezervate caracterelor de control care controlează procesul de afișare a textului pe ecran sau imprimantă, oferind un semnal sonor etc.
- Caracterele cu NN în tabelul de la 32 la 127, codificate prin secvențe de la 00100000 la 01111111, constituie partea standard a tabelului. Acestea includ un spațiu (N 32), litere ale alfabetului latin (minuscule și majuscule), numere din zece cifre de la 0 la 9, semne de punctuație, paranteze de diferite stiluri și alte simboluri.
- Caractere cu numere ordinale de la 128 la 255, codificate prin secvențe de la 10000000 la 11111111. Acestea includ litere ale alfabetului național, altele decât cele latine. În această parte alternativă a tabelului este folosită codificarea ASCII pentru a converti caracterele rusești în formă de computer.
Unele proprietăți
Particularitățile codificării ASCII includ diferența dintre literele „A” - „Z” ale literelor mici și mari de doar un bit. Această împrejurare simplifică foarte mult conversia registrului, precum și verificarea apartenenței acestuia la intervalul specificat de valori. În plus, toate literele din sistemul de codare ASCII sunt reprezentate prin numerele lor ordinale proprii în alfabet, care sunt scrise în 5 cifre în notație binară, precedate de 011 2 pentru literele mici și 010 2 pentru litere mari.
Printre caracteristicile codificării ASCII poate fi considerată reprezentarea a 10 cifre - „0” - „9”. În al doilea sistem de numere, ele încep cu 00112 și se termină cu 2 numere. De exemplu, 0101 2 este echivalent cu zecimala cinci, deci caracterul „5” este scris ca 0011 01012. Pe baza acestui lucru, puteți converti cu ușurință BCD-urile într-un șir ASCII adăugând 00112 la fiecare nibble din stânga.
„Unicode”
După cum știți, sunt necesare mii de caractere pentru a afișa texte în limbile grupului din Asia de Sud-Est. Un astfel de număr dintre ele nu este în niciun fel descris într-un octet de informații, așa că nici măcar versiunile ASCII extinse nu ar mai putea satisface nevoile crescute ale utilizatorilor din diferite țări.
Astfel, a apărut necesitatea creării unei codări universale a textului, care a fost dezvoltată de consorțiul Unicode în cooperare cu mulți lideri ai industriei IT globale. Specialiștii săi au creat sistemul UTF 32. În acesta, au fost alocați 32 de biți pentru codificarea unui caracter, alcătuind 4 octeți de informații. Principalul dezavantaj a fost o creștere bruscă a cantității de memorie necesară de până la 4 ori, ceea ce a implicat multe probleme.
În același timp, pentru majoritatea țărilor cu limbi oficiale aparținând grupului indo-european, numărul de caractere egal cu 232 este mai mult decât redundant.
Ca urmare a lucrărilor ulterioare ale specialiștilor din consorțiul Unicode, a apărut codificarea UTF-16. A devenit opțiunea de transformare a informațiilor simbolice care se potrivea tuturor atât în ceea ce privește cantitatea de memorie necesară, cât și numărul de caractere codificate. De aceea, UTF-16 a fost acceptat implicit și necesită 2 octeți pentru a fi rezervați pentru un caracter.
Chiar și această versiune destul de avansată și de succes a „Unicode” a avut unele dezavantaje, iar după trecerea de la versiunea extinsă a ASCII la UTF-16 a dublat greutatea documentului.
În acest sens, s-a decis să se utilizeze codificarea cu lungime variabilă UTF-8. În acest caz, fiecare caracter al textului sursă este codificat cu o secvență de 1 până la 6 octeți.
Comunicare cu codul standard american pentru schimbul de informații
Toate caracterele alfabetului latin în UTF-8 de lungime variabilă sunt codificate pe 1 octet, ca în sistemul de codare ASCII.
Particularitatea UTP-8 este că, în cazul unui text în latină fără a utiliza alte caractere, chiar și programele care nu înțeleg „Unicode” vă vor permite totuși să-l citiți. Cu alte cuvinte, partea de bază a codificării textului ASCII este pur și simplu îmbinată în noul UTF cu lungime variabilă. Caracterele chirilice în UTP-8 ocupă 2 octeți și, de exemplu, cele georgiane - 3 octeți. Crearea UTF-16 și 8 a rezolvat principala problemă a creării unui singur spațiu de cod în fonturi. De atunci, producătorii de fonturi pot completa tabelul doar cu forme vectoriale de caractere text în funcție de nevoile lor.
Sunt preferate diferite codificări pe sisteme de operare diferite. Pentru a putea citi și edita textele tastate într-o altă codificare, se folosesc programe de conversie a textului rusesc. Unele editoare de text conțin transcoduri încorporate și vă permit să citiți text indiferent de codificare.
Acum știi câte caractere sunt în ASCII și cum și de ce a fost dezvoltat. Desigur, astăzi cel mai răspândit standard în lume este „Unicode”. Totuși, nu trebuie să uităm că a fost creat pe baza ASCII, prin urmare, trebuie apreciată contribuția dezvoltatorilor săi în domeniul IT.
După cum știți, un computer stochează informații în formă binară, reprezentând-o ca o secvență de unu și zero. Pentru a traduce informațiile într-o formă convenabilă pentru percepția umană, fiecare secvență unică de numere este înlocuită cu simbolul corespunzător atunci când este afișată.
Unul dintre sistemele de corelare a codurilor binare cu caractere imprimabile și de control este
La nivelul actual de dezvoltare a tehnologiei informatice, utilizatorului nu i se cere să cunoască codul fiecărui simbol specific. Cu toate acestea, o înțelegere generală a modului în care se realizează codificarea este extrem de utilă, iar pentru unele categorii de specialiști chiar necesară.
Creare ASCII
În forma sa originală, codificarea a fost dezvoltată în 1963 și apoi actualizată de două ori în 25 de ani.
În versiunea originală, tabelul de caractere ASCII includea 128 de caractere, ulterior a apărut o versiune extinsă, în care au fost salvate primele 128 de caractere, iar caracterele absente anterior au fost atribuite codurilor cu al optulea bit implicat.
De mulți ani, această codificare a fost cea mai populară din lume. În 2006, Latin 1252 a ocupat poziția de lider, iar de la sfârșitul lui 2007 până în prezent, Unicode a deținut ferm poziția de lider.
Reprezentare pe computer ASCII
Fiecare caracter ASCII are propriul cod de 8 caractere reprezentând zero sau unu. Numărul minim într-o astfel de reprezentare este zero (opt zerouri în sistemul binar), care este codul primului element din tabel.
Două coduri din tabel au fost rezervate pentru comutarea între standardul US-ASCII și versiunea sa națională.
După ce ASCII a început să includă nu 128, ci 256 de caractere, s-a răspândit o variantă de codificare, în care versiunea originală a tabelului a fost salvată în primele 128 de coduri cu un al 8-lea bit zero. Semnele scrisului național au fost păstrate în jumătatea superioară a tabelului (pozițiile 128-255).
Utilizatorul nu trebuie să cunoască direct codurile de caractere ASCII. De obicei, este suficient ca un dezvoltator de software să cunoască numărul unui element dintr-un tabel pentru a-și calcula codul folosind un sistem binar, dacă este necesar.
Limba rusă
După dezvoltarea codificărilor pentru limbile scandinave, chineză, coreeană, greacă etc., la începutul anilor '70, Uniunea Sovietică a început să-și creeze propria versiune. În curând, a fost dezvoltată o versiune a codificării pe 8 biți numită KOI8, care păstrează primele 128 de coduri de caractere ASCII și alocă același număr de poziții pentru literele alfabetului național și caractere suplimentare.
Înainte de introducerea Unicode, KOI8 domina segmentul rus al internetului. Au existat opțiuni de codare atât pentru alfabetul rus, cât și pentru cel ucrainean.
Probleme ASCII
Deoarece numărul de elemente chiar și în tabelul extins nu a depășit 256, nu a existat nicio posibilitate de a găzdui mai multe scripturi diferite într-o singură codificare. În anii 90, problema „crocozyabr” a apărut în Runet, când textele tastate cu caractere ASCII rusești erau afișate incorect.
Problema a fost că codurile diferitelor variante ASCII nu se potriveau între ele. Amintiți-vă că pozițiile 128-255 ar putea conține caractere diferite, iar la schimbarea unei codări chirilice cu alta, toate literele textului au fost înlocuite cu altele având un număr identic într-o versiune diferită a codificării.
Starea curenta
Odată cu apariția Unicode, popularitatea ASCII a scăzut brusc.
Motivul pentru aceasta constă în faptul că noua codificare a făcut posibilă găzduirea semnelor aproape tuturor limbilor scrise. În acest caz, primele 128 de caractere ASCII corespund acelorași caractere în Unicode.
În 2000, ASCII era cea mai populară codare de pe Internet și era folosită în 60% din paginile web indexate de Google. Până în 2012, ponderea acestor pagini a scăzut la 17%, iar Unicode (UTF-8) a luat locul celei mai populare codări.
Astfel, ASCII este o parte importantă a istoriei tehnologiei informației, dar utilizarea sa în viitor este văzută ca nepromițătoare.
Potrivit Uniunii Internaționale de Telecomunicații, în 2016, trei miliarde și jumătate de oameni au folosit internetul cu o regularitate diferită. Majoritatea dintre ei nici măcar nu se gândesc la faptul că orice mesaje trimise de ei prin intermediul computerelor sau gadgeturilor mobile, precum și textele care sunt afișate pe tot felul de monitoare, sunt de fapt combinații de 0 și 1. Această prezentare a informațiilor se numește codificare . Acesta asigură și facilitează foarte mult stocarea, prelucrarea și transmiterea acestuia. În 1963, a fost dezvoltată codarea ASCII americană, căreia îi este dedicat acest articol.
Prezentarea informațiilor într-un computer
Din punctul de vedere al oricărui computer electronic, textul este o colecție de caractere individuale. Acestea includ nu numai litere, inclusiv majuscule, ci și semne de punctuație și numere. În plus, sunt folosite caractere speciale „=", „&”, „(” și spații.
Setul de simboluri care alcătuiesc textul se numește alfabet, iar numărul lor se numește cardinalitate (notat cu N). Pentru a-l defini, se folosește expresia N = 2 ^ b, unde b este numărul de biți sau greutatea informațională a unui anumit caracter.
S-a dovedit că un alfabet cu o capacitate de 256 de caractere poate reprezenta toate caracterele necesare.
Deoarece 256 este a 8-a putere a doi, greutatea fiecărui caracter este de 8 biți.
Unitatea de măsură de 8 biți se numește 1 octet, deci se obișnuiește să spunem că orice caracter dintr-un text stocat pe un computer ocupă un octet de memorie.
Cum se face codarea
Orice texte sunt introduse în memoria unui computer personal prin intermediul tastelor de la tastatură pe care sunt scrise numere, litere, semne de punctuație și alte simboluri. Ele sunt transferate în RAM într-un cod binar, adică fiecare caracter este asociat cu un cod zecimal cunoscut oamenilor, de la 0 la 255, care corespunde unui cod binar - de la 00000000 la 11111111.
Codificarea caracterelor byte permite procesorului de text să acceseze fiecare caracter separat. În același timp, 256 de caractere sunt suficiente pentru a reprezenta orice informație despre caracter.
Codificarea caracterelor ASCII
Această abreviere în engleză înseamnă cod pentru schimbul de informații.
Chiar și în zorii computerizării, a devenit evident că puteți veni cu o mare varietate de moduri de a codifica informațiile. Cu toate acestea, pentru a transfera informații de la un computer la altul, a fost necesar să se dezvolte un singur standard. Deci, în 1963, în Statele Unite a apărut un tabel de codificare ASCII. În el, orice simbol al alfabetului computerului este asociat cu numărul său ordinal în reprezentare binară. Inițial, ASCII a fost folosit doar în Statele Unite și mai târziu a devenit standardul internațional pentru computere.
Codurile ASCII sunt împărțite în 2 părți. Doar prima jumătate a acestui tabel este considerată standard internațional. Include caractere cu numere ordinale de la 0 (codificat ca 00000000) la 127 (cod 01111111).
Număr de serie | Codificarea textului ASCII | Simbol |
0000 0000 - 0001 1111 | Caracterele cu N de la 0 la 31 se numesc caractere de control. Funcția lor este de a „ghida” procesul de afișare a textului pe un monitor sau dispozitiv de imprimare, de a da un semnal sonor etc. |
|
0010 0000 - 0111 1111 | Caractere cu N de la 32 la 127 (partea standard a tabelului) - litere mari și mici ale alfabetului latin, numere din 10 cifre, semne de punctuație, precum și diverse paranteze, simboluri comerciale și alte simboluri. Caracterul 32 denotă un spațiu. |
|
1000 0000 - 1111 1111 | Caracterele cu N de la 128 la 255 (parte alternativă a tabelului sau a paginii de cod) pot avea diferite variante, fiecare având propriul număr. Pagina de coduri este folosită pentru a specifica alfabetele naționale care sunt diferite de latină. În special, cu ajutorul acestuia se realizează codificarea ASCII pentru caracterele rusești. |
În tabelul de codificare, majuscule și urmează una după alta în ordine alfabetică, iar numerele - în ordinea crescătoare a valorilor. Acest principiu se aplică și alfabetului rus.
Personaje de control
Tabelul de codificare ASCII a fost creat inițial pentru a primi și transmite informații pe un astfel de dispozitiv care nu a fost folosit de mult timp, cum ar fi un teletype. În acest sens, în setul de caractere au fost incluse caractere neprintabile, folosite ca comenzi pentru a controla acest dispozitiv. Comenzi similare au fost folosite în astfel de metode de mesagerie pre-computer precum codul Morse etc.
Cel mai comun caracter de „teletip” este NUL (00, „zero”). Este încă folosit în majoritatea limbajelor de programare până în prezent, denotă un terminator de linie.
Unde este folosită codificarea ASCII?
Codul standard al SUA este necesar pentru mai mult decât pentru a introduce informații text de la tastatură. Este folosit și în grafică. Mai exact, în ASCII Art Maker, imaginile diferitelor extensii reprezintă un spectru de caractere ASCII.
Astfel de produse sunt de două tipuri: îndeplinesc funcția de editor grafic prin conversia imaginilor în text și conversia „imaginilor” în grafică ASCII. De exemplu, celebra emoticon este un exemplu excelent de caracter de codificare.
ASCII poate fi folosit și la crearea unui document HTML. În acest caz, puteți introduce un anumit set de caractere, iar la vizualizarea paginii, pe ecran va apărea un caracter care corespunde acestui cod.
ASCII este, de asemenea, necesar pentru crearea site-urilor multilingve, deoarece caracterele care nu sunt incluse într-un tabel național specific sunt înlocuite cu coduri ASCII.
Unele caracteristici
Pentru a codifica informațiile text în codificare ASCII, au fost utilizați inițial 7 biți (unul a fost lăsat gol), dar astăzi funcționează ca pe 8 biți.
Literele din coloanele de sus și de jos diferă între ele doar printr-un singur bit. Acest lucru reduce foarte mult complexitatea verificării.
Utilizarea ASCII în Microsoft Office
Dacă este necesar, acest tip de codificare a textului poate fi utilizat în editorii de text Microsoft, cum ar fi Notepad și Office Word. Cu toate acestea, atunci când tastați în acest caz, nu va fi posibilă utilizarea anumitor funcții. De exemplu, nu veți putea îngroșa, deoarece ASCII păstrează doar sensul informațiilor, ignorând aspectul și forma generală a acesteia.
Standardizare
Organizația ISO a adoptat standardele ISO 8859. Acest grup definește codificări pe opt biți pentru diferite grupuri de limbi. Mai exact, ISO 8859-1 este ASCII extins, care este un tabel pentru Statele Unite și Europa de Vest. Și ISO 8859-5 este un tabel folosit pentru alfabetul chirilic, inclusiv limba rusă.
Din mai multe motive istorice, standardul ISO 8859-5 a fost utilizat pentru o perioadă foarte scurtă de timp.
Pentru limba rusă, în prezent, codificări sunt de fapt utilizate:
- CP866 (Pagina de cod 866) sau DOS, care este adesea denumită codificare GOST alternativă. A fost folosit în mod activ până la mijlocul anilor 90 ai secolului trecut. Momentan, practic nu este folosit.
- KOI-8. Codificarea a fost dezvoltată în anii 1970-80, iar în prezent este un standard general acceptat pentru mesajele de e-mail pe Runet. Este utilizat pe scară largă în sistemul de operare al familiei Unix, inclusiv Linux. Versiunea „rusă” a KOI-8 se numește KOI-8R. În plus, există versiuni pentru alte limbi chirilice, cum ar fi ucraineană.
- Pagina de cod 1251 (CP 1251, Windows - 1251). Dezvoltat de Microsoft pentru a oferi suport pentru limba rusă în mediul Windows.
Principalul avantaj al primului standard CP866 a fost păstrarea caracterelor pseudografice în aceleași poziții ca în ASCII extins. Acest lucru a făcut posibilă rularea fără modificări a programelor text realizate în străinătate, cum ar fi binecunoscutul Norton Commander. În prezent, CP866 este utilizat pentru programele dezvoltate sub Windows care funcționează în modul text pe ecran complet sau în ferestre text, inclusiv FAR Manager.
Textele de computer scrise în codificarea CP866 sunt destul de rare în ultima vreme, dar tocmai această codificare este folosită pentru numele fișierelor rusești în Windows.
„Unicode”
În prezent, această codificare este cea care a primit cea mai răspândită utilizare. Codurile Unicode sunt împărțite în zone. Primul (U + 0000 la U + 007F) include caractere ASCII cu coduri. Urmează zonele de semne ale diferitelor scripturi naționale, precum și semnele de punctuație și simbolurile tehnice. În plus, unele dintre codurile „Unicode” sunt rezervate în cazul în care este nevoie de a include noi caractere în viitor.
Acum știți că în ASCII, fiecare caracter este reprezentat ca o combinație de 8 zerouri și unu. Pentru nespecialiști, aceste informații pot părea inutile și neinteresante, dar nu vrei să știi ce se întâmplă „în creierul” computerului tău?!
Se numește setul de caractere cu care este scris textul alfabet.
Numărul de caractere din alfabet este al lui putere.
Formula pentru determinarea cantității de informații: N = 2 b,
unde N este cardinalitatea alfabetului (numărul de caractere),
b - numărul de biți (greutatea informațională a caracterului).
Alfabetul cu o capacitate de 256 de caractere poate găzdui aproape toate caracterele necesare. Acest alfabet se numește suficient.
pentru că 256 = 2 8, atunci greutatea unui caracter este de 8 biți.
Unitatea de 8 biți a fost numită 1 octet:
1 octet = 8 biți.
Codul binar al fiecărui caracter din textul computerului ocupă 1 octet de memorie.
Cum sunt reprezentate informațiile text în memoria computerului?
Comoditatea codificării octet a caracterelor este evidentă, deoarece un octet este cea mai mică parte adresabilă a memoriei și, prin urmare, procesorul poate accesa fiecare caracter separat, efectuând procesarea textului. Pe de altă parte, 256 de caractere este un număr destul de suficient pentru a reprezenta o mare varietate de informații despre caractere.
Acum se pune întrebarea, ce fel de cod binar pe opt biți să asociem cu fiecare caracter.
Este clar că aceasta este o chestiune condiționată, puteți veni cu multe metode de codare.
Toate caracterele alfabetului computerului sunt numerotate de la 0 la 255. Fiecare număr corespunde unui cod binar de opt cifre de la 00000000 la 11111111. Acest cod este pur și simplu numărul ordinal al caracterului din sistemul binar.
Tabelul în care toate caracterele alfabetului computerului sunt atribuite numere de serie se numește tabel de codificare.
Pentru diferite tipuri de computere sunt folosite tabele de codare diferite.
Standardul internațional pentru PC a devenit tabelul ASCII(citiți asci) (Codul standard american pentru schimbul de informații).
Tabelul ASCII este împărțit în două părți.
Standardul internațional este doar prima jumătate a tabelului, adică. simboluri cu numere din 0 (00000000), până la 127 (01111111).
Structura tabelului de codificare ASCII
Număr de serie |
Codul |
Simbol |
0 - 31 |
00000000 - 00011111 |
Simbolurile cu numere de la 0 la 31 sunt de obicei numite caractere de control. |
32 - 127 |
00100000 - 01111111 |
Parte standard a tabelului (engleză). Aceasta include litere mici și mari ale alfabetului latin, cifre zecimale, semne de punctuație, tot felul de paranteze, simboluri comerciale și alte simboluri. |
128 - 255 |
10000000 - 11111111 |
Parte alternativă a tabelului (rusă). |
Prima jumătate a tabelului ASCII
Vă atrag atenția că în tabelul de codificare literele (majuscule și mici) sunt aranjate în ordine alfabetică, iar numerele sunt ordonate în ordine crescătoare a valorilor. Această respectare a ordinii lexicografice în aranjarea caracterelor se numește principiul codificării secvențiale a alfabetului.
Pentru literele alfabetului rus, se respectă și principiul codificării secvențiale.
A doua jumătate a tabelului ASCII
Din păcate, în prezent există cinci codificări chirilice diferite (KOI8-R, Windows. MS-DOS, Macintosh și ISO). Din această cauză, apar adesea probleme cu transferul de text rusesc de la un computer la altul, de la un sistem software la altul.
Cronologic, unul dintre primele standarde pentru codificarea literelor rusești pe computere a fost KOI8 („Cod de schimb de informații, 8 biți”). Această codificare a fost folosită încă din anii 70 pe computerele din seria de calculatoare ES, iar de la mijlocul anilor 80 a început să fie folosită în primele versiuni rusificate ale sistemului de operare UNIX.
De la începutul anilor 90, vremea dominației sistemului de operare MS DOS, codificarea CP866 rămâne („CP” înseamnă „Code Page”).
Computerele Apple care rulează Mac OS folosesc propria lor codificare Mac.
În plus, Organizația Internațională pentru Standardizare (International Standards Organization, ISO) a aprobat o altă codificare numită ISO 8859-5 ca standard pentru limba rusă.
În prezent, cea mai comună codificare este Microsoft Windows, prescurtat ca CP1251.
De la sfârșitul anilor 90, problema standardizării codării caracterelor a fost rezolvată prin introducerea unui nou standard internațional numit Unicode... Aceasta este o codificare pe 16 biți, adică alocă 2 octeți de memorie pentru fiecare caracter. Desigur, acest lucru dublează cantitatea de memorie utilizată. Dar, pe de altă parte, un astfel de tabel de coduri permite includerea a până la 65536 de caractere. Specificația completă a standardului Unicode include toate alfabetele existente, dispărute și create artificial din lume, precum și multe simboluri matematice, muzicale, chimice și alte simboluri.
Să încercăm să folosim un tabel ASCII pentru a ne imagina cum vor arăta cuvintele în memoria computerului.
Reprezentarea internă a cuvintelor în memoria computerului
Uneori se întâmplă ca un text format din litere ale alfabetului rus, primit de la un alt computer, să nu poată fi citit - pe ecranul monitorului este vizibil un fel de „farful”. Acest lucru se datorează faptului că computerele folosesc codificare diferită a caracterelor limbii ruse.