Cum se configurează smartphone-uri și PC-uri. Portal informativ
  • Acasă
  • Interesant
  • coduri de caractere latine. Codificare ASCII (cod standard american pentru schimbul de informații) - codificare de bază a textului pentru latină

coduri de caractere latine. Codificare ASCII (cod standard american pentru schimbul de informații) - codificare de bază a textului pentru latină

Dec Hex Simbol Dec Hex Simbol
000 00 specialist. NOP 128 80 Ђ
001 01 specialist. DECI H 129 81 Ѓ
002 02 specialist. STX 130 82
003 03 specialist. ETX 131 83 ѓ
004 04 specialist. EOT 132 84
005 05 specialist. ENQ 133 85
006 06 specialist. ACK 134 86
007 07 specialist. BEL 135 87
008 08 specialist. BS 136 88
009 09 specialist. TAB 137 89
010 0Aspecialist. LF 138 8AЉ
011 0Bspecialist. VT 139 8B‹ ‹
012 0Cspecialist. FF 140 8CЊ
013 0Dspecialist. CR 141 8 DЌ
014 0Especialist. ASA DE 142 8EЋ
015 0Fspecialist. SI 143 8FЏ
016 10 specialist. DLE 144 90 ђ
017 11 specialist. DC1 145 91
018 12 specialist. DC2 146 92
019 13 specialist. DC3 147 93
020 14 specialist. DC4 148 94
021 15 specialist. NAK 149 95
022 16 specialist. SYN 150 96
023 17 specialist. ETB 151 97
024 18 specialist. POATE SA 152 98
025 19 specialist. EM 153 99
026 1Aspecialist. SUB 154 9Aљ
027 1Bspecialist. ESC 155 9B
028 1Cspecialist. FS 156 9Cњ
029 1Dspecialist. GS 157 9Dќ
030 1Especialist. Rs 158 9Eћ
031 1Fspecialist. S.U.A. 159 9Fџ
032 20 ambreiaj SP (Spațiu) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Eu
041 29 ) 169 A9©
042 2A* 170 AAЄ
043 2B+ 171 AB«
044 2C, 172 AC¬
045 2D- 173 ANUNȚ­
046 2E. 174 AE®
047 2F/ 175 AFЇ
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 BAє
059 3B; 187 BB»
060 3C< 188 î.Hrј
061 3D= 189 BDЅ
062 3E> 190 FIѕ
063 3F? 191 Bfї
064 40 @ 192 C0 A
065 41 A 193 C1 B
066 42 B 194 C2 V
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 F
071 47 G 199 C7 Z
072 48 H 200 C8 ȘI
073 49 eu 201 C9 Th
074 4AJ 202 CA LA
075 4BK 203 CB L
076 4CL 204 CC M
077 4DM 205 CD N
078 4EN 206 CE O
079 4FO 207 CF P
080 50 P 208 D0 R
081 51 Q 209 D1 CU
082 52 R 210 D2 T
083 53 S 211 D3 Avea
084 54 T 212 D4 F
085 55 U 213 D5 X
086 56 V 214 D6 C
087 57 W 215 D7 H
088 58 X 216 D8 SH
089 59 Y 217 D9 SCH
090 5AZ 218 DA B
091 5B[ 219 DB S
092 5C\ 220 DC B
093 5D] 221 DD E
094 5E^ 222 DE YU
095 5F_ 223 DF EU SUNT
096 60 ` 224 E0 A
097 61 A 225 E1 b
098 62 b 226 E2 v
099 63 c 227 E3 G
100 64 d 228 E4 d
101 65 e 229 E5 e
102 66 f 230 E6 f
103 67 g 231 E7 s
104 68 h 232 E8 și
105 69 i 233 E9 al
106 6Aj 234 EA La
107 6Bk 235 EB l
108 6Cl 236 EC m
109 6Dm 237 ED n
110 6En 238 EE O
111 6Fo 239 EF P
112 70 p 240 F0 R
113 71 q 241 F1 Cu
114 72 r 242 F2 T
115 73 s 243 F3 la
116 74 t 244 F4 f
117 75 u 245 F5 X
118 76 v 246 F6 c
119 77 w 247 F7 h
120 78 X 248 F8 w
121 79 y 249 F9 SCH
122 7Az 250 FA b
123 7B{ 251 FB s
124 7C| 252 FC b
125 7D} 253 FD eh
126 7E~ 254 FE Yu
127 7FSpecialist. DEL 255 FF eu sunt

Tabelul de coduri de caractere ASCII Windows.
Descrierea caracterelor speciale (de control).

De menționat că inițial caracterele de control ale tabelului ASCII au fost folosite pentru a asigura schimbul de date prin teletip, introducerea datelor de pe bandă perforată și pentru cel mai simplu control al dispozitivelor externe.
În prezent, majoritatea caracterelor de control ASCII din tabel nu mai poartă această sarcină și pot fi utilizate în alte scopuri.
Codul Descriere
NUL, 00Nulă, goală
SOH, 01Start Of Heading, începutul titlului
STX, 02Începutul textului, începutul textului.
ETX, 03Sfârșitul textului, sfârșitul textului
EOT, 04Sfârșitul transmisiei, sfârșitul transmisiei
ENQ, 05Întreba. Cer confirmare
ACK, 06Confirmare. confirm
BEL, 07Clopot, clopot
BS, 08Backspace, întoarceți un caracter înapoi
TAB, 09Filă, filă orizontală
LF, 0ALine Feed, line feed.
Acum, în majoritatea limbajelor de programare este notat ca \ n
VT, 0BFilă verticală, filă verticală.
FF, 0CFeed de formulare, Feed de pagină, pagină nouă
CR, 0DRetur transport
Acum, în majoritatea limbajelor de programare este notat ca \ r
deci, 0EShift Out, schimbați culoarea benzii de cerneală din dispozitivul de imprimare
SI, 0FSchimbați, întoarceți înapoi culoarea benzii de cerneală din dispozitivul de imprimare
DLE, 10Data Link Escape, comutați canalul la transmisia de date
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Controlul dispozitivului, simboluri de control al dispozitivului
NAK, 15Recunoaștere negativă, nu recunosc.
SYN, 16Sincronizare. Simbol de sincronizare
ETB, 17Sfârșitul blocului de text, sfârșitul blocului de text
CAN, 18Anulare, anularea unuia trecut anterior
EM, 19Sfârșitul mediului, sfârșitul suportului de date
SUB, 1ASubstitui Plasat în locul unui personaj a cărui valoare a fost pierdută sau coruptă în timpul transmiterii
ESC, 1BSecvență de evacuare
FS, 1CSeparator de fișiere, separator de fișiere
GS, 1DSeparator de grup, separator de grup
RS, 1ESeparator de înregistrări, separator de înregistrări
SUA, 1FSeparator de unități, separator de unități
DEL, 7FȘterge, șterge ultimul caracter.

Un computer înțelege procesul de transformare a acestuia într-o formă care permite organizarea unui transfer, stocare sau prelucrare automată mai convenabilă a acestor date. În acest scop, se folosesc diverse tabele. Codificarea ASCII este primul sistem dezvoltat în Statele Unite pentru lucrul cu text în limba engleză, care a devenit ulterior răspândit în întreaga lume. Articolul de mai jos este dedicat descrierii, caracteristicilor, proprietăților și utilizării ulterioare.

Afișarea și stocarea informațiilor într-un computer

Simbolurile de pe un monitor de computer sau unul sau altul gadget digital mobil sunt formate pe baza unor seturi de forme vectoriale de tot felul de semne și a unui cod care vă permite să găsiți printre ele simbolul care trebuie introdus la locul potrivit. Este o serie de biți. Astfel, fiecare caracter trebuie să corespundă în mod unic unui set de zerouri și unu, care stau într-o ordine specifică, unică.

Cum a început totul

Din punct de vedere istoric, primele computere au fost în limba engleză. Pentru a codifica informațiile simbolice în ele, a fost suficient să folosiți doar 7 biți de memorie, în timp ce în acest scop a fost alocat 1 octet, format din 8 biți. Numărul de caractere înțeles de computer în acest caz a fost egal cu 128. Numărul de astfel de caractere includea alfabetul englez cu semnele de punctuație, numerele și unele caractere speciale. Codificarea pe șapte biți în limba engleză cu tabelul corespunzătoare (pagina de cod), dezvoltată în 1963, a fost denumită Codul standard american pentru schimbul de informații. De obicei, abrevierea „codificare ASCII” a fost folosită pentru a o desemna și este încă folosită până în prezent.

Trecerea la multilingvism

De-a lungul timpului, computerele au devenit utilizate pe scară largă și în țările care nu vorbesc engleza. În acest sens, era nevoie de codificări care să permită utilizarea limbilor naționale. S-a decis să nu se reinventeze roata și să se ia ca bază ASCII. Tabelul de codificare din noua ediție s-a extins semnificativ. Utilizarea celui de-al 8-lea bit a făcut posibilă traducerea a 256 de caractere în limbajul computerului.

Descriere

Codificarea ASCII are un tabel care este împărțit în 2 părți. Doar prima jumătate este considerată a fi standardul internațional general acceptat. Include:

  • Caractere cu numere ordinale de la 0 la 31, codificate prin secvențe de la 00000000 la 00011111. Sunt rezervate caracterelor de control care controlează procesul de afișare a textului pe ecran sau imprimantă, oferind un semnal sonor etc.
  • Caracterele cu NN în tabelul de la 32 la 127, codificate prin secvențe de la 00100000 la 01111111, constituie partea standard a tabelului. Acestea includ un spațiu (N 32), litere ale alfabetului latin (minuscule și majuscule), numere din zece cifre de la 0 la 9, semne de punctuație, paranteze de diferite stiluri și alte simboluri.
  • Caractere cu numere ordinale de la 128 la 255, codificate prin secvențe de la 10000000 la 11111111. Acestea includ litere ale alfabetului național, altele decât cele latine. În această parte alternativă a tabelului este folosită codificarea ASCII pentru a converti caracterele rusești în formă de computer.

Unele proprietăți

Particularitățile codificării ASCII includ diferența dintre literele „A” - „Z” ale literelor mici și mari de doar un bit. Această împrejurare simplifică foarte mult conversia registrului, precum și verificarea apartenenței acestuia la intervalul specificat de valori. În plus, toate literele din sistemul de codare ASCII sunt reprezentate prin numerele lor ordinale proprii în alfabet, care sunt scrise în 5 cifre în notație binară, precedate de 011 2 pentru literele mici și 010 2 pentru litere mari.

Printre caracteristicile codificării ASCII poate fi considerată reprezentarea a 10 cifre - „0” - „9”. În al doilea sistem de numere, ele încep cu 00112 și se termină cu 2 numere. De exemplu, 0101 2 este echivalent cu zecimala cinci, deci caracterul „5” este scris ca 0011 01012. Pe baza acestui lucru, puteți converti cu ușurință BCD-urile într-un șir ASCII adăugând 00112 la fiecare nibble din stânga.

„Unicode”

După cum știți, sunt necesare mii de caractere pentru a afișa texte în limbile grupului din Asia de Sud-Est. Un astfel de număr dintre ele nu este în niciun fel descris într-un octet de informații, așa că nici măcar versiunile ASCII extinse nu ar mai putea satisface nevoile crescute ale utilizatorilor din diferite țări.

Astfel, a apărut necesitatea creării unei codări universale a textului, care a fost dezvoltată de consorțiul Unicode în cooperare cu mulți lideri ai industriei IT globale. Specialiștii săi au creat sistemul UTF 32. În acesta, au fost alocați 32 de biți pentru codificarea unui caracter, alcătuind 4 octeți de informații. Principalul dezavantaj a fost o creștere bruscă a cantității de memorie necesară de până la 4 ori, ceea ce a implicat multe probleme.

În același timp, pentru majoritatea țărilor cu limbi oficiale aparținând grupului indo-european, numărul de caractere egal cu 232 este mai mult decât redundant.

Ca urmare a lucrărilor ulterioare ale specialiștilor din consorțiul Unicode, a apărut codificarea UTF-16. A devenit opțiunea de transformare a informațiilor simbolice care se potrivea tuturor atât în ​​ceea ce privește cantitatea de memorie necesară, cât și numărul de caractere codificate. De aceea, UTF-16 a fost acceptat implicit și necesită 2 octeți pentru a fi rezervați pentru un caracter.

Chiar și această versiune destul de avansată și de succes a „Unicode” a avut unele dezavantaje, iar după trecerea de la versiunea extinsă a ASCII la UTF-16 a dublat greutatea documentului.

În acest sens, s-a decis să se utilizeze codificarea cu lungime variabilă UTF-8. În acest caz, fiecare caracter al textului sursă este codificat cu o secvență de 1 până la 6 octeți.

Comunicare cu codul standard american pentru schimbul de informații

Toate caracterele alfabetului latin în UTF-8 de lungime variabilă sunt codificate pe 1 octet, ca în sistemul de codare ASCII.

Particularitatea UTP-8 este că, în cazul unui text în latină fără a utiliza alte caractere, chiar și programele care nu înțeleg „Unicode” vă vor permite totuși să-l citiți. Cu alte cuvinte, partea de bază a codificării textului ASCII este pur și simplu îmbinată în noul UTF cu lungime variabilă. Caracterele chirilice în UTP-8 ocupă 2 octeți și, de exemplu, cele georgiane - 3 octeți. Crearea UTF-16 și 8 a rezolvat principala problemă a creării unui singur spațiu de cod în fonturi. De atunci, producătorii de fonturi pot completa tabelul doar cu forme vectoriale de caractere text în funcție de nevoile lor.

Sunt preferate diferite codificări pe sisteme de operare diferite. Pentru a putea citi și edita textele tastate într-o altă codificare, se folosesc programe de conversie a textului rusesc. Unele editoare de text conțin transcoduri încorporate și vă permit să citiți text indiferent de codificare.

Acum știi câte caractere sunt în ASCII și cum și de ce a fost dezvoltat. Desigur, astăzi cel mai răspândit standard în lume este „Unicode”. Totuși, nu trebuie să uităm că a fost creat pe baza ASCII, prin urmare, trebuie apreciată contribuția dezvoltatorilor săi în domeniul IT.

După cum știți, un computer stochează informații în formă binară, reprezentând-o ca o secvență de unu și zero. Pentru a traduce informațiile într-o formă convenabilă pentru percepția umană, fiecare secvență unică de numere este înlocuită cu simbolul corespunzător atunci când este afișată.

Unul dintre sistemele de corelare a codurilor binare cu caractere imprimabile și de control este

La nivelul actual de dezvoltare a tehnologiei informatice, utilizatorului nu i se cere să cunoască codul fiecărui simbol specific. Cu toate acestea, o înțelegere generală a modului în care se realizează codificarea este extrem de utilă, iar pentru unele categorii de specialiști chiar necesară.

Creare ASCII

În forma sa originală, codificarea a fost dezvoltată în 1963 și apoi actualizată de două ori în 25 de ani.

În versiunea originală, tabelul de caractere ASCII includea 128 de caractere, ulterior a apărut o versiune extinsă, în care au fost salvate primele 128 de caractere, iar caracterele absente anterior au fost atribuite codurilor cu al optulea bit implicat.

De mulți ani, această codificare a fost cea mai populară din lume. În 2006, Latin 1252 a ocupat poziția de lider, iar de la sfârșitul lui 2007 până în prezent, Unicode a deținut ferm poziția de lider.

Reprezentare pe computer ASCII

Fiecare caracter ASCII are propriul cod de 8 caractere reprezentând zero sau unu. Numărul minim într-o astfel de reprezentare este zero (opt zerouri în sistemul binar), care este codul primului element din tabel.

Două coduri din tabel au fost rezervate pentru comutarea între standardul US-ASCII și versiunea sa națională.

După ce ASCII a început să includă nu 128, ci 256 de caractere, s-a răspândit o variantă de codificare, în care versiunea originală a tabelului a fost salvată în primele 128 de coduri cu un al 8-lea bit zero. Semnele scrisului național au fost păstrate în jumătatea superioară a tabelului (pozițiile 128-255).

Utilizatorul nu trebuie să cunoască direct codurile de caractere ASCII. De obicei, este suficient ca un dezvoltator de software să cunoască numărul unui element dintr-un tabel pentru a-și calcula codul folosind un sistem binar, dacă este necesar.

Limba rusă

După dezvoltarea codificărilor pentru limbile scandinave, chineză, coreeană, greacă etc., la începutul anilor '70, Uniunea Sovietică a început să-și creeze propria versiune. În curând, a fost dezvoltată o versiune a codificării pe 8 biți numită KOI8, care păstrează primele 128 de coduri de caractere ASCII și alocă același număr de poziții pentru literele alfabetului național și caractere suplimentare.

Înainte de introducerea Unicode, KOI8 domina segmentul rus al internetului. Au existat opțiuni de codare atât pentru alfabetul rus, cât și pentru cel ucrainean.

Probleme ASCII

Deoarece numărul de elemente chiar și în tabelul extins nu a depășit 256, nu a existat nicio posibilitate de a găzdui mai multe scripturi diferite într-o singură codificare. În anii 90, problema „crocozyabr” a apărut în Runet, când textele tastate cu caractere ASCII rusești erau afișate incorect.

Problema a fost că codurile diferitelor variante ASCII nu se potriveau între ele. Amintiți-vă că pozițiile 128-255 ar putea conține caractere diferite, iar la schimbarea unei codări chirilice cu alta, toate literele textului au fost înlocuite cu altele având un număr identic într-o versiune diferită a codificării.

Starea curenta

Odată cu apariția Unicode, popularitatea ASCII a scăzut brusc.

Motivul pentru aceasta constă în faptul că noua codificare a făcut posibilă găzduirea semnelor aproape tuturor limbilor scrise. În acest caz, primele 128 de caractere ASCII corespund acelorași caractere în Unicode.

În 2000, ASCII era cea mai populară codare de pe Internet și era folosită în 60% din paginile web indexate de Google. Până în 2012, ponderea acestor pagini a scăzut la 17%, iar Unicode (UTF-8) a luat locul celei mai populare codări.

Astfel, ASCII este o parte importantă a istoriei tehnologiei informației, dar utilizarea sa în viitor este văzută ca nepromițătoare.

Potrivit Uniunii Internaționale de Telecomunicații, în 2016, trei miliarde și jumătate de oameni au folosit internetul cu o regularitate diferită. Majoritatea dintre ei nici măcar nu se gândesc la faptul că orice mesaje trimise de ei prin intermediul computerelor sau gadgeturilor mobile, precum și textele care sunt afișate pe tot felul de monitoare, sunt de fapt combinații de 0 și 1. Această prezentare a informațiilor se numește codificare . Acesta asigură și facilitează foarte mult stocarea, prelucrarea și transmiterea acestuia. În 1963, a fost dezvoltată codarea ASCII americană, căreia îi este dedicat acest articol.

Prezentarea informațiilor într-un computer

Din punctul de vedere al oricărui computer electronic, textul este o colecție de caractere individuale. Acestea includ nu numai litere, inclusiv majuscule, ci și semne de punctuație și numere. În plus, sunt folosite caractere speciale „=", „&”, „(” și spații.

Setul de simboluri care alcătuiesc textul se numește alfabet, iar numărul lor se numește cardinalitate (notat cu N). Pentru a-l defini, se folosește expresia N = 2 ^ b, unde b este numărul de biți sau greutatea informațională a unui anumit caracter.

S-a dovedit că un alfabet cu o capacitate de 256 de caractere poate reprezenta toate caracterele necesare.

Deoarece 256 este a 8-a putere a doi, greutatea fiecărui caracter este de 8 biți.

Unitatea de măsură de 8 biți se numește 1 octet, deci se obișnuiește să spunem că orice caracter dintr-un text stocat pe un computer ocupă un octet de memorie.

Cum se face codarea

Orice texte sunt introduse în memoria unui computer personal prin intermediul tastelor de la tastatură pe care sunt scrise numere, litere, semne de punctuație și alte simboluri. Ele sunt transferate în RAM într-un cod binar, adică fiecare caracter este asociat cu un cod zecimal cunoscut oamenilor, de la 0 la 255, care corespunde unui cod binar - de la 00000000 la 11111111.

Codificarea caracterelor byte permite procesorului de text să acceseze fiecare caracter separat. În același timp, 256 de caractere sunt suficiente pentru a reprezenta orice informație despre caracter.

Codificarea caracterelor ASCII

Această abreviere în engleză înseamnă cod pentru schimbul de informații.

Chiar și în zorii computerizării, a devenit evident că puteți veni cu o mare varietate de moduri de a codifica informațiile. Cu toate acestea, pentru a transfera informații de la un computer la altul, a fost necesar să se dezvolte un singur standard. Deci, în 1963, în Statele Unite a apărut un tabel de codificare ASCII. În el, orice simbol al alfabetului computerului este asociat cu numărul său ordinal în reprezentare binară. Inițial, ASCII a fost folosit doar în Statele Unite și mai târziu a devenit standardul internațional pentru computere.

Codurile ASCII sunt împărțite în 2 părți. Doar prima jumătate a acestui tabel este considerată standard internațional. Include caractere cu numere ordinale de la 0 (codificat ca 00000000) la 127 (cod 01111111).

Număr de serie

Codificarea textului ASCII

Simbol

0000 0000 - 0001 1111

Caracterele cu N de la 0 la 31 se numesc caractere de control. Funcția lor este de a „ghida” procesul de afișare a textului pe un monitor sau dispozitiv de imprimare, de a da un semnal sonor etc.

0010 0000 - 0111 1111

Caractere cu N de la 32 la 127 (partea standard a tabelului) - litere mari și mici ale alfabetului latin, numere din 10 cifre, semne de punctuație, precum și diverse paranteze, simboluri comerciale și alte simboluri. Caracterul 32 denotă un spațiu.

1000 0000 - 1111 1111

Caracterele cu N de la 128 la 255 (parte alternativă a tabelului sau a paginii de cod) pot avea diferite variante, fiecare având propriul număr. Pagina de coduri este folosită pentru a specifica alfabetele naționale care sunt diferite de latină. În special, cu ajutorul acestuia se realizează codificarea ASCII pentru caracterele rusești.

În tabelul de codificare, majuscule și urmează una după alta în ordine alfabetică, iar numerele - în ordinea crescătoare a valorilor. Acest principiu se aplică și alfabetului rus.

Personaje de control

Tabelul de codificare ASCII a fost creat inițial pentru a primi și transmite informații pe un astfel de dispozitiv care nu a fost folosit de mult timp, cum ar fi un teletype. În acest sens, în setul de caractere au fost incluse caractere neprintabile, folosite ca comenzi pentru a controla acest dispozitiv. Comenzi similare au fost folosite în astfel de metode de mesagerie pre-computer precum codul Morse etc.

Cel mai comun caracter de „teletip” este NUL (00, „zero”). Este încă folosit în majoritatea limbajelor de programare până în prezent, denotă un terminator de linie.

Unde este folosită codificarea ASCII?

Codul standard al SUA este necesar pentru mai mult decât pentru a introduce informații text de la tastatură. Este folosit și în grafică. Mai exact, în ASCII Art Maker, imaginile diferitelor extensii reprezintă un spectru de caractere ASCII.

Astfel de produse sunt de două tipuri: îndeplinesc funcția de editor grafic prin conversia imaginilor în text și conversia „imaginilor” în grafică ASCII. De exemplu, celebra emoticon este un exemplu excelent de caracter de codificare.

ASCII poate fi folosit și la crearea unui document HTML. În acest caz, puteți introduce un anumit set de caractere, iar la vizualizarea paginii, pe ecran va apărea un caracter care corespunde acestui cod.

ASCII este, de asemenea, necesar pentru crearea site-urilor multilingve, deoarece caracterele care nu sunt incluse într-un tabel național specific sunt înlocuite cu coduri ASCII.

Unele caracteristici

Pentru a codifica informațiile text în codificare ASCII, au fost utilizați inițial 7 biți (unul a fost lăsat gol), dar astăzi funcționează ca pe 8 biți.

Literele din coloanele de sus și de jos diferă între ele doar printr-un singur bit. Acest lucru reduce foarte mult complexitatea verificării.

Utilizarea ASCII în Microsoft Office

Dacă este necesar, acest tip de codificare a textului poate fi utilizat în editorii de text Microsoft, cum ar fi Notepad și Office Word. Cu toate acestea, atunci când tastați în acest caz, nu va fi posibilă utilizarea anumitor funcții. De exemplu, nu veți putea îngroșa, deoarece ASCII păstrează doar sensul informațiilor, ignorând aspectul și forma generală a acesteia.

Standardizare

Organizația ISO a adoptat standardele ISO 8859. Acest grup definește codificări pe opt biți pentru diferite grupuri de limbi. Mai exact, ISO 8859-1 este ASCII extins, care este un tabel pentru Statele Unite și Europa de Vest. Și ISO 8859-5 este un tabel folosit pentru alfabetul chirilic, inclusiv limba rusă.

Din mai multe motive istorice, standardul ISO 8859-5 a fost utilizat pentru o perioadă foarte scurtă de timp.

Pentru limba rusă, în prezent, codificări sunt de fapt utilizate:

  • CP866 (Pagina de cod 866) sau DOS, care este adesea denumită codificare GOST alternativă. A fost folosit în mod activ până la mijlocul anilor 90 ai secolului trecut. Momentan, practic nu este folosit.
  • KOI-8. Codificarea a fost dezvoltată în anii 1970-80, iar în prezent este un standard general acceptat pentru mesajele de e-mail pe Runet. Este utilizat pe scară largă în sistemul de operare al familiei Unix, inclusiv Linux. Versiunea „rusă” a KOI-8 se numește KOI-8R. În plus, există versiuni pentru alte limbi chirilice, cum ar fi ucraineană.
  • Pagina de cod 1251 (CP 1251, Windows - 1251). Dezvoltat de Microsoft pentru a oferi suport pentru limba rusă în mediul Windows.

Principalul avantaj al primului standard CP866 a fost păstrarea caracterelor pseudografice în aceleași poziții ca în ASCII extins. Acest lucru a făcut posibilă rularea fără modificări a programelor text realizate în străinătate, cum ar fi binecunoscutul Norton Commander. În prezent, CP866 este utilizat pentru programele dezvoltate sub Windows care funcționează în modul text pe ecran complet sau în ferestre text, inclusiv FAR Manager.

Textele de computer scrise în codificarea CP866 sunt destul de rare în ultima vreme, dar tocmai această codificare este folosită pentru numele fișierelor rusești în Windows.

„Unicode”

În prezent, această codificare este cea care a primit cea mai răspândită utilizare. Codurile Unicode sunt împărțite în zone. Primul (U + 0000 la U + 007F) include caractere ASCII cu coduri. Urmează zonele de semne ale diferitelor scripturi naționale, precum și semnele de punctuație și simbolurile tehnice. În plus, unele dintre codurile „Unicode” sunt rezervate în cazul în care este nevoie de a include noi caractere în viitor.

Acum știți că în ASCII, fiecare caracter este reprezentat ca o combinație de 8 zerouri și unu. Pentru nespecialiști, aceste informații pot părea inutile și neinteresante, dar nu vrei să știi ce se întâmplă „în creierul” computerului tău?!

Se numește setul de caractere cu care este scris textul alfabet.

Numărul de caractere din alfabet este al lui putere.

Formula pentru determinarea cantității de informații: N = 2 b,

unde N este cardinalitatea alfabetului (numărul de caractere),

b - numărul de biți (greutatea informațională a caracterului).

Alfabetul cu o capacitate de 256 de caractere poate găzdui aproape toate caracterele necesare. Acest alfabet se numește suficient.

pentru că 256 = 2 8, atunci greutatea unui caracter este de 8 biți.

Unitatea de 8 biți a fost numită 1 octet:

1 octet = 8 biți.

Codul binar al fiecărui caracter din textul computerului ocupă 1 octet de memorie.

Cum sunt reprezentate informațiile text în memoria computerului?

Comoditatea codificării octet a caracterelor este evidentă, deoarece un octet este cea mai mică parte adresabilă a memoriei și, prin urmare, procesorul poate accesa fiecare caracter separat, efectuând procesarea textului. Pe de altă parte, 256 de caractere este un număr destul de suficient pentru a reprezenta o mare varietate de informații despre caractere.

Acum se pune întrebarea, ce fel de cod binar pe opt biți să asociem cu fiecare caracter.

Este clar că aceasta este o chestiune condiționată, puteți veni cu multe metode de codare.

Toate caracterele alfabetului computerului sunt numerotate de la 0 la 255. Fiecare număr corespunde unui cod binar de opt cifre de la 00000000 la 11111111. Acest cod este pur și simplu numărul ordinal al caracterului din sistemul binar.

Tabelul în care toate caracterele alfabetului computerului sunt atribuite numere de serie se numește tabel de codificare.

Pentru diferite tipuri de computere sunt folosite tabele de codare diferite.

Standardul internațional pentru PC a devenit tabelul ASCII(citiți asci) (Codul standard american pentru schimbul de informații).

Tabelul ASCII este împărțit în două părți.

Standardul internațional este doar prima jumătate a tabelului, adică. simboluri cu numere din 0 (00000000), până la 127 (01111111).

Structura tabelului de codificare ASCII

Număr de serie

Codul

Simbol

0 - 31

00000000 - 00011111

Simbolurile cu numere de la 0 la 31 sunt de obicei numite caractere de control.
Funcția lor este de a controla procesul de afișare a textului pe ecran sau de imprimare, de a da un semnal sonor, de a marca textul etc.

32 - 127

00100000 - 01111111

Parte standard a tabelului (engleză). Aceasta include litere mici și mari ale alfabetului latin, cifre zecimale, semne de punctuație, tot felul de paranteze, simboluri comerciale și alte simboluri.
Caracterul 32 este un spațiu, adică. poziție goală în text.
Toate celelalte se reflectă în anumite semne.

128 - 255

10000000 - 11111111

Parte alternativă a tabelului (rusă).
A doua jumătate a tabelului de coduri ASCII, numită pagina de coduri (128 de coduri, începând cu 10000000 și terminând cu 11111111), poate avea variante diferite, fiecare variantă având propriul număr.
Pagina de coduri este folosită în primul rând pentru a găzdui alfabetele naționale, altele decât latină. În codificările naționale rusești, această parte a tabelului conține simboluri ale alfabetului rus.

Prima jumătate a tabelului ASCII


Vă atrag atenția că în tabelul de codificare literele (majuscule și mici) sunt aranjate în ordine alfabetică, iar numerele sunt ordonate în ordine crescătoare a valorilor. Această respectare a ordinii lexicografice în aranjarea caracterelor se numește principiul codificării secvențiale a alfabetului.

Pentru literele alfabetului rus, se respectă și principiul codificării secvențiale.

A doua jumătate a tabelului ASCII


Din păcate, în prezent există cinci codificări chirilice diferite (KOI8-R, Windows. MS-DOS, Macintosh și ISO). Din această cauză, apar adesea probleme cu transferul de text rusesc de la un computer la altul, de la un sistem software la altul.

Cronologic, unul dintre primele standarde pentru codificarea literelor rusești pe computere a fost KOI8 („Cod de schimb de informații, 8 biți”). Această codificare a fost folosită încă din anii 70 pe computerele din seria de calculatoare ES, iar de la mijlocul anilor 80 a început să fie folosită în primele versiuni rusificate ale sistemului de operare UNIX.

De la începutul anilor 90, vremea dominației sistemului de operare MS DOS, codificarea CP866 rămâne („CP” înseamnă „Code Page”).

Computerele Apple care rulează Mac OS folosesc propria lor codificare Mac.

În plus, Organizația Internațională pentru Standardizare (International Standards Organization, ISO) a aprobat o altă codificare numită ISO 8859-5 ca standard pentru limba rusă.

În prezent, cea mai comună codificare este Microsoft Windows, prescurtat ca CP1251.

De la sfârșitul anilor 90, problema standardizării codării caracterelor a fost rezolvată prin introducerea unui nou standard internațional numit Unicode... Aceasta este o codificare pe 16 biți, adică alocă 2 octeți de memorie pentru fiecare caracter. Desigur, acest lucru dublează cantitatea de memorie utilizată. Dar, pe de altă parte, un astfel de tabel de coduri permite includerea a până la 65536 de caractere. Specificația completă a standardului Unicode include toate alfabetele existente, dispărute și create artificial din lume, precum și multe simboluri matematice, muzicale, chimice și alte simboluri.

Să încercăm să folosim un tabel ASCII pentru a ne imagina cum vor arăta cuvintele în memoria computerului.

Reprezentarea internă a cuvintelor în memoria computerului

Uneori se întâmplă ca un text format din litere ale alfabetului rus, primit de la un alt computer, să nu poată fi citit - pe ecranul monitorului este vizibil un fel de „farful”. Acest lucru se datorează faptului că computerele folosesc codificare diferită a caracterelor limbii ruse.

Top articole similare