Come configurare smartphone e PC. Portale informativo
  • casa
  • Windows 7, XP
  • Codici di caratteri decimali ascii c. Codifica delle informazioni di testo

Codici di caratteri decimali ascii c. Codifica delle informazioni di testo

dicembre Esadecimale Simbolo dicembre Esadecimale Simbolo
000 00 specialista. NO 128 80 Ђ
001 01 specialista. SOH 129 81 Ѓ
002 02 specialista. STX 130 82
003 03 specialista. ETX 131 83 ѓ
004 04 specialista. EOT 132 84
005 05 specialista. ENQ 133 85
006 06 specialista. ACK 134 86
007 07 specialista. BEL 135 87
008 08 specialista. BS 136 88
009 09 specialista. TAB 137 89
010 0Aspecialista. LF 138 8AЉ
011 0Bspecialista. VT 139 8B‹ ‹
012 0Cspecialista. FF 140 8CЊ
013 0Dspecialista. CR 141 8DЌ
014 0Especialista. COSÌ 142 8EЋ
015 0Fspecialista. SI 143 8FЏ
016 10 specialista. DLE 144 90 ђ
017 11 specialista. DC1 145 91
018 12 specialista. DC2 146 92
019 13 specialista. DC3 147 93
020 14 specialista. DC4 148 94
021 15 specialista. NAK 149 95
022 16 specialista. SYN 150 96
023 17 specialista. ETB 151 97
024 18 specialista. POTERE 152 98
025 19 specialista. EM 153 99
026 1Aspecialista. SUB 154 9Aљ
027 1Bspecialista. ESC 155 9B
028 1Cspecialista. FS 156 9Cњ
029 1Dspecialista. GS 157 9Dќ
030 1Especialista. Rs 158 9Eћ
031 1Fspecialista. noi 159 9Fџ
032 20 frizione SP (spazio) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 la2ў
035 23 # 163 LA3Ћ
036 24 $ 164 A4¤
037 25 % 165 la5Ґ
038 26 & 166 LA6¦
039 27 " 167 la7§
040 28 ( 168 la8si
041 29 ) 169 la9©
042 2A* 170 aaЄ
043 2B+ 171 AB«
044 2C, 172 AC¬
045 2D- 173 ANNO DOMINI­
046 2E. 174 AE®
047 2F/ 175 AFЇ
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 BAє
059 3B; 187 BB»
060 3C< 188 AVANTI CRISTOј
061 3D= 189 BDЅ
062 3E> 190 ESSEREѕ
063 3F? 191 bfї
064 40 @ 192 C0 UN
065 41 UN 193 do1 B
066 42 B 194 do2 V
067 43 C 195 do3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 F
071 47 G 199 do7 Z
072 48 h 200 do8 E
073 49 io 201 C9 questo
074 4AJ 202 circa A
075 4BK 203 CB l
076 4Cl 204 CC m
077 4Dm 205 cd n
078 4En 206 CE oh
079 4Foh 207 CF P
080 50 P 208 D0 R
081 51 Q 209 D1 CON
082 52 R 210 re2 T
083 53 S 211 RE3 Ho
084 54 T 212 re4 F
085 55 tu 213 D5 X
086 56 V 214 D6 C
087 57 W 215 RE7 h
088 58 X 216 D8 SH
089 59 217 D9 SCH
090 5AZ 218 DA B
091 5B[ 219 DB S
092 5C\ 220 DC B
093 5 D] 221 DD E
094 5E^ 222 DE YU
095 5F_ 223 DF IO SONO
096 60 ` 224 E0 un
097 61 un 225 mi1 B
098 62 B 226 E2 v
099 63 C 227 E3 G
100 64 D 228 mi4 D
101 65 e 229 E5 e
102 66 F 230 E6 F
103 67 G 231 E7 S
104 68 h 232 E8 e
105 69 io 233 E9 questo
106 6AJ 234 EA a
107 6BK 235 EB io
108 6Cio 236 EC m
109 6Dm 237 ED n
110 6En 238 EE oh
111 6Fo 239 EF P
112 70 P 240 F0 R
113 71 Q 241 F1 Con
114 72 R 242 F2 T
115 73 S 243 F3 in
116 74 T 244 F4 F
117 75 tu 245 F5 X
118 76 v 246 F6 C
119 77 w 247 F7 h
120 78 X 248 F8 w
121 79 249 F9 SCH
122 7Az 250 fa B
123 7B{ 251 FB S
124 7C| 252 FC B
125 7D} 253 FD eh
126 7E~ 254 FE Yu
127 7FSpecialista. DEL 255 FF io sono

Tabella dei codici dei caratteri ASCII di Windows.
Descrizione di caratteri speciali (di controllo)

È da notare che inizialmente i caratteri di controllo della tabella ASCII venivano utilizzati per fornire lo scambio di dati tramite telescrivente, l'immissione di dati da nastro perforato e per il più semplice controllo di dispositivi esterni.
Attualmente, la maggior parte dei caratteri di controllo ASCII nella tabella non comporta più questo onere e può essere utilizzata per altri scopi.
Il codice Descrizione
NUL, 00nullo, vuoto
SOH, 01Inizio dell'intestazione, inizio dell'intestazione
STX, 02Inizio di TeXt, l'inizio del testo.
ETX, 03Fine del testo, fine del testo
EOT, 04Fine della trasmissione, fine della trasmissione
ENQ, 05Chiedere informazioni. chiedo conferma
ACK, 06Riconoscimento. confermo
BEL, 07campana, campana
BS, 08Backspace, torna indietro di un carattere
SCHEDA, 09Scheda, scheda orizzontale
LF, 0AAvanzamento riga, avanzamento riga.
Ora nella maggior parte dei linguaggi di programmazione è indicato come \ n
VT, 0BScheda verticale, scheda verticale.
FF, 0CAvanzamento modulo, avanzamento pagina, nuova pagina
CR, 0DRitorno a capo
Ora nella maggior parte dei linguaggi di programmazione è indicato come \ r
SO, 0EShift Out, cambia il colore del nastro di inchiostro nel dispositivo di stampa
SI, 0FShift In, restituisce il colore del nastro di inchiostro nel dispositivo di stampa
DLE, 10Data Link Escape, cambia canale in trasmissione dati
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Controllo del dispositivo, simboli di controllo del dispositivo
NAK, 15Riconoscimento negativo, non riconosco.
SIN, 16Sincronizzazione. Simbolo di sincronizzazione
ETB, 17Fine del blocco di testo, fine del blocco di testo
PU, 18Annulla, annullando uno precedentemente superato
EM, 19Fine del mezzo, fine del supporto dati
SUB, 1ASostituire Posto al posto di un carattere il cui valore è stato perso o corrotto durante la trasmissione
ESC, 1BFuga sequenza di fuga
FA, 1CSeparatore di file, separatore di file
GS, 1DSeparatore di gruppi, separatore di gruppi
RS, 1ESeparatore di record, separatore di record
USA, 1FSeparatore di unità, separatore di unità
DEL, 7FAElimina, elimina l'ultimo carattere.

Simboli sovrapposti

Il carattere BS (backspace) consente alla stampante di sovrascrivere un carattere. In ASCII era prevista l'aggiunta dei segni diacritici alle lettere in questo modo, ad esempio:

  • un BS "→ á
  • a BS `→ à
  • a BS ^ → â
  • o BS / → ø
  • c BS, → ç
  • n BS ~ → ñ

Nota: nei caratteri antichi, l'apostrofo "è stato disegnato con un'inclinazione a sinistra e la tilde ~ è stata spostata verso l'alto, in modo che si adattassero appena al ruolo dell'acuto e della tilde in alto.

Se lo stesso simbolo viene sovrapposto a un carattere, si ottiene l'effetto di un carattere in grassetto e se viene sovrapposto un carattere di sottolineatura, si ottiene il testo sottolineato.

  • a BS a → un
  • a BS _ → un

Nota: viene utilizzato, ad esempio, nel sistema di man help.

Varianti nazionali ASCII

Lo standard ISO 646 (ECMA-6) prevede la possibilità di inserire caratteri nazionali @ [ \ ] ^ ` { | } ~ ... Oltre a questo, a posto # può essere ospitato £ , e sul posto $ - ¤ ... Questo sistema è adatto per le lingue europee in cui sono necessari solo pochi caratteri in più. La versione ASCII senza caratteri nazionali è denominata US-ASCII o "International Reference Version".

Successivamente, si è rivelato più conveniente utilizzare le codifiche a 8 bit (code page), in cui la metà inferiore della tabella dei codici (0-127) è occupata da caratteri US-ASCII e la metà superiore (128-255) è occupato da caratteri aggiuntivi, compreso un insieme di caratteri nazionali. Pertanto, la metà superiore della tabella ASCII, prima della diffusa adozione di Unicode, veniva utilizzata attivamente per rappresentare caratteri localizzati, lettere della lingua locale. La mancanza di uno standard unificato per posizionare i caratteri cirillici nella tabella ASCII ha causato molti problemi con le codifiche (KOI-8, Windows-1251 e altri). Anche altre lingue con una scrittura non latina soffrivano della presenza di diverse codifiche.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .UN .B .C .D .E .F
0. NUL SOM EOA EOM EQT WRU RU CAMPANA BKSP Ht LF VT FF CR COSÌ SI
1. CC 0 CC 1 CC 2 CC 3 CC 4 ERR SINCRONIZZAZIONE LEM S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7
2.
3.
4. VUOTO ! " # $ % & " ( ) * + , - . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
UN. @ UN B C D E F G h io J K l m n oh
B. P Q R S T tu V W X Z [ \ ]
C.
D.
e. un B C D e F G h io J K io m n o
F. P Q R S T tu v w X z ESC DEL

Su quei computer in cui l'unità di memoria minima indirizzabile era una parola a 36 bit, inizialmente venivano utilizzati caratteri a 6 bit (1 parola = 6 caratteri). Dopo il passaggio ad ASCII su tali computer, hanno iniziato a inserire 5 caratteri a sette bit in una parola (1 bit è rimasto superfluo) o 4 caratteri a nove bit.

I codici ASCII vengono utilizzati anche per identificare il tasto premuto durante la programmazione. Per una tastiera QWERTY standard, la tabella dei codici ha questo aspetto:

Unicode (in inglese Unicode) è uno standard di codifica dei caratteri. In poche parole, questa è una tabella di corrispondenza dei caratteri di testo (, lettere, elementi di punteggiatura) codici binari. Il computer comprende solo la sequenza di zero e uno. Per sapere cosa esattamente dovrebbe visualizzare sullo schermo, è necessario assegnare un numero univoco a ciascun personaggio. Negli anni ottanta i caratteri venivano codificati in un byte, cioè in otto bit (ogni bit è 0 o 1). Pertanto, si è scoperto che una tabella (anche nota come codifica o set) può contenere solo 256 caratteri. Questo potrebbe non essere sufficiente nemmeno per una lingua. Pertanto, sono apparse molte codifiche diverse, la confusione con la quale spesso ha portato al fatto che invece del testo leggibile, sullo schermo è apparso uno strano krakozyabry. Era richiesto un unico standard, che divenne Unicode. La codifica più utilizzata è UTF-8 (Unicode Transformation Format), che utilizza da 1 a 4 byte per visualizzare un carattere.

Simboli

I caratteri nelle tabelle Unicode sono numerati con numeri esadecimali. Ad esempio, la lettera maiuscola cirillica M è designata U + 041C. Ciò significa che si trova all'intersezione della riga 041 e della colonna C. Puoi semplicemente copiarlo e incollarlo da qualche parte. Per non rovistare in un elenco di più chilometri, dovresti usare la ricerca. Andando alla pagina dei simboli, vedrai il suo numero in Unicode e il modo in cui è disegnato in diversi caratteri. Puoi anche guidare il segno stesso nella barra di ricerca, anche se invece viene disegnato un quadrato, almeno per scoprire cosa fosse. Inoltre, su questo sito ci sono set speciali (e - casuali) dello stesso tipo di icone, raccolte da diverse sezioni, per facilità d'uso.

Lo standard Unicode è internazionale. Include segni di quasi tutti gli script del mondo. Compresi quelli che non vengono più utilizzati. Geroglifici egizi, rune germaniche, scrittura maya, cuneiformi e alfabeti degli antichi stati. Presentato e la designazione di misure e pesi, notazione musicale, concetti matematici.

Lo stesso Consorzio Unicode non inventa nuovi caratteri. Quelle icone che trovano la loro applicazione nella società vengono aggiunte alle tabelle. Ad esempio, il segno del rublo è stato utilizzato attivamente per sei anni prima di essere aggiunto a Unicode. Anche i pittogrammi Emoji (emoticon) sono stati ampiamente utilizzati per la prima volta in Giappone e prima di essere inclusi nella codifica. Ma i marchi e i loghi aziendali non vengono aggiunti in linea di principio. Anche comune come la mela di Apple o la bandiera di Windows. Oggi, nella versione 8.0, vengono codificati circa 120mila caratteri.

Un computer comprende il processo della sua trasformazione in una forma che consente di organizzare un trasferimento, un'archiviazione o un'elaborazione automatica più conveniente di questi dati. A tale scopo vengono utilizzate varie tabelle. La codifica ASCII è il primo sistema sviluppato negli Stati Uniti per lavorare con il testo in lingua inglese, che si è successivamente diffuso in tutto il mondo. L'articolo seguente è dedicato alla sua descrizione, caratteristiche, proprietà e ulteriore utilizzo.

Visualizzazione e memorizzazione di informazioni in un computer

I simboli sul monitor di un computer o uno o l'altro gadget digitale mobile sono formati sulla base di insiemi di forme vettoriali di tutti i tipi di segni e un codice che consente di trovare tra loro il simbolo che deve essere inserito nel posto giusto. È una serie di bit. Pertanto, ogni carattere deve corrispondere in modo univoco a un insieme di zeri e uno, che si trovano in un ordine specifico e univoco.

Come tutto cominciò

Storicamente, i primi computer erano in inglese. Per codificare in essi informazioni simboliche è stato sufficiente utilizzare solo 7 bit di memoria, mentre a questo scopo è stato allocato 1 byte, composto da 8 bit. Il numero di caratteri compresi dal computer in questo caso era pari a 128. Il numero di tali caratteri includeva l'alfabeto inglese con i suoi segni di punteggiatura, numeri e alcuni caratteri speciali. La codifica a sette bit in lingua inglese con la tabella corrispondente (code page), sviluppata nel 1963, è stata denominata American Standard Code for Information Interchange. Di solito l'abbreviazione "codifica ASCII" veniva usata per denotarlo ed è ancora usata fino ad oggi.

Transizione al multilinguismo

Nel corso del tempo, i computer sono diventati ampiamente utilizzati anche nei paesi non di lingua inglese. A questo proposito, c'era bisogno di codifiche che consentissero l'uso delle lingue nazionali. Si è deciso di non reinventare la ruota e di prendere come base l'ASCII. La tabella di codifica nella nuova edizione è stata ampliata in modo significativo. L'uso dell'ottavo bit ha permesso di tradurre 256 caratteri nel linguaggio del computer.

Descrizione

La codifica ASCII ha una tabella divisa in 2 parti. Solo la prima metà è considerata lo standard internazionale generalmente accettato. Include:

  • Caratteri con numeri ordinali da 0 a 31, codificati da sequenze da 00000000 a 00011111. Sono riservati ai caratteri di controllo che controllano il processo di visualizzazione del testo sullo schermo o stampante, dando un segnale acustico, ecc.
  • I caratteri con NN nella tabella da 32 a 127, codificati con sequenze da 0010000 a 01111111, costituiscono la parte standard della tabella. Questi includono uno spazio (N 32), lettere dell'alfabeto latino (minuscolo e maiuscolo), numeri di dieci cifre da 0 a 9, segni di punteggiatura, parentesi di diversi stili e altri simboli.
  • Caratteri con numeri ordinali da 128 a 255, codificati da sequenze da 10000000 a 11111111. Questi includono lettere di alfabeti nazionali diversi dal latino. È questa parte alternativa della tabella che viene utilizzata la codifica ASCII per convertire i caratteri russi in formato computer.

Alcune proprietà

Le peculiarità della codifica ASCII includono la differenza tra le lettere "A" - "Z" di minuscole e maiuscole di un solo bit. Questa circostanza semplifica notevolmente la conversione del registro, nonché la sua verifica dell'appartenenza all'intervallo di valori specificato. Inoltre, tutte le lettere nel sistema di codifica ASCII sono rappresentate dai propri numeri ordinali nell'alfabeto, che sono scritti in 5 cifre in notazione binaria, preceduti da 011 2 per le lettere minuscole e 010 2 per le maiuscole.

Tra le caratteristiche della codifica ASCII si può considerare la rappresentazione di 10 cifre - "0" - "9". Nel secondo sistema numerico, iniziano con 00112 e finiscono con 2 numeri. Ad esempio, 0101 2 è equivalente al quinto decimale, quindi il carattere "5" è scritto come 0011 01012. Sulla base di questo, puoi facilmente convertire i BCD in una stringa ASCII aggiungendo 00112 a ciascun nibble a sinistra.

"Unicode"

Come sai, sono necessari migliaia di caratteri per visualizzare testi nelle lingue del gruppo del sud-est asiatico. Un tale numero di essi non è in alcun modo descritto in un byte di informazioni, quindi anche le versioni ASCII estese non potrebbero più soddisfare le crescenti esigenze degli utenti di diversi paesi.

Pertanto, è sorta la necessità di creare una codifica di testo universale, sviluppata dal consorzio Unicode in collaborazione con molti leader del settore IT globale. I suoi specialisti hanno creato il sistema UTF 32. In esso sono stati assegnati 32 bit per la codifica di 1 carattere, che costituiscono 4 byte di informazioni. Lo svantaggio principale era un forte aumento della quantità di memoria richiesta fino a 4 volte, il che comportava molti problemi.

Allo stesso tempo, per la maggior parte dei paesi con lingue ufficiali appartenenti al gruppo indoeuropeo, il numero di caratteri pari a 2 32 è più che ridondante.

Come risultato di un ulteriore lavoro di specialisti del consorzio Unicode, è apparsa la codifica UTF-16. Divenne l'opzione per trasformare le informazioni simboliche che andava bene a tutti sia in termini di quantità di memoria richiesta che di numero di caratteri codificati. Ecco perché UTF-16 è stato accettato per impostazione predefinita e richiede la prenotazione di 2 byte per un carattere.

Anche questa versione piuttosto avanzata e di successo di "Unicode" presentava alcuni inconvenienti, e dopo il passaggio dalla versione estesa di ASCII a UTF-16 ha raddoppiato il peso del documento.

A tal proposito si è deciso di utilizzare la codifica a lunghezza variabile UTF-8. In questo caso, ogni carattere del testo sorgente è codificato con una sequenza da 1 a 6 byte.

Relazione con il codice standard americano per lo scambio di informazioni

Tutti i caratteri dell'alfabeto latino in UTF-8 di lunghezza variabile sono codificati in 1 byte, come nel sistema di codifica ASCII.

La particolarità di UTP-8 è che nel caso di un testo in latino senza l'utilizzo di altri caratteri, anche i programmi che non comprendono "Unicode" ti permetteranno comunque di leggerlo. In altre parole, la parte di base della codifica del testo ASCII viene semplicemente fusa nel nuovo UTF a lunghezza variabile. I caratteri cirillici in UTP-8 occupano 2 byte e, ad esempio, quelli georgiani - 3 byte. La creazione di UTF-16 e 8 ha risolto il problema principale della creazione di un unico spazio di codice nei caratteri. Da allora, i produttori di font possono riempire la tabella solo con forme vettoriali di caratteri di testo in base alle loro esigenze.

Codifiche diverse sono preferite su diversi sistemi operativi. Per poter leggere e modificare i testi digitati con una codifica diversa, vengono utilizzati programmi di conversione di testo russi. Alcuni editor di testo contengono transcodificatori incorporati e consentono di leggere il testo indipendentemente dalla codifica.

Ora sai quanti caratteri ci sono in ASCII e come e perché è stato sviluppato. Certo, oggi lo standard più diffuso al mondo è "Unicode". Tuttavia, non dobbiamo dimenticare che è stato creato sulla base di ASCII, quindi dovrebbe essere apprezzato il contributo dei suoi sviluppatori nel campo dell'IT.

Viene chiamato l'insieme di caratteri con cui viene scritto il testo alfabeto.

Il numero di caratteri dell'alfabeto è suo potenza.

Formula per determinare la quantità di informazioni: N = 2 b,

dove N è la cardinalità dell'alfabeto (numero di caratteri),

b - numero di bit (peso informativo del carattere).

L'alfabeto con una capacità di 256 caratteri può contenere quasi tutti i caratteri necessari. Questo alfabeto si chiama sufficiente.

Perché 256 = 2 8, quindi il peso di 1 carattere è 8 bit.

L'unità a 8 bit è stata nominata 1 byte:

1 byte = 8 bit.

Il codice binario di ogni carattere nel testo del computer occupa 1 byte di memoria.

Come vengono rappresentate le informazioni di testo nella memoria del computer?

La comodità della codifica dei caratteri in byte è ovvia, poiché un byte è la più piccola parte indirizzabile della memoria e, quindi, il processore può accedere a ciascun carattere separatamente, eseguendo l'elaborazione del testo. D'altra parte, 256 caratteri è un numero abbastanza sufficiente per rappresentare un'ampia varietà di informazioni sui caratteri.

Ora sorge la domanda, che tipo di codice binario a otto bit associare a ciascun carattere.

È chiaro che questa è una questione condizionale, puoi trovare molti metodi di codifica.

Tutti i caratteri dell'alfabeto del computer sono numerati da 0 a 255. Ogni numero corrisponde a un codice binario di otto cifre da 00000000 a 11111111. Questo codice è semplicemente il numero ordinale del carattere nel sistema binario.

La tabella in cui tutti i caratteri dell'alfabeto del computer sono assegnati ai numeri di serie è chiamata tabella di codifica.

Diverse tabelle di codifica vengono utilizzate per diversi tipi di computer.

Lo standard internazionale per il PC è diventato il tavolo ASCII(leggi asci) (Codice standard americano per lo scambio di informazioni).

La tabella ASCII è divisa in due parti.

Lo standard internazionale è solo la prima metà della tabella, ad es. simboli con numeri da 0 (00000000), fino a 127 (01111111).

Struttura della tabella di codifica ASCII

Numero di serie

Il codice

Simbolo

0 - 31

00000000 - 00011111

I simboli con numeri da 0 a 31 sono generalmente chiamati caratteri di controllo.
La loro funzione è controllare il processo di visualizzazione del testo sullo schermo o la stampa, dare un segnale sonoro, contrassegnare il testo, ecc.

32 - 127

00100000 - 01111111

Parte standard della tabella (inglese). Ciò include lettere minuscole e maiuscole dell'alfabeto latino, cifre decimali, segni di punteggiatura, tutti i tipi di parentesi, simboli commerciali e di altro tipo.
Il carattere 32 è uno spazio, ad es. posizione vuota nel testo.
Tutti gli altri si riflettono in certi segni.

128 - 255

10000000 - 11111111

Parte alternativa del tavolo (russo).
La seconda metà della tabella dei codici ASCII, chiamata code page (128 codici, che iniziano da 10000000 e terminano con 11111111), può avere diverse varianti, ogni variante ha il proprio numero.
La tabella codici viene utilizzata principalmente per ospitare alfabeti nazionali diversi dal latino. Nelle codifiche nazionali russe, questa parte della tabella contiene i simboli dell'alfabeto russo.

La prima metà della tabella ASCII


Attiro la tua attenzione sul fatto che nella tabella di codifica, le lettere (maiuscole e minuscole) sono disposte in ordine alfabetico e i numeri sono ordinati in ordine crescente di valori. Questa osservanza dell'ordine lessicografico nella disposizione dei caratteri è chiamata il principio della codifica sequenziale dell'alfabeto.

Per le lettere dell'alfabeto russo si osserva anche il principio della codifica sequenziale.

La seconda metà della tabella ASCII


Sfortunatamente, ci sono attualmente cinque diverse codifiche cirilliche (KOI8-R, Windows. MS-DOS, Macintosh e ISO). Per questo motivo, spesso sorgono problemi con il trasferimento di testo russo da un computer a un altro, da un sistema software a un altro.

Cronologicamente, uno dei primi standard per la codifica delle lettere russe sui computer era KOI8 ("Codice di scambio di informazioni, 8 bit"). Questa codifica è stata utilizzata negli anni '70 sui computer della serie di computer ES e dalla metà degli anni '80 ha iniziato a essere utilizzata nelle prime versioni russificate del sistema operativo UNIX.

Dall'inizio degli anni '90, epoca del predominio del sistema operativo MS DOS, rimane la codifica CP866 ("CP" sta per "Code Page").

I computer Apple che eseguono Mac OS utilizzano la propria codifica Mac.

Inoltre, l'Organizzazione internazionale per la standardizzazione (International Standards Organization, ISO) ha approvato un'altra codifica chiamata ISO 8859-5 come standard per la lingua russa.

Attualmente, la codifica più comune è Microsoft Windows, abbreviata in CP1251.

Dalla fine degli anni '90, il problema della standardizzazione della codifica dei caratteri è stato risolto con l'introduzione di un nuovo standard internazionale chiamato Unicode... Questa è una codifica a 16 bit, ad es. alloca 2 byte di memoria per ogni carattere. Ovviamente, questo raddoppia la quantità di memoria utilizzata. Ma d'altra parte, una tale tabella di codici consente l'inclusione di un massimo di 65536 caratteri. La specifica completa dello standard Unicode include tutti gli alfabeti esistenti, estinti e creati artificialmente del mondo, nonché molti simboli matematici, musicali, chimici e di altro tipo.

Proviamo a usare una tabella ASCII per immaginare come appariranno le parole nella memoria del computer.

Rappresentazione interna delle parole nella memoria del computer

A volte capita che un testo composto da lettere dell'alfabeto russo, ricevuto da un altro computer, non possa essere letto - una sorta di "senza senso" è visibile sullo schermo del monitor. Ciò è dovuto al fatto che i computer utilizzano una codifica diversa dei caratteri della lingua russa.

Principali articoli correlati