dicembre | Esadecimale | Simbolo | dicembre | Esadecimale | Simbolo | |
000 | 00 | specialista. NO | 128 | 80 | Ђ | |
001 | 01 | specialista. SOH | 129 | 81 | Ѓ | |
002 | 02 | specialista. STX | 130 | 82 | ‚ | |
003 | 03 | specialista. ETX | 131 | 83 | ѓ | |
004 | 04 | specialista. EOT | 132 | 84 | „ | |
005 | 05 | specialista. ENQ | 133 | 85 | … | |
006 | 06 | specialista. ACK | 134 | 86 | † | |
007 | 07 | specialista. BEL | 135 | 87 | ‡ | |
008 | 08 | specialista. BS | 136 | 88 | € | |
009 | 09 | specialista. TAB | 137 | 89 | ‰ | |
010 | 0A | specialista. LF | 138 | 8A | Љ | |
011 | 0B | specialista. VT | 139 | 8B | ‹ ‹ | |
012 | 0C | specialista. FF | 140 | 8C | Њ | |
013 | 0D | specialista. CR | 141 | 8D | Ќ | |
014 | 0E | specialista. COSÌ | 142 | 8E | Ћ | |
015 | 0F | specialista. SI | 143 | 8F | Џ | |
016 | 10 | specialista. DLE | 144 | 90 | ђ | |
017 | 11 | specialista. DC1 | 145 | 91 | ‘ | |
018 | 12 | specialista. DC2 | 146 | 92 | ’ | |
019 | 13 | specialista. DC3 | 147 | 93 | “ | |
020 | 14 | specialista. DC4 | 148 | 94 | ” | |
021 | 15 | specialista. NAK | 149 | 95 | ||
022 | 16 | specialista. SYN | 150 | 96 | – | |
023 | 17 | specialista. ETB | 151 | 97 | — | |
024 | 18 | specialista. POTERE | 152 | 98 | ||
025 | 19 | specialista. EM | 153 | 99 | ™ | |
026 | 1A | specialista. SUB | 154 | 9A | љ | |
027 | 1B | specialista. ESC | 155 | 9B | › | |
028 | 1C | specialista. FS | 156 | 9C | њ | |
029 | 1D | specialista. GS | 157 | 9D | ќ | |
030 | 1E | specialista. Rs | 158 | 9E | ћ | |
031 | 1F | specialista. noi | 159 | 9F | џ | |
032 | 20 | frizione SP (spazio) | 160 | A0 | ||
033 | 21 | ! | 161 | A1 | Ў | |
034 | 22 | " | 162 | la2 | ў | |
035 | 23 | # | 163 | LA3 | Ћ | |
036 | 24 | $ | 164 | A4 | ¤ | |
037 | 25 | % | 165 | la5 | Ґ | |
038 | 26 | & | 166 | LA6 | ¦ | |
039 | 27 | " | 167 | la7 | § | |
040 | 28 | ( | 168 | la8 | si | |
041 | 29 | ) | 169 | la9 | © | |
042 | 2A | * | 170 | aa | Є | |
043 | 2B | + | 171 | AB | « | |
044 | 2C | , | 172 | AC | ¬ | |
045 | 2D | - | 173 | ANNO DOMINI | | |
046 | 2E | . | 174 | AE | ® | |
047 | 2F | / | 175 | AF | Ї | |
048 | 30 | 0 | 176 | B0 | ° | |
049 | 31 | 1 | 177 | B1 | ± | |
050 | 32 | 2 | 178 | B2 | І | |
051 | 33 | 3 | 179 | B3 | і | |
052 | 34 | 4 | 180 | B4 | ґ | |
053 | 35 | 5 | 181 | B5 | µ | |
054 | 36 | 6 | 182 | B6 | ¶ | |
055 | 37 | 7 | 183 | B7 | · | |
056 | 38 | 8 | 184 | B8 | e | |
057 | 39 | 9 | 185 | B9 | № | |
058 | 3A | : | 186 | BA | є | |
059 | 3B | ; | 187 | BB | » | |
060 | 3C | < | 188 | AVANTI CRISTO | ј | |
061 | 3D | = | 189 | BD | Ѕ | |
062 | 3E | > | 190 | ESSERE | ѕ | |
063 | 3F | ? | 191 | bf | ї | |
064 | 40 | @ | 192 | C0 | UN | |
065 | 41 | UN | 193 | do1 | B | |
066 | 42 | B | 194 | do2 | V | |
067 | 43 | C | 195 | do3 | G | |
068 | 44 | D | 196 | C4 | D | |
069 | 45 | E | 197 | C5 | E | |
070 | 46 | F | 198 | C6 | F | |
071 | 47 | G | 199 | do7 | Z | |
072 | 48 | h | 200 | do8 | E | |
073 | 49 | io | 201 | C9 | questo | |
074 | 4A | J | 202 | circa | A | |
075 | 4B | K | 203 | CB | l | |
076 | 4C | l | 204 | CC | m | |
077 | 4D | m | 205 | cd | n | |
078 | 4E | n | 206 | CE | oh | |
079 | 4F | oh | 207 | CF | P | |
080 | 50 | P | 208 | D0 | R | |
081 | 51 | Q | 209 | D1 | CON | |
082 | 52 | R | 210 | re2 | T | |
083 | 53 | S | 211 | RE3 | Ho | |
084 | 54 | T | 212 | re4 | F | |
085 | 55 | tu | 213 | D5 | X | |
086 | 56 | V | 214 | D6 | C | |
087 | 57 | W | 215 | RE7 | h | |
088 | 58 | X | 216 | D8 | SH | |
089 | 59 | sì | 217 | D9 | SCH | |
090 | 5A | Z | 218 | DA | B | |
091 | 5B | [ | 219 | DB | S | |
092 | 5C | \ | 220 | DC | B | |
093 | 5 D | ] | 221 | DD | E | |
094 | 5E | ^ | 222 | DE | YU | |
095 | 5F | _ | 223 | DF | IO SONO | |
096 | 60 | ` | 224 | E0 | un | |
097 | 61 | un | 225 | mi1 | B | |
098 | 62 | B | 226 | E2 | v | |
099 | 63 | C | 227 | E3 | G | |
100 | 64 | D | 228 | mi4 | D | |
101 | 65 | e | 229 | E5 | e | |
102 | 66 | F | 230 | E6 | F | |
103 | 67 | G | 231 | E7 | S | |
104 | 68 | h | 232 | E8 | e | |
105 | 69 | io | 233 | E9 | questo | |
106 | 6A | J | 234 | EA | a | |
107 | 6B | K | 235 | EB | io | |
108 | 6C | io | 236 | EC | m | |
109 | 6D | m | 237 | ED | n | |
110 | 6E | n | 238 | EE | oh | |
111 | 6F | o | 239 | EF | P | |
112 | 70 | P | 240 | F0 | R | |
113 | 71 | Q | 241 | F1 | Con | |
114 | 72 | R | 242 | F2 | T | |
115 | 73 | S | 243 | F3 | in | |
116 | 74 | T | 244 | F4 | F | |
117 | 75 | tu | 245 | F5 | X | |
118 | 76 | v | 246 | F6 | C | |
119 | 77 | w | 247 | F7 | h | |
120 | 78 | X | 248 | F8 | w | |
121 | 79 | sì | 249 | F9 | SCH | |
122 | 7A | z | 250 | fa | B | |
123 | 7B | { | 251 | FB | S | |
124 | 7C | | | 252 | FC | B | |
125 | 7D | } | 253 | FD | eh | |
126 | 7E | ~ | 254 | FE | Yu | |
127 | 7F | Specialista. DEL | 255 | FF | io sono |
Tabella dei codici dei caratteri ASCII di Windows.
Descrizione di caratteri speciali (di controllo)
È da notare che inizialmente i caratteri di controllo della tabella ASCII venivano utilizzati per fornire lo scambio di dati tramite telescrivente, l'immissione di dati da nastro perforato e per il più semplice controllo di dispositivi esterni. Attualmente, la maggior parte dei caratteri di controllo ASCII nella tabella non comporta più questo onere e può essere utilizzata per altri scopi.
Il codice | Descrizione |
---|---|
NUL, 00 | nullo, vuoto |
SOH, 01 | Inizio dell'intestazione, inizio dell'intestazione |
STX, 02 | Inizio di TeXt, l'inizio del testo. |
ETX, 03 | Fine del testo, fine del testo |
EOT, 04 | Fine della trasmissione, fine della trasmissione |
ENQ, 05 | Chiedere informazioni. chiedo conferma |
ACK, 06 | Riconoscimento. confermo |
BEL, 07 | campana, campana |
BS, 08 | Backspace, torna indietro di un carattere |
SCHEDA, 09 | Scheda, scheda orizzontale |
LF, 0A | Avanzamento riga, avanzamento riga. Ora nella maggior parte dei linguaggi di programmazione è indicato come \ n |
VT, 0B | Scheda verticale, scheda verticale. |
FF, 0C | Avanzamento modulo, avanzamento pagina, nuova pagina |
CR, 0D | Ritorno a capo Ora nella maggior parte dei linguaggi di programmazione è indicato come \ r |
SO, 0E | Shift Out, cambia il colore del nastro di inchiostro nel dispositivo di stampa |
SI, 0F | Shift In, restituisce il colore del nastro di inchiostro nel dispositivo di stampa |
DLE, 10 | Data Link Escape, cambia canale in trasmissione dati |
DC1, 11 DC2, 12 DC3, 13 DC4, 14 | Controllo del dispositivo, simboli di controllo del dispositivo |
NAK, 15 | Riconoscimento negativo, non riconosco. |
SIN, 16 | Sincronizzazione. Simbolo di sincronizzazione |
ETB, 17 | Fine del blocco di testo, fine del blocco di testo |
PU, 18 | Annulla, annullando uno precedentemente superato |
EM, 19 | Fine del mezzo, fine del supporto dati |
SUB, 1A | Sostituire Posto al posto di un carattere il cui valore è stato perso o corrotto durante la trasmissione |
ESC, 1B | Fuga sequenza di fuga |
FA, 1C | Separatore di file, separatore di file |
GS, 1D | Separatore di gruppi, separatore di gruppi |
RS, 1E | Separatore di record, separatore di record |
USA, 1F | Separatore di unità, separatore di unità |
DEL, 7FA | Elimina, elimina l'ultimo carattere. |
Un computer comprende il processo della sua trasformazione in una forma che consente di organizzare un trasferimento, un'archiviazione o un'elaborazione automatica più conveniente di questi dati. A tale scopo vengono utilizzate varie tabelle. La codifica ASCII è il primo sistema sviluppato negli Stati Uniti per lavorare con il testo in lingua inglese, che si è successivamente diffuso in tutto il mondo. L'articolo seguente è dedicato alla sua descrizione, caratteristiche, proprietà e ulteriore utilizzo.
Visualizzazione e memorizzazione di informazioni in un computer
I simboli sul monitor di un computer o uno o l'altro gadget digitale mobile sono formati sulla base di insiemi di forme vettoriali di tutti i tipi di segni e un codice che consente di trovare tra loro il simbolo che deve essere inserito nel posto giusto. È una serie di bit. Pertanto, ogni carattere deve corrispondere in modo univoco a un insieme di zeri e uno, che si trovano in un ordine specifico e univoco.
Come tutto cominciò
Storicamente, i primi computer erano in inglese. Per codificare in essi informazioni simboliche è stato sufficiente utilizzare solo 7 bit di memoria, mentre a questo scopo è stato allocato 1 byte, composto da 8 bit. Il numero di caratteri compresi dal computer in questo caso era pari a 128. Il numero di tali caratteri includeva l'alfabeto inglese con i suoi segni di punteggiatura, numeri e alcuni caratteri speciali. La codifica a sette bit in lingua inglese con la tabella corrispondente (code page), sviluppata nel 1963, è stata denominata American Standard Code for Information Interchange. Di solito l'abbreviazione "codifica ASCII" veniva usata per denotarlo ed è ancora usata fino ad oggi.
Transizione al multilinguismo
Nel corso del tempo, i computer sono diventati ampiamente utilizzati anche nei paesi non di lingua inglese. A questo proposito, c'era bisogno di codifiche che consentissero l'uso delle lingue nazionali. Si è deciso di non reinventare la ruota e di prendere come base l'ASCII. La tabella di codifica nella nuova edizione è stata ampliata in modo significativo. L'uso dell'ottavo bit ha permesso di tradurre 256 caratteri nel linguaggio del computer.
Descrizione
La codifica ASCII ha una tabella divisa in 2 parti. Solo la prima metà è considerata lo standard internazionale generalmente accettato. Include:
- Caratteri con numeri ordinali da 0 a 31, codificati da sequenze da 00000000 a 00011111. Sono riservati ai caratteri di controllo che controllano il processo di visualizzazione del testo sullo schermo o stampante, dando un segnale acustico, ecc.
- I caratteri con NN nella tabella da 32 a 127, codificati con sequenze da 0010000 a 01111111, costituiscono la parte standard della tabella. Questi includono uno spazio (N 32), lettere dell'alfabeto latino (minuscolo e maiuscolo), numeri di dieci cifre da 0 a 9, segni di punteggiatura, parentesi di diversi stili e altri simboli.
- Caratteri con numeri ordinali da 128 a 255, codificati da sequenze da 10000000 a 11111111. Questi includono lettere di alfabeti nazionali diversi dal latino. È questa parte alternativa della tabella che viene utilizzata la codifica ASCII per convertire i caratteri russi in formato computer.
Alcune proprietà
Le peculiarità della codifica ASCII includono la differenza tra le lettere "A" - "Z" di minuscole e maiuscole di un solo bit. Questa circostanza semplifica notevolmente la conversione del registro, nonché la sua verifica dell'appartenenza all'intervallo di valori specificato. Inoltre, tutte le lettere nel sistema di codifica ASCII sono rappresentate dai propri numeri ordinali nell'alfabeto, che sono scritti in 5 cifre in notazione binaria, preceduti da 011 2 per le lettere minuscole e 010 2 per le maiuscole.
Tra le caratteristiche della codifica ASCII si può considerare la rappresentazione di 10 cifre - "0" - "9". Nel secondo sistema numerico, iniziano con 00112 e finiscono con 2 numeri. Ad esempio, 0101 2 è equivalente al cinque decimale, quindi il carattere "5" è scritto come 0011 01012. Sulla base di questo, puoi facilmente convertire i BCD in una stringa ASCII aggiungendo 00112 a ciascun nibble a sinistra.
"Unicode"
Come sai, sono necessari migliaia di caratteri per visualizzare testi nelle lingue del gruppo del sud-est asiatico. Un tale numero di essi non può essere descritto in un byte di informazioni, quindi anche le versioni ASCII estese non potrebbero più soddisfare le crescenti esigenze degli utenti di diversi paesi.
Pertanto, è sorta la necessità di creare una codifica di testo universale, il cui sviluppo, in collaborazione con molti leader dell'industria IT globale, è stato intrapreso dal consorzio Unicode. I suoi specialisti hanno creato il sistema UTF 32. In esso sono stati assegnati 32 bit per la codifica di 1 carattere, che costituiscono 4 byte di informazioni. Lo svantaggio principale era un forte aumento della quantità di memoria richiesta fino a 4 volte, il che comportava molti problemi.
Allo stesso tempo, per la maggior parte dei paesi con lingue ufficiali appartenenti al gruppo indoeuropeo, il numero di caratteri pari a 2 32 è più che ridondante.
Come risultato di un ulteriore lavoro di specialisti del consorzio Unicode, è apparsa la codifica UTF-16. Divenne l'opzione per trasformare le informazioni simboliche, adatta a tutti sia in termini di quantità di memoria richiesta che di numero di simboli codificati. Ecco perché UTF-16 è stato accettato per impostazione predefinita e richiede la prenotazione di 2 byte per un carattere.
Anche questa versione piuttosto avanzata e di successo di "Unicode" presentava alcuni inconvenienti, e dopo il passaggio dalla versione estesa di ASCII a UTF-16, ha raddoppiato il peso del documento.
A tal proposito si è deciso di utilizzare la codifica a lunghezza variabile UTF-8. In questo caso, ogni carattere del testo sorgente è codificato con una sequenza da 1 a 6 byte.
Relazione con il codice standard americano per lo scambio di informazioni
Tutti i caratteri dell'alfabeto latino in UTF-8 di lunghezza variabile sono codificati in 1 byte, come nel sistema di codifica ASCII.
La particolarità di UTP-8 è che nel caso di un testo in latino senza l'utilizzo di altri caratteri, anche i programmi che non comprendono Unicode ti permetteranno comunque di leggerlo. In altre parole, la parte di base della codifica del testo ASCII viene semplicemente fusa nel nuovo UTF a lunghezza variabile. I caratteri cirillici in UTP-8 occupano 2 byte e, ad esempio, quelli georgiani - 3 byte. La creazione di UTF-16 e 8 ha risolto il problema principale della creazione di un unico spazio di codice nei caratteri. Da allora, i produttori di font possono riempire la tabella solo con forme vettoriali di caratteri di testo in base alle loro esigenze.
Codifiche diverse sono preferite su diversi sistemi operativi. Per poter leggere e modificare i testi digitati con una codifica diversa, vengono utilizzati programmi di conversione di testo russi. Alcuni editor di testo contengono transcodificatori incorporati e consentono di leggere il testo indipendentemente dalla codifica.
Ora sai quanti caratteri ci sono in ASCII e come e perché è stato sviluppato. Certo, oggi lo standard più diffuso al mondo è "Unicode". Tuttavia, non dobbiamo dimenticare che è stato creato sulla base di ASCII, quindi dovrebbe essere apprezzato il contributo dei suoi sviluppatori nel campo dell'IT.
Come sai, un computer memorizza le informazioni in forma binaria, rappresentandole come una sequenza di uno e zero. Per tradurre le informazioni in una forma conveniente per la percezione umana, ogni sequenza univoca di numeri viene sostituita con il simbolo corrispondente quando viene visualizzata.
Uno dei sistemi per correlare codici binari con caratteri stampabili e di controllo è
All'attuale livello di sviluppo della tecnologia informatica, l'utente non è tenuto a conoscere il codice di ogni simbolo specifico. Tuttavia, una comprensione generale di come viene eseguita la codifica è estremamente utile e per alcune categorie di specialisti persino necessaria.
Creazione ASCII
Nella sua forma originale, la codifica è stata sviluppata nel 1963 e poi aggiornata due volte entro 25 anni.
Nella versione originale, la tabella dei caratteri ASCII includeva 128 caratteri, successivamente è apparsa una versione estesa, in cui sono stati salvati i primi 128 caratteri e i caratteri precedentemente assenti sono stati assegnati a codici con l'ottavo bit coinvolto.
Per molti anni, questa codifica è stata la più popolare al mondo. Nel 2006, Latin 1252 ha preso la posizione di leader e, dalla fine del 2007 ad oggi, Unicode ha mantenuto saldamente la posizione di leader.
Rappresentazione computerizzata ASCII
Ogni carattere ASCII ha il proprio codice di 8 caratteri che rappresentano zero o uno. Il numero minimo in tale rappresentazione è zero (otto zeri nel sistema binario), che è il codice del primo elemento della tabella.
Due codici nella tabella sono stati riservati per il passaggio dallo standard US-ASCII alla sua versione nazionale.
Dopo che l'ASCII ha iniziato a includere non 128, ma 256 caratteri, si è diffusa una variante della codifica, in cui la versione originale della tabella è stata salvata nei primi 128 codici con un ottavo bit zero. I segni della scrittura nazionale sono stati mantenuti nella metà superiore della tabella (posizioni 128-255).
L'utente non ha bisogno di conoscere direttamente i codici dei caratteri ASCII. Di solito è sufficiente che uno sviluppatore di software conosca il numero di un elemento in una tabella per calcolarne il codice utilizzando un sistema binario, se necessario.
lingua russa
Dopo lo sviluppo delle codifiche per le lingue scandinave, cinese, coreana, greca, ecc. nei primi anni '70, anche l'Unione Sovietica iniziò a creare la propria versione. Presto fu sviluppata una versione della codifica a 8 bit chiamata KOI8, che conserva i primi 128 codici di caratteri ASCII e assegna lo stesso numero di posizioni per le lettere dell'alfabeto nazionale e caratteri aggiuntivi.
Prima dell'introduzione di Unicode, KOI8 dominava il segmento russo di Internet. C'erano opzioni di codifica per entrambi gli alfabeti russo e ucraino.
Problemi ASCII
Poiché il numero di elementi anche nella tabella estesa non superava i 256, non c'era la possibilità di ospitare diversi script diversi in un'unica codifica. Negli anni '90, il problema di "crocozyabr" è apparso in Runet, quando i testi digitati in caratteri ASCII russi venivano visualizzati in modo errato.
Il problema era che i codici delle diverse varianti ASCII non corrispondevano tra loro. Ricorda che le posizioni 128-255 potrebbero contenere caratteri diversi e quando si cambia una codifica cirillica in un'altra, tutte le lettere del testo sono state sostituite con altre aventi un numero identico in un'altra versione della codifica.
Stato attuale
Con l'avvento di Unicode, la popolarità di ASCII è diminuita drasticamente.
La ragione di ciò risiede nel fatto che la nuova codifica ha permesso di accogliere i segni di quasi tutte le lingue scritte. In questo caso, i primi 128 caratteri ASCII corrispondono agli stessi caratteri in Unicode.
Nel 2000, ASCII era la codifica più popolare su Internet ed era utilizzata nel 60% delle pagine web indicizzate da Google. Nel 2012, la quota di tali pagine era scesa al 17% e Unicode (UTF-8) ha preso il posto della codifica più popolare.
Pertanto, l'ASCII è una parte importante della storia della tecnologia dell'informazione, ma il suo utilizzo in futuro è visto come poco promettente.
Secondo l'Unione internazionale delle telecomunicazioni, nel 2016 tre miliardi e mezzo di persone hanno utilizzato Internet con regolarità variabile. La maggior parte di loro non pensa nemmeno al fatto che tutti i messaggi inviati da loro tramite PC o gadget mobili, così come i testi visualizzati su tutti i tipi di monitor, sono in realtà combinazioni di 0 e 1. Questa presentazione di informazioni è chiamata codifica . Fornisce e facilita notevolmente la sua memorizzazione, elaborazione e trasmissione. Nel 1963 fu sviluppata la codifica ASCII americana, a cui questo articolo è dedicato.
Presentazione di informazioni in un computer
Dal punto di vista di qualsiasi computer elettronico, il testo è una raccolta di singoli caratteri. Questi includono non solo lettere, comprese le lettere maiuscole, ma anche segni di punteggiatura e numeri. Inoltre, vengono utilizzati i caratteri speciali "=", "&", "(" e spazi).
L'insieme dei simboli che compongono il testo è chiamato alfabeto e il loro numero è chiamato cardinalità (indicato come N). Per definirlo, viene utilizzata l'espressione N = 2 ^ b, dove b è il numero di bit o il peso informativo di un particolare carattere.
È stato dimostrato che un alfabeto con una capacità di 256 caratteri può rappresentare tutti i caratteri necessari.
Poiché 256 è l'ottava potenza di due, il peso di ciascun carattere è di 8 bit.
L'unità di misura di 8 bit è chiamata 1 byte, quindi è consuetudine dire che qualsiasi carattere in un testo memorizzato su un computer occupa un byte di memoria.
Come viene eseguita la codifica?
Eventuali testi vengono inseriti nella memoria di un personal computer mediante i tasti della tastiera sui quali sono scritti numeri, lettere, segni di punteggiatura e altri simboli. Vengono trasferiti alla RAM in un codice binario, ovvero ogni carattere è associato a un codice decimale familiare all'uomo, da 0 a 255, che corrisponde a un codice binario - da 00000000 a 11111111.
La codifica dei caratteri in byte consente all'elaboratore di testi di accedere a ciascun carattere separatamente. Allo stesso tempo, 256 caratteri sono sufficienti per rappresentare qualsiasi informazione sui caratteri.
Codifica dei caratteri ASCII
Questa abbreviazione in inglese sta per codice per lo scambio di informazioni.
Anche agli albori dell'informatizzazione, è diventato ovvio che è possibile trovare un'ampia varietà di modi per codificare le informazioni. Tuttavia, per trasferire informazioni da un computer a un altro, era necessario sviluppare un unico standard. Così, nel 1963, negli Stati Uniti apparve una tabella di codifica ASCII. In esso, qualsiasi simbolo dell'alfabeto del computer è associato al suo numero ordinale in rappresentazione binaria. Inizialmente, ASCII era utilizzato solo negli Stati Uniti e in seguito divenne lo standard internazionale per i PC.
I codici ASCII sono divisi in 2 parti. Solo la prima metà di questa tabella è considerata uno standard internazionale. Include caratteri con numeri ordinali da 0 (codificato come 00000000) a 127 (codice 01111111).
Numero di serie | Codifica del testo ASCII | Simbolo |
0000 0000 - 0001 1111 | I caratteri con N da 0 a 31 sono chiamati caratteri di controllo. La loro funzione è quella di "guidare" il processo di visualizzazione del testo su un monitor o dispositivo di stampa, dando un segnale sonoro, ecc. |
|
0010 0000 - 0111 1111 | Caratteri con N da 32 a 127 (parte standard della tabella) - lettere maiuscole e minuscole dell'alfabeto latino, numeri a 10 cifre, segni di punteggiatura, nonché varie parentesi, simboli commerciali e di altro tipo. Il carattere 32 denota uno spazio. |
|
1000 0000 - 1111 1111 | I caratteri con N da 128 a 255 (parte alternativa della tabella o della tabella codici) possono avere diverse varianti, ognuna delle quali ha un proprio numero. La tabella codici viene utilizzata per specificare alfabeti nazionali diversi dal latino. In particolare, è con il suo aiuto che viene eseguita la codifica ASCII per i caratteri russi. |
Nella tabella di codifica, lettere maiuscole e una dopo l'altra in ordine alfabetico e numeri, in ordine crescente di valori. Questo principio si applica anche all'alfabeto russo.
Personaggi di controllo
La tabella di codifica ASCII è stata originariamente creata per ricevere e trasmettere informazioni su un dispositivo del genere che non è stato utilizzato per molto tempo, come una telescrivente. A tal proposito, nel set di caratteri sono stati inseriti dei caratteri non stampabili, utilizzati come comandi per controllare questo dispositivo. Comandi simili sono stati utilizzati in tali metodi di messaggistica pre-computer come il codice Morse, ecc.
Il carattere "telescrivente" più comune è NUL (00, "zero"). È ancora utilizzato nella maggior parte dei linguaggi di programmazione fino ad oggi, indicando un terminatore di riga.
Dove viene utilizzata la codifica ASCII?
Il codice standard degli Stati Uniti è necessario per qualcosa di più della semplice immissione di informazioni di testo dalla tastiera. Viene utilizzato anche in grafica. Nello specifico, in ASCII Art Maker, le immagini di diverse estensioni rappresentano uno spettro di caratteri ASCII.
Tali prodotti sono di due tipi: svolgono la funzione di editor grafici convertendo le immagini in testo e convertendo le "immagini" in grafica ASCII. Ad esempio, la famosa emoticon è un ottimo esempio di carattere di codifica.
ASCII può essere utilizzato anche durante la creazione di un documento HTML. In questo caso, puoi inserire un determinato set di caratteri e, durante la visualizzazione della pagina, sullo schermo apparirà un carattere che corrisponde a questo codice.
L'ASCII è necessario anche per la creazione di siti multilingue, poiché i caratteri che non sono inclusi in una specifica tabella nazionale sono sostituiti da codici ASCII.
Alcune caratteristiche
Per codificare le informazioni di testo nella codifica ASCII, originariamente venivano utilizzati 7 bit (uno è stato lasciato vuoto), ma oggi funziona come 8 bit.
Le lettere nelle colonne superiore e inferiore differiscono l'una dall'altra per un solo bit. Ciò riduce notevolmente la complessità del controllo.
Utilizzo di ASCII in Microsoft Office
Se necessario, questo tipo di codifica del testo può essere utilizzato negli editor di testo Microsoft come Blocco note e Office Word. Tuttavia, durante la digitazione in questo caso, non sarà possibile utilizzare alcune funzioni. Ad esempio, non sarai in grado di mettere in grassetto, perché ASCII conserva solo il significato delle informazioni, ignorandone l'aspetto e la forma generali.
Standardizzazione
L'organizzazione ISO ha adottato gli standard ISO 8859. Questo gruppo definisce codifiche a otto bit per diversi gruppi linguistici. Nello specifico, ISO 8859-1 è Extended ASCII, ovvero una tabella per gli Stati Uniti e l'Europa occidentale. E ISO 8859-5 è una tabella utilizzata per l'alfabeto cirillico, inclusa la lingua russa.
Per una serie di ragioni storiche, lo standard ISO 8859-5 è in uso da pochissimo tempo.
Per la lingua russa, al momento, vengono effettivamente utilizzate le codifiche:
- CP866 (Codice Pagina 866) o DOS, che viene spesso definita codifica GOST alternativa. È stato utilizzato attivamente fino alla metà degli anni '90 del secolo scorso. Al momento, praticamente non viene utilizzato.
- KOI-8. La codifica è stata sviluppata negli anni '70-'80 e al momento è uno standard generalmente accettato per i messaggi di posta su Runet. È ampiamente utilizzato nei sistemi operativi della famiglia Unix, incluso Linux. La versione "russa" di KOI-8 si chiama KOI-8R. Inoltre, esistono versioni per altre lingue cirilliche, come l'ucraino.
- Codice pagina 1251 (CP 1251, Windows - 1251). Sviluppato da Microsoft per fornire supporto per la lingua russa in ambiente Windows.
Il vantaggio principale del primo standard CP866 era la conservazione dei caratteri pseudografici nelle stesse posizioni dell'ASCII esteso. Ciò ha permesso di eseguire senza modifiche programmi di testo di origine straniera, come il noto Norton Commander. Al momento, CP866 viene utilizzato per programmi sviluppati sotto Windows che funzionano in modalità testo a schermo intero o in finestre di testo, incluso FAR Manager.
I testi per computer scritti con la codifica CP866 sono piuttosto rari ultimamente, ma è proprio questa codifica che viene utilizzata per i nomi di file russi in Windows.
"Unicode"
Al momento, è questa codifica che ha ricevuto l'uso più diffuso. I codici Unicode sono suddivisi in aree. Il primo (da U + 0000 a U + 007F) include caratteri ASCII con codici. Seguono le aree dei segni di varie scritture nazionali, nonché i segni di punteggiatura e i simboli tecnici. Inoltre, alcuni dei codici "Unicode" sono riservati nel caso in cui sia necessario includere nuovi caratteri in futuro.
Ora sai che in ASCII ogni carattere è rappresentato come una combinazione di 8 zeri e uno. Ai non addetti ai lavori queste informazioni possono sembrare inutili e poco interessanti, ma non vuoi sapere cosa sta succedendo “nel cervello” del tuo PC?!
Viene chiamato l'insieme di caratteri con cui viene scritto il testo alfabeto.
Il numero di caratteri dell'alfabeto è suo potenza.
Formula per determinare la quantità di informazioni: N = 2 b,
dove N è la cardinalità dell'alfabeto (numero di caratteri),
b - numero di bit (peso informativo del carattere).
L'alfabeto con una capacità di 256 caratteri può contenere quasi tutti i caratteri necessari. Questo alfabeto si chiama sufficiente.
Perché 256 = 2 8, quindi il peso di 1 carattere è 8 bit.
L'unità a 8 bit è stata nominata 1 byte:
1 byte = 8 bit.
Il codice binario di ogni carattere nel testo del computer occupa 1 byte di memoria.
Come vengono rappresentate le informazioni di testo nella memoria del computer?
La comodità della codifica dei caratteri in byte è ovvia, poiché un byte è la più piccola parte indirizzabile della memoria e, quindi, il processore può accedere a ciascun carattere separatamente, eseguendo l'elaborazione del testo. D'altra parte, 256 caratteri è un numero abbastanza sufficiente per rappresentare un'ampia varietà di informazioni sui caratteri.
Ora sorge la domanda, che tipo di codice binario a otto bit associare a ciascun carattere.
È chiaro che questa è una questione condizionale, puoi trovare molti metodi di codifica.
Tutti i caratteri dell'alfabeto del computer sono numerati da 0 a 255. Ogni numero corrisponde a un codice binario di otto cifre da 00000000 a 11111111. Questo codice è semplicemente il numero ordinale del carattere nel sistema binario.
La tabella in cui tutti i caratteri dell'alfabeto del computer sono assegnati ai numeri di serie è chiamata tabella di codifica.
Diverse tabelle di codifica vengono utilizzate per diversi tipi di computer.
Lo standard internazionale per il PC è diventato il tavolo ASCII(leggi asci) (Codice standard americano per lo scambio di informazioni).
La tabella ASCII è divisa in due parti.
Lo standard internazionale è solo la prima metà della tabella, ad es. simboli con numeri da 0 (00000000), fino a 127 (01111111).
Struttura della tabella di codifica ASCII
Numero di serie |
Il codice |
Simbolo |
0 - 31 |
00000000 - 00011111 |
I simboli con numeri da 0 a 31 sono generalmente chiamati caratteri di controllo. |
32 - 127 |
00100000 - 01111111 |
Parte standard della tabella (inglese). Ciò include lettere minuscole e maiuscole dell'alfabeto latino, cifre decimali, segni di punteggiatura, tutti i tipi di parentesi, simboli commerciali e di altro tipo. |
128 - 255 |
10000000 - 11111111 |
Parte alternativa del tavolo (russo). |
La prima metà della tabella ASCII
Attiro la tua attenzione sul fatto che nella tabella di codifica, le lettere (maiuscole e minuscole) sono disposte in ordine alfabetico e i numeri sono ordinati in ordine crescente di valori. Questa osservanza dell'ordine lessicografico nella disposizione dei caratteri è chiamata il principio della codifica sequenziale dell'alfabeto.
Per le lettere dell'alfabeto russo si osserva anche il principio della codifica sequenziale.
La seconda metà della tabella ASCII
Sfortunatamente, ci sono attualmente cinque diverse codifiche cirilliche (KOI8-R, Windows. MS-DOS, Macintosh e ISO). Per questo motivo, spesso sorgono problemi con il trasferimento di testo russo da un computer a un altro, da un sistema software a un altro.
Cronologicamente, uno dei primi standard per la codifica delle lettere russe sui computer era KOI8 ("Codice di scambio di informazioni, 8 bit"). Questa codifica è stata utilizzata negli anni '70 sui computer della serie di computer ES e dalla metà degli anni '80 ha iniziato a essere utilizzata nelle prime versioni russificate del sistema operativo UNIX.
Dall'inizio degli anni '90, epoca del predominio del sistema operativo MS DOS, rimane la codifica CP866 ("CP" sta per "Code Page").
I computer Apple che eseguono Mac OS utilizzano la propria codifica Mac.
Inoltre, l'Organizzazione internazionale per la standardizzazione (International Standards Organization, ISO) ha approvato un'altra codifica chiamata ISO 8859-5 come standard per la lingua russa.
Attualmente, la codifica più comune è Microsoft Windows, abbreviata in CP1251.
Dalla fine degli anni '90, il problema della standardizzazione della codifica dei caratteri è stato risolto con l'introduzione di un nuovo standard internazionale chiamato Unicode... Questa è una codifica a 16 bit, ad es. alloca 2 byte di memoria per ogni carattere. Ovviamente, questo raddoppia la quantità di memoria utilizzata. Ma d'altra parte, una tale tabella di codici consente l'inclusione di un massimo di 65536 caratteri. La specifica completa dello standard Unicode include tutti gli alfabeti esistenti, estinti e creati artificialmente del mondo, nonché molti simboli matematici, musicali, chimici e di altro tipo.
Proviamo a usare una tabella ASCII per immaginare come appariranno le parole nella memoria del computer.
Rappresentazione interna delle parole nella memoria del computer
A volte capita che un testo composto da lettere dell'alfabeto russo, ricevuto da un altro computer, non possa essere letto - una sorta di "senza senso" è visibile sullo schermo del monitor. Ciò è dovuto al fatto che i computer utilizzano una codifica diversa dei caratteri della lingua russa.