Come configurare smartphone e PC. Portale informativo
  • casa
  • Interessante
  • Codici caratteri latini. Codifica ASCII (codice standard americano per lo scambio di informazioni) - codifica del testo di base per il latino

Codici caratteri latini. Codifica ASCII (codice standard americano per lo scambio di informazioni) - codifica del testo di base per il latino

dicembre Esadecimale Simbolo dicembre Esadecimale Simbolo
000 00 specialista. NO 128 80 Ђ
001 01 specialista. SOH 129 81 Ѓ
002 02 specialista. STX 130 82
003 03 specialista. ETX 131 83 ѓ
004 04 specialista. EOT 132 84
005 05 specialista. ENQ 133 85
006 06 specialista. ACK 134 86
007 07 specialista. BEL 135 87
008 08 specialista. BS 136 88
009 09 specialista. TAB 137 89
010 0Aspecialista. LF 138 8AЉ
011 0Bspecialista. VT 139 8B‹ ‹
012 0Cspecialista. FF 140 8CЊ
013 0Dspecialista. CR 141 8DЌ
014 0Especialista. COSÌ 142 8EЋ
015 0Fspecialista. SI 143 8FЏ
016 10 specialista. DLE 144 90 ђ
017 11 specialista. DC1 145 91
018 12 specialista. DC2 146 92
019 13 specialista. DC3 147 93
020 14 specialista. DC4 148 94
021 15 specialista. NAK 149 95
022 16 specialista. SYN 150 96
023 17 specialista. ETB 151 97
024 18 specialista. POTERE 152 98
025 19 specialista. EM 153 99
026 1Aspecialista. SUB 154 9Aљ
027 1Bspecialista. ESC 155 9B
028 1Cspecialista. FS 156 9Cњ
029 1Dspecialista. GS 157 9Dќ
030 1Especialista. Rs 158 9Eћ
031 1Fspecialista. noi 159 9Fџ
032 20 frizione SP (spazio) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 la2ў
035 23 # 163 LA3Ћ
036 24 $ 164 A4¤
037 25 % 165 la5Ґ
038 26 & 166 LA6¦
039 27 " 167 la7§
040 28 ( 168 la8si
041 29 ) 169 la9©
042 2A* 170 aaЄ
043 2B+ 171 AB«
044 2C, 172 AC¬
045 2D- 173 ANNO DOMINI­
046 2E. 174 AE®
047 2F/ 175 AFЇ
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 BAє
059 3B; 187 BB»
060 3C< 188 AVANTI CRISTOј
061 3D= 189 BDЅ
062 3E> 190 ESSEREѕ
063 3F? 191 bfї
064 40 @ 192 C0 UN
065 41 UN 193 do1 B
066 42 B 194 do2 V
067 43 C 195 do3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 F
071 47 G 199 do7 Z
072 48 h 200 do8 E
073 49 io 201 C9 questo
074 4AJ 202 circa A
075 4BK 203 CB l
076 4Cl 204 CC m
077 4Dm 205 cd n
078 4En 206 CE oh
079 4Foh 207 CF P
080 50 P 208 D0 R
081 51 Q 209 D1 CON
082 52 R 210 re2 T
083 53 S 211 RE3 Ho
084 54 T 212 re4 F
085 55 tu 213 D5 X
086 56 V 214 D6 C
087 57 W 215 RE7 h
088 58 X 216 D8 SH
089 59 217 D9 SCH
090 5AZ 218 DA B
091 5B[ 219 DB S
092 5C\ 220 DC B
093 5 D] 221 DD E
094 5E^ 222 DE YU
095 5F_ 223 DF IO SONO
096 60 ` 224 E0 un
097 61 un 225 mi1 B
098 62 B 226 E2 v
099 63 C 227 E3 G
100 64 D 228 mi4 D
101 65 e 229 E5 e
102 66 F 230 E6 F
103 67 G 231 E7 S
104 68 h 232 E8 e
105 69 io 233 E9 questo
106 6AJ 234 EA a
107 6BK 235 EB io
108 6Cio 236 EC m
109 6Dm 237 ED n
110 6En 238 EE oh
111 6Fo 239 EF P
112 70 P 240 F0 R
113 71 Q 241 F1 Con
114 72 R 242 F2 T
115 73 S 243 F3 in
116 74 T 244 F4 F
117 75 tu 245 F5 X
118 76 v 246 F6 C
119 77 w 247 F7 h
120 78 X 248 F8 w
121 79 249 F9 SCH
122 7Az 250 fa B
123 7B{ 251 FB S
124 7C| 252 FC B
125 7D} 253 FD eh
126 7E~ 254 FE Yu
127 7FSpecialista. DEL 255 FF io sono

Tabella dei codici dei caratteri ASCII di Windows.
Descrizione di caratteri speciali (di controllo)

È da notare che inizialmente i caratteri di controllo della tabella ASCII venivano utilizzati per fornire lo scambio di dati tramite telescrivente, l'immissione di dati da nastro perforato e per il più semplice controllo di dispositivi esterni.
Attualmente, la maggior parte dei caratteri di controllo ASCII nella tabella non comporta più questo onere e può essere utilizzata per altri scopi.
Il codice Descrizione
NUL, 00nullo, vuoto
SOH, 01Inizio dell'intestazione, inizio dell'intestazione
STX, 02Inizio di TeXt, l'inizio del testo.
ETX, 03Fine del testo, fine del testo
EOT, 04Fine della trasmissione, fine della trasmissione
ENQ, 05Chiedere informazioni. chiedo conferma
ACK, 06Riconoscimento. confermo
BEL, 07campana, campana
BS, 08Backspace, torna indietro di un carattere
SCHEDA, 09Scheda, scheda orizzontale
LF, 0AAvanzamento riga, avanzamento riga.
Ora nella maggior parte dei linguaggi di programmazione è indicato come \ n
VT, 0BScheda verticale, scheda verticale.
FF, 0CAvanzamento modulo, avanzamento pagina, nuova pagina
CR, 0DRitorno a capo
Ora nella maggior parte dei linguaggi di programmazione è indicato come \ r
SO, 0EShift Out, cambia il colore del nastro di inchiostro nel dispositivo di stampa
SI, 0FShift In, restituisce il colore del nastro di inchiostro nel dispositivo di stampa
DLE, 10Data Link Escape, cambia canale in trasmissione dati
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Controllo del dispositivo, simboli di controllo del dispositivo
NAK, 15Riconoscimento negativo, non riconosco.
SIN, 16Sincronizzazione. Simbolo di sincronizzazione
ETB, 17Fine del blocco di testo, fine del blocco di testo
PU, 18Annulla, annullando uno precedentemente superato
EM, 19Fine del mezzo, fine del supporto dati
SUB, 1ASostituire Posto al posto di un carattere il cui valore è stato perso o corrotto durante la trasmissione
ESC, 1BFuga sequenza di fuga
FA, 1CSeparatore di file, separatore di file
GS, 1DSeparatore di gruppi, separatore di gruppi
RS, 1ESeparatore di record, separatore di record
USA, 1FSeparatore di unità, separatore di unità
DEL, 7FAElimina, elimina l'ultimo carattere.

Un computer comprende il processo della sua trasformazione in una forma che consente di organizzare un trasferimento, un'archiviazione o un'elaborazione automatica più conveniente di questi dati. A tale scopo vengono utilizzate varie tabelle. La codifica ASCII è il primo sistema sviluppato negli Stati Uniti per lavorare con il testo in lingua inglese, che si è successivamente diffuso in tutto il mondo. L'articolo seguente è dedicato alla sua descrizione, caratteristiche, proprietà e ulteriore utilizzo.

Visualizzazione e memorizzazione di informazioni in un computer

I simboli sul monitor di un computer o uno o l'altro gadget digitale mobile sono formati sulla base di insiemi di forme vettoriali di tutti i tipi di segni e un codice che consente di trovare tra loro il simbolo che deve essere inserito nel posto giusto. È una serie di bit. Pertanto, ogni carattere deve corrispondere in modo univoco a un insieme di zeri e uno, che si trovano in un ordine specifico e univoco.

Come tutto cominciò

Storicamente, i primi computer erano in inglese. Per codificare in essi informazioni simboliche è stato sufficiente utilizzare solo 7 bit di memoria, mentre a questo scopo è stato allocato 1 byte, composto da 8 bit. Il numero di caratteri compresi dal computer in questo caso era pari a 128. Il numero di tali caratteri includeva l'alfabeto inglese con i suoi segni di punteggiatura, numeri e alcuni caratteri speciali. La codifica a sette bit in lingua inglese con la tabella corrispondente (code page), sviluppata nel 1963, è stata denominata American Standard Code for Information Interchange. Di solito l'abbreviazione "codifica ASCII" veniva usata per denotarlo ed è ancora usata fino ad oggi.

Transizione al multilinguismo

Nel corso del tempo, i computer sono diventati ampiamente utilizzati anche nei paesi non di lingua inglese. A questo proposito, c'era bisogno di codifiche che consentissero l'uso delle lingue nazionali. Si è deciso di non reinventare la ruota e di prendere come base l'ASCII. La tabella di codifica nella nuova edizione è stata ampliata in modo significativo. L'uso dell'ottavo bit ha permesso di tradurre 256 caratteri nel linguaggio del computer.

Descrizione

La codifica ASCII ha una tabella divisa in 2 parti. Solo la prima metà è considerata lo standard internazionale generalmente accettato. Include:

  • Caratteri con numeri ordinali da 0 a 31, codificati da sequenze da 00000000 a 00011111. Sono riservati ai caratteri di controllo che controllano il processo di visualizzazione del testo sullo schermo o stampante, dando un segnale acustico, ecc.
  • I caratteri con NN nella tabella da 32 a 127, codificati con sequenze da 0010000 a 01111111, costituiscono la parte standard della tabella. Questi includono uno spazio (N 32), lettere dell'alfabeto latino (minuscolo e maiuscolo), numeri di dieci cifre da 0 a 9, segni di punteggiatura, parentesi di diversi stili e altri simboli.
  • Caratteri con numeri ordinali da 128 a 255, codificati da sequenze da 10000000 a 11111111. Questi includono lettere di alfabeti nazionali diversi dal latino. È questa parte alternativa della tabella che viene utilizzata la codifica ASCII per convertire i caratteri russi in formato computer.

Alcune proprietà

Le peculiarità della codifica ASCII includono la differenza tra le lettere "A" - "Z" di minuscole e maiuscole di un solo bit. Questa circostanza semplifica notevolmente la conversione del registro, nonché la sua verifica dell'appartenenza all'intervallo di valori specificato. Inoltre, tutte le lettere nel sistema di codifica ASCII sono rappresentate dai propri numeri ordinali nell'alfabeto, che sono scritti in 5 cifre in notazione binaria, preceduti da 011 2 per le lettere minuscole e 010 2 per le maiuscole.

Tra le caratteristiche della codifica ASCII si può considerare la rappresentazione di 10 cifre - "0" - "9". Nel secondo sistema numerico, iniziano con 00112 e finiscono con 2 numeri. Ad esempio, 0101 2 è equivalente al cinque decimale, quindi il carattere "5" è scritto come 0011 01012. Sulla base di questo, puoi facilmente convertire i BCD in una stringa ASCII aggiungendo 00112 a ciascun nibble a sinistra.

"Unicode"

Come sai, sono necessari migliaia di caratteri per visualizzare testi nelle lingue del gruppo del sud-est asiatico. Un tale numero di essi non può essere descritto in un byte di informazioni, quindi anche le versioni ASCII estese non potrebbero più soddisfare le crescenti esigenze degli utenti di diversi paesi.

Pertanto, è sorta la necessità di creare una codifica di testo universale, il cui sviluppo, in collaborazione con molti leader dell'industria IT globale, è stato intrapreso dal consorzio Unicode. I suoi specialisti hanno creato il sistema UTF 32. In esso sono stati assegnati 32 bit per la codifica di 1 carattere, che costituiscono 4 byte di informazioni. Lo svantaggio principale era un forte aumento della quantità di memoria richiesta fino a 4 volte, il che comportava molti problemi.

Allo stesso tempo, per la maggior parte dei paesi con lingue ufficiali appartenenti al gruppo indoeuropeo, il numero di caratteri pari a 2 32 è più che ridondante.

Come risultato di un ulteriore lavoro di specialisti del consorzio Unicode, è apparsa la codifica UTF-16. Divenne l'opzione per trasformare le informazioni simboliche, adatta a tutti sia in termini di quantità di memoria richiesta che di numero di simboli codificati. Ecco perché UTF-16 è stato accettato per impostazione predefinita e richiede la prenotazione di 2 byte per un carattere.

Anche questa versione piuttosto avanzata e di successo di "Unicode" presentava alcuni inconvenienti, e dopo il passaggio dalla versione estesa di ASCII a UTF-16, ha raddoppiato il peso del documento.

A tal proposito si è deciso di utilizzare la codifica a lunghezza variabile UTF-8. In questo caso, ogni carattere del testo sorgente è codificato con una sequenza da 1 a 6 byte.

Relazione con il codice standard americano per lo scambio di informazioni

Tutti i caratteri dell'alfabeto latino in UTF-8 di lunghezza variabile sono codificati in 1 byte, come nel sistema di codifica ASCII.

La particolarità di UTP-8 è che nel caso di un testo in latino senza l'utilizzo di altri caratteri, anche i programmi che non comprendono Unicode ti permetteranno comunque di leggerlo. In altre parole, la parte di base della codifica del testo ASCII viene semplicemente fusa nel nuovo UTF a lunghezza variabile. I caratteri cirillici in UTP-8 occupano 2 byte e, ad esempio, quelli georgiani - 3 byte. La creazione di UTF-16 e 8 ha risolto il problema principale della creazione di un unico spazio di codice nei caratteri. Da allora, i produttori di font possono riempire la tabella solo con forme vettoriali di caratteri di testo in base alle loro esigenze.

Codifiche diverse sono preferite su diversi sistemi operativi. Per poter leggere e modificare i testi digitati con una codifica diversa, vengono utilizzati programmi di conversione di testo russi. Alcuni editor di testo contengono transcodificatori incorporati e consentono di leggere il testo indipendentemente dalla codifica.

Ora sai quanti caratteri ci sono in ASCII e come e perché è stato sviluppato. Certo, oggi lo standard più diffuso al mondo è "Unicode". Tuttavia, non dobbiamo dimenticare che è stato creato sulla base di ASCII, quindi dovrebbe essere apprezzato il contributo dei suoi sviluppatori nel campo dell'IT.

Come sai, un computer memorizza le informazioni in forma binaria, rappresentandole come una sequenza di uno e zero. Per tradurre le informazioni in una forma conveniente per la percezione umana, ogni sequenza univoca di numeri viene sostituita con il simbolo corrispondente quando viene visualizzata.

Uno dei sistemi per correlare codici binari con caratteri stampabili e di controllo è

All'attuale livello di sviluppo della tecnologia informatica, l'utente non è tenuto a conoscere il codice di ogni simbolo specifico. Tuttavia, una comprensione generale di come viene eseguita la codifica è estremamente utile e per alcune categorie di specialisti persino necessaria.

Creazione ASCII

Nella sua forma originale, la codifica è stata sviluppata nel 1963 e poi aggiornata due volte entro 25 anni.

Nella versione originale, la tabella dei caratteri ASCII includeva 128 caratteri, successivamente è apparsa una versione estesa, in cui sono stati salvati i primi 128 caratteri e i caratteri precedentemente assenti sono stati assegnati a codici con l'ottavo bit coinvolto.

Per molti anni, questa codifica è stata la più popolare al mondo. Nel 2006, Latin 1252 ha preso la posizione di leader e, dalla fine del 2007 ad oggi, Unicode ha mantenuto saldamente la posizione di leader.

Rappresentazione computerizzata ASCII

Ogni carattere ASCII ha il proprio codice di 8 caratteri che rappresentano zero o uno. Il numero minimo in tale rappresentazione è zero (otto zeri nel sistema binario), che è il codice del primo elemento della tabella.

Due codici nella tabella sono stati riservati per il passaggio dallo standard US-ASCII alla sua versione nazionale.

Dopo che l'ASCII ha iniziato a includere non 128, ma 256 caratteri, si è diffusa una variante della codifica, in cui la versione originale della tabella è stata salvata nei primi 128 codici con un ottavo bit zero. I segni della scrittura nazionale sono stati mantenuti nella metà superiore della tabella (posizioni 128-255).

L'utente non ha bisogno di conoscere direttamente i codici dei caratteri ASCII. Di solito è sufficiente che uno sviluppatore di software conosca il numero di un elemento in una tabella per calcolarne il codice utilizzando un sistema binario, se necessario.

lingua russa

Dopo lo sviluppo delle codifiche per le lingue scandinave, cinese, coreana, greca, ecc. nei primi anni '70, anche l'Unione Sovietica iniziò a creare la propria versione. Presto fu sviluppata una versione della codifica a 8 bit chiamata KOI8, che conserva i primi 128 codici di caratteri ASCII e assegna lo stesso numero di posizioni per le lettere dell'alfabeto nazionale e caratteri aggiuntivi.

Prima dell'introduzione di Unicode, KOI8 dominava il segmento russo di Internet. C'erano opzioni di codifica per entrambi gli alfabeti russo e ucraino.

Problemi ASCII

Poiché il numero di elementi anche nella tabella estesa non superava i 256, non c'era la possibilità di ospitare diversi script diversi in un'unica codifica. Negli anni '90, il problema di "crocozyabr" è apparso in Runet, quando i testi digitati in caratteri ASCII russi venivano visualizzati in modo errato.

Il problema era che i codici delle diverse varianti ASCII non corrispondevano tra loro. Ricorda che le posizioni 128-255 potrebbero contenere caratteri diversi e quando si cambia una codifica cirillica in un'altra, tutte le lettere del testo sono state sostituite con altre aventi un numero identico in un'altra versione della codifica.

Stato attuale

Con l'avvento di Unicode, la popolarità di ASCII è diminuita drasticamente.

La ragione di ciò risiede nel fatto che la nuova codifica ha permesso di accogliere i segni di quasi tutte le lingue scritte. In questo caso, i primi 128 caratteri ASCII corrispondono agli stessi caratteri in Unicode.

Nel 2000, ASCII era la codifica più popolare su Internet ed era utilizzata nel 60% delle pagine web indicizzate da Google. Nel 2012, la quota di tali pagine era scesa al 17% e Unicode (UTF-8) ha preso il posto della codifica più popolare.

Pertanto, l'ASCII è una parte importante della storia della tecnologia dell'informazione, ma il suo utilizzo in futuro è visto come poco promettente.

Secondo l'Unione internazionale delle telecomunicazioni, nel 2016 tre miliardi e mezzo di persone hanno utilizzato Internet con regolarità variabile. La maggior parte di loro non pensa nemmeno al fatto che tutti i messaggi inviati da loro tramite PC o gadget mobili, così come i testi visualizzati su tutti i tipi di monitor, sono in realtà combinazioni di 0 e 1. Questa presentazione di informazioni è chiamata codifica . Fornisce e facilita notevolmente la sua memorizzazione, elaborazione e trasmissione. Nel 1963 fu sviluppata la codifica ASCII americana, a cui questo articolo è dedicato.

Presentazione di informazioni in un computer

Dal punto di vista di qualsiasi computer elettronico, il testo è una raccolta di singoli caratteri. Questi includono non solo lettere, comprese le lettere maiuscole, ma anche segni di punteggiatura e numeri. Inoltre, vengono utilizzati i caratteri speciali "=", "&", "(" e spazi).

L'insieme dei simboli che compongono il testo è chiamato alfabeto e il loro numero è chiamato cardinalità (indicato come N). Per definirlo, viene utilizzata l'espressione N = 2 ^ b, dove b è il numero di bit o il peso informativo di un particolare carattere.

È stato dimostrato che un alfabeto con una capacità di 256 caratteri può rappresentare tutti i caratteri necessari.

Poiché 256 è l'ottava potenza di due, il peso di ciascun carattere è di 8 bit.

L'unità di misura di 8 bit è chiamata 1 byte, quindi è consuetudine dire che qualsiasi carattere in un testo memorizzato su un computer occupa un byte di memoria.

Come viene eseguita la codifica?

Eventuali testi vengono inseriti nella memoria di un personal computer mediante i tasti della tastiera sui quali sono scritti numeri, lettere, segni di punteggiatura e altri simboli. Vengono trasferiti alla RAM in un codice binario, ovvero ogni carattere è associato a un codice decimale familiare all'uomo, da 0 a 255, che corrisponde a un codice binario - da 00000000 a 11111111.

La codifica dei caratteri in byte consente all'elaboratore di testi di accedere a ciascun carattere separatamente. Allo stesso tempo, 256 caratteri sono sufficienti per rappresentare qualsiasi informazione sui caratteri.

Codifica dei caratteri ASCII

Questa abbreviazione in inglese sta per codice per lo scambio di informazioni.

Anche agli albori dell'informatizzazione, è diventato ovvio che è possibile trovare un'ampia varietà di modi per codificare le informazioni. Tuttavia, per trasferire informazioni da un computer a un altro, era necessario sviluppare un unico standard. Così, nel 1963, negli Stati Uniti apparve una tabella di codifica ASCII. In esso, qualsiasi simbolo dell'alfabeto del computer è associato al suo numero ordinale in rappresentazione binaria. Inizialmente, ASCII era utilizzato solo negli Stati Uniti e in seguito divenne lo standard internazionale per i PC.

I codici ASCII sono divisi in 2 parti. Solo la prima metà di questa tabella è considerata uno standard internazionale. Include caratteri con numeri ordinali da 0 (codificato come 00000000) a 127 (codice 01111111).

Numero di serie

Codifica del testo ASCII

Simbolo

0000 0000 - 0001 1111

I caratteri con N da 0 a 31 sono chiamati caratteri di controllo. La loro funzione è quella di "guidare" il processo di visualizzazione del testo su un monitor o dispositivo di stampa, dando un segnale sonoro, ecc.

0010 0000 - 0111 1111

Caratteri con N da 32 a 127 (parte standard della tabella) - lettere maiuscole e minuscole dell'alfabeto latino, numeri a 10 cifre, segni di punteggiatura, nonché varie parentesi, simboli commerciali e di altro tipo. Il carattere 32 denota uno spazio.

1000 0000 - 1111 1111

I caratteri con N da 128 a 255 (parte alternativa della tabella o della tabella codici) possono avere diverse varianti, ognuna delle quali ha un proprio numero. La tabella codici viene utilizzata per specificare alfabeti nazionali diversi dal latino. In particolare, è con il suo aiuto che viene eseguita la codifica ASCII per i caratteri russi.

Nella tabella di codifica, lettere maiuscole e una dopo l'altra in ordine alfabetico e numeri, in ordine crescente di valori. Questo principio si applica anche all'alfabeto russo.

Personaggi di controllo

La tabella di codifica ASCII è stata originariamente creata per ricevere e trasmettere informazioni su un dispositivo del genere che non è stato utilizzato per molto tempo, come una telescrivente. A tal proposito, nel set di caratteri sono stati inseriti dei caratteri non stampabili, utilizzati come comandi per controllare questo dispositivo. Comandi simili sono stati utilizzati in tali metodi di messaggistica pre-computer come il codice Morse, ecc.

Il carattere "telescrivente" più comune è NUL (00, "zero"). È ancora utilizzato nella maggior parte dei linguaggi di programmazione fino ad oggi, indicando un terminatore di riga.

Dove viene utilizzata la codifica ASCII?

Il codice standard degli Stati Uniti è necessario per qualcosa di più della semplice immissione di informazioni di testo dalla tastiera. Viene utilizzato anche in grafica. Nello specifico, in ASCII Art Maker, le immagini di diverse estensioni rappresentano uno spettro di caratteri ASCII.

Tali prodotti sono di due tipi: svolgono la funzione di editor grafici convertendo le immagini in testo e convertendo le "immagini" in grafica ASCII. Ad esempio, la famosa emoticon è un ottimo esempio di carattere di codifica.

ASCII può essere utilizzato anche durante la creazione di un documento HTML. In questo caso, puoi inserire un determinato set di caratteri e, durante la visualizzazione della pagina, sullo schermo apparirà un carattere che corrisponde a questo codice.

L'ASCII è necessario anche per la creazione di siti multilingue, poiché i caratteri che non sono inclusi in una specifica tabella nazionale sono sostituiti da codici ASCII.

Alcune caratteristiche

Per codificare le informazioni di testo nella codifica ASCII, originariamente venivano utilizzati 7 bit (uno è stato lasciato vuoto), ma oggi funziona come 8 bit.

Le lettere nelle colonne superiore e inferiore differiscono l'una dall'altra per un solo bit. Ciò riduce notevolmente la complessità del controllo.

Utilizzo di ASCII in Microsoft Office

Se necessario, questo tipo di codifica del testo può essere utilizzato negli editor di testo Microsoft come Blocco note e Office Word. Tuttavia, durante la digitazione in questo caso, non sarà possibile utilizzare alcune funzioni. Ad esempio, non sarai in grado di mettere in grassetto, perché ASCII conserva solo il significato delle informazioni, ignorandone l'aspetto e la forma generali.

Standardizzazione

L'organizzazione ISO ha adottato gli standard ISO 8859. Questo gruppo definisce codifiche a otto bit per diversi gruppi linguistici. Nello specifico, ISO 8859-1 è Extended ASCII, ovvero una tabella per gli Stati Uniti e l'Europa occidentale. E ISO 8859-5 è una tabella utilizzata per l'alfabeto cirillico, inclusa la lingua russa.

Per una serie di ragioni storiche, lo standard ISO 8859-5 è in uso da pochissimo tempo.

Per la lingua russa, al momento, vengono effettivamente utilizzate le codifiche:

  • CP866 (Codice Pagina 866) o DOS, che viene spesso definita codifica GOST alternativa. È stato utilizzato attivamente fino alla metà degli anni '90 del secolo scorso. Al momento, praticamente non viene utilizzato.
  • KOI-8. La codifica è stata sviluppata negli anni '70-'80 e al momento è uno standard generalmente accettato per i messaggi di posta su Runet. È ampiamente utilizzato nei sistemi operativi della famiglia Unix, incluso Linux. La versione "russa" di KOI-8 si chiama KOI-8R. Inoltre, esistono versioni per altre lingue cirilliche, come l'ucraino.
  • Codice pagina 1251 (CP 1251, Windows - 1251). Sviluppato da Microsoft per fornire supporto per la lingua russa in ambiente Windows.

Il vantaggio principale del primo standard CP866 era la conservazione dei caratteri pseudografici nelle stesse posizioni dell'ASCII esteso. Ciò ha permesso di eseguire senza modifiche programmi di testo di origine straniera, come il noto Norton Commander. Al momento, CP866 viene utilizzato per programmi sviluppati sotto Windows che funzionano in modalità testo a schermo intero o in finestre di testo, incluso FAR Manager.

I testi per computer scritti con la codifica CP866 sono piuttosto rari ultimamente, ma è proprio questa codifica che viene utilizzata per i nomi di file russi in Windows.

"Unicode"

Al momento, è questa codifica che ha ricevuto l'uso più diffuso. I codici Unicode sono suddivisi in aree. Il primo (da U + 0000 a U + 007F) include caratteri ASCII con codici. Seguono le aree dei segni di varie scritture nazionali, nonché i segni di punteggiatura e i simboli tecnici. Inoltre, alcuni dei codici "Unicode" sono riservati nel caso in cui sia necessario includere nuovi caratteri in futuro.

Ora sai che in ASCII ogni carattere è rappresentato come una combinazione di 8 zeri e uno. Ai non addetti ai lavori queste informazioni possono sembrare inutili e poco interessanti, ma non vuoi sapere cosa sta succedendo “nel cervello” del tuo PC?!

Viene chiamato l'insieme di caratteri con cui viene scritto il testo alfabeto.

Il numero di caratteri dell'alfabeto è suo potenza.

Formula per determinare la quantità di informazioni: N = 2 b,

dove N è la cardinalità dell'alfabeto (numero di caratteri),

b - numero di bit (peso informativo del carattere).

L'alfabeto con una capacità di 256 caratteri può contenere quasi tutti i caratteri necessari. Questo alfabeto si chiama sufficiente.

Perché 256 = 2 8, quindi il peso di 1 carattere è 8 bit.

L'unità a 8 bit è stata nominata 1 byte:

1 byte = 8 bit.

Il codice binario di ogni carattere nel testo del computer occupa 1 byte di memoria.

Come vengono rappresentate le informazioni di testo nella memoria del computer?

La comodità della codifica dei caratteri in byte è ovvia, poiché un byte è la più piccola parte indirizzabile della memoria e, quindi, il processore può accedere a ciascun carattere separatamente, eseguendo l'elaborazione del testo. D'altra parte, 256 caratteri è un numero abbastanza sufficiente per rappresentare un'ampia varietà di informazioni sui caratteri.

Ora sorge la domanda, che tipo di codice binario a otto bit associare a ciascun carattere.

È chiaro che questa è una questione condizionale, puoi trovare molti metodi di codifica.

Tutti i caratteri dell'alfabeto del computer sono numerati da 0 a 255. Ogni numero corrisponde a un codice binario di otto cifre da 00000000 a 11111111. Questo codice è semplicemente il numero ordinale del carattere nel sistema binario.

La tabella in cui tutti i caratteri dell'alfabeto del computer sono assegnati ai numeri di serie è chiamata tabella di codifica.

Diverse tabelle di codifica vengono utilizzate per diversi tipi di computer.

Lo standard internazionale per il PC è diventato il tavolo ASCII(leggi asci) (Codice standard americano per lo scambio di informazioni).

La tabella ASCII è divisa in due parti.

Lo standard internazionale è solo la prima metà della tabella, ad es. simboli con numeri da 0 (00000000), fino a 127 (01111111).

Struttura della tabella di codifica ASCII

Numero di serie

Il codice

Simbolo

0 - 31

00000000 - 00011111

I simboli con numeri da 0 a 31 sono generalmente chiamati caratteri di controllo.
La loro funzione è controllare il processo di visualizzazione del testo sullo schermo o la stampa, dare un segnale sonoro, contrassegnare il testo, ecc.

32 - 127

00100000 - 01111111

Parte standard della tabella (inglese). Ciò include lettere minuscole e maiuscole dell'alfabeto latino, cifre decimali, segni di punteggiatura, tutti i tipi di parentesi, simboli commerciali e di altro tipo.
Il carattere 32 è uno spazio, ad es. posizione vuota nel testo.
Tutti gli altri si riflettono in certi segni.

128 - 255

10000000 - 11111111

Parte alternativa del tavolo (russo).
La seconda metà della tabella dei codici ASCII, chiamata code page (128 codici, che iniziano da 10000000 e terminano con 11111111), può avere diverse varianti, ogni variante ha il proprio numero.
La tabella codici viene utilizzata principalmente per ospitare alfabeti nazionali diversi dal latino. Nelle codifiche nazionali russe, questa parte della tabella contiene i simboli dell'alfabeto russo.

La prima metà della tabella ASCII


Attiro la tua attenzione sul fatto che nella tabella di codifica, le lettere (maiuscole e minuscole) sono disposte in ordine alfabetico e i numeri sono ordinati in ordine crescente di valori. Questa osservanza dell'ordine lessicografico nella disposizione dei caratteri è chiamata il principio della codifica sequenziale dell'alfabeto.

Per le lettere dell'alfabeto russo si osserva anche il principio della codifica sequenziale.

La seconda metà della tabella ASCII


Sfortunatamente, ci sono attualmente cinque diverse codifiche cirilliche (KOI8-R, Windows. MS-DOS, Macintosh e ISO). Per questo motivo, spesso sorgono problemi con il trasferimento di testo russo da un computer a un altro, da un sistema software a un altro.

Cronologicamente, uno dei primi standard per la codifica delle lettere russe sui computer era KOI8 ("Codice di scambio di informazioni, 8 bit"). Questa codifica è stata utilizzata negli anni '70 sui computer della serie di computer ES e dalla metà degli anni '80 ha iniziato a essere utilizzata nelle prime versioni russificate del sistema operativo UNIX.

Dall'inizio degli anni '90, epoca del predominio del sistema operativo MS DOS, rimane la codifica CP866 ("CP" sta per "Code Page").

I computer Apple che eseguono Mac OS utilizzano la propria codifica Mac.

Inoltre, l'Organizzazione internazionale per la standardizzazione (International Standards Organization, ISO) ha approvato un'altra codifica chiamata ISO 8859-5 come standard per la lingua russa.

Attualmente, la codifica più comune è Microsoft Windows, abbreviata in CP1251.

Dalla fine degli anni '90, il problema della standardizzazione della codifica dei caratteri è stato risolto con l'introduzione di un nuovo standard internazionale chiamato Unicode... Questa è una codifica a 16 bit, ad es. alloca 2 byte di memoria per ogni carattere. Ovviamente, questo raddoppia la quantità di memoria utilizzata. Ma d'altra parte, una tale tabella di codici consente l'inclusione di un massimo di 65536 caratteri. La specifica completa dello standard Unicode include tutti gli alfabeti esistenti, estinti e creati artificialmente del mondo, nonché molti simboli matematici, musicali, chimici e di altro tipo.

Proviamo a usare una tabella ASCII per immaginare come appariranno le parole nella memoria del computer.

Rappresentazione interna delle parole nella memoria del computer

A volte capita che un testo composto da lettere dell'alfabeto russo, ricevuto da un altro computer, non possa essere letto - una sorta di "senza senso" è visibile sullo schermo del monitor. Ciò è dovuto al fatto che i computer utilizzano una codifica diversa dei caratteri della lingua russa.

Principali articoli correlati