Come configurare smartphone e PC. Portale informativo
  • casa
  • Ferro
  • Tavola ascii completa. Codifica ASCII (codice standard americano per lo scambio di informazioni) - codifica del testo di base per il latino

Tavola ascii completa. Codifica ASCII (codice standard americano per lo scambio di informazioni) - codifica del testo di base per il latino

Diamo un'occhiata ad alcuni dei fatti che conosciamo:

L'insieme di caratteri con cui è scritto il testo è chiamato alfabeto.

Il numero di caratteri in un alfabeto è la sua cardinalità.

La formula per determinare la quantità di informazioni: N \u003d 2 b,

dove N è la potenza dell'alfabeto (numero di caratteri),

b - numero di bit (peso informativo del simbolo).

Quasi tutti i caratteri necessari possono essere inseriti in un alfabeto con una capacità di 256 caratteri. Un tale alfabeto è chiamato sufficiente.

Perché 256 = 28 , quindi il peso di 1 carattere è 8 bit.

Ad un'unità di misura di 8 bit è stato assegnato il nome 1 byte:

1 byte = 8 bit.

Il codice binario di ogni carattere nel testo del computer occupa 1 byte di memoria.

Come vengono rappresentate le informazioni testuali nella memoria del computer?

La codifica consiste nel fatto che a ciascun carattere viene assegnato un codice decimale univoco da 0 a 255 o il codice binario corrispondente da 00000000 a 11111111. Pertanto, una persona distingue i caratteri dal loro stile e un computer dal loro codice.

La comodità della codifica byte per byte dei caratteri è ovvia, poiché un byte è la parte più piccola della memoria indirizzabile e, pertanto, il processore può accedere a ciascun carattere separatamente durante l'elaborazione del testo. D'altra parte, 256 caratteri sono sufficienti per rappresentare un'ampia varietà di informazioni sui caratteri.

Ora sorge la domanda, quale codice binario a otto bit mettere in corrispondenza di ciascun carattere.

È chiaro che questa è una questione condizionale, puoi trovare molti modi per codificare.

La tabella ASCII è diventata lo standard internazionale per i PC. (pronunciato asci) (codice standard americano per lo scambio di informazioni).

Solo la prima metà della tabella è uno standard internazionale, ad es. caratteri con numeri da 0 (00000000) a 127 (01111111).

Numero di serie

Simbolo

00000000 - 00011111


La loro funzione è controllare il processo di visualizzazione del testo sullo schermo o di stampa, emettere un segnale acustico, contrassegnare il testo, ecc.

32 - 127

00100000 - 01111111


128 - 255

10000000 - 11111111


La seconda metà della tabella dei codici ASCII, denominata code page (128 codici, che iniziano con 10000000 e terminano con 11111111), può avere diverse opzioni, ogni opzione ha un proprio numero.


Attiro la tua attenzione sul fatto che nella tabella di codifica, le lettere (maiuscole e minuscole) sono disposte in ordine alfabetico e i numeri sono ordinati in ordine crescente. Questa osservanza dell'ordine lessicografico nella disposizione dei caratteri è chiamata il principio della codifica sequenziale dell'alfabeto.


La codifica più comune attualmente utilizzata è Microsoft Windows, abbreviata in CP1251.

Dalla fine degli anni '90, il problema della standardizzazione della codifica dei caratteri è stato risolto con l'introduzione di un nuovo standard internazionale chiamato Unicode. . Questa è una codifica a 16 bit, ad es. ha 2 byte di memoria per carattere. Naturalmente, in questo caso, la quantità di memoria occupata aumenta di 2 volte. Ma una tale tabella di codici consente l'inclusione di un massimo di 65536 caratteri. La specifica completa dello standard Unicode include tutti gli alfabeti esistenti, estinti e creati artificialmente del mondo, nonché molti simboli matematici, musicali, chimici e di altro tipo.

Proviamo a usare una tabella ASCII per immaginare come appariranno le parole nella memoria del computer.

Parole

Memoria

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Quando le informazioni di testo vengono immesse in un computer, i caratteri (lettere, numeri, segni) vengono codificati utilizzando vari sistemi di codice, che consistono in una serie di tabelle di codici posizionate nelle pagine corrispondenti degli standard per la codifica delle informazioni di testo. In tali tabelle, a ogni carattere viene assegnato un codice numerico specifico in notazione esadecimale o decimale, ovvero le tabelle di codici riflettono la corrispondenza tra le immagini dei caratteri e i codici numerici e sono progettate per codificare e decodificare informazioni testuali. Quando si immettono informazioni di testo utilizzando la tastiera di un computer, ogni carattere di input viene codificato, ovvero convertito in un codice numerico, quando le informazioni di testo vengono inviate a un dispositivo di output del computer (display, stampante o plotter), la relativa immagine viene creata utilizzando il codice del carattere numerico . L'assegnazione di uno specifico codice numerico ad un simbolo è il risultato di un accordo tra le rispettive organizzazioni nei diversi paesi. Attualmente non esiste un'unica tabella di codici universali che soddisfi le lettere degli alfabeti nazionali di diversi paesi.

Le moderne tabelle dei codici includono parti internazionali e nazionali, ovvero contengono lettere dell'alfabeto latino e nazionale, numeri, segni aritmetici e di punteggiatura, caratteri matematici e di controllo e caratteri pseudografici. Parte internazionale della tabella dei codici basata sullo standard ASCII (codice standard americano per lo scambio di informazioni), codifica la prima metà dei caratteri della tabella codici con codici numerici da 0 a 7 F16, oppure nel sistema di numerazione decimale da 0 a 127. In questo caso i codici da 0 a 20 16 (0 × 32 10) sono assegnati ai tasti funzione (F1, F2, F3, ecc.) della tastiera del personal computer. Sulla fig. 3.1 mostra la parte internazionale delle tabelle dei codici basate sulla norma ASCII. Le celle della tabella sono numerate rispettivamente nei sistemi numerici decimali ed esadecimali.

Fig 3.1. Parte internazionale della tabella dei codici (standard ASCII) con i numeri di cella presentati nel sistema numerico decimale (a) ed esadecimale (b).


La parte nazionale delle tabelle dei codici contiene i codici degli alfabeti nazionali, chiamata anche tabella dei set di caratteri. (carattere).

Attualmente, per supportare le lettere dell'alfabeto russo (cirillico), esistono diverse tabelle di codici (codifiche) che vengono utilizzate da vari sistemi operativi, il che rappresenta un notevole inconveniente e in alcuni casi porta a problemi associati alle operazioni di decodifica per i valori numerici di personaggi. In tavola. 3.1 mostra i nomi delle tabelle codici (standard) su cui sono poste le tabelle dei codici cirillici (codifiche).

Tabella 3.1

Uno dei primi standard per la codifica del cirillico sui computer è stato lo standard KOI8-R. La parte nazionale della tabella dei codici di questa norma è mostrata in fig. 3.2.

Riso. 3.2. Parte nazionale della tabella dei codici dello standard KOI8-R


Attualmente viene utilizzata anche la tabella dei codici, che si trova nella pagina CP866 dello standard di codifica delle informazioni di testo, utilizzata nel sistema operativo MS-DOS o sessione MS-DOS per codificare l'alfabeto cirillico (Fig. 3.3, ma).

Riso. 3.3. La parte nazionale della tabella dei codici, situata a pagina СР866 (a) e a pagina СР1251 (b) dello standard di codifica delle informazioni di testo


Attualmente, per la codifica cirillica, la tabella di codici più utilizzata si trova nella pagina СР1251 dello standard corrispondente, che viene utilizzato nei sistemi operativi della famiglia finestre aziende Microsoft(Fig. 3.2, B). In tutte le tabelle codici presentate, ad eccezione della tabella standard unicode, 8 bit (8 bit) sono allocati per codificare un carattere.

Alla fine del secolo scorso è apparso un nuovo standard internazionale unicode, in cui un carattere è rappresentato da un codice binario a due byte. L'applicazione di questo standard è una continuazione dello sviluppo di uno standard internazionale universale che consente di risolvere il problema della compatibilità delle codifiche dei caratteri nazionali. Usando questo standard, puoi codificare 2 16 = 65536 caratteri diversi. Sulla fig. 3.4 mostra la tabella dei codici 0400 (alfabeto russo) dello standard Unicode.

Riso. 3.4. Tabella codici 0400 dello standard Unicode


Spieghiamo quanto è stato detto riguardo alla codificazione delle informazioni testuali usando un esempio.

Esempio 3.1

Codificare la parola "Computer" come sequenza di numeri decimali ed esadecimali utilizzando la codifica CP1251. Quali caratteri verranno visualizzati nelle tabelle dei codici SR866 e KOI8-R quando si utilizza il codice ricevuto.

Sequenze di codici esadecimali e binari per la parola "Computer" in base alla tabella di codifica CP1251 (vedi Fig. 3.3, B) sarà simile a questo:

Questa sequenza di codici nelle codifiche CP866 e KOI8-R visualizzerà i seguenti caratteri:

Per convertire documenti di testo in lingua russa da uno standard di codifica delle informazioni di testo a un altro, vengono utilizzati programmi speciali: convertitori. I convertitori sono solitamente integrati in altri programmi. Un esempio è un programma browser - Internet Explorer (IE) che ha un convertitore integrato. Il programma browser è un programma speciale per la visualizzazione di contenuti pagine web nella rete informatica globale Internet. Usiamo questo programma per confermare il risultato della mappatura dei caratteri ottenuto nell'esempio 3.1. Per fare ciò, eseguire i seguenti passaggi.

1. Esegui Blocco note (Bloc notes). Programma Blocco note nel sistema operativo Windows XP viene lanciato utilizzando il comando: [Button Cominciare– Programmi – Accessori – Blocco note]. Nella finestra del programma Blocco note che si apre, digita la parola "Computer" utilizzando la sintassi del linguaggio di markup del documento ipertestuale - HTML (Hyper Text Markup Language). Questa lingua viene utilizzata per creare documenti sul web. Il testo dovrebbe assomigliare a questo:

Computer

, dove

e

tag (costrutti speciali) della lingua HTML per le intestazioni. Sulla fig. 3.5 mostra il risultato di queste azioni.

Riso. 3.5. Visualizza il testo nella finestra Blocco note


Salviamo questo testo eseguendo il comando: [File - Salva con nome...] nell'apposita cartella del computer, al momento del salvataggio del testo daremo un nome al file - Nota, con l'estensione del file. html.

2. Eseguire il programma Internet Explorer, eseguendo il comando: [Button Cominciare- Programmi - Internet Explorer]. All'avvio del programma, la finestra mostrata in Fig. 3.6

Riso. 3.6. Finestra di accesso offline


Seleziona e attiva il pulsante disconnesso questo non collegherà il computer a Internet globale. Apparirà la finestra principale del programma Microsoft Internet Explorer, mostrato in fig. 3.7.

Riso. 3.7. Finestra principale di Microsoft Internet Explorer


Eseguiamo il seguente comando: [File - Apri], apparirà una finestra (Fig. 3.8), in cui è necessario specificare il nome del file e fare clic sul pulsante ok oppure premere il pulsante Panoramica... e trova il file Note.html.

Riso. 3.8. Finestra aperta


La finestra principale del programma Internet Explorer assumerà la forma mostrata in Fig. 3.9. La finestra visualizzerà la parola "Computer". Successivamente, utilizzando il menu in alto del programma Internet Explorer, eseguire il comando seguente: [Visualizza - Codifica - Cirillico (DOS)]. Dopo aver eseguito questo comando nella finestra del programma Internet Explorer i simboli mostrati in Fig. 3.10. Quando si esegue il comando: [Visualizza - Codifica - Cirillico (KOI8-R)] nella finestra del programma Internet Explorer i simboli mostrati in Fig. 3.11.

Riso. 3.9. Caratteri visualizzati con codifica CP1251


Riso. 3.10. Caratteri visualizzati quando la codifica CP866 è abilitata per una sequenza di codici rappresentata nella codifica CP1251


Riso. 3.11. Caratteri visualizzati quando la codifica KOI8-R è abilitata per la sequenza di codici rappresentata nella codifica CP1251


Pertanto, ottenuto utilizzando il programma Internet Explorer le sequenze di caratteri corrispondono alle sequenze di caratteri ottenute utilizzando le tabelle di codici CP866 e KOI8-R nell'Esempio 3.1.

3.2. Codifica grafica delle informazioni

Le informazioni grafiche presentate sotto forma di disegni, fotografie, diapositive, immagini in movimento (animazione, video), diagrammi, disegni, possono essere create e modificate utilizzando un computer, mentre sono opportunamente codificate. Attualmente, esiste un numero abbastanza elevato di programmi applicativi per l'elaborazione di informazioni grafiche, ma implementano tutti tre tipi di computer grafica: raster, vettoriale e frattale.

Se dai un'occhiata più da vicino all'immagine grafica sullo schermo del monitor del computer, puoi vedere un gran numero di punti multicolori (pixel - dall'inglese. pixel, formato da elemento dell'immagine elemento immagine) che, insieme, formano l'immagine grafica data. Da ciò possiamo concludere: un'immagine grafica in un computer è codificata in un certo modo e deve essere presentata come un file grafico. Il file è l'unità strutturale principale per l'organizzazione e la memorizzazione dei dati in un computer e in questo caso dovrebbe contenere informazioni su come presentare questo insieme di punti sullo schermo del monitor.

I file creati sulla base della grafica vettoriale contengono informazioni sotto forma di dipendenze matematiche (funzioni matematiche che descrivono le dipendenze lineari) e dati correlati su come costruire un'immagine di un oggetto utilizzando segmenti di linea (vettori) quando visualizzati sullo schermo del monitor di un computer.

I file creati sulla base della grafica raster implicano la memorizzazione di dati su ogni singolo punto dell'immagine. La visualizzazione grafica raster non richiede calcoli matematici complessi, è sufficiente ottenere dati su ciascun punto dell'immagine (le sue coordinate e colore) e visualizzarli sullo schermo del monitor del computer.

Nel processo di codifica dell'immagine, viene eseguito il suo campionamento spaziale, ovvero l'immagine viene divisa in punti separati e ad ogni punto viene assegnato un codice colore (giallo, rosso, blu, ecc.). Per codificare ogni punto di un'immagine grafica a colori, viene utilizzato il principio di scomposizione di un colore arbitrario nelle sue componenti principali, che vengono utilizzate come tre colori primari: rosso (parola inglese rosso, indicato dalla lettera A), verde (verde, indicato dalla lettera G), blu (Blu, designare faggio IN). Qualsiasi colore puntiforme percepito dall'occhio umano può essere ottenuto per addizione (proporzionale) (miscelazione) dei tre colori primari: rosso, verde e blu. Questo sistema di codifica è chiamato sistema di colori. RGB. File di immagine che utilizzano un sistema di colori RGB, rappresentare ogni punto dell'immagine come una tripletta di colori - tre valori numerici R, G e IN, corrispondente alle intensità di rosso, verde e blu. Il processo di codifica di un'immagine grafica viene effettuato utilizzando vari mezzi tecnici (scanner, fotocamera digitale, videocamera digitale, ecc.); il risultato è un'immagine bitmap. Quando si riproducono immagini grafiche a colori sullo schermo del monitor di un computer a colori, il colore di ciascun punto (pixel) di tale immagine si ottiene mescolando tre colori primari R,G e B.

La qualità di un'immagine raster è determinata da due parametri principali: la risoluzione (il numero di punti orizzontali e verticali) e la tavolozza dei colori utilizzata (il numero di colori specificato per ciascun punto dell'immagine). La risoluzione viene specificata specificando il numero di punti orizzontali e verticali, ad esempio 800 per 600 punti.

Esiste una relazione tra il numero di colori assegnati a un pixel di un'immagine raster e la quantità di informazioni che devono essere allocate per memorizzare il colore di un pixel, determinata dal rapporto (formula di R. Hartley):

dove io– quantità di informazioni; N- il numero di colori assegnato al punto.

La quantità di informazioni necessarie per memorizzare il colore di un punto è anche chiamata profondità del colore o qualità del colore.

Pertanto, se il numero di colori specificato per un punto immagine è N= 256, allora la quantità di informazioni necessarie per la sua conservazione (profondità del colore) secondo la formula (3.1) sarà pari a io= 8 bit.

I computer utilizzano varie modalità di visualizzazione grafica per visualizzare le informazioni grafiche. Qui va notato che oltre alla modalità grafica del monitor, esiste anche una modalità testo, in cui lo schermo del monitor è convenzionalmente suddiviso in 25 righe di 80 caratteri per riga. Queste modalità grafiche sono caratterizzate dalla risoluzione dello schermo del monitor e dalla qualità del colore (profondità del colore). Per impostare la modalità grafica dello schermo monitor nel sistema operativo MS Windows XPè necessario eseguire il comando: [Button Cominciare– Impostazioni – Pannello di controllo – Display]. Nella finestra di dialogo "Proprietà: Schermo" visualizzata (Fig. 3.12), selezionare la scheda "Parametri" e utilizzare il cursore "Risoluzione schermo" per selezionare la risoluzione dello schermo appropriata (800x600 pixel, 1024x768 pixel, ecc.). Utilizzando l'elenco a discesa "Qualità colore", è possibile selezionare la profondità del colore - "Massima (32 bit)", "Media (16 bit)", ecc., mentre il numero di colori assegnati a ciascun punto dell'immagine sarà essere rispettivamente pari a 2 32 (4294967296), 2 16 (65536), ecc.

Riso. 3.12. Finestra di dialogo delle proprietà di visualizzazione


Per implementare ciascuna delle modalità grafiche dello schermo monitor, è necessario un certo volume di informazioni della memoria video del computer. Volume di informazioni richiesto della memoria video (V)è determinato dalla relazione

dove A - il numero di punti immagine sullo schermo monitor (K = AB); MA - il numero di punti orizzontali sullo schermo del monitor; IN - il numero di punti verticali sullo schermo del monitor; io– quantità di informazioni (profondità del colore).

Quindi, se lo schermo del monitor ha una risoluzione di 1024 per 768 pixel e una tavolozza composta da 65 536 colori, la profondità del colore secondo la formula (3.1) sarà I = log 2 65 538 = 16 bit, il numero di immagini i pixel saranno uguali a: K = 1024 x 768 = 786432 e il volume di informazioni richiesto della memoria video in conformità con (3.2) sarà uguale a

V = 786432 16 bit = 12582912 bit = 1572864 byte = 1536 KB = 1,5 MB.

In conclusione, va notato che oltre alle caratteristiche elencate, le caratteristiche più importanti del monitor sono le dimensioni geometriche del suo schermo e i punti immagine. Le dimensioni geometriche dello schermo sono stabilite dalla dimensione della diagonale del monitor. La diagonale dei monitor è impostata in pollici (1 pollice = 1" = 25,4 mm) e può assumere valori pari a: 14", 15", 17", 21" ecc. Le moderne tecnologie di produzione dei monitor possono fornire una dimensione in punti dell'immagine pari a 0,22 mm.

Pertanto, per ogni monitor, esiste una risoluzione dello schermo fisicamente massima possibile, determinata dalla dimensione della sua diagonale e dalla dimensione del punto dell'immagine.

Esercizi per l'autorealizzazione

1. Utilizzo del programma MS Excel convertire le tabelle dei codici ASCII, СР866, СР1251, KOI8-R in tabelle della forma: nelle celle della prima colonna delle tabelle, scrivere in ordine alfabetico lettere maiuscole e poi minuscole latine e cirilliche, nelle celle della seconda colonna - i codici corrispondenti alle lettere del sistema numerico decimale, nelle celle la terza colonna - i codici corrispondenti alle lettere del sistema numerico esadecimale. I valori del codice devono essere selezionati dalle tabelle dei codici corrispondenti.

2. Codificare e annotare le seguenti parole come sequenza di numeri in notazione decimale ed esadecimale:

un) Internet Explorer, B) Microsoft Office in) Corel Draw.

Codificare per produrre utilizzando la tabella di codifica ASCII aggiornata ottenuta nell'esercizio precedente.

3. Decodificare utilizzando la tabella di codifica aggiornata KOI8-R sequenze di numeri scritti nel sistema numerico esadecimale:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Come apparirà la parola "Cybernetics" scritta nella codifica CP1251 quando si utilizzano le codifiche CP866 e KOI8-R? Controlla i risultati con il programma Internet Explorer.

5. Utilizzando la tabella codici mostrata in fig. 3.1 ma, decodificare le seguenti sequenze di codice scritte in notazione binaria:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Determinare il volume di informazioni della parola "Economia" codificata utilizzando le tabelle di codici СР866, СР1251, Unicode e KOI8-R.

7. Determinare il volume di informazioni del file ottenuto come risultato della scansione di un'immagine a colori di 12 x 12 cm La risoluzione dello scanner utilizzato per scansionare questa immagine è di 600 dpi. Lo scanner imposta la profondità del colore del punto dell'immagine su 16 bit.

Risoluzione dello scanner 600 dpi (pollice puntino - punti per pollice) determina la capacità di uno scanner con questa risoluzione di distinguere 600 punti su un segmento da 1 pollice.

8. Determinare il volume di informazioni del file ottenuto come risultato della scansione di un'immagine a colori di formato A4. La risoluzione dello scanner utilizzato per scansionare questa immagine è 1200 dpi. Lo scanner imposta la profondità del colore del punto dell'immagine su 24 bit.

9. Determinare il numero di colori nella tavolozza a una profondità di colore di 8, 16, 24 e 32 bit.

10. Determinare la quantità richiesta di memoria video per le modalità grafiche dello schermo monitor 640 per 480, 800 per 600, 1024 per 768 e 1280 per 1024 pixel con una profondità di colore del punto immagine di 8, 16, 24 e 32 bit. I risultati sono riassunti in una tabella. Sviluppare in MS Excel programma per automatizzare i calcoli.

11. Determinare il numero massimo di colori che possono essere utilizzati per memorizzare un'immagine di 32 x 32 pixel se il computer ha allocato 2 KB di memoria per l'immagine.

12. Determinare la massima risoluzione dello schermo possibile di un monitor con una lunghezza della diagonale di 15 "e una dimensione in punti dell'immagine di 0,28 mm.

13. Quali modalità grafiche di funzionamento del monitor possono essere fornite da 64 MB di memoria video?

Contenuto

I. Storia della codifica delle informazioni…………………………………..3

II. Informazioni di codifica………………………………………………4

III. Codifica delle informazioni testuali……………………………….4

IV. Tipi di tabelle di codifica………………………………………………...6

V. Calcolo della quantità di informazioni testuali…………………………14

Elenco della letteratura usata……………………………………..16

io . Cronologia della codifica delle informazioni

L'umanità ha utilizzato la crittografia del testo (codifica) sin dal momento in cui sono apparse le prime informazioni segrete. Ecco diverse tecniche di codifica del testo che sono state inventate in varie fasi dello sviluppo del pensiero umano:

La crittografia è crittografia, un sistema di modifica della scrittura in modo da rendere il testo incomprensibile a chi non lo sapesse;

Codice Morse o codice telegrafico non uniforme, in cui ogni lettera o carattere è rappresentato dalla propria combinazione di unità di corrente elettrica corta (punti) e unità di durata tripla (trattini);

la lingua dei segni è una lingua dei segni usata dalle persone con problemi di udito.

Uno dei primi metodi di crittografia conosciuti porta il nome dell'imperatore romano Giulio Cesare (I secolo a.C.). Questo metodo si basa sulla sostituzione di ogni lettera del testo crittografato con un'altra spostando l'alfabeto dalla lettera originale di un numero fisso di caratteri e l'alfabeto viene letto in un cerchio, ovvero, dopo la lettera i, viene considerata a. Quindi la parola "byte" quando viene spostata di due caratteri a destra è codificata dalla parola "gvlf". Il processo inverso di decifrazione di una determinata parola consiste nel sostituire ogni lettera crittografata con la seconda a sinistra di essa.

II. Codifica delle informazioni

Un codice è un insieme di convenzioni (o segnali) per registrare (o trasmettere) alcuni concetti predefiniti.

La codifica delle informazioni è il processo di formazione di una certa rappresentazione delle informazioni. In un senso più ristretto, il termine "codifica" è spesso inteso come il passaggio da una forma di presentazione delle informazioni a un'altra, più conveniente per l'archiviazione, la trasmissione o l'elaborazione.

Di solito, ogni immagine, una volta codificata (a volte si dice - crittografata), è rappresentata da un carattere separato.

Un segno è un elemento di un insieme finito di elementi distinti.

In un senso più ristretto, il termine "codifica" è spesso inteso come il passaggio da una forma di presentazione delle informazioni a un'altra, più conveniente per l'archiviazione, la trasmissione o l'elaborazione.

Il computer può elaborare informazioni testuali. Quando viene inserita in un computer, ogni lettera viene codificata con un certo numero e, quando viene inviata a dispositivi esterni (schermo o stampa), per la percezione umana, le immagini delle lettere vengono costruite utilizzando questi numeri. La corrispondenza tra un insieme di lettere e numeri è chiamata codifica dei caratteri.

Di norma, tutti i numeri nel computer sono rappresentati utilizzando zeri e uno (e non dieci cifre, come è consuetudine per le persone). In altre parole, i computer di solito funzionano nel sistema binario, poiché i dispositivi per elaborarli sono molto più semplici. L'immissione di numeri in un computer e l'output per la lettura umana può essere eseguita nella solita forma decimale e tutte le conversioni necessarie vengono eseguite da programmi in esecuzione su un computer.

III. Codifica delle informazioni di testo

Le stesse informazioni possono essere presentate (codificate) in diverse forme. Con l'avvento dei computer, è diventato necessario codificare tutti i tipi di informazioni con cui hanno a che fare sia un individuo che l'umanità nel suo insieme. Ma l'umanità iniziò a risolvere il problema della codifica delle informazioni molto prima dell'avvento dei computer. Le grandiose conquiste dell'umanità - scrittura e aritmetica - non sono altro che un sistema di codifica di parole e informazioni numeriche. L'informazione non appare mai nella sua forma pura, è sempre presentata in qualche modo, codificata in qualche modo.

La codifica binaria è uno dei modi più comuni per rappresentare le informazioni. Nei computer, robot e macchine utensili a controllo numerico, di norma, tutte le informazioni di cui si occupa il dispositivo sono codificate sotto forma di parole dell'alfabeto binario.

Dalla fine degli anni '60, i computer sono stati sempre più utilizzati per elaborare informazioni testuali e attualmente la maggior parte dei personal computer nel mondo (e la maggior parte delle volte) è occupata dall'elaborazione di informazioni testuali. Tutti questi tipi di informazioni in un computer sono rappresentati in codice binario, ovvero viene utilizzato un alfabeto con una potenza di due (solo due caratteri 0 e 1). Ciò è dovuto al fatto che è conveniente rappresentare le informazioni sotto forma di una sequenza di impulsi elettrici: non c'è impulso (0), c'è un impulso (1).

Tale codifica è solitamente chiamata binaria e le sequenze logiche di zeri e uno stessi sono chiamate linguaggio macchina.

Dal punto di vista del computer, il testo è composto da singoli caratteri. I caratteri includono non solo lettere (maiuscole o minuscole, latine o russe), ma anche numeri, segni di punteggiatura, caratteri speciali come "=", "(", "&", ecc. e persino (prestare particolare attenzione!) spazi tra le parole .

I testi vengono inseriti nella memoria del computer utilizzando la tastiera. I tasti sono scritti a noi familiari lettere, numeri, segni di punteggiatura e altri simboli. Entrano nella RAM in codice binario. Ciò significa che ogni carattere è rappresentato da un codice binario a 8 bit.

Tradizionalmente, per codificare un carattere, viene utilizzata la quantità di informazioni pari a 1 byte, ovvero I \u003d 1 byte \u003d 8 bit. Utilizzando una formula che mette in relazione il numero di eventi possibili K e la quantità di informazioni I, puoi calcolare quanti caratteri diversi possono essere codificati (supponendo che i caratteri siano eventi possibili): K = 2 I = 2 8 = 256, cioè per rappresentazione di informazioni testuali, è possibile utilizzare l'alfabeto con una capacità di 256 caratteri.

Questo numero di caratteri è sufficiente per rappresentare informazioni testuali, comprese lettere maiuscole e minuscole dell'alfabeto russo e latino, numeri, segni, simboli grafici, ecc.

La codifica consiste nel fatto che a ciascun carattere viene assegnato un codice decimale univoco da 0 a 255 o il codice binario corrispondente da 00000000 a 11111111. Pertanto, una persona distingue i caratteri dal loro stile e un computer dal loro codice.

La comodità della codifica byte per byte dei caratteri è ovvia, poiché un byte è la parte più piccola della memoria indirizzabile e, pertanto, il processore può accedere a ciascun carattere separatamente durante l'elaborazione del testo. D'altra parte, 256 caratteri sono sufficienti per rappresentare un'ampia varietà di informazioni sui caratteri.

Nel processo di visualizzazione di un carattere sullo schermo di un computer, viene eseguito il processo inverso: la decodifica, ovvero la conversione del codice del carattere nella sua immagine. È importante che l'assegnazione di un codice specifico a un simbolo sia una questione di accordo, che è fissata nella tabella dei codici.

Ora sorge la domanda, quale codice binario a otto bit mettere in corrispondenza di ciascun carattere. È chiaro che questa è una questione condizionale, puoi trovare molti modi per codificare.

Tutti i simboli dell'alfabeto informatico sono numerati da 0 a 255. Ogni numero corrisponde a un codice binario di otto cifre da 00000000 a 11111111. Questo codice è semplicemente il numero ordinale del carattere nel sistema numerico binario.

IV . Tipi di tabelle di codifica

Una tabella in cui a tutti i caratteri dell'alfabeto del computer sono assegnati numeri di serie è chiamata tabella di codifica.

Per diversi tipi di computer vengono utilizzate diverse tabelle di codifica.

La tabella codici ASCII (American Standard Code for Information Interchange) è adottata come standard internazionale, codificando la prima metà dei caratteri con codici numerici da 0 a 127 (i codici da 0 a 32 sono assegnati non ai caratteri, ma ai tasti funzione).

La tabella dei codici ASCII è divisa in due parti.

Solo la prima metà della tabella è uno standard internazionale, ad es. caratteri con numeri da 0 (00000000) a 127 (01111111).

Struttura della tabella di codifica ASCII

Numero di serie Il codice Simbolo
0 - 31 00000000 - 00011111

I caratteri con numeri da 0 a 31 sono chiamati caratteri di controllo.

La loro funzione è controllare il processo di visualizzazione del testo sullo schermo o di stampa, emettere un segnale acustico, contrassegnare il testo, ecc.

32 - 127 0100000 - 01111111

Parte standard della tabella (inglese). Ciò include lettere minuscole e maiuscole dell'alfabeto latino, cifre decimali, segni di punteggiatura, tutti i tipi di parentesi, simboli commerciali e altri.

Il carattere 32 è uno spazio, ad es. posizione vuota nel testo.

Tutto il resto è riflesso da certi segni.

128 - 255 10000000 - 11111111

Parte alternativa della tabella (russo).

La seconda metà della tabella dei codici ASCII, denominata code page (128 codici, che iniziano con 10000000 e terminano con 11111111), può avere diverse opzioni, ogni opzione ha un proprio numero.

La tabella codici viene utilizzata principalmente per ospitare scritture nazionali diverse dal latino. Nelle codifiche nazionali russe, i caratteri dell'alfabeto russo sono inseriti in questa parte della tabella.

Prima metà della tabella dei codici ASCII

Si richiama l'attenzione sul fatto che nella tabella di codifica le lettere (maiuscole e minuscole) sono disposte in ordine alfabetico e i numeri sono ordinati in ordine crescente. Questa osservanza dell'ordine lessicografico nella disposizione dei caratteri è chiamata il principio della codifica sequenziale dell'alfabeto.

Per le lettere dell'alfabeto russo si osserva anche il principio della codifica sequenziale.

La seconda metà della tabella dei codici ASCII

Sfortunatamente, ci sono attualmente cinque diverse codifiche cirilliche (KOI8-R, Windows. MS-DOS, Macintosh e ISO). Per questo motivo, sorgono spesso problemi con il trasferimento di testo russo da un computer all'altro, da un sistema software all'altro.

Cronologicamente, uno dei primi standard per la codifica delle lettere russe sui computer è stato KOI8 ("Codice di scambio di informazioni, 8 bit"). Questa codifica è stata utilizzata negli anni '70 sui computer della serie di computer EC e dalla metà degli anni '80 ha iniziato ad essere utilizzata nelle prime versioni russificate del sistema operativo UNIX.

Dall'inizio degli anni '90, epoca del predominio del sistema operativo MS DOS, la codifica rimane CP866 ("CP" sta per "Code Page", "code page").

I computer Apple che eseguono il sistema operativo Mac OS utilizzano la propria codifica Mac.

Inoltre, l'Organizzazione internazionale per la standardizzazione (International Standards Organization, ISO) ha approvato un'altra codifica chiamata ISO 8859-5 come standard per la lingua russa.

La codifica più comune attualmente utilizzata è Microsoft Windows, abbreviata in CP1251. Introdotto da Microsoft; dato l'uso diffuso dei sistemi operativi (OS) e di altri prodotti software di questa azienda nella Federazione Russa, si è diffuso.

Dalla fine degli anni '90, il problema della standardizzazione della codifica dei caratteri è stato risolto con l'introduzione di un nuovo standard internazionale chiamato Unicode.

Questa è una codifica a 16 bit, ad es. ha 2 byte di memoria per carattere. Naturalmente, in questo caso, la quantità di memoria occupata aumenta di 2 volte. Ma una tale tabella di codici consente l'inclusione di un massimo di 65536 caratteri. La specifica completa dello standard Unicode include tutti gli alfabeti esistenti, estinti e creati artificialmente del mondo, nonché molti simboli matematici, musicali, chimici e di altro tipo.

Rappresentazione interna delle parole nella memoria del computer

utilizzando una tabella ASCII

A volte capita che il testo, composto da lettere dell'alfabeto russo, ricevuto da un altro computer, non possa essere letto: sullo schermo del monitor è visibile una sorta di "abracadabra". Ciò è dovuto al fatto che i computer utilizzano diverse codifiche dei caratteri della lingua russa.

Pertanto, ogni codifica è data dalla propria tabella di codici. Come si può vedere dalla tabella, allo stesso codice binario vengono assegnati caratteri diversi in codifiche diverse.

Ad esempio, la sequenza di codici numerici 221, 194, 204 nella codifica CP1251 forma la parola "computer", mentre in altre codifiche sarà un insieme di caratteri privo di significato.

Fortunatamente, nella maggior parte dei casi, l'utente non deve preoccuparsi della transcodifica di documenti di testo, poiché ciò viene fatto da speciali programmi di conversione integrati nelle applicazioni.

V . Calcolo della quantità di informazioni di testo

Compito 1: Codificare la parola "Roma" utilizzando le tabelle di codifica KOI8-R e CP1251.

Soluzione:

Compito 2: Supponendo che ogni carattere sia codificato da un byte, stimare il volume di informazioni della seguente frase:

“Mio zio delle regole più oneste,

Quando mi sono ammalato sul serio,

Si sforzò di rispettare

E non potevo pensare a uno migliore".

Soluzione: Ci sono 108 caratteri in questa frase, inclusi segni di punteggiatura, virgolette e spazi. Moltiplichiamo questo numero per 8 bit. Otteniamo 108*8=864 bit.

Compito 3: I due testi contengono lo stesso numero di caratteri. Il primo testo è scritto in russo e il secondo nella lingua della tribù Naguri, il cui alfabeto è composto da 16 caratteri. Il cui testo contiene più informazioni?

Soluzione:

1) I \u003d K * a (il volume delle informazioni del testo è uguale al prodotto del numero di caratteri e del peso delle informazioni di un carattere).

2) Perché entrambi i testi hanno lo stesso numero di caratteri (K), quindi la differenza dipende dal contenuto informativo di un carattere dell'alfabeto (a).

3) 2 a1 = 32, cioè a 1 = 5 bit, 2 a2 = 16, cioè e 2 = 4 bit.

4) I 1 = K * 5 bit, I 2 = K * 4 bit.

5) Significa che il testo scritto in russo contiene 5/4 volte più informazioni.

Compito 4: Il volume del messaggio, contenente 2048 caratteri, era 1/512 di MB. Determina il potere dell'alfabeto.

Soluzione:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bit: il volume di informazioni del messaggio è stato convertito in bit.

2) a \u003d I / K \u003d 16384 / 1024 \u003d 16 bit - cade su un carattere dell'alfabeto.

3) 2*16*2048 = 65536 caratteri: il potere dell'alfabeto usato.

Compito 5: La stampante laser Canon LBP stampa a una velocità media di 6,3 Kbps. Quanto tempo ci vuole per stampare un documento di 8 pagine se si sa che ci sono in media 45 righe su una pagina, 70 caratteri per riga (1 carattere - 1 byte)?

Soluzione:

1) Trova la quantità di informazioni contenute in 1 pagina: 45 * 70 * 8 bit = 25200 bit

2) Trova la quantità di informazioni su 8 pagine: 25200 * 8 = 201600 bit

3) Portiamo a unità di misura uniformi. Per fare ciò, traduciamo Mbps in bit: 6,3 * 1024 = 6451,2 bps.

4) Trova il tempo di stampa: 201600: 6451,2 = 31 secondi.

Bibliografia

1. Ageev VM Teoria dell'informazione e codifica: discretizzazione e codifica dell'informazione di misura. - M.: MAI, 1977.

2. Kuzmin IV, Kedrus V.A. Fondamenti di teoria e codifica dell'informazione. - Kiev, scuola Vishcha, 1986.

3. I metodi più semplici di crittografia del testo / D.M. Zlatopolsky. - M.: Chistye Prudy, 2007 - 32 p.

4. Ugrinovich N.D. Informatica e tecnologie dell'informazione. Libro di testo per i gradi 10-11 / N.D. Ugrinovich. – M.: BINOMO. Laboratorio della conoscenza, 2003. - 512 p.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Materiale per autoapprendimento sul tema Lezione 2

Codifica ASCII

Tabella di codifica ASCII (ASCII - American Standard Code for Information Interchange - American Standard Code for Information Interchange).

In totale, utilizzando la tabella di codifica ASCII (Figura 1), è possibile codificare 256 caratteri diversi. Questa tabella è divisa in due parti: principale (con codici da OOh a 7Fh) e aggiuntiva (da 80h a FFh, dove la lettera h indica che il codice appartiene al sistema numerico esadecimale).

Immagine 1

Per codificare un carattere della tabella, vengono allocati 8 bit (1 byte). Quando si elaborano informazioni testuali, un byte può contenere il codice di alcuni caratteri: lettere, numeri, segni di punteggiatura, segni di azione, ecc. Ogni carattere ha il proprio codice sotto forma di un numero intero. In questo caso, tutti i codici vengono raccolti in apposite tabelle, dette tabelle di codifica. Con il loro aiuto, il codice del carattere viene convertito nella sua rappresentazione visibile sullo schermo del monitor. Di conseguenza, qualsiasi testo nella memoria del computer viene rappresentato come una sequenza di byte con codici di caratteri.

Ad esempio, la parola ciao! sarà codificato come segue (Tabella 1).

Tabella 1

Codice binario

Codice decimale

La figura 1 mostra i caratteri inclusi nella codifica ASCII standard (inglese) ed estesa (russa).

La prima metà della tabella ASCII è standardizzata. Contiene codici di controllo (dalle 00h alle 20h e 77h). Questi codici sono stati rimossi dalla tabella perché non si applicano agli elementi di testo. Segni di punteggiatura e segni matematici si trovano anche qui: 2lh - !, 26h - &, 28h - (, 2Bh -+, ..., lettere latine grandi e piccole: 41h - A, 61h - a.

La seconda metà della tabella contiene caratteri nazionali, simboli pseudografici da cui è possibile costruire tabelle, simboli matematici speciali. La parte inferiore della tabella di codifica può essere sostituita utilizzando gli appositi driver - programmi ausiliari di controllo. Questa tecnica consente di utilizzare più tipi di carattere e i loro caratteri tipografici.

Il display per ogni codice carattere dovrebbe visualizzare l'immagine del carattere, non solo un codice digitale, ma un'immagine corrispondente, poiché ogni carattere ha la sua forma. Una descrizione della forma di ciascun carattere è memorizzata in una speciale memoria di visualizzazione: un generatore di caratteri. L'evidenziazione di un carattere sullo schermo di un PC IBM, ad esempio, viene eseguita utilizzando punti che formano una matrice di caratteri. Ogni pixel in una tale matrice è un elemento dell'immagine e può essere luminoso o scuro. Un punto scuro è codificato dal numero 0, uno chiaro (luminoso) uno per 1. Se i pixel scuri sono rappresentati da un punto nel campo della matrice del segno e i pixel chiari da un asterisco, puoi rappresentare graficamente la forma del simbolo.

Persone in diversi paesi usano simboli per scrivere le parole della loro lingua madre. Al giorno d'oggi, la maggior parte delle applicazioni, inclusi i sistemi di posta elettronica e i browser Web, sono a 8 bit puri, il che significa che possono visualizzare e leggere correttamente solo caratteri a 8 bit, secondo lo standard ISO-8859-1.

Ci sono oltre 256 caratteri nel mondo (inclusi cirillico, arabo, cinese, giapponese, coreano e tailandese) e vengono aggiunti sempre più caratteri. E questo crea le seguenti lacune per molti utenti:

Non è possibile utilizzare caratteri di set di codifica diversi nello stesso documento. Poiché ogni documento di testo utilizza il proprio set di codifiche, ci sono grandi difficoltà con il riconoscimento automatico del testo.

Appaiono nuovi simboli (ad esempio: Euro), a seguito dei quali ISO sviluppa un nuovo standard, ISO-8859-15, che è molto simile a ISO-8859-1. La differenza è la seguente: i simboli per indicare le vecchie valute che non sono attualmente utilizzate sono stati rimossi dalla tabella di codifica del vecchio standard ISO-8859-1 per fare spazio ai simboli appena apparsi (come l'Euro). Di conseguenza, gli utenti possono avere gli stessi documenti sui propri dischi, ma con codifiche diverse. La soluzione a questi problemi è l'adozione di un unico insieme internazionale di codifiche, chiamato codifica universale o Unicode.

Codifica Unicode

Lo standard è stato proposto nel 1991 dall'organizzazione no-profit Unicode Consortium (English Unicode Consortium, Unicode Inc.). L'uso di questo standard consente di codificare un numero molto elevato di caratteri di scritture diverse: nei documenti Unicode possono coesistere caratteri cinesi, simboli matematici, lettere dell'alfabeto greco, alfabeti latino e cirillico, mentre il cambio di tabella codici diventa superfluo.

Lo standard si compone di due sezioni principali: il set di caratteri universale (UCS, set di caratteri universali) e la famiglia di codifica (UTF, formato di trasformazione Unicode). Il set di caratteri universale specifica una corrispondenza uno-a-uno dei caratteri con i codici, elementi dello spazio del codice che rappresentano numeri interi non negativi. Una famiglia di codifica definisce la rappresentazione macchina di una sequenza di codici UCS.

Lo standard Unicode è stato sviluppato con l'obiettivo di creare un'unica codifica di caratteri per tutte le lingue scritte moderne e molte antiche. Ogni carattere in questo standard è codificato con 16 bit, il che gli consente di coprire un numero di caratteri incomparabilmente maggiore rispetto alle codifiche a 8 bit precedentemente accettate. Un'altra importante differenza tra Unicode e altri sistemi di codifica è che non solo assegna un codice univoco a ciascun carattere, ma definisce anche varie caratteristiche di quel carattere, ad esempio:

    tipo di carattere (lettera maiuscola, lettera minuscola, numero, segno di punteggiatura, ecc.);

    attributi dei caratteri (visualizzazione da sinistra a destra o da destra a sinistra, spazio, interruzione di riga, ecc.);

    lettera maiuscola o minuscola corrispondente (rispettivamente per lettere minuscole e maiuscole);

    il valore numerico corrispondente (per i caratteri numerici).

L'intera gamma di codici da 0 a FFFF è suddivisa in diversi sottoinsiemi standard, ognuno dei quali corrisponde o all'alfabeto di alcune lingue, oppure a un gruppo di caratteri speciali che sono simili nelle loro funzioni. Il diagramma seguente contiene un elenco generale di sottoinsiemi di Unicode 3.0 (Figura 2).

figura 2

Lo standard Unicode è la base per l'archiviazione e il testo in molti moderni sistemi informatici. Tuttavia, non è compatibile con la maggior parte dei protocolli Internet, poiché i suoi codici possono contenere qualsiasi valore di byte e i protocolli di solito utilizzano i byte 00 - 1F e FE - FF come byte di servizio. Per ottenere la compatibilità, sono stati sviluppati diversi formati di trasformazione Unicode (UTF, Unicode Transformation Formats), di cui UTF-8 è il più comune oggi. Questo formato definisce le seguenti regole per convertire ogni codice Unicode in un insieme di byte (da uno a tre) adatti al trasporto tramite protocolli Internet.

Qui x,y,z denotano i bit del codice sorgente, che devono essere estratti, partendo dal più giovane, e inseriti nei byte del risultato da destra a sinistra, fino a riempire tutte le posizioni specificate.

L'ulteriore sviluppo dello standard Unicode è associato all'aggiunta di nuovi piani linguistici, ad es. caratteri negli intervalli 10000 - 1FFFF, 20000 - 2FFFF, ecc., dove dovrebbe includere la codifica per gli script di lingue morte che non sono incluse nella tabella sopra. È stato sviluppato un nuovo formato UTF-16 per codificare questi caratteri aggiuntivi.

Pertanto, ci sono 4 modi principali per codificare i byte in formato Unicode:

UTF-8: 128 caratteri codificati in un byte (formato ASCII), 1920 caratteri codificati in 2 byte ((caratteri romani, greci, cirillici, copti, armeni, ebraici, arabi), 63488 caratteri codificati in 3 byte (cinese, giapponese ecc. .) I restanti 2.147.418.112 caratteri (non ancora utilizzati) possono essere codificati con 4, 5 o 6 byte.

UCS-2: ogni carattere è rappresentato da 2 byte. Questa codifica include solo i primi 65.535 caratteri del formato Unicode.

UTF-16: questa è un'estensione di UCS-2 e include 1.114.112 caratteri Unicode. I primi 65.535 caratteri sono rappresentati da 2 byte, il resto da 4 byte.

USC-4: ogni carattere è codificato con 4 byte.

Excel per Office 365 Word per Office 365 Outlook per Office 365 PowerPoint per Office 365 Publisher per Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Excel 2007 Word 2007 Outlook 2007 PowerPoint 2007 Publisher 2007 Access 2007 Visio 2007 OneNote Visio Standard 2007 Visio Standard 2010 Meno

In questo articolo

Inserimento di un carattere ASCII o Unicode in un documento

Se hai solo bisogno di inserire alcuni caratteri o simboli speciali, puoi usare o le scorciatoie da tastiera. Per un elenco di caratteri ASCII, vedere le tabelle seguenti o l'articolo Inserire alfabeti nazionali utilizzando le scorciatoie da tastiera.

Appunti:

Inserimento di caratteri ASCII

Per inserire un carattere ASCII, tenere premuto il tasto ALT mentre si immette il codice del carattere. Ad esempio, per inserire un simbolo di grado (º), tenere premuto il tasto ALT, quindi immettere 0176 sul tastierino numerico.

Utilizzare il tastierino numerico per inserire i numeri, non i numeri sulla tastiera principale. Se è necessario inserire numeri sul tastierino numerico, assicurarsi che l'indicatore BLOC NUM sia acceso.

Inserimento di caratteri Unicode

Per inserire un carattere Unicode, digitare il codice del carattere, quindi premere in sequenza ALT + X. Ad esempio, per inserire un carattere dollaro ($), digitare 0024 e premere in sequenza ALT + X. Per tutti i codici carattere Unicode, vedere .

Importante: Alcuni programmi di Microsoft Office, come PowerPoint e InfoPath, non supportano la conversione di codici Unicode in caratteri. Se è necessario inserire un carattere Unicode in uno di questi programmi, utilizzare .

Appunti:

    Se viene visualizzato un carattere Unicode non corretto dopo aver premuto ALT+X, selezionare il codice corretto e quindi premere nuovamente ALT+X.

    Inoltre, è necessario inserire "U+" prima del codice. Ad esempio, digitando "1U+B5" e premendo ALT+X verrà visualizzato il testo "1µ", mentre digitando "1B5" e premendo ALT+X verrà visualizzato il carattere "Ƶ".

Utilizzo della tabella dei simboli

Una tabella dei caratteri è un programma integrato in Microsoft Windows che consente di visualizzare i caratteri disponibili per un font selezionato.

Usando la tabella dei simboli, puoi copiare singoli caratteri o un gruppo di caratteri negli appunti e incollarli in qualsiasi programma che supporti la visualizzazione di questi caratteri. Apertura della tabella dei simboli

    Su Windows 10 Immettere la parola "simbolo" nel campo di ricerca sulla barra delle applicazioni e selezionare la tabella dei simboli dai risultati della ricerca.

    Su Windows 8 Immettere la parola "simbolo" nella schermata iniziale e selezionare la tabella dei simboli dai risultati della ricerca.

    Su Windows 7 premi il bottone Cominciare, selezionare in sequenza Tutti i programmi, Standard, Servizio e fare clic tabella dei simboli.

I caratteri sono raggruppati per tipo di carattere. Fare clic sull'elenco dei caratteri per selezionare il set di caratteri appropriato. Per selezionare un simbolo, fare clic su di esso, quindi fare clic sul pulsante Selezionare. Per inserire un simbolo, fare clic con il pulsante destro del mouse nella posizione desiderata nel documento e selezionare Inserire.

Codici caratteri usati di frequente

Per un elenco completo dei caratteri, vedere sul computer, la tabella dei codici dei caratteri ASCII o le tabelle dei caratteri Unicode ordinate per set.

Glifo

Glifo

Unità monetarie

simboli legali

Simboli matematici

Frazioni

Punteggiatura e simboli dialettali

Simboli di forma

Codici per segni diacritici comunemente usati

Per un elenco completo dei glifi e dei codici corrispondenti, vedere .

Glifo

Glifo

Caratteri di controllo ASCII non stampabili

I caratteri utilizzati per controllare alcune periferiche, come le stampanti, sono numerati da 0 a 31 nella tabella ASCII. Ad esempio, il carattere avanzamento pagina/nuova pagina corrisponde al numero 12. Questo carattere indica alla stampante di andare all'inizio della pagina successiva.

Tabella dei caratteri di controllo ASCII non stampabile

Numero decimale

Cartello

Numero decimale

Cartello

Rilascio del canale dati

Inizio intestazione

Primo codice di controllo del dispositivo

Inizio del testo

Codice di controllo del secondo dispositivo

Fine del testo

Codice di controllo del terzo dispositivo

Fine della trasmissione

Quarto codice di controllo del dispositivo

a cinque punte

Conferma negativa

Conferma

Modalità di trasferimento sincrono

Segnale sonoro

Fine del blocco dati

Scheda orizzontale

Fine multimediale

Avanzamento riga/nuova riga

Personaggio sostitutivo

Scheda verticale

superare

Traduzione pagina/Nuova pagina

dodici

Separatore di file

Ritorno in carrozza

Separatore di gruppo

Sposta senza salvare le cifre

Separatore di record

Spostamento di conservazione dei bit

quindici

Separatore di dati

dic esadecimale Simbolo dic esadecimale Simbolo
000 00 specialista. NOP 128 80 Ђ
001 01 specialista. SOH 129 81 Ѓ
002 02 specialista. STX 130 82
003 03 specialista. ETX 131 83 ѓ
004 04 specialista. EOT 132 84
005 05 specialista. ENQ 133 85
006 06 specialista. ACK 134 86
007 07 specialista. BEL 135 87
008 08 specialista. BS 136 88
009 09 specialista. TAB 137 89
010 0Aspecialista. LF 138 8AЉ
011 0Bspecialista. VT 139 8B‹ ‹
012 0Cspecialista. FF 140 8CЊ
013 0Dspecialista. CR 141 8DЌ
014 0Especialista. COSÌ 142 8EЋ
015 0Fspecialista. SI 143 8FЏ
016 10 specialista. DLE 144 90 ђ
017 11 specialista. DC1 145 91
018 12 specialista. DC2 146 92
019 13 specialista. DC3 147 93
020 14 specialista. DC4 148 94
021 15 specialista. NAK 149 95
022 16 specialista. SYN 150 96
023 17 specialista. ETB 151 97
024 18 specialista. POTERE 152 98
025 19 specialista. EM 153 99
026 1Aspecialista. SUB 154 9Aљ
027 1Bspecialista. ESC 155 9B
028 1Cspecialista. FS 156 9Cњ
029 1Dspecialista. GS 157 9Dќ
030 1Especialista. RS 158 9Eћ
031 1Fspecialista. noi 159 9Fџ
032 20 frizione SP (spazio) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Yo
041 29 ) 169 A9©
042 2A* 170 aaЄ
043 2B+ 171 AB«
044 2C, 172 corrente alternata¬
045 2D- 173 ANNO DOMINI­
046 2E. 174 AE®
047 2F/ 175 AFЇ
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8yo
057 39 9 185 B9
058 3A: 186 BAє
059 3B; 187 BB»
060 3C< 188 AVANTI CRISTOј
061 3D= 189 BDЅ
062 3E> 190 ESSEREѕ
063 3F? 191 bfї
064 40 @ 192 C0 MA
065 41 UN 193 C1 B
066 42 B 194 C2 IN
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 e 197 C5 e
070 46 F 198 C6 F
071 47 G 199 C7 w
072 48 h 200 C8 E
073 49 io 201 C9 Y
074 4AJ 202 circa A
075 4BK 203 CB l
076 4Cl 204 CC m
077 4Dm 205 cd h
078 4En 206 CE DI
079 4Fo 207 CF P
080 50 P 208 D0 R
081 51 Q 209 D1 DA
082 52 R 210 D2 T
083 53 S 211 D3 In
084 54 T 212 D4 F
085 55 u 213 D5 X
086 56 V 214 D6 C
087 57 w 215 D7 h
088 58 X 216 D8 w
089 59 Y 217 D9 SCH
090 5AZ 218 DA Kommersant
091 5B[ 219 DB S
092 5C\ 220 DC B
093 5 D] 221 DD e
094 5E^ 222 DE YU
095 5F_ 223 D.F. io
096 60 ` 224 E0 ma
097 61 un 225 E1 B
098 62 B 226 E2 in
099 63 C 227 E3 G
100 64 D 228 E4 D
101 65 e 229 E5 e
102 66 F 230 E6 bene
103 67 G 231 E7 h
104 68 h 232 E8 e
105 69 io 233 E9 th
106 6AJ 234 EA a
107 6BK 235 EB l
108 6Cl 236 Unione Europea m
109 6Dm 237 ED n
110 6En 238 EE di
111 6Fo 239 EF P
112 70 P 240 F0 R
113 71 Q 241 F1 da
114 72 R 242 F2 T
115 73 S 243 F3 a
116 74 T 244 F4 F
117 75 tu 245 F5 X
118 76 v 246 F6 C
119 77 w 247 F7 h
120 78 X 248 F8 w
121 79 y 249 F9 SCH
122 7Az 250 fa B
123 7B{ 251 Facebook S
124 7C| 252 FC B
125 7D} 253 FD ehm
126 7E~ 254 FE Yu
127 7FSpecialista. DEL 255 FF io

Tabella ASCII dei codici dei caratteri di Windows.
Descrizione dei caratteri speciali (di controllo).

Va notato che inizialmente i caratteri di controllo della tabella ASCII venivano utilizzati per fornire lo scambio di dati tramite telescrivente, l'immissione di dati da un nastro perforato e per il più semplice controllo di dispositivi esterni.
Attualmente, la maggior parte dei caratteri di controllo ASCII della tabella non trasporta più questo carico e può essere utilizzata per altri scopi.
Il codice Descrizione
NUL, 00Nulla, vuota
SO-01Inizio della rotta
STX 02Inizio di TeXt, l'inizio del testo.
ETX 03Fine di TeXt
EOT, 04Fine della trasmissione
ITA, 05Chiedere informazioni. Si prega di confermare
ACK, 06Riconoscimento. confermo
BEL 07Campana, chiama
BS 08Backspace, torna indietro di un carattere
TAB, 09Linguetta, linguetta orizzontale
LF, 0AAvanzamento riga, avanzamento riga.
Ora nella maggior parte dei linguaggi di programmazione è indicato come \n
VT, 0BScheda verticale, tabulazione verticale.
FF, 0CFeed modulo, feed pagina, nuova pagina
CR, 0DRitorno in Carrozza
Ora nella maggior parte dei linguaggi di programmazione è indicato come \r
COSÌ, 0ESposta fuori, cambia il colore del nastro d'inchiostro nella stampante
SI, 0°FSposta in, restituisce il colore del nastro d'inchiostro nel dispositivo di stampa
DLE, 10Data Link Escape, passaggio del canale alla trasmissione dei dati
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Controllo dispositivo, simboli di controllo dispositivo
N.A.K. 15Conferma negativa, non confermo.
SYN, 16sincronizzazione. Simbolo di sincronizzazione
ETB, 17Fine del blocco di testo, fine del blocco di testo
CAN, 18Annulla, annullando un precedente passato
EM, 19Fine del medio
SUB, 1ASostituisci, sostituisci. Posizionato al posto di un personaggio il cui valore è stato perso o danneggiato durante la trasmissione
ESC, 1BEsci dalla sequenza di fuga
FS, 1CSeparatore di file, separatore di file
GS, 1DSeparatore di gruppi, separatore di gruppi
RS, 1ESeparatore di record
USA, 1FSeparatore di unità, separatore di unità
DEL, 7FElimina, elimina l'ultimo carattere.

Il computer comprende il processo della sua trasformazione in una forma che consente di organizzare un trasferimento, una memorizzazione o un'elaborazione automatica più conveniente di questi dati. A tale scopo vengono utilizzate diverse tabelle. La codifica ASCII è stato il primo sistema sviluppato negli Stati Uniti per lavorare con il testo inglese, che successivamente si è diffuso in tutto il mondo. L'articolo seguente è dedicato alla sua descrizione, caratteristiche, proprietà e ulteriore utilizzo.

Visualizzazione e memorizzazione di informazioni in un computer

I simboli sul monitor di un computer o di un particolare gadget digitale mobile sono formati sulla base di insiemi di forme vettoriali di vari caratteri e un codice che consente di trovare tra loro il simbolo che deve essere inserito nel posto giusto. È una sequenza di bit. Pertanto, ogni carattere deve corrispondere in modo univoco a un insieme di zeri e uno che stanno in un certo ordine unico.

Come tutto cominciò

Storicamente, i primi computer erano in inglese. Per codificare le informazioni sui caratteri al loro interno, è stato sufficiente utilizzare solo 7 bit di memoria, mentre a questo scopo è stato allocato 1 byte composto da 8 bit. Il numero di caratteri compresi dal computer in questo caso era 128. Questi caratteri includevano l'alfabeto inglese con i suoi segni di punteggiatura, numeri e alcuni caratteri speciali. La codifica a sette bit in lingua inglese con la tabella corrispondente (codepage), sviluppata nel 1963, era chiamata American Standard Code for Information Interchange. Di solito veniva utilizzata l'abbreviazione "codifica ASCII" ed è ancora utilizzata fino ad oggi.

Transizione al multilinguismo

Nel tempo, i computer sono diventati ampiamente utilizzati nei paesi non di lingua inglese. A questo proposito, c'era la necessità di codifiche che consentissero l'uso delle lingue nazionali. Si è deciso di non reinventare la ruota e di prendere l'ASCII come base. La tabella di codifica nella nuova edizione è stata notevolmente ampliata. L'uso dell'8° bit ha permesso di tradurre 256 caratteri in un linguaggio informatico.

Descrizione

La codifica ASCII ha una tabella divisa in 2 parti. Lo standard internazionale generalmente accettato è considerato solo la sua prima metà. Include:

  • Caratteri con numeri di serie da 0 a 31, codificati da sequenze da 00000000 a 00011111. Sono riservati ai caratteri di controllo che controllano il processo di visualizzazione del testo su uno schermo o stampante, emettendo un segnale acustico, ecc.
  • I caratteri con NN nella tabella da 32 a 127, codificati da sequenze da 00100000 a 01111111, costituiscono la parte standard della tabella. Includono uno spazio (N 32), lettere dell'alfabeto latino (minuscole e maiuscole), numeri a dieci cifre da 0 a 9, segni di punteggiatura, parentesi di vari stili e altri simboli.
  • Caratteri con numeri di serie da 128 a 255, codificati da sequenze da 10000000 a 11111111. Includono lettere di alfabeti nazionali diversi dal latino. È questa parte alternativa della tabella di codifica ASCII che viene utilizzata per convertire i caratteri russi in un modulo informatico.

Alcune proprietà

Le particolarità della codifica ASCII includono la differenza tra le lettere "A" - "Z" di minuscolo e maiuscolo con un solo bit. Questa circostanza semplifica notevolmente la conversione del registro, nonché la sua verifica dell'appartenenza a un determinato intervallo di valori. Inoltre, tutte le lettere nel sistema di codifica ASCII sono rappresentate dai propri numeri di serie nell'alfabeto, che sono scritti in 5 cifre nel sistema numerico binario, preceduti da 011 2 per le lettere minuscole e 010 2 per le lettere maiuscole.

Tra le caratteristiche della codifica ASCII può essere annoverata anche la rappresentazione di 10 cifre - "0" - "9". Nel secondo sistema numerico iniziano con 00112 e terminano con 2 valori di numeri. Pertanto, 0101 2 equivale al cinque decimale, quindi il carattere "5" viene scritto come 0011 01012. Sulla base di quanto sopra, puoi facilmente convertire i numeri BCD in una stringa ASCII aggiungendo la sequenza di bit 00112 a ciascun nibble a sinistra.

"Unicode"

Come sapete, per visualizzare i testi nelle lingue del gruppo del sud-est asiatico sono necessari migliaia di caratteri. Un tale numero di essi non è in alcun modo descritto in un byte di informazioni, quindi anche le versioni estese di ASCII non potrebbero più soddisfare le crescenti esigenze degli utenti di diversi paesi.

Quindi, c'era la necessità di creare una codifica del testo universale, che è stata sviluppata dal consorzio Unicode in collaborazione con molti leader del settore IT globale. I suoi specialisti hanno creato il sistema UTF 32. In esso sono stati allocati 32 bit per codificare 1 carattere, costituendo 4 byte di informazioni. Lo svantaggio principale era un forte aumento della quantità di memoria richiesta fino a 4 volte, il che comportava molti problemi.

Allo stesso tempo, per la maggior parte dei paesi con lingue ufficiali appartenenti al gruppo indoeuropeo, il numero di caratteri pari a 2 32 è più che ridondante.

Come risultato di un ulteriore lavoro di specialisti del consorzio Unicode, è apparsa la codifica UTF-16. È diventata la variante della conversione delle informazioni sui caratteri adatta a tutti sia in termini di quantità di memoria richiesta che di numero di caratteri codificati. Ecco perché UTF-16 è stato adottato per impostazione predefinita e richiede la prenotazione di 2 byte per un carattere.

Anche questa versione piuttosto avanzata e di successo di "Unicode" presentava alcuni inconvenienti e, dopo il passaggio dalla versione estesa di ASCII a UTF-16, raddoppiava le dimensioni del documento.

A questo proposito, è stato deciso di utilizzare la codifica a lunghezza variabile UTF-8. In questo caso, ogni carattere del testo sorgente è codificato da una sequenza di lunghezza compresa tra 1 e 6 byte.

Associazione con il codice standard americano per lo scambio di informazioni

Tutti i caratteri dell'alfabeto latino in UTF-8 di lunghezza variabile sono codificati in 1 byte, come nel sistema di codifica ASCII.

Una caratteristica di UTF-8 è che nel caso di testo in latino senza l'uso di altri caratteri, anche i programmi che non capiscono Unicode ne consentiranno comunque la lettura. In altre parole, la parte base della codifica del testo ASCII va semplicemente nel nuovo UTF a lunghezza variabile. I caratteri cirillici in UTF-8 richiedono 2 byte e, ad esempio, quelli georgiani richiedono 3 byte. Creando UTF-16 e 8, è stato risolto il problema principale della creazione di un unico spazio di codice nei caratteri. Da allora, i produttori di font hanno dovuto solo riempire la tabella con forme vettoriali di caratteri di testo in base alle loro esigenze.

Sistemi operativi diversi preferiscono codifiche diverse. Per poter leggere e modificare testi digitati con una codifica diversa, vengono utilizzati programmi di conversione del testo in russo. Alcuni editor di testo contengono transcodificatori incorporati e consentono di leggere il testo indipendentemente dalla codifica.

Ora sai quanti caratteri ci sono in ASCII e come e perché è stato progettato. Naturalmente, oggi lo standard Unicode ha ricevuto la più grande distribuzione al mondo. Tuttavia, non dobbiamo dimenticare che è stato creato sulla base dell'ASCII, quindi va apprezzato il contributo dei suoi sviluppatori nel campo IT.

[Codifiche a 8 bit: ASCII, KOI-8R e CP1251] Le prime tabelle di codifica create negli Stati Uniti non utilizzavano l'ottavo bit in un byte. Il testo è stato presentato come una sequenza di byte, ma l'ottavo bit non è stato preso in considerazione (è stato utilizzato per scopi ufficiali).

Il tavolo è diventato lo standard accettato. ASCII(Codice Standard Americano per Interscambio di Informazioni). I primi 32 caratteri della tabella ASCII (da 00 a 1F) sono stati utilizzati per i caratteri non stampabili. Sono stati progettati per controllare un dispositivo di stampa e simili. Il resto - da 20 a 7F - sono caratteri regolari (stampabili).

Tabella 1 - Codifica ASCII

dicesadecimaleottobreCharDescrizione
0 0 000 nullo
1 1 001 inizio di intestazione
2 2 002 inizio del testo
3 3 003 fine del testo
4 4 004 fine della trasmissione
5 5 005 inchiesta
6 6 006 riconoscere
7 7 007 campana
8 8 010 spazio indietro
9 9 011 linguetta orizzontale
10 UN 012 nuova linea
11 B 013 linguetta verticale
12 C 014 nuova pagina
13 D 015 ritorno in carrozza
14 e 016 spostare fuori
15 F 017 entrare
16 10 020 fuga del collegamento dati
17 11 021 controllo del dispositivo 1
18 12 022 controllo del dispositivo 2
19 13 023 controllo del dispositivo 3
20 14 024 controllo del dispositivo 4
21 15 025 riconoscimento negativo
22 16 026 inattivo sincrono
23 17 027 fine della trad. bloccare
24 18 030 Annulla
25 19 031 fine del mezzo
26 1A 032 sostituire
27 1B 033 fuga
28 1C 034 separatore di file
29 1D 035 separatore di gruppo
30 1E 036 separatore di record
31 1F 037 separatore di unità
32 20 040 spazio
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
dicesadecimaleottobreChar
64 40 100 @
65 41 101 UN
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 e
70 46 106 F
71 47 107 G
72 48 110 h
73 49 111 io
74 4A 112 J
75 4B 113 K
76 4C 114 l
77 4D 115 m
78 4E 116 n
79 4F 117 o
80 50 120 P
81 51 121 Q
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 u
86 56 126 V
87 57 127 w
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5 D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 un
98 62 142 B
99 63 143 C
100 64 144 D
101 65 145 e
102 66 146 F
103 67 147 G
104 68 150 h
105 69 151 io
106 6A 152 J
107 6B 153 K
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 P
113 71 161 Q
114 72 162 R
115 73 163 S
116 74 164 T
117 75 165 tu
118 76 166 v
119 77 167 w
120 78 170 X
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Come puoi facilmente vedere, in questa codifica sono rappresentate solo le lettere latine e quelle utilizzate in inglese. Ci sono anche simboli aritmetici e altri simboli di servizio. Ma non ci sono lettere russe, e nemmeno lettere latine speciali per il tedesco o il francese. Questo è facile da spiegare: la codifica è stata sviluppata come standard americano. Quando i computer iniziarono ad essere utilizzati in tutto il mondo, era necessario codificare altri caratteri.

Per fare ciò, è stato deciso di utilizzare l'ottavo bit in ogni byte. Pertanto, erano disponibili altri 128 valori (da 80 a FF), che potevano essere utilizzati per codificare i caratteri. La prima delle tabelle a otto bit è "Extended ASCII" ( ASCII esteso) - includeva varie varianti di caratteri latini usati in alcune lingue dell'Europa occidentale. Aveva anche altri personaggi aggiuntivi, inclusa la pseudografia.

I caratteri pseudografici consentono, visualizzando solo caratteri di testo, di fornire una parvenza di grafica. Utilizzando la pseudografica, ad esempio, il programma di gestione dei file FAR Manager funziona.

Non c'erano lettere russe nella tabella ASCII estesa. In Russia (ex URSS) e in altri stati sono state create le proprie codifiche che hanno permesso di rappresentare specifici caratteri "nazionali" in file di testo a 8 bit: lettere latine delle lingue polacca e ceca, cirillico (comprese le lettere russe) e altri alfabeti.

In tutte le codifiche che si sono diffuse, i primi 127 caratteri (cioè i valori dei byte con l'ottavo bit uguale a 0) sono gli stessi dell'ASCII. Quindi un file ASCII funziona in una di queste codifiche; le lettere della lingua inglese sono rappresentate allo stesso modo.

Organizzazione ISO(International Standardization Organization - International Organization for Standards) ha adottato un gruppo di standard ISO 8859. Definisce codifiche a 8 bit per diversi gruppi di lingue. Quindi, ISO 8859-1 è ASCII esteso, una tabella per gli Stati Uniti e l'Europa occidentale. E ISO 8859-5 è una tabella per il cirillico (compreso il russo).

Tuttavia, per ragioni storiche, la codifica ISO 8859-5 non ha preso piede. In realtà, per la lingua russa vengono utilizzate le seguenti codifiche:

Codice Pagina 866 ( CP866), è anche “DOS”, è anche “codifica GOST alternativa”. Ampiamente usato fino alla metà degli anni '90; ora in uso limitato. Praticamente non utilizzato per la distribuzione di testi su Internet.
- KOI-8. Sviluppato negli anni '70 e '80. È uno standard generalmente accettato per l'invio di messaggi di posta su Internet russo. È anche ampiamente utilizzato nei sistemi operativi della famiglia Unix, incluso Linux. Si chiama la versione KOI-8, progettata per il russo KOI-8R; esistono versioni per altre lingue cirilliche (ad esempio, KOI8-U è una variante per la lingua ucraina).
- Codice Pagina 1251, CP1251, Windows-1251. Sviluppato da Microsoft per supportare la lingua russa nel sistema Windows.

Il vantaggio principale del CP866 era la conservazione dei caratteri pseudografici negli stessi punti dell'ASCII esteso; pertanto, i programmi di testo stranieri, ad esempio il famoso Norton Commander, potrebbero funzionare senza modifiche. Il CP866 è attualmente utilizzato per programmi Windows in esecuzione in finestre di testo o in modalità testo a schermo intero, incluso FAR Manager.

I testi in CP866 sono piuttosto rari negli ultimi anni (ma è usato per codificare i nomi di file russi in Windows). Pertanto, ci soffermeremo su altre due codifiche: KOI-8R e CP1251.



Come puoi vedere, nella tabella di codifica CP1251, le lettere russe sono disposte in ordine alfabetico (ad eccezione, però, della lettera YO). Questa disposizione rende molto semplice l'ordinamento alfabetico dei programmi per computer.

Ma in KOI-8R, l'ordine delle lettere russe sembra casuale. Ma in realtà non lo è.

In molti programmi meno recenti, l'8° bit veniva perso durante l'elaborazione o la trasmissione di testo. (Ora tali programmi sono praticamente "estinti", ma alla fine degli anni '80 e all'inizio degli anni '90 erano diffusi). Per ottenere un valore a 7 bit da un valore a 8 bit, è sufficiente sottrarre 8 dalla cifra di ordine superiore; ad esempio, E1 diventa 61.

Ora confronta KOI-8R con la tabella ASCII (Tabella 1). Scoprirai che le lettere russe sono in stretta conformità con quelle latine. Se l'ottavo bit scompare, le lettere russe minuscole si trasformano in lettere latine maiuscole e le lettere russe maiuscole in lettere latine minuscole. Quindi, E1 in KOI-8 è la "A" russa, mentre 61 in ASCII è la "a" latina.

Quindi, KOI-8 ti consente di mantenere la leggibilità del testo russo con la perdita dell'8° bit. “Ciao a tutti” diventa “pRIWET WSEM”.

Recentemente, sia l'ordine alfabetico dei caratteri nella tabella di codifica, sia la leggibilità con la perdita dell'8° bit hanno perso la loro importanza decisiva. L'ottavo bit nei computer moderni non viene perso né durante la trasmissione né durante l'elaborazione. E l'ordinamento alfabetico viene effettuato tenendo conto della codifica e non di un semplice confronto di codici. (A proposito, i codici CP1251 non sono completamente in ordine alfabetico - la lettera Y non è al suo posto).

A causa del fatto che c'erano due codifiche comuni, quando si lavora con Internet (posta, navigazione in siti Web), a volte è possibile visualizzare un insieme di lettere senza significato invece del testo russo. Ad esempio, "Sono SBYFEMHEL". Sono solo le parole "rispettosamente"; ma erano codificati nella codifica CP1251 e il computer ha decodificato il testo secondo la tabella KOI-8. Se le stesse parole fossero, invece, codificate in KOI-8, e il computer decodificasse il testo secondo la tabella CP1251, il risultato sarebbe “U HCHBTSEOEN”.

A volte capita che un computer decifra le lettere in lingua russa e anche secondo una tabella che non è destinata alla lingua russa. Quindi, al posto delle lettere russe, appare un insieme di caratteri privo di significato (ad esempio, lettere latine delle lingue dell'Europa orientale); sono spesso indicati come "crocos".

Nella maggior parte dei casi, i programmi moderni riescono a determinare autonomamente le codifiche dei documenti Internet (e-mail e pagine Web). Ma a volte "si accendono male" e poi puoi vedere strane sequenze di lettere russe o "coccodrillo". Di norma, per visualizzare il testo reale in una situazione del genere, è sufficiente selezionare manualmente la codifica nel menu del programma.

Le informazioni dalla pagina http://open-office.edusite.ru/TextProcessor/p5aa1.html sono state utilizzate per l'articolo.

Materiale tratto dal sito:

Articoli correlati in alto