Tavola ascii completa. Codifica ASCII (codice standard americano per lo scambio di informazioni) - codifica del testo di base per il latino

05.09.2019 Ferro

Diamo un'occhiata ad alcuni dei fatti che conosciamo:

L'insieme di caratteri con cui è scritto il testo è chiamato alfabeto.

Il numero di caratteri in un alfabeto è la sua cardinalità.

La formula per determinare la quantità di informazioni: N \u003d 2 b,

dove N è la potenza dell'alfabeto (numero di caratteri),

b - numero di bit (peso informativo del simbolo).

Quasi tutti i caratteri necessari possono essere inseriti in un alfabeto con una capacità di 256 caratteri. Un tale alfabeto è chiamato sufficiente.

Perché 256 = 28 , quindi il peso di 1 carattere è 8 bit.

Ad un'unità di misura di 8 bit è stato assegnato il nome 1 byte:

1 byte = 8 bit.

Il codice binario di ogni carattere nel testo del computer occupa 1 byte di memoria.

Come vengono rappresentate le informazioni testuali nella memoria del computer?

La codifica consiste nel fatto che a ciascun carattere viene assegnato un codice decimale univoco da 0 a 255 o il codice binario corrispondente da 00000000 a 11111111. Pertanto, una persona distingue i caratteri dal loro stile e un computer dal loro codice.

La comodità della codifica byte per byte dei caratteri è ovvia, poiché un byte è la parte più piccola della memoria indirizzabile e, pertanto, il processore può accedere a ciascun carattere separatamente durante l'elaborazione del testo. D'altra parte, 256 caratteri sono sufficienti per rappresentare un'ampia varietà di informazioni sui caratteri.

Ora sorge la domanda, quale codice binario a otto bit mettere in corrispondenza di ciascun carattere.

È chiaro che questa è una questione condizionale, puoi trovare molti modi per codificare.

La tabella ASCII è diventata lo standard internazionale per i PC. (pronunciato asci) (codice standard americano per lo scambio di informazioni).

Solo la prima metà della tabella è uno standard internazionale, ad es. caratteri con numeri da 0 (00000000) a 127 (01111111).

Numero di serie		Simbolo
	00000000 - 00011111	La loro funzione è controllare il processo di visualizzazione del testo sullo schermo o di stampa, emettere un segnale acustico, contrassegnare il testo, ecc.
32 - 127	00100000 - 01111111
128 - 255	10000000 - 11111111	La seconda metà della tabella dei codici ASCII, denominata code page (128 codici, che iniziano con 10000000 e terminano con 11111111), può avere diverse opzioni, ogni opzione ha un proprio numero.

Attiro la tua attenzione sul fatto che nella tabella di codifica, le lettere (maiuscole e minuscole) sono disposte in ordine alfabetico e i numeri sono ordinati in ordine crescente. Questa osservanza dell'ordine lessicografico nella disposizione dei caratteri è chiamata il principio della codifica sequenziale dell'alfabeto.

La codifica più comune attualmente utilizzata è Microsoft Windows, abbreviata in CP1251.

Dalla fine degli anni '90, il problema della standardizzazione della codifica dei caratteri è stato risolto con l'introduzione di un nuovo standard internazionale chiamato Unicode. . Questa è una codifica a 16 bit, ad es. ha 2 byte di memoria per carattere. Naturalmente, in questo caso, la quantità di memoria occupata aumenta di 2 volte. Ma una tale tabella di codici consente l'inclusione di un massimo di 65536 caratteri. La specifica completa dello standard Unicode include tutti gli alfabeti esistenti, estinti e creati artificialmente del mondo, nonché molti simboli matematici, musicali, chimici e di altro tipo.

Proviamo a usare una tabella ASCII per immaginare come appariranno le parole nella memoria del computer.

Parole

Memoria

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Quando le informazioni di testo vengono immesse in un computer, i caratteri (lettere, numeri, segni) vengono codificati utilizzando vari sistemi di codice, che consistono in una serie di tabelle di codici posizionate nelle pagine corrispondenti degli standard per la codifica delle informazioni di testo. In tali tabelle, a ogni carattere viene assegnato un codice numerico specifico in notazione esadecimale o decimale, ovvero le tabelle di codici riflettono la corrispondenza tra le immagini dei caratteri e i codici numerici e sono progettate per codificare e decodificare informazioni testuali. Quando si immettono informazioni di testo utilizzando la tastiera di un computer, ogni carattere di input viene codificato, ovvero convertito in un codice numerico, quando le informazioni di testo vengono inviate a un dispositivo di output del computer (display, stampante o plotter), la relativa immagine viene creata utilizzando il codice del carattere numerico . L'assegnazione di uno specifico codice numerico ad un simbolo è il risultato di un accordo tra le rispettive organizzazioni nei diversi paesi. Attualmente non esiste un'unica tabella di codici universali che soddisfi le lettere degli alfabeti nazionali di diversi paesi.

Le moderne tabelle dei codici includono parti internazionali e nazionali, ovvero contengono lettere dell'alfabeto latino e nazionale, numeri, segni aritmetici e di punteggiatura, caratteri matematici e di controllo e caratteri pseudografici. Parte internazionale della tabella dei codici basata sullo standard ASCII (codice standard americano per lo scambio di informazioni), codifica la prima metà dei caratteri della tabella codici con codici numerici da 0 a 7 F16, oppure nel sistema di numerazione decimale da 0 a 127. In questo caso i codici da 0 a 20 16 (0 × 32 10) sono assegnati ai tasti funzione (F1, F2, F3, ecc.) della tastiera del personal computer. Sulla fig. 3.1 mostra la parte internazionale delle tabelle dei codici basate sulla norma ASCII. Le celle della tabella sono numerate rispettivamente nei sistemi numerici decimali ed esadecimali.

Fig 3.1. Parte internazionale della tabella dei codici (standard ASCII) con i numeri di cella presentati nel sistema numerico decimale (a) ed esadecimale (b).

La parte nazionale delle tabelle dei codici contiene i codici degli alfabeti nazionali, chiamata anche tabella dei set di caratteri. (carattere).

Attualmente, per supportare le lettere dell'alfabeto russo (cirillico), esistono diverse tabelle di codici (codifiche) che vengono utilizzate da vari sistemi operativi, il che rappresenta un notevole inconveniente e in alcuni casi porta a problemi associati alle operazioni di decodifica per i valori numerici di personaggi. In tavola. 3.1 mostra i nomi delle tabelle codici (standard) su cui sono poste le tabelle dei codici cirillici (codifiche).

Tabella 3.1

Uno dei primi standard per la codifica del cirillico sui computer è stato lo standard KOI8-R. La parte nazionale della tabella dei codici di questa norma è mostrata in fig. 3.2.

Riso. 3.2. Parte nazionale della tabella dei codici dello standard KOI8-R

Attualmente viene utilizzata anche la tabella dei codici, che si trova nella pagina CP866 dello standard di codifica delle informazioni di testo, utilizzata nel sistema operativo MS-DOS o sessione MS-DOS per codificare l'alfabeto cirillico (Fig. 3.3, ma).

Riso. 3.3. La parte nazionale della tabella dei codici, situata a pagina СР866 (a) e a pagina СР1251 (b) dello standard di codifica delle informazioni di testo

Attualmente, per la codifica cirillica, la tabella di codici più utilizzata si trova nella pagina СР1251 dello standard corrispondente, che viene utilizzato nei sistemi operativi della famiglia finestre aziende Microsoft(Fig. 3.2, B). In tutte le tabelle codici presentate, ad eccezione della tabella standard unicode, 8 bit (8 bit) sono allocati per codificare un carattere.

Alla fine del secolo scorso è apparso un nuovo standard internazionale unicode, in cui un carattere è rappresentato da un codice binario a due byte. L'applicazione di questo standard è una continuazione dello sviluppo di uno standard internazionale universale che consente di risolvere il problema della compatibilità delle codifiche dei caratteri nazionali. Usando questo standard, puoi codificare 2 16 = 65536 caratteri diversi. Sulla fig. 3.4 mostra la tabella dei codici 0400 (alfabeto russo) dello standard Unicode.

Riso. 3.4. Tabella codici 0400 dello standard Unicode

Spieghiamo quanto è stato detto riguardo alla codificazione delle informazioni testuali usando un esempio.

Esempio 3.1

Codificare la parola "Computer" come sequenza di numeri decimali ed esadecimali utilizzando la codifica CP1251. Quali caratteri verranno visualizzati nelle tabelle dei codici SR866 e KOI8-R quando si utilizza il codice ricevuto.

Sequenze di codici esadecimali e binari per la parola "Computer" in base alla tabella di codifica CP1251 (vedi Fig. 3.3, B) sarà simile a questo:

Questa sequenza di codici nelle codifiche CP866 e KOI8-R visualizzerà i seguenti caratteri:

Per convertire documenti di testo in lingua russa da uno standard di codifica delle informazioni di testo a un altro, vengono utilizzati programmi speciali: convertitori. I convertitori sono solitamente integrati in altri programmi. Un esempio è un programma browser - Internet Explorer (IE) che ha un convertitore integrato. Il programma browser è un programma speciale per la visualizzazione di contenuti pagine web nella rete informatica globale Internet. Usiamo questo programma per confermare il risultato della mappatura dei caratteri ottenuto nell'esempio 3.1. Per fare ciò, eseguire i seguenti passaggi.

1. Esegui Blocco note (Bloc notes). Programma Blocco note nel sistema operativo Windows XP viene lanciato utilizzando il comando: [Button Cominciare– Programmi – Accessori – Blocco note]. Nella finestra del programma Blocco note che si apre, digita la parola "Computer" utilizzando la sintassi del linguaggio di markup del documento ipertestuale - HTML (Hyper Text Markup Language). Questa lingua viene utilizzata per creare documenti sul web. Il testo dovrebbe assomigliare a questo:

Computer

, dove

e

tag (costrutti speciali) della lingua HTML per le intestazioni. Sulla fig. 3.5 mostra il risultato di queste azioni.

Riso. 3.5. Visualizza il testo nella finestra Blocco note

Salviamo questo testo eseguendo il comando: [File - Salva con nome...] nell'apposita cartella del computer, al momento del salvataggio del testo daremo un nome al file - Nota, con l'estensione del file. html.

2. Eseguire il programma Internet Explorer, eseguendo il comando: [Button Cominciare- Programmi - Internet Explorer]. All'avvio del programma, la finestra mostrata in Fig. 3.6

Riso. 3.6. Finestra di accesso offline

Seleziona e attiva il pulsante disconnesso questo non collegherà il computer a Internet globale. Apparirà la finestra principale del programma Microsoft Internet Explorer, mostrato in fig. 3.7.

Riso. 3.7. Finestra principale di Microsoft Internet Explorer

Eseguiamo il seguente comando: [File - Apri], apparirà una finestra (Fig. 3.8), in cui è necessario specificare il nome del file e fare clic sul pulsante ok oppure premere il pulsante Panoramica... e trova il file Note.html.

Riso. 3.8. Finestra aperta

La finestra principale del programma Internet Explorer assumerà la forma mostrata in Fig. 3.9. La finestra visualizzerà la parola "Computer". Successivamente, utilizzando il menu in alto del programma Internet Explorer, eseguire il comando seguente: [Visualizza - Codifica - Cirillico (DOS)]. Dopo aver eseguito questo comando nella finestra del programma Internet Explorer i simboli mostrati in Fig. 3.10. Quando si esegue il comando: [Visualizza - Codifica - Cirillico (KOI8-R)] nella finestra del programma Internet Explorer i simboli mostrati in Fig. 3.11.

Riso. 3.9. Caratteri visualizzati con codifica CP1251

Riso. 3.10. Caratteri visualizzati quando la codifica CP866 è abilitata per una sequenza di codici rappresentata nella codifica CP1251

Riso. 3.11. Caratteri visualizzati quando la codifica KOI8-R è abilitata per la sequenza di codici rappresentata nella codifica CP1251

Pertanto, ottenuto utilizzando il programma Internet Explorer le sequenze di caratteri corrispondono alle sequenze di caratteri ottenute utilizzando le tabelle di codici CP866 e KOI8-R nell'Esempio 3.1.

3.2. Codifica grafica delle informazioni

Le informazioni grafiche presentate sotto forma di disegni, fotografie, diapositive, immagini in movimento (animazione, video), diagrammi, disegni, possono essere create e modificate utilizzando un computer, mentre sono opportunamente codificate. Attualmente, esiste un numero abbastanza elevato di programmi applicativi per l'elaborazione di informazioni grafiche, ma implementano tutti tre tipi di computer grafica: raster, vettoriale e frattale.

Se dai un'occhiata più da vicino all'immagine grafica sullo schermo del monitor del computer, puoi vedere un gran numero di punti multicolori (pixel - dall'inglese. pixel, formato da elemento dell'immagine elemento immagine) che, insieme, formano l'immagine grafica data. Da ciò possiamo concludere: un'immagine grafica in un computer è codificata in un certo modo e deve essere presentata come un file grafico. Il file è l'unità strutturale principale per l'organizzazione e la memorizzazione dei dati in un computer e in questo caso dovrebbe contenere informazioni su come presentare questo insieme di punti sullo schermo del monitor.

I file creati sulla base della grafica vettoriale contengono informazioni sotto forma di dipendenze matematiche (funzioni matematiche che descrivono le dipendenze lineari) e dati correlati su come costruire un'immagine di un oggetto utilizzando segmenti di linea (vettori) quando visualizzati sullo schermo del monitor di un computer.

I file creati sulla base della grafica raster implicano la memorizzazione di dati su ogni singolo punto dell'immagine. La visualizzazione grafica raster non richiede calcoli matematici complessi, è sufficiente ottenere dati su ciascun punto dell'immagine (le sue coordinate e colore) e visualizzarli sullo schermo del monitor del computer.

Nel processo di codifica dell'immagine, viene eseguito il suo campionamento spaziale, ovvero l'immagine viene divisa in punti separati e ad ogni punto viene assegnato un codice colore (giallo, rosso, blu, ecc.). Per codificare ogni punto di un'immagine grafica a colori, viene utilizzato il principio di scomposizione di un colore arbitrario nelle sue componenti principali, che vengono utilizzate come tre colori primari: rosso (parola inglese rosso, indicato dalla lettera A), verde (verde, indicato dalla lettera G), blu (Blu, designare faggio IN). Qualsiasi colore puntiforme percepito dall'occhio umano può essere ottenuto per addizione (proporzionale) (miscelazione) dei tre colori primari: rosso, verde e blu. Questo sistema di codifica è chiamato sistema di colori. RGB. File di immagine che utilizzano un sistema di colori RGB, rappresentare ogni punto dell'immagine come una tripletta di colori - tre valori numerici R, G e IN, corrispondente alle intensità di rosso, verde e blu. Il processo di codifica di un'immagine grafica viene effettuato utilizzando vari mezzi tecnici (scanner, fotocamera digitale, videocamera digitale, ecc.); il risultato è un'immagine bitmap. Quando si riproducono immagini grafiche a colori sullo schermo del monitor di un computer a colori, il colore di ciascun punto (pixel) di tale immagine si ottiene mescolando tre colori primari R,G e B.

La qualità di un'immagine raster è determinata da due parametri principali: la risoluzione (il numero di punti orizzontali e verticali) e la tavolozza dei colori utilizzata (il numero di colori specificato per ciascun punto dell'immagine). La risoluzione viene specificata specificando il numero di punti orizzontali e verticali, ad esempio 800 per 600 punti.

Esiste una relazione tra il numero di colori assegnati a un pixel di un'immagine raster e la quantità di informazioni che devono essere allocate per memorizzare il colore di un pixel, determinata dal rapporto (formula di R. Hartley):

dove io– quantità di informazioni; N- il numero di colori assegnato al punto.

La quantità di informazioni necessarie per memorizzare il colore di un punto è anche chiamata profondità del colore o qualità del colore.

Pertanto, se il numero di colori specificato per un punto immagine è N= 256, allora la quantità di informazioni necessarie per la sua conservazione (profondità del colore) secondo la formula (3.1) sarà pari a io= 8 bit.

I computer utilizzano varie modalità di visualizzazione grafica per visualizzare le informazioni grafiche. Qui va notato che oltre alla modalità grafica del monitor, esiste anche una modalità testo, in cui lo schermo del monitor è convenzionalmente suddiviso in 25 righe di 80 caratteri per riga. Queste modalità grafiche sono caratterizzate dalla risoluzione dello schermo del monitor e dalla qualità del colore (profondità del colore). Per impostare la modalità grafica dello schermo monitor nel sistema operativo MS Windows XPè necessario eseguire il comando: [Button Cominciare– Impostazioni – Pannello di controllo – Display]. Nella finestra di dialogo "Proprietà: Schermo" visualizzata (Fig. 3.12), selezionare la scheda "Parametri" e utilizzare il cursore "Risoluzione schermo" per selezionare la risoluzione dello schermo appropriata (800x600 pixel, 1024x768 pixel, ecc.). Utilizzando l'elenco a discesa "Qualità colore", è possibile selezionare la profondità del colore - "Massima (32 bit)", "Media (16 bit)", ecc., mentre il numero di colori assegnati a ciascun punto dell'immagine sarà essere rispettivamente pari a 2 32 (4294967296), 2 16 (65536), ecc.

Riso. 3.12. Finestra di dialogo delle proprietà di visualizzazione

Per implementare ciascuna delle modalità grafiche dello schermo monitor, è necessario un certo volume di informazioni della memoria video del computer. Volume di informazioni richiesto della memoria video (V)è determinato dalla relazione

dove A - il numero di punti immagine sullo schermo monitor (K = AB); MA - il numero di punti orizzontali sullo schermo del monitor; IN - il numero di punti verticali sullo schermo del monitor; io– quantità di informazioni (profondità del colore).

Quindi, se lo schermo del monitor ha una risoluzione di 1024 per 768 pixel e una tavolozza composta da 65 536 colori, la profondità del colore secondo la formula (3.1) sarà I = log 2 65 538 = 16 bit, il numero di immagini i pixel saranno uguali a: K = 1024 x 768 = 786432 e il volume di informazioni richiesto della memoria video in conformità con (3.2) sarà uguale a

V = 786432 16 bit = 12582912 bit = 1572864 byte = 1536 KB = 1,5 MB.

In conclusione, va notato che oltre alle caratteristiche elencate, le caratteristiche più importanti del monitor sono le dimensioni geometriche del suo schermo e i punti immagine. Le dimensioni geometriche dello schermo sono stabilite dalla dimensione della diagonale del monitor. La diagonale dei monitor è impostata in pollici (1 pollice = 1" = 25,4 mm) e può assumere valori pari a: 14", 15", 17", 21" ecc. Le moderne tecnologie di produzione dei monitor possono fornire una dimensione in punti dell'immagine pari a 0,22 mm.

Pertanto, per ogni monitor, esiste una risoluzione dello schermo fisicamente massima possibile, determinata dalla dimensione della sua diagonale e dalla dimensione del punto dell'immagine.

Esercizi per l'autorealizzazione

1. Utilizzo del programma MS Excel convertire le tabelle dei codici ASCII, СР866, СР1251, KOI8-R in tabelle della forma: nelle celle della prima colonna delle tabelle, scrivere in ordine alfabetico lettere maiuscole e poi minuscole latine e cirilliche, nelle celle della seconda colonna - i codici corrispondenti alle lettere del sistema numerico decimale, nelle celle la terza colonna - i codici corrispondenti alle lettere del sistema numerico esadecimale. I valori del codice devono essere selezionati dalle tabelle dei codici corrispondenti.

2. Codificare e annotare le seguenti parole come sequenza di numeri in notazione decimale ed esadecimale:

un) Internet Explorer, B) Microsoft Office in) Corel Draw.

Codificare per produrre utilizzando la tabella di codifica ASCII aggiornata ottenuta nell'esercizio precedente.

3. Decodificare utilizzando la tabella di codifica aggiornata KOI8-R sequenze di numeri scritti nel sistema numerico esadecimale:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Come apparirà la parola "Cybernetics" scritta nella codifica CP1251 quando si utilizzano le codifiche CP866 e KOI8-R? Controlla i risultati con il programma Internet Explorer.

5. Utilizzando la tabella codici mostrata in fig. 3.1 ma, decodificare le seguenti sequenze di codice scritte in notazione binaria:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Determinare il volume di informazioni della parola "Economia" codificata utilizzando le tabelle di codici СР866, СР1251, Unicode e KOI8-R.

7. Determinare il volume di informazioni del file ottenuto come risultato della scansione di un'immagine a colori di 12 x 12 cm La risoluzione dello scanner utilizzato per scansionare questa immagine è di 600 dpi. Lo scanner imposta la profondità del colore del punto dell'immagine su 16 bit.

Risoluzione dello scanner 600 dpi (pollice puntino - punti per pollice) determina la capacità di uno scanner con questa risoluzione di distinguere 600 punti su un segmento da 1 pollice.

8. Determinare il volume di informazioni del file ottenuto come risultato della scansione di un'immagine a colori di formato A4. La risoluzione dello scanner utilizzato per scansionare questa immagine è 1200 dpi. Lo scanner imposta la profondità del colore del punto dell'immagine su 24 bit.

9. Determinare il numero di colori nella tavolozza a una profondità di colore di 8, 16, 24 e 32 bit.

10. Determinare la quantità richiesta di memoria video per le modalità grafiche dello schermo monitor 640 per 480, 800 per 600, 1024 per 768 e 1280 per 1024 pixel con una profondità di colore del punto immagine di 8, 16, 24 e 32 bit. I risultati sono riassunti in una tabella. Sviluppare in MS Excel programma per automatizzare i calcoli.

11. Determinare il numero massimo di colori che possono essere utilizzati per memorizzare un'immagine di 32 x 32 pixel se il computer ha allocato 2 KB di memoria per l'immagine.

12. Determinare la massima risoluzione dello schermo possibile di un monitor con una lunghezza della diagonale di 15 "e una dimensione in punti dell'immagine di 0,28 mm.

13. Quali modalità grafiche di funzionamento del monitor possono essere fornite da 64 MB di memoria video?

Contenuto

I. Storia della codifica delle informazioni…………………………………..3

II. Informazioni di codifica………………………………………………4

III. Codifica delle informazioni testuali……………………………….4

IV. Tipi di tabelle di codifica………………………………………………...6

V. Calcolo della quantità di informazioni testuali…………………………14

Elenco della letteratura usata……………………………………..16

io . Cronologia della codifica delle informazioni

L'umanità ha utilizzato la crittografia del testo (codifica) sin dal momento in cui sono apparse le prime informazioni segrete. Ecco diverse tecniche di codifica del testo che sono state inventate in varie fasi dello sviluppo del pensiero umano:

La crittografia è crittografia, un sistema di modifica della scrittura in modo da rendere il testo incomprensibile a chi non lo sapesse;

Codice Morse o codice telegrafico non uniforme, in cui ogni lettera o carattere è rappresentato dalla propria combinazione di unità di corrente elettrica corta (punti) e unità di durata tripla (trattini);

la lingua dei segni è una lingua dei segni usata dalle persone con problemi di udito.

Uno dei primi metodi di crittografia conosciuti porta il nome dell'imperatore romano Giulio Cesare (I secolo a.C.). Questo metodo si basa sulla sostituzione di ogni lettera del testo crittografato con un'altra spostando l'alfabeto dalla lettera originale di un numero fisso di caratteri e l'alfabeto viene letto in un cerchio, ovvero, dopo la lettera i, viene considerata a. Quindi la parola "byte" quando viene spostata di due caratteri a destra è codificata dalla parola "gvlf". Il processo inverso di decifrazione di una determinata parola consiste nel sostituire ogni lettera crittografata con la seconda a sinistra di essa.

II. Codifica delle informazioni

Un codice è un insieme di convenzioni (o segnali) per registrare (o trasmettere) alcuni concetti predefiniti.

La codifica delle informazioni è il processo di formazione di una certa rappresentazione delle informazioni. In un senso più ristretto, il termine "codifica" è spesso inteso come il passaggio da una forma di presentazione delle informazioni a un'altra, più conveniente per l'archiviazione, la trasmissione o l'elaborazione.

Di solito, ogni immagine, una volta codificata (a volte si dice - crittografata), è rappresentata da un carattere separato.

Un segno è un elemento di un insieme finito di elementi distinti.

In un senso più ristretto, il termine "codifica" è spesso inteso come il passaggio da una forma di presentazione delle informazioni a un'altra, più conveniente per l'archiviazione, la trasmissione o l'elaborazione.

Il computer può elaborare informazioni testuali. Quando viene inserita in un computer, ogni lettera viene codificata con un certo numero e, quando viene inviata a dispositivi esterni (schermo o stampa), per la percezione umana, le immagini delle lettere vengono costruite utilizzando questi numeri. La corrispondenza tra un insieme di lettere e numeri è chiamata codifica dei caratteri.

Di norma, tutti i numeri nel computer sono rappresentati utilizzando zeri e uno (e non dieci cifre, come è consuetudine per le persone). In altre parole, i computer di solito funzionano nel sistema binario, poiché i dispositivi per elaborarli sono molto più semplici. L'immissione di numeri in un computer e l'output per la lettura umana può essere eseguita nella solita forma decimale e tutte le conversioni necessarie vengono eseguite da programmi in esecuzione su un computer.

III. Codifica delle informazioni di testo

Le stesse informazioni possono essere presentate (codificate) in diverse forme. Con l'avvento dei computer, è diventato necessario codificare tutti i tipi di informazioni con cui hanno a che fare sia un individuo che l'umanità nel suo insieme. Ma l'umanità iniziò a risolvere il problema della codifica delle informazioni molto prima dell'avvento dei computer. Le grandiose conquiste dell'umanità - scrittura e aritmetica - non sono altro che un sistema di codifica di parole e informazioni numeriche. L'informazione non appare mai nella sua forma pura, è sempre presentata in qualche modo, codificata in qualche modo.

La codifica binaria è uno dei modi più comuni per rappresentare le informazioni. Nei computer, robot e macchine utensili a controllo numerico, di norma, tutte le informazioni di cui si occupa il dispositivo sono codificate sotto forma di parole dell'alfabeto binario.

Dalla fine degli anni '60, i computer sono stati sempre più utilizzati per elaborare informazioni testuali e attualmente la maggior parte dei personal computer nel mondo (e la maggior parte delle volte) è occupata dall'elaborazione di informazioni testuali. Tutti questi tipi di informazioni in un computer sono rappresentati in codice binario, ovvero viene utilizzato un alfabeto con una potenza di due (solo due caratteri 0 e 1). Ciò è dovuto al fatto che è conveniente rappresentare le informazioni sotto forma di una sequenza di impulsi elettrici: non c'è impulso (0), c'è un impulso (1).

Tale codifica è solitamente chiamata binaria e le sequenze logiche di zeri e uno stessi sono chiamate linguaggio macchina.

Dal punto di vista del computer, il testo è composto da singoli caratteri. I caratteri includono non solo lettere (maiuscole o minuscole, latine o russe), ma anche numeri, segni di punteggiatura, caratteri speciali come "=", "(", "&", ecc. e persino (prestare particolare attenzione!) spazi tra le parole .

I testi vengono inseriti nella memoria del computer utilizzando la tastiera. I tasti sono scritti a noi familiari lettere, numeri, segni di punteggiatura e altri simboli. Entrano nella RAM in codice binario. Ciò significa che ogni carattere è rappresentato da un codice binario a 8 bit.

Tradizionalmente, per codificare un carattere, viene utilizzata la quantità di informazioni pari a 1 byte, ovvero I \u003d 1 byte \u003d 8 bit. Utilizzando una formula che mette in relazione il numero di eventi possibili K e la quantità di informazioni I, puoi calcolare quanti caratteri diversi possono essere codificati (supponendo che i caratteri siano eventi possibili): K = 2 I = 2 8 = 256, cioè per rappresentazione di informazioni testuali, è possibile utilizzare l'alfabeto con una capacità di 256 caratteri.

Questo numero di caratteri è sufficiente per rappresentare informazioni testuali, comprese lettere maiuscole e minuscole dell'alfabeto russo e latino, numeri, segni, simboli grafici, ecc.

Nel processo di visualizzazione di un carattere sullo schermo di un computer, viene eseguito il processo inverso: la decodifica, ovvero la conversione del codice del carattere nella sua immagine. È importante che l'assegnazione di un codice specifico a un simbolo sia una questione di accordo, che è fissata nella tabella dei codici.

Ora sorge la domanda, quale codice binario a otto bit mettere in corrispondenza di ciascun carattere. È chiaro che questa è una questione condizionale, puoi trovare molti modi per codificare.

Tutti i simboli dell'alfabeto informatico sono numerati da 0 a 255. Ogni numero corrisponde a un codice binario di otto cifre da 00000000 a 11111111. Questo codice è semplicemente il numero ordinale del carattere nel sistema numerico binario.

IV . Tipi di tabelle di codifica

Una tabella in cui a tutti i caratteri dell'alfabeto del computer sono assegnati numeri di serie è chiamata tabella di codifica.

Per diversi tipi di computer vengono utilizzate diverse tabelle di codifica.

La tabella codici ASCII (American Standard Code for Information Interchange) è adottata come standard internazionale, codificando la prima metà dei caratteri con codici numerici da 0 a 127 (i codici da 0 a 32 sono assegnati non ai caratteri, ma ai tasti funzione).

La tabella dei codici ASCII è divisa in due parti.

Solo la prima metà della tabella è uno standard internazionale, ad es. caratteri con numeri da 0 (00000000) a 127 (01111111).

Struttura della tabella di codifica ASCII

Numero di serie	Il codice	Simbolo
0 - 31	00000000 - 00011111	I caratteri con numeri da 0 a 31 sono chiamati caratteri di controllo. La loro funzione è controllare il processo di visualizzazione del testo sullo schermo o di stampa, emettere un segnale acustico, contrassegnare il testo, ecc.
32 - 127	0100000 - 01111111	Parte standard della tabella (inglese). Ciò include lettere minuscole e maiuscole dell'alfabeto latino, cifre decimali, segni di punteggiatura, tutti i tipi di parentesi, simboli commerciali e altri. Il carattere 32 è uno spazio, ad es. posizione vuota nel testo. Tutto il resto è riflesso da certi segni.
128 - 255	10000000 - 11111111	Parte alternativa della tabella (russo). La seconda metà della tabella dei codici ASCII, denominata code page (128 codici, che iniziano con 10000000 e terminano con 11111111), può avere diverse opzioni, ogni opzione ha un proprio numero. La tabella codici viene utilizzata principalmente per ospitare scritture nazionali diverse dal latino. Nelle codifiche nazionali russe, i caratteri dell'alfabeto russo sono inseriti in questa parte della tabella.

Prima metà della tabella dei codici ASCII

Si richiama l'attenzione sul fatto che nella tabella di codifica le lettere (maiuscole e minuscole) sono disposte in ordine alfabetico e i numeri sono ordinati in ordine crescente. Questa osservanza dell'ordine lessicografico nella disposizione dei caratteri è chiamata il principio della codifica sequenziale dell'alfabeto.

Per le lettere dell'alfabeto russo si osserva anche il principio della codifica sequenziale.

La seconda metà della tabella dei codici ASCII

Sfortunatamente, ci sono attualmente cinque diverse codifiche cirilliche (KOI8-R, Windows. MS-DOS, Macintosh e ISO). Per questo motivo, sorgono spesso problemi con il trasferimento di testo russo da un computer all'altro, da un sistema software all'altro.

Cronologicamente, uno dei primi standard per la codifica delle lettere russe sui computer è stato KOI8 ("Codice di scambio di informazioni, 8 bit"). Questa codifica è stata utilizzata negli anni '70 sui computer della serie di computer EC e dalla metà degli anni '80 ha iniziato ad essere utilizzata nelle prime versioni russificate del sistema operativo UNIX.

Dall'inizio degli anni '90, epoca del predominio del sistema operativo MS DOS, la codifica rimane CP866 ("CP" sta per "Code Page", "code page").

I computer Apple che eseguono il sistema operativo Mac OS utilizzano la propria codifica Mac.

Inoltre, l'Organizzazione internazionale per la standardizzazione (International Standards Organization, ISO) ha approvato un'altra codifica chiamata ISO 8859-5 come standard per la lingua russa.

La codifica più comune attualmente utilizzata è Microsoft Windows, abbreviata in CP1251. Introdotto da Microsoft; dato l'uso diffuso dei sistemi operativi (OS) e di altri prodotti software di questa azienda nella Federazione Russa, si è diffuso.

Dalla fine degli anni '90, il problema della standardizzazione della codifica dei caratteri è stato risolto con l'introduzione di un nuovo standard internazionale chiamato Unicode.

Questa è una codifica a 16 bit, ad es. ha 2 byte di memoria per carattere. Naturalmente, in questo caso, la quantità di memoria occupata aumenta di 2 volte. Ma una tale tabella di codici consente l'inclusione di un massimo di 65536 caratteri. La specifica completa dello standard Unicode include tutti gli alfabeti esistenti, estinti e creati artificialmente del mondo, nonché molti simboli matematici, musicali, chimici e di altro tipo.

Rappresentazione interna delle parole nella memoria del computer

utilizzando una tabella ASCII

A volte capita che il testo, composto da lettere dell'alfabeto russo, ricevuto da un altro computer, non possa essere letto: sullo schermo del monitor è visibile una sorta di "abracadabra". Ciò è dovuto al fatto che i computer utilizzano diverse codifiche dei caratteri della lingua russa.

Pertanto, ogni codifica è data dalla propria tabella di codici. Come si può vedere dalla tabella, allo stesso codice binario vengono assegnati caratteri diversi in codifiche diverse.

Ad esempio, la sequenza di codici numerici 221, 194, 204 nella codifica CP1251 forma la parola "computer", mentre in altre codifiche sarà un insieme di caratteri privo di significato.

Fortunatamente, nella maggior parte dei casi, l'utente non deve preoccuparsi della transcodifica di documenti di testo, poiché ciò viene fatto da speciali programmi di conversione integrati nelle applicazioni.

V . Calcolo della quantità di informazioni di testo

Compito 1: Codificare la parola "Roma" utilizzando le tabelle di codifica KOI8-R e CP1251.

Soluzione:

Compito 2: Supponendo che ogni carattere sia codificato da un byte, stimare il volume di informazioni della seguente frase:

“Mio zio delle regole più oneste,

Quando mi sono ammalato sul serio,

Si sforzò di rispettare

E non potevo pensare a uno migliore".

Soluzione: Ci sono 108 caratteri in questa frase, inclusi segni di punteggiatura, virgolette e spazi. Moltiplichiamo questo numero per 8 bit. Otteniamo 108*8=864 bit.

Compito 3: I due testi contengono lo stesso numero di caratteri. Il primo testo è scritto in russo e il secondo nella lingua della tribù Naguri, il cui alfabeto è composto da 16 caratteri. Il cui testo contiene più informazioni?

Soluzione:

1) I \u003d K * a (il volume delle informazioni del testo è uguale al prodotto del numero di caratteri e del peso delle informazioni di un carattere).

2) Perché entrambi i testi hanno lo stesso numero di caratteri (K), quindi la differenza dipende dal contenuto informativo di un carattere dell'alfabeto (a).

3) 2 a1 = 32, cioè a 1 = 5 bit, 2 a2 = 16, cioè e 2 = 4 bit.

4) I 1 = K * 5 bit, I 2 = K * 4 bit.

5) Significa che il testo scritto in russo contiene 5/4 volte più informazioni.

Compito 4: Il volume del messaggio, contenente 2048 caratteri, era 1/512 di MB. Determina il potere dell'alfabeto.

Soluzione:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bit: il volume di informazioni del messaggio è stato convertito in bit.

2) a \u003d I / K \u003d 16384 / 1024 \u003d 16 bit - cade su un carattere dell'alfabeto.

3) 2*16*2048 = 65536 caratteri: il potere dell'alfabeto usato.

Compito 5: La stampante laser Canon LBP stampa a una velocità media di 6,3 Kbps. Quanto tempo ci vuole per stampare un documento di 8 pagine se si sa che ci sono in media 45 righe su una pagina, 70 caratteri per riga (1 carattere - 1 byte)?

Soluzione:

1) Trova la quantità di informazioni contenute in 1 pagina: 45 * 70 * 8 bit = 25200 bit

2) Trova la quantità di informazioni su 8 pagine: 25200 * 8 = 201600 bit

3) Portiamo a unità di misura uniformi. Per fare ciò, traduciamo Mbps in bit: 6,3 * 1024 = 6451,2 bps.

4) Trova il tempo di stampa: 201600: 6451,2 = 31 secondi.

Bibliografia

1. Ageev VM Teoria dell'informazione e codifica: discretizzazione e codifica dell'informazione di misura. - M.: MAI, 1977.

2. Kuzmin IV, Kedrus V.A. Fondamenti di teoria e codifica dell'informazione. - Kiev, scuola Vishcha, 1986.

3. I metodi più semplici di crittografia del testo / D.M. Zlatopolsky. - M.: Chistye Prudy, 2007 - 32 p.

4. Ugrinovich N.D. Informatica e tecnologie dell'informazione. Libro di testo per i gradi 10-11 / N.D. Ugrinovich. – M.: BINOMO. Laboratorio della conoscenza, 2003. - 512 p.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Materiale per autoapprendimento sul tema Lezione 2

Codifica ASCII

Tabella di codifica ASCII (ASCII - American Standard Code for Information Interchange - American Standard Code for Information Interchange).

In totale, utilizzando la tabella di codifica ASCII (Figura 1), è possibile codificare 256 caratteri diversi. Questa tabella è divisa in due parti: principale (con codici da OOh a 7Fh) e aggiuntiva (da 80h a FFh, dove la lettera h indica che il codice appartiene al sistema numerico esadecimale).

Immagine 1

Per codificare un carattere della tabella, vengono allocati 8 bit (1 byte). Quando si elaborano informazioni testuali, un byte può contenere il codice di alcuni caratteri: lettere, numeri, segni di punteggiatura, segni di azione, ecc. Ogni carattere ha il proprio codice sotto forma di un numero intero. In questo caso, tutti i codici vengono raccolti in apposite tabelle, dette tabelle di codifica. Con il loro aiuto, il codice del carattere viene convertito nella sua rappresentazione visibile sullo schermo del monitor. Di conseguenza, qualsiasi testo nella memoria del computer viene rappresentato come una sequenza di byte con codici di caratteri.

Ad esempio, la parola ciao! sarà codificato come segue (Tabella 1).

Tabella 1


Codice binario
Codice decimale

La figura 1 mostra i caratteri inclusi nella codifica ASCII standard (inglese) ed estesa (russa).

La prima metà della tabella ASCII è standardizzata. Contiene codici di controllo (dalle 00h alle 20h e 77h). Questi codici sono stati rimossi dalla tabella perché non si applicano agli elementi di testo. Segni di punteggiatura e segni matematici si trovano anche qui: 2lh - !, 26h - &, 28h - (, 2Bh -+, ..., lettere latine grandi e piccole: 41h - A, 61h - a.

La seconda metà della tabella contiene caratteri nazionali, simboli pseudografici da cui è possibile costruire tabelle, simboli matematici speciali. La parte inferiore della tabella di codifica può essere sostituita utilizzando gli appositi driver - programmi ausiliari di controllo. Questa tecnica consente di utilizzare più tipi di carattere e i loro caratteri tipografici.

Il display per ogni codice carattere dovrebbe visualizzare l'immagine del carattere, non solo un codice digitale, ma un'immagine corrispondente, poiché ogni carattere ha la sua forma. Una descrizione della forma di ciascun carattere è memorizzata in una speciale memoria di visualizzazione: un generatore di caratteri. L'evidenziazione di un carattere sullo schermo di un PC IBM, ad esempio, viene eseguita utilizzando punti che formano una matrice di caratteri. Ogni pixel in una tale matrice è un elemento dell'immagine e può essere luminoso o scuro. Un punto scuro è codificato dal numero 0, uno chiaro (luminoso) uno per 1. Se i pixel scuri sono rappresentati da un punto nel campo della matrice del segno e i pixel chiari da un asterisco, puoi rappresentare graficamente la forma del simbolo.

Persone in diversi paesi usano simboli per scrivere le parole della loro lingua madre. Al giorno d'oggi, la maggior parte delle applicazioni, inclusi i sistemi di posta elettronica e i browser Web, sono a 8 bit puri, il che significa che possono visualizzare e leggere correttamente solo caratteri a 8 bit, secondo lo standard ISO-8859-1.

Ci sono oltre 256 caratteri nel mondo (inclusi cirillico, arabo, cinese, giapponese, coreano e tailandese) e vengono aggiunti sempre più caratteri. E questo crea le seguenti lacune per molti utenti:

Non è possibile utilizzare caratteri di set di codifica diversi nello stesso documento. Poiché ogni documento di testo utilizza il proprio set di codifiche, ci sono grandi difficoltà con il riconoscimento automatico del testo.

Appaiono nuovi simboli (ad esempio: Euro), a seguito dei quali ISO sviluppa un nuovo standard, ISO-8859-15, che è molto simile a ISO-8859-1. La differenza è la seguente: i simboli per indicare le vecchie valute che non sono attualmente utilizzate sono stati rimossi dalla tabella di codifica del vecchio standard ISO-8859-1 per fare spazio ai simboli appena apparsi (come l'Euro). Di conseguenza, gli utenti possono avere gli stessi documenti sui propri dischi, ma con codifiche diverse. La soluzione a questi problemi è l'adozione di un unico insieme internazionale di codifiche, chiamato codifica universale o Unicode.

Codifica Unicode

Lo standard è stato proposto nel 1991 dall'organizzazione no-profit Unicode Consortium (English Unicode Consortium, Unicode Inc.). L'uso di questo standard consente di codificare un numero molto elevato di caratteri di scritture diverse: nei documenti Unicode possono coesistere caratteri cinesi, simboli matematici, lettere dell'alfabeto greco, alfabeti latino e cirillico, mentre il cambio di tabella codici diventa superfluo.

Lo standard si compone di due sezioni principali: il set di caratteri universale (UCS, set di caratteri universali) e la famiglia di codifica (UTF, formato di trasformazione Unicode). Il set di caratteri universale specifica una corrispondenza uno-a-uno dei caratteri con i codici, elementi dello spazio del codice che rappresentano numeri interi non negativi. Una famiglia di codifica definisce la rappresentazione macchina di una sequenza di codici UCS.

Lo standard Unicode è stato sviluppato con l'obiettivo di creare un'unica codifica di caratteri per tutte le lingue scritte moderne e molte antiche. Ogni carattere in questo standard è codificato con 16 bit, il che gli consente di coprire un numero di caratteri incomparabilmente maggiore rispetto alle codifiche a 8 bit precedentemente accettate. Un'altra importante differenza tra Unicode e altri sistemi di codifica è che non solo assegna un codice univoco a ciascun carattere, ma definisce anche varie caratteristiche di quel carattere, ad esempio:

tipo di carattere (lettera maiuscola, lettera minuscola, numero, segno di punteggiatura, ecc.);

attributi dei caratteri (visualizzazione da sinistra a destra o da destra a sinistra, spazio, interruzione di riga, ecc.);

lettera maiuscola o minuscola corrispondente (rispettivamente per lettere minuscole e maiuscole);

il valore numerico corrispondente (per i caratteri numerici).

L'intera gamma di codici da 0 a FFFF è suddivisa in diversi sottoinsiemi standard, ognuno dei quali corrisponde o all'alfabeto di alcune lingue, oppure a un gruppo di caratteri speciali che sono simili nelle loro funzioni. Il diagramma seguente contiene un elenco generale di sottoinsiemi di Unicode 3.0 (Figura 2).

figura 2

Lo standard Unicode è la base per l'archiviazione e il testo in molti moderni sistemi informatici. Tuttavia, non è compatibile con la maggior parte dei protocolli Internet, poiché i suoi codici possono contenere qualsiasi valore di byte e i protocolli di solito utilizzano i byte 00 - 1F e FE - FF come byte di servizio. Per ottenere la compatibilità, sono stati sviluppati diversi formati di trasformazione Unicode (UTF, Unicode Transformation Formats), di cui UTF-8 è il più comune oggi. Questo formato definisce le seguenti regole per convertire ogni codice Unicode in un insieme di byte (da uno a tre) adatti al trasporto tramite protocolli Internet.

Qui x,y,z denotano i bit del codice sorgente, che devono essere estratti, partendo dal più giovane, e inseriti nei byte del risultato da destra a sinistra, fino a riempire tutte le posizioni specificate.

L'ulteriore sviluppo dello standard Unicode è associato all'aggiunta di nuovi piani linguistici, ad es. caratteri negli intervalli 10000 - 1FFFF, 20000 - 2FFFF, ecc., dove dovrebbe includere la codifica per gli script di lingue morte che non sono incluse nella tabella sopra. È stato sviluppato un nuovo formato UTF-16 per codificare questi caratteri aggiuntivi.

Pertanto, ci sono 4 modi principali per codificare i byte in formato Unicode:

UTF-8: 128 caratteri codificati in un byte (formato ASCII), 1920 caratteri codificati in 2 byte ((caratteri romani, greci, cirillici, copti, armeni, ebraici, arabi), 63488 caratteri codificati in 3 byte (cinese, giapponese ecc. .) I restanti 2.147.418.112 caratteri (non ancora utilizzati) possono essere codificati con 4, 5 o 6 byte.

UCS-2: ogni carattere è rappresentato da 2 byte. Questa codifica include solo i primi 65.535 caratteri del formato Unicode.

UTF-16: questa è un'estensione di UCS-2 e include 1.114.112 caratteri Unicode. I primi 65.535 caratteri sono rappresentati da 2 byte, il resto da 4 byte.

USC-4: ogni carattere è codificato con 4 byte.

Excel per Office 365 Word per Office 365 Outlook per Office 365 PowerPoint per Office 365 Publisher per Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Excel 2007 Word 2007 Outlook 2007 PowerPoint 2007 Publisher 2007 Access 2007 Visio 2007 OneNote Visio Standard 2007 Visio Standard 2010 Meno

In questo articolo

Inserimento di un carattere ASCII o Unicode in un documento

Se hai solo bisogno di inserire alcuni caratteri o simboli speciali, puoi usare o le scorciatoie da tastiera. Per un elenco di caratteri ASCII, vedere le tabelle seguenti o l'articolo Inserire alfabeti nazionali utilizzando le scorciatoie da tastiera.

Appunti:

Inserimento di caratteri ASCII

Per inserire un carattere ASCII, tenere premuto il tasto ALT mentre si immette il codice del carattere. Ad esempio, per inserire un simbolo di grado (º), tenere premuto il tasto ALT, quindi immettere 0176 sul tastierino numerico.

Utilizzare il tastierino numerico per inserire i numeri, non i numeri sulla tastiera principale. Se è necessario inserire numeri sul tastierino numerico, assicurarsi che l'indicatore BLOC NUM sia acceso.

Inserimento di caratteri Unicode

Per inserire un carattere Unicode, digitare il codice del carattere, quindi premere in sequenza ALT + X. Ad esempio, per inserire un carattere dollaro ($), digitare 0024 e premere in sequenza ALT + X. Per tutti i codici carattere Unicode, vedere .

Importante: Alcuni programmi di Microsoft Office, come PowerPoint e InfoPath, non supportano la conversione di codici Unicode in caratteri. Se è necessario inserire un carattere Unicode in uno di questi programmi, utilizzare .

Appunti:

Se viene visualizzato un carattere Unicode non corretto dopo aver premuto ALT+X, selezionare il codice corretto e quindi premere nuovamente ALT+X.

Inoltre, è necessario inserire "U+" prima del codice. Ad esempio, digitando "1U+B5" e premendo ALT+X verrà visualizzato il testo "1µ", mentre digitando "1B5" e premendo ALT+X verrà visualizzato il carattere "Ƶ".

Utilizzo della tabella dei simboli

Una tabella dei caratteri è un programma integrato in Microsoft Windows che consente di visualizzare i caratteri disponibili per un font selezionato.

Usando la tabella dei simboli, puoi copiare singoli caratteri o un gruppo di caratteri negli appunti e incollarli in qualsiasi programma che supporti la visualizzazione di questi caratteri. Apertura della tabella dei simboli

Su Windows 10 Immettere la parola "simbolo" nel campo di ricerca sulla barra delle applicazioni e selezionare la tabella dei simboli dai risultati della ricerca.

Su Windows 8 Immettere la parola "simbolo" nella schermata iniziale e selezionare la tabella dei simboli dai risultati della ricerca.

Su Windows 7 premi il bottone Cominciare, selezionare in sequenza Tutti i programmi, Standard, Servizio e fare clic tabella dei simboli.

I caratteri sono raggruppati per tipo di carattere. Fare clic sull'elenco dei caratteri per selezionare il set di caratteri appropriato. Per selezionare un simbolo, fare clic su di esso, quindi fare clic sul pulsante Selezionare. Per inserire un simbolo, fare clic con il pulsante destro del mouse nella posizione desiderata nel documento e selezionare Inserire.

Codici caratteri usati di frequente

Per un elenco completo dei caratteri, vedere sul computer, la tabella dei codici dei caratteri ASCII o le tabelle dei caratteri Unicode ordinate per set.

Glifo

Unità monetarie

simboli legali

Simboli matematici

Frazioni

Punteggiatura e simboli dialettali

Simboli di forma

Codici per segni diacritici comunemente usati

Per un elenco completo dei glifi e dei codici corrispondenti, vedere .

Glifo

Caratteri di controllo ASCII non stampabili

I caratteri utilizzati per controllare alcune periferiche, come le stampanti, sono numerati da 0 a 31 nella tabella ASCII. Ad esempio, il carattere avanzamento pagina/nuova pagina corrisponde al numero 12. Questo carattere indica alla stampante di andare all'inizio della pagina successiva.

Tabella dei caratteri di controllo ASCII non stampabile

Numero decimale	Cartello	Numero decimale	Cartello
		Rilascio del canale dati
Inizio intestazione		Primo codice di controllo del dispositivo
Inizio del testo		Codice di controllo del secondo dispositivo
Fine del testo		Codice di controllo del terzo dispositivo
Fine della trasmissione		Quarto codice di controllo del dispositivo
	a cinque punte	Conferma negativa
Conferma		Modalità di trasferimento sincrono
Segnale sonoro		Fine del blocco dati

Scheda orizzontale		Fine multimediale
Avanzamento riga/nuova riga		Personaggio sostitutivo
Scheda verticale			superare
Traduzione pagina/Nuova pagina	dodici	Separatore di file
Ritorno in carrozza		Separatore di gruppo
Sposta senza salvare le cifre		Separatore di record
Spostamento di conservazione dei bit	quindici	Separatore di dati

dic	esadecimale	Simbolo	dic	esadecimale	Simbolo
000	00	specialista. NOP	128	80	Ђ
001	01	specialista. SOH	129	81	Ѓ
002	02	specialista. STX	130	82	‚
003	03	specialista. ETX	131	83	ѓ
004	04	specialista. EOT	132	84	„
005	05	specialista. ENQ	133	85	…
006	06	specialista. ACK	134	86	†
007	07	specialista. BEL	135	87	‡
008	08	specialista. BS	136	88	€
009	09	specialista. TAB	137	89	‰
010	0A	specialista. LF	138	8A	Љ
011	0B	specialista. VT	139	8B	‹ ‹
012	0C	specialista. FF	140	8C	Њ
013	0D	specialista. CR	141	8D	Ќ
014	0E	specialista. COSÌ	142	8E	Ћ
015	0F	specialista. SI	143	8F	Џ
016	10	specialista. DLE	144	90	ђ
017	11	specialista. DC1	145	91	‘
018	12	specialista. DC2	146	92	’
019	13	specialista. DC3	147	93	“
020	14	specialista. DC4	148	94	”
021	15	specialista. NAK	149	95
022	16	specialista. SYN	150	96	–
023	17	specialista. ETB	151	97	—
024	18	specialista. POTERE	152	98
025	19	specialista. EM	153	99	™
026	1A	specialista. SUB	154	9A	љ
027	1B	specialista. ESC	155	9B	›
028	1C	specialista. FS	156	9C	њ
029	1D	specialista. GS	157	9D	ќ
030	1E	specialista. RS	158	9E	ћ
031	1F	specialista. noi	159	9F	џ
032	20	frizione SP (spazio)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Yo
041	29	)	169	A9	©
042	2A	*	170	aa	Є
043	2B	+	171	AB	«
044	2C	,	172	corrente alternata	¬
045	2D	-	173	ANNO DOMINI
046	2E	.	174	AE	®
047	2F	/	175	AF	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	yo
057	39	9	185	B9	№
058	3A	:	186	BA	є
059	3B	;	187	BB	»
060	3C	<	188	AVANTI CRISTO	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	ESSERE	ѕ
063	3F	?	191	bf	ї
064	40	@	192	C0	MA
065	41	UN	193	C1	B
066	42	B	194	C2	IN
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	e	197	C5	e
070	46	F	198	C6	F
071	47	G	199	C7	w
072	48	h	200	C8	E
073	49	io	201	C9	Y
074	4A	J	202	circa	A
075	4B	K	203	CB	l
076	4C	l	204	CC	m
077	4D	m	205	cd	h
078	4E	n	206	CE	DI
079	4F	o	207	CF	P
080	50	P	208	D0	R
081	51	Q	209	D1	DA
082	52	R	210	D2	T
083	53	S	211	D3	In
084	54	T	212	D4	F
085	55	u	213	D5	X
086	56	V	214	D6	C
087	57	w	215	D7	h
088	58	X	216	D8	w
089	59	Y	217	D9	SCH
090	5A	Z	218	DA	Kommersant
091	5B	[	219	DB	S
092	5C	\	220	DC	B
093	5 D	]	221	DD	e
094	5E	^	222	DE	YU
095	5F	_	223	D.F.	io
096	60	`	224	E0	ma
097	61	un	225	E1	B
098	62	B	226	E2	in
099	63	C	227	E3	G
100	64	D	228	E4	D
101	65	e	229	E5	e
102	66	F	230	E6	bene
103	67	G	231	E7	h
104	68	h	232	E8	e
105	69	io	233	E9	th
106	6A	J	234	EA	a
107	6B	K	235	EB	l
108	6C	l	236	Unione Europea	m
109	6D	m	237	ED	n
110	6E	n	238	EE	di
111	6F	o	239	EF	P
112	70	P	240	F0	R
113	71	Q	241	F1	da
114	72	R	242	F2	T
115	73	S	243	F3	a
116	74	T	244	F4	F
117	75	tu	245	F5	X
118	76	v	246	F6	C
119	77	w	247	F7	h
120	78	X	248	F8	w
121	79	y	249	F9	SCH
122	7A	z	250	fa	B
123	7B	{	251	Facebook	S
124	7C	\|	252	FC	B
125	7D	}	253	FD	ehm
126	7E	~	254	FE	Yu
127	7F	Specialista. DEL	255	FF	io

Tabella ASCII dei codici dei caratteri di Windows.
Descrizione dei caratteri speciali (di controllo).

Va notato che inizialmente i caratteri di controllo della tabella ASCII venivano utilizzati per fornire lo scambio di dati tramite telescrivente, l'immissione di dati da un nastro perforato e per il più semplice controllo di dispositivi esterni.
Attualmente, la maggior parte dei caratteri di controllo ASCII della tabella non trasporta più questo carico e può essere utilizzata per altri scopi.

Il codice	Descrizione
NUL, 00	Nulla, vuota
SO-01	Inizio della rotta
STX 02	Inizio di TeXt, l'inizio del testo.
ETX 03	Fine di TeXt
EOT, 04	Fine della trasmissione
ITA, 05	Chiedere informazioni. Si prega di confermare
ACK, 06	Riconoscimento. confermo
BEL 07	Campana, chiama
BS 08	Backspace, torna indietro di un carattere
TAB, 09	Linguetta, linguetta orizzontale
LF, 0A	Avanzamento riga, avanzamento riga. Ora nella maggior parte dei linguaggi di programmazione è indicato come \n
VT, 0B	Scheda verticale, tabulazione verticale.
FF, 0C	Feed modulo, feed pagina, nuova pagina
CR, 0D	Ritorno in Carrozza Ora nella maggior parte dei linguaggi di programmazione è indicato come \r
COSÌ, 0E	Sposta fuori, cambia il colore del nastro d'inchiostro nella stampante
SI, 0°F	Sposta in, restituisce il colore del nastro d'inchiostro nel dispositivo di stampa
DLE, 10	Data Link Escape, passaggio del canale alla trasmissione dei dati
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Controllo dispositivo, simboli di controllo dispositivo
N.A.K. 15	Conferma negativa, non confermo.
SYN, 16	sincronizzazione. Simbolo di sincronizzazione
ETB, 17	Fine del blocco di testo, fine del blocco di testo
CAN, 18	Annulla, annullando un precedente passato
EM, 19	Fine del medio
SUB, 1A	Sostituisci, sostituisci. Posizionato al posto di un personaggio il cui valore è stato perso o danneggiato durante la trasmissione
ESC, 1B	Esci dalla sequenza di fuga
FS, 1C	Separatore di file, separatore di file
GS, 1D	Separatore di gruppi, separatore di gruppi
RS, 1E	Separatore di record
USA, 1F	Separatore di unità, separatore di unità
DEL, 7F	Elimina, elimina l'ultimo carattere.

Il computer comprende il processo della sua trasformazione in una forma che consente di organizzare un trasferimento, una memorizzazione o un'elaborazione automatica più conveniente di questi dati. A tale scopo vengono utilizzate diverse tabelle. La codifica ASCII è stato il primo sistema sviluppato negli Stati Uniti per lavorare con il testo inglese, che successivamente si è diffuso in tutto il mondo. L'articolo seguente è dedicato alla sua descrizione, caratteristiche, proprietà e ulteriore utilizzo.

Visualizzazione e memorizzazione di informazioni in un computer

I simboli sul monitor di un computer o di un particolare gadget digitale mobile sono formati sulla base di insiemi di forme vettoriali di vari caratteri e un codice che consente di trovare tra loro il simbolo che deve essere inserito nel posto giusto. È una sequenza di bit. Pertanto, ogni carattere deve corrispondere in modo univoco a un insieme di zeri e uno che stanno in un certo ordine unico.

Come tutto cominciò

Storicamente, i primi computer erano in inglese. Per codificare le informazioni sui caratteri al loro interno, è stato sufficiente utilizzare solo 7 bit di memoria, mentre a questo scopo è stato allocato 1 byte composto da 8 bit. Il numero di caratteri compresi dal computer in questo caso era 128. Questi caratteri includevano l'alfabeto inglese con i suoi segni di punteggiatura, numeri e alcuni caratteri speciali. La codifica a sette bit in lingua inglese con la tabella corrispondente (codepage), sviluppata nel 1963, era chiamata American Standard Code for Information Interchange. Di solito veniva utilizzata l'abbreviazione "codifica ASCII" ed è ancora utilizzata fino ad oggi.

Transizione al multilinguismo

Nel tempo, i computer sono diventati ampiamente utilizzati nei paesi non di lingua inglese. A questo proposito, c'era la necessità di codifiche che consentissero l'uso delle lingue nazionali. Si è deciso di non reinventare la ruota e di prendere l'ASCII come base. La tabella di codifica nella nuova edizione è stata notevolmente ampliata. L'uso dell'8° bit ha permesso di tradurre 256 caratteri in un linguaggio informatico.

Descrizione

La codifica ASCII ha una tabella divisa in 2 parti. Lo standard internazionale generalmente accettato è considerato solo la sua prima metà. Include:

Caratteri con numeri di serie da 0 a 31, codificati da sequenze da 00000000 a 00011111. Sono riservati ai caratteri di controllo che controllano il processo di visualizzazione del testo su uno schermo o stampante, emettendo un segnale acustico, ecc.
I caratteri con NN nella tabella da 32 a 127, codificati da sequenze da 00100000 a 01111111, costituiscono la parte standard della tabella. Includono uno spazio (N 32), lettere dell'alfabeto latino (minuscole e maiuscole), numeri a dieci cifre da 0 a 9, segni di punteggiatura, parentesi di vari stili e altri simboli.
Caratteri con numeri di serie da 128 a 255, codificati da sequenze da 10000000 a 11111111. Includono lettere di alfabeti nazionali diversi dal latino. È questa parte alternativa della tabella di codifica ASCII che viene utilizzata per convertire i caratteri russi in un modulo informatico.

Alcune proprietà

Le particolarità della codifica ASCII includono la differenza tra le lettere "A" - "Z" di minuscolo e maiuscolo con un solo bit. Questa circostanza semplifica notevolmente la conversione del registro, nonché la sua verifica dell'appartenenza a un determinato intervallo di valori. Inoltre, tutte le lettere nel sistema di codifica ASCII sono rappresentate dai propri numeri di serie nell'alfabeto, che sono scritti in 5 cifre nel sistema numerico binario, preceduti da 011 2 per le lettere minuscole e 010 2 per le lettere maiuscole.

Tra le caratteristiche della codifica ASCII può essere annoverata anche la rappresentazione di 10 cifre - "0" - "9". Nel secondo sistema numerico iniziano con 00112 e terminano con 2 valori di numeri. Pertanto, 0101 2 equivale al cinque decimale, quindi il carattere "5" viene scritto come 0011 01012. Sulla base di quanto sopra, puoi facilmente convertire i numeri BCD in una stringa ASCII aggiungendo la sequenza di bit 00112 a ciascun nibble a sinistra.

"Unicode"

Come sapete, per visualizzare i testi nelle lingue del gruppo del sud-est asiatico sono necessari migliaia di caratteri. Un tale numero di essi non è in alcun modo descritto in un byte di informazioni, quindi anche le versioni estese di ASCII non potrebbero più soddisfare le crescenti esigenze degli utenti di diversi paesi.

Quindi, c'era la necessità di creare una codifica del testo universale, che è stata sviluppata dal consorzio Unicode in collaborazione con molti leader del settore IT globale. I suoi specialisti hanno creato il sistema UTF 32. In esso sono stati allocati 32 bit per codificare 1 carattere, costituendo 4 byte di informazioni. Lo svantaggio principale era un forte aumento della quantità di memoria richiesta fino a 4 volte, il che comportava molti problemi.

Allo stesso tempo, per la maggior parte dei paesi con lingue ufficiali appartenenti al gruppo indoeuropeo, il numero di caratteri pari a 2 32 è più che ridondante.

Come risultato di un ulteriore lavoro di specialisti del consorzio Unicode, è apparsa la codifica UTF-16. È diventata la variante della conversione delle informazioni sui caratteri adatta a tutti sia in termini di quantità di memoria richiesta che di numero di caratteri codificati. Ecco perché UTF-16 è stato adottato per impostazione predefinita e richiede la prenotazione di 2 byte per un carattere.

Anche questa versione piuttosto avanzata e di successo di "Unicode" presentava alcuni inconvenienti e, dopo il passaggio dalla versione estesa di ASCII a UTF-16, raddoppiava le dimensioni del documento.

A questo proposito, è stato deciso di utilizzare la codifica a lunghezza variabile UTF-8. In questo caso, ogni carattere del testo sorgente è codificato da una sequenza di lunghezza compresa tra 1 e 6 byte.

Associazione con il codice standard americano per lo scambio di informazioni

Tutti i caratteri dell'alfabeto latino in UTF-8 di lunghezza variabile sono codificati in 1 byte, come nel sistema di codifica ASCII.

Una caratteristica di UTF-8 è che nel caso di testo in latino senza l'uso di altri caratteri, anche i programmi che non capiscono Unicode ne consentiranno comunque la lettura. In altre parole, la parte base della codifica del testo ASCII va semplicemente nel nuovo UTF a lunghezza variabile. I caratteri cirillici in UTF-8 richiedono 2 byte e, ad esempio, quelli georgiani richiedono 3 byte. Creando UTF-16 e 8, è stato risolto il problema principale della creazione di un unico spazio di codice nei caratteri. Da allora, i produttori di font hanno dovuto solo riempire la tabella con forme vettoriali di caratteri di testo in base alle loro esigenze.

Sistemi operativi diversi preferiscono codifiche diverse. Per poter leggere e modificare testi digitati con una codifica diversa, vengono utilizzati programmi di conversione del testo in russo. Alcuni editor di testo contengono transcodificatori incorporati e consentono di leggere il testo indipendentemente dalla codifica.

Ora sai quanti caratteri ci sono in ASCII e come e perché è stato progettato. Naturalmente, oggi lo standard Unicode ha ricevuto la più grande distribuzione al mondo. Tuttavia, non dobbiamo dimenticare che è stato creato sulla base dell'ASCII, quindi va apprezzato il contributo dei suoi sviluppatori nel campo IT.

[Codifiche a 8 bit: ASCII, KOI-8R e CP1251] Le prime tabelle di codifica create negli Stati Uniti non utilizzavano l'ottavo bit in un byte. Il testo è stato presentato come una sequenza di byte, ma l'ottavo bit non è stato preso in considerazione (è stato utilizzato per scopi ufficiali).

Il tavolo è diventato lo standard accettato. ASCII(Codice Standard Americano per Interscambio di Informazioni). I primi 32 caratteri della tabella ASCII (da 00 a 1F) sono stati utilizzati per i caratteri non stampabili. Sono stati progettati per controllare un dispositivo di stampa e simili. Il resto - da 20 a 7F - sono caratteri regolari (stampabili).

Tabella 1 - Codifica ASCII

dic	esadecimale	ottobre	Char	Descrizione
0	0	000		nullo
1	1	001		inizio di intestazione
2	2	002		inizio del testo
3	3	003		fine del testo
4	4	004		fine della trasmissione
5	5	005		inchiesta
6	6	006		riconoscere
7	7	007		campana
8	8	010		spazio indietro
9	9	011		linguetta orizzontale
10	UN	012		nuova linea
11	B	013		linguetta verticale
12	C	014		nuova pagina
13	D	015		ritorno in carrozza
14	e	016		spostare fuori
15	F	017		entrare
16	10	020		fuga del collegamento dati
17	11	021		controllo del dispositivo 1
18	12	022		controllo del dispositivo 2
19	13	023		controllo del dispositivo 3
20	14	024		controllo del dispositivo 4
21	15	025		riconoscimento negativo
22	16	026		inattivo sincrono
23	17	027		fine della trad. bloccare
24	18	030		Annulla
25	19	031		fine del mezzo
26	1A	032		sostituire
27	1B	033		fuga
28	1C	034		separatore di file
29	1D	035		separatore di gruppo
30	1E	036		separatore di record
31	1F	037		separatore di unità
32	20	040		spazio
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3F	077	?

dic	esadecimale	ottobre	Char
64	40	100	@
65	41	101	UN
66	42	102	B
67	43	103	C
68	44	104	D
69	45	105	e
70	46	106	F
71	47	107	G
72	48	110	h
73	49	111	io
74	4A	112	J
75	4B	113	K
76	4C	114	l
77	4D	115	m
78	4E	116	n
79	4F	117	o
80	50	120	P
81	51	121	Q
82	52	122	R
83	53	123	S
84	54	124	T
85	55	125	u
86	56	126	V
87	57	127	w
88	58	130	X
89	59	131	Y
90	5A	132	Z
91	5B	133	[
92	5C	134	\
93	5 D	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	un
98	62	142	B
99	63	143	C
100	64	144	D
101	65	145	e
102	66	146	F
103	67	147	G
104	68	150	h
105	69	151	io
106	6A	152	J
107	6B	153	K
108	6C	154	l
109	6D	155	m
110	6E	156	n
111	6F	157	o
112	70	160	P
113	71	161	Q
114	72	162	R
115	73	163	S
116	74	164	T
117	75	165	tu
118	76	166	v
119	77	167	w
120	78	170	X
121	79	171	y
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

Come puoi facilmente vedere, in questa codifica sono rappresentate solo le lettere latine e quelle utilizzate in inglese. Ci sono anche simboli aritmetici e altri simboli di servizio. Ma non ci sono lettere russe, e nemmeno lettere latine speciali per il tedesco o il francese. Questo è facile da spiegare: la codifica è stata sviluppata come standard americano. Quando i computer iniziarono ad essere utilizzati in tutto il mondo, era necessario codificare altri caratteri.

Per fare ciò, è stato deciso di utilizzare l'ottavo bit in ogni byte. Pertanto, erano disponibili altri 128 valori (da 80 a FF), che potevano essere utilizzati per codificare i caratteri. La prima delle tabelle a otto bit è "Extended ASCII" ( ASCII esteso) - includeva varie varianti di caratteri latini usati in alcune lingue dell'Europa occidentale. Aveva anche altri personaggi aggiuntivi, inclusa la pseudografia.

I caratteri pseudografici consentono, visualizzando solo caratteri di testo, di fornire una parvenza di grafica. Utilizzando la pseudografica, ad esempio, il programma di gestione dei file FAR Manager funziona.

Non c'erano lettere russe nella tabella ASCII estesa. In Russia (ex URSS) e in altri stati sono state create le proprie codifiche che hanno permesso di rappresentare specifici caratteri "nazionali" in file di testo a 8 bit: lettere latine delle lingue polacca e ceca, cirillico (comprese le lettere russe) e altri alfabeti.

In tutte le codifiche che si sono diffuse, i primi 127 caratteri (cioè i valori dei byte con l'ottavo bit uguale a 0) sono gli stessi dell'ASCII. Quindi un file ASCII funziona in una di queste codifiche; le lettere della lingua inglese sono rappresentate allo stesso modo.

Organizzazione ISO(International Standardization Organization - International Organization for Standards) ha adottato un gruppo di standard ISO 8859. Definisce codifiche a 8 bit per diversi gruppi di lingue. Quindi, ISO 8859-1 è ASCII esteso, una tabella per gli Stati Uniti e l'Europa occidentale. E ISO 8859-5 è una tabella per il cirillico (compreso il russo).

Tuttavia, per ragioni storiche, la codifica ISO 8859-5 non ha preso piede. In realtà, per la lingua russa vengono utilizzate le seguenti codifiche:

Codice Pagina 866 ( CP866), è anche “DOS”, è anche “codifica GOST alternativa”. Ampiamente usato fino alla metà degli anni '90; ora in uso limitato. Praticamente non utilizzato per la distribuzione di testi su Internet.
- KOI-8. Sviluppato negli anni '70 e '80. È uno standard generalmente accettato per l'invio di messaggi di posta su Internet russo. È anche ampiamente utilizzato nei sistemi operativi della famiglia Unix, incluso Linux. Si chiama la versione KOI-8, progettata per il russo KOI-8R; esistono versioni per altre lingue cirilliche (ad esempio, KOI8-U è una variante per la lingua ucraina).
- Codice Pagina 1251, CP1251, Windows-1251. Sviluppato da Microsoft per supportare la lingua russa nel sistema Windows.

Il vantaggio principale del CP866 era la conservazione dei caratteri pseudografici negli stessi punti dell'ASCII esteso; pertanto, i programmi di testo stranieri, ad esempio il famoso Norton Commander, potrebbero funzionare senza modifiche. Il CP866 è attualmente utilizzato per programmi Windows in esecuzione in finestre di testo o in modalità testo a schermo intero, incluso FAR Manager.

I testi in CP866 sono piuttosto rari negli ultimi anni (ma è usato per codificare i nomi di file russi in Windows). Pertanto, ci soffermeremo su altre due codifiche: KOI-8R e CP1251.

Come puoi vedere, nella tabella di codifica CP1251, le lettere russe sono disposte in ordine alfabetico (ad eccezione, però, della lettera YO). Questa disposizione rende molto semplice l'ordinamento alfabetico dei programmi per computer.

Ma in KOI-8R, l'ordine delle lettere russe sembra casuale. Ma in realtà non lo è.

In molti programmi meno recenti, l'8° bit veniva perso durante l'elaborazione o la trasmissione di testo. (Ora tali programmi sono praticamente "estinti", ma alla fine degli anni '80 e all'inizio degli anni '90 erano diffusi). Per ottenere un valore a 7 bit da un valore a 8 bit, è sufficiente sottrarre 8 dalla cifra di ordine superiore; ad esempio, E1 diventa 61.

Ora confronta KOI-8R con la tabella ASCII (Tabella 1). Scoprirai che le lettere russe sono in stretta conformità con quelle latine. Se l'ottavo bit scompare, le lettere russe minuscole si trasformano in lettere latine maiuscole e le lettere russe maiuscole in lettere latine minuscole. Quindi, E1 in KOI-8 è la "A" russa, mentre 61 in ASCII è la "a" latina.

Quindi, KOI-8 ti consente di mantenere la leggibilità del testo russo con la perdita dell'8° bit. “Ciao a tutti” diventa “pRIWET WSEM”.

Recentemente, sia l'ordine alfabetico dei caratteri nella tabella di codifica, sia la leggibilità con la perdita dell'8° bit hanno perso la loro importanza decisiva. L'ottavo bit nei computer moderni non viene perso né durante la trasmissione né durante l'elaborazione. E l'ordinamento alfabetico viene effettuato tenendo conto della codifica e non di un semplice confronto di codici. (A proposito, i codici CP1251 non sono completamente in ordine alfabetico - la lettera Y non è al suo posto).

A causa del fatto che c'erano due codifiche comuni, quando si lavora con Internet (posta, navigazione in siti Web), a volte è possibile visualizzare un insieme di lettere senza significato invece del testo russo. Ad esempio, "Sono SBYFEMHEL". Sono solo le parole "rispettosamente"; ma erano codificati nella codifica CP1251 e il computer ha decodificato il testo secondo la tabella KOI-8. Se le stesse parole fossero, invece, codificate in KOI-8, e il computer decodificasse il testo secondo la tabella CP1251, il risultato sarebbe “U HCHBTSEOEN”.

A volte capita che un computer decifra le lettere in lingua russa e anche secondo una tabella che non è destinata alla lingua russa. Quindi, al posto delle lettere russe, appare un insieme di caratteri privo di significato (ad esempio, lettere latine delle lingue dell'Europa orientale); sono spesso indicati come "crocos".

Nella maggior parte dei casi, i programmi moderni riescono a determinare autonomamente le codifiche dei documenti Internet (e-mail e pagine Web). Ma a volte "si accendono male" e poi puoi vedere strane sequenze di lettere russe o "coccodrillo". Di norma, per visualizzare il testo reale in una situazione del genere, è sufficiente selezionare manualmente la codifica nel menu del programma.

Le informazioni dalla pagina http://open-office.edusite.ru/TextProcessor/p5aa1.html sono state utilizzate per l'articolo.

Materiale tratto dal sito:

Tavola ascii completa. Codifica ASCII (codice standard americano per lo scambio di informazioni) - codifica del testo di base per il latino

Computer

e

3.2. Codifica grafica delle informazioni

Esercizi per l'autorealizzazione

In questo articolo

Inserimento di un carattere ASCII o Unicode in un documento

Inserimento di caratteri ASCII

Inserimento di caratteri Unicode

Utilizzo della tabella dei simboli

Codici caratteri usati di frequente

Codici per segni diacritici comunemente usati

Caratteri di controllo ASCII non stampabili

Tabella dei caratteri di controllo ASCII non stampabile

Tabella ASCII dei codici dei caratteri di Windows. Descrizione dei caratteri speciali (di controllo).

Visualizzazione e memorizzazione di informazioni in un computer

Come tutto cominciò

Transizione al multilinguismo

Descrizione

Alcune proprietà

"Unicode"

Associazione con il codice standard americano per lo scambio di informazioni

Articoli correlati in alto

Tabella ASCII dei codici dei caratteri di Windows.
Descrizione dei caratteri speciali (di controllo).