È noto che ci sono caratteri ascii nella tabella dei codici. Codifica ASCII (codice standard americano per lo scambio di informazioni) - codifica del testo di base per il latino

11.08.2019 Consigli

Viene chiamato l'insieme di caratteri con cui viene scritto il testo alfabeto.

Il numero di caratteri dell'alfabeto è suo potenza.

Formula per determinare la quantità di informazioni: N = 2 b,

dove N è la cardinalità dell'alfabeto (numero di caratteri),

b - numero di bit (peso informativo del carattere).

L'alfabeto con una capacità di 256 caratteri può contenere quasi tutti i caratteri necessari. Questo alfabeto si chiama sufficiente.

Perché 256 = 2 8, quindi il peso di 1 carattere è 8 bit.

L'unità a 8 bit è stata nominata 1 byte:

1 byte = 8 bit.

Il codice binario di ogni carattere nel testo del computer occupa 1 byte di memoria.

Come vengono rappresentate le informazioni di testo nella memoria del computer?

La comodità della codifica dei caratteri in byte è ovvia, poiché un byte è la parte più piccola della memoria indirizzabile e, quindi, il processore può accedere a ciascun carattere separatamente, eseguendo l'elaborazione del testo. D'altra parte, 256 caratteri è un numero abbastanza sufficiente per rappresentare un'ampia varietà di informazioni sui caratteri.

Ora sorge la domanda, che tipo di codice binario a otto bit associare a ciascun carattere.

È chiaro che questa è una questione condizionale, puoi trovare molti metodi di codifica.

Tutti i caratteri dell'alfabeto del computer sono numerati da 0 a 255. Ogni numero corrisponde a un codice binario di otto cifre da 00000000 a 11111111. Questo codice è semplicemente il numero ordinale del carattere nel sistema binario.

La tabella in cui tutti i caratteri dell'alfabeto del computer sono assegnati ai numeri di serie è chiamata tabella di codifica.

Diverse tabelle di codifica vengono utilizzate per diversi tipi di computer.

Lo standard internazionale per il PC è diventato il tavolo ASCII(leggi asci) (Codice standard americano per lo scambio di informazioni).

La tabella ASCII è divisa in due parti.

Lo standard internazionale è solo la prima metà della tabella, ad es. simboli con numeri da 0 (00000000), fino a 127 (01111111).

Struttura della tabella di codifica ASCII

Numero di serie	Il codice	Simbolo
0 - 31	00000000 - 00011111	I simboli con numeri da 0 a 31 sono generalmente chiamati caratteri di controllo. La loro funzione è controllare il processo di visualizzazione del testo sullo schermo o la stampa, dare un segnale sonoro, contrassegnare il testo, ecc.
32 - 127	00100000 - 01111111	Parte standard della tabella (inglese). Ciò include lettere minuscole e maiuscole dell'alfabeto latino, cifre decimali, segni di punteggiatura, tutti i tipi di parentesi, simboli commerciali e di altro tipo. Il carattere 32 è uno spazio, ad es. posizione vuota nel testo. Tutti gli altri si riflettono in certi segni.
128 - 255	10000000 - 11111111	Parte alternativa del tavolo (russo). La seconda metà della tabella dei codici ASCII, chiamata code page (128 codici, che iniziano da 10000000 e terminano con 11111111), può avere diverse varianti, ogni variante ha il proprio numero. La tabella codici viene utilizzata principalmente per ospitare alfabeti nazionali diversi dal latino. Nelle codifiche nazionali russe, questa parte della tabella contiene i simboli dell'alfabeto russo.

La prima metà della tabella ASCII

Attiro la tua attenzione sul fatto che nella tabella di codifica, le lettere (maiuscole e minuscole) sono disposte in ordine alfabetico e i numeri sono ordinati in ordine crescente di valori. Questa osservanza dell'ordine lessicografico nella disposizione dei caratteri è chiamata il principio della codifica sequenziale dell'alfabeto.

Per le lettere dell'alfabeto russo si osserva anche il principio della codifica sequenziale.

La seconda metà della tabella ASCII

Sfortunatamente, ci sono attualmente cinque diverse codifiche cirilliche (KOI8-R, Windows. MS-DOS, Macintosh e ISO). Per questo motivo, spesso sorgono problemi con il trasferimento di testo russo da un computer a un altro, da un sistema software a un altro.

Cronologicamente, uno dei primi standard per la codifica delle lettere russe sui computer era KOI8 ("Codice di scambio di informazioni, 8 bit"). Questa codifica è stata utilizzata negli anni '70 sui computer della serie di computer ES e dalla metà degli anni '80 ha iniziato a essere utilizzata nelle prime versioni russificate del sistema operativo UNIX.

Dall'inizio degli anni '90, epoca del predominio del sistema operativo MS DOS, rimane la codifica CP866 ("CP" sta per "Code Page").

I computer Apple con sistema operativo Mac utilizzano la propria codifica Mac.

Inoltre, l'Organizzazione internazionale per la standardizzazione (International Standards Organization, ISO) ha approvato un'altra codifica chiamata ISO 8859-5 come standard per la lingua russa.

Attualmente, la codifica più comune è Microsoft Windows, abbreviata in CP1251.

Dalla fine degli anni '90, il problema della standardizzazione della codifica dei caratteri è stato risolto con l'introduzione di un nuovo standard internazionale chiamato Unicode... Questa è una codifica a 16 bit, ad es. alloca 2 byte di memoria per ogni carattere. Ovviamente, questo raddoppia la quantità di memoria utilizzata. Ma d'altra parte, una tale tabella di codici consente l'inclusione di un massimo di 65536 caratteri. La specifica completa dello standard Unicode include tutti gli alfabeti esistenti, estinti e creati artificialmente del mondo, nonché molti simboli matematici, musicali, chimici e di altro tipo.

Proviamo a usare una tabella ASCII per immaginare come appariranno le parole nella memoria del computer.

Rappresentazione interna delle parole nella memoria del computer

A volte capita che un testo composto da lettere dell'alfabeto russo, ricevuto da un altro computer, non possa essere letto - una sorta di "senza senso" è visibile sullo schermo del monitor. Ciò è dovuto al fatto che i computer utilizzano una codifica diversa dei caratteri della lingua russa.

Excel per Office 365 Word per Office 365 Outlook per Office 365 PowerPoint per Office 365 Publisher per Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Excel 2007 Word 2007 Outlook 2007 PowerPoint 2007 Publisher 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Standard 2007 Visio Standard 2010 Meno

In questo articolo

Inserisci un carattere ASCII o Unicode in un documento

Se hai solo bisogno di inserire pochi caratteri speciali o simboli, puoi utilizzare entrambe le scorciatoie da tastiera. Per un elenco di caratteri ASCII, vedere le tabelle seguenti o l'articolo Inserire alfabeti nazionali utilizzando le scorciatoie da tastiera.

Appunti:

Inserisci caratteri ASCII

Per inserire un carattere ASCII, tieni premuto il tasto ALT mentre inserisci il codice del carattere. Ad esempio, per inserire un simbolo di grado (º), tenere premuto il tasto Alt, quindi immettere 0176 sul tastierino numerico.

Usa il tastierino numerico per inserire i numeri invece dei numeri sulla tastiera principale. Se è necessario immettere numeri sul tastierino numerico, assicurarsi che l'indicatore BLOC NUM sia acceso.

Inserimento di caratteri Unicode

Per inserire un carattere Unicode, immettere il codice carattere, quindi premere in sequenza ALT e X. Ad esempio, per inserire un simbolo del dollaro ($), immettere 0024 e premere in sequenza ALT e X. Per tutti i codici carattere Unicode, vedere.

Importante: Alcuni programmi di Microsoft Office, come PowerPoint e InfoPath, non supportano la conversione di codici Unicode in caratteri. Se è necessario inserire un carattere Unicode in uno di questi programmi, utilizzare.

Appunti:

Se vedi il carattere Unicode sbagliato dopo aver premuto ALT + X, seleziona il codice corretto, quindi premi nuovamente ALT + X.

Inoltre, prima del codice deve essere inserito "U +". Ad esempio, se inserisci "1U + B5" e premi Alt + X, viene visualizzato il testo "1µ", e se inserisci "1B5" e premi Alt + X, viene visualizzato il carattere "Ƶ".

Usando la tabella dei simboli

Symbol Map è un programma integrato in Microsoft Windows che consente di visualizzare i simboli disponibili per un carattere selezionato.

Utilizzando una tabella dei simboli, è possibile copiare singoli simboli o un gruppo di simboli negli appunti e incollarli in qualsiasi programma in grado di visualizzare tali simboli. Apertura della tabella dei simboli

Su Windows 10 Inserisci la parola "simbolo" nella casella di ricerca sulla barra delle applicazioni e seleziona una tabella dei simboli dai risultati della ricerca.

Su Windows 8 Inserisci la parola "carattere" nella schermata iniziale e seleziona una tabella dei caratteri dai risultati della ricerca.

Su Windows 7 premi il bottone Inizio, seleziona in sequenza Tutti i programmi, Standard, Servizio e clicca tabella dei simboli.

I caratteri sono raggruppati per font. Fare clic sull'elenco dei caratteri per selezionare il set di caratteri appropriato. Per selezionare un simbolo, fai clic su di esso, quindi fai clic su Selezionare... Per inserire un simbolo, fare clic con il pulsante destro del mouse sulla posizione desiderata nel documento e selezionare Inserire.

Codici simboli usati di frequente

Per un elenco completo dei caratteri, vedere il computer, la tabella dei codici dei caratteri ASCII o le tabelle dei set di caratteri Unicode.

Glifo

Unità monetarie

Simboli legali

Simboli matematici

frazioni

Simboli di punteggiatura e dialetto

Simboli di forma

Codici diacritici comunemente usati

Per un elenco completo dei glifi e dei relativi codici, vedere.

Glifo

Caratteri di controllo ASCII non stampabili

I caratteri utilizzati per controllare alcuni dispositivi periferici, come le stampanti, sono numerati da 0 a 31 nella tabella ASCII. Ad esempio, un carattere di alimentazione/nuova pagina è il numero 12. Questo carattere indica alla stampante di andare all'inizio della pagina successiva.

Tabella dei caratteri di controllo ASCII non stampabile

Decimale	Cartello	Decimale	Cartello
		Liberare il canale dati
Inizio dell'intestazione		Primo codice di controllo del dispositivo
Inizio del testo		Secondo codice di controllo del dispositivo
Fine del testo		Codice di controllo del terzo dispositivo
Fine della trasmissione		Quarto codice di controllo del dispositivo
	a cinque punte	Conferma negativa
Conferma		Modalità di trasmissione sincrona
Segnale sonoro		Fine del blocco dei dati trasmessi

Scheda orizzontale		Fine dei media
Avanzamento riga / nuova riga		Carattere sostitutivo
Scheda verticale			superare
Traduzione della pagina / nuova pagina	Dodicesimo	Separatore di file
Ritorno a capo		Separatore di gruppo
Cambia senza salvare le cifre		Separatore di record
Shift con conservazione delle cifre	quindici	Separatore di dati

A proposito, sul nostro sito puoi tradurre qualsiasi testo in codice decimale, esadecimale, binario utilizzando il calcolatore di codice online.

Tabella ASCII

ASCII (codice standard americano per lo scambio di informazioni)

Tabella riassuntiva dei codici ASCII

Tabella codici caratteri Windows ASCII (Win-1251)

		Simbolo









		specialista. tab
		specialista. LF (ritorno a capo)


		specialista. CR (Nuova Riga)


















		frizione SP (spazio)

		Simbolo

Tabella ASCII estesa

Caratteri di formattazione.

	Backspace (Backspace di un carattere). Indica il movimento del meccanismo di stampa o visualizza il cursore indietro di una posizione.
	Tabulazione orizzontale Mostra il movimento del motore di stampa o visualizza il cursore al successivo "tab stop" prescritto.
	Avanzamento di linea. Mostra il movimento del motore di stampa o visualizza il cursore all'inizio della riga successiva (una riga in basso).
	Tabulazione verticale Mostra il movimento del motore di stampa o visualizza il cursore sul gruppo di righe successivo.
	Modulo di alimentazione. Indica il movimento del motore di stampa o del cursore di visualizzazione nella posizione iniziale della pagina, del modulo o della schermata successiva.
	Ritorno a capo. Mostra il movimento del meccanismo di stampa o visualizza il cursore nella posizione originale (più a sinistra) della riga corrente.

Trasferimento dati.

	Inizio della rubrica. Utilizzato per identificare l'inizio di un'intestazione, che può contenere informazioni di instradamento o un indirizzo.
	Inizio del testo. Mostra l'inizio del testo e contemporaneamente la fine del titolo.
	Fine del testo. Si applica alla fine del testo che inizia con il carattere STX.
	Inchiesta. Richiesta dati identificativi (tipo "Chi sei?") dalla postazione remota.
	Riconoscere. Il dispositivo ricevente trasmette questo carattere al mittente come conferma della corretta ricezione dei dati.
	Riconoscimento negativo. Il dispositivo ricevente trasmette questo carattere al mittente in caso di rifiuto (fallimento) di ricezione dei dati.
	Sincrono / Inattivo. Utilizzato nei sistemi di trasmissione sincronizzati. Quando non c'è trasmissione di dati, il sistema invia continuamente simboli SYN per garantire la sincronizzazione.
	Blocco di fine trasmissione. Indica la fine di un blocco dati ai fini della comunicazione. Viene utilizzato per suddividere grandi quantità di dati in blocchi separati.

Segni di separazione durante il trasferimento delle informazioni.

Altri simboli.

	Nullo. (Nessun carattere - nessun dato). Viene utilizzato per la trasmissione in assenza di dati.
	campana Viene utilizzato per controllare i dispositivi di allarme.
	Spostare fuori. Indica che tutti i codici successivi devono essere interpretati in base al set di caratteri esterno prima dell'arrivo del carattere SI.
	Sposta dentro. Indica che i codici successivi devono essere interpretati secondo il set di caratteri standard.
	Fuga dal collegamento dati Modifica del significato dei seguenti caratteri. Viene utilizzato per un controllo aggiuntivo o per il trasferimento di un modello di bit arbitrario.
DC1, DC2, DC3, DC4	Controlli del dispositivo. Simboli per il comando di dispositivi ausiliari (funzioni speciali).
	Annulla. Indica che i dati che hanno preceduto questo carattere in un messaggio o blocco devono essere ignorati (di solito se si verifica un errore).
	Fine del Medio. Indica la fine fisica di un nastro o altro supporto di memorizzazione
	Sostituire Utilizzato per sostituire un carattere errato o non valido.
	Fuga (estensione). Utilizzato per espandere il codice, indicando che il carattere successivo ha un significato alternativo.
	Spazio Un carattere non stampabile per separare le parole o spostare il motore di stampa o visualizzare il cursore in avanti di una posizione.
	Eliminare. Utilizzato per eliminare (cancellare) il carattere precedente nel messaggio

[Codifiche a 8 bit: ASCII, KOI-8R e CP1251] Le prime tabelle di set di caratteri create negli Stati Uniti non utilizzavano l'ottavo bit in un byte. Il testo è stato presentato come una sequenza di byte, ma l'ottavo bit non è stato preso in considerazione (è stato utilizzato per scopi di servizio).

Lo standard generalmente accettato è diventato il tavolo ASCII(Codice Standard Americano per Interscambio di Informazioni). I primi 32 caratteri ASCII (da 00 a 1F) sono stati utilizzati per caratteri non stampabili. Sono stati progettati per controllare un dispositivo di stampa e simili. Il resto - da 20 a 7F - sono caratteri normali (stampabili).

Tabella 1 - Codifica ASCII

dicembre	Esadecimale	ottobre	Char	Descrizione
0	0	000		nullo
1	1	001		inizio della rubrica
2	2	002		inizio del testo
3	3	003		fine del testo
4	4	004		fine della trasmissione
5	5	005		inchiesta
6	6	006		riconoscere
7	7	007		campana
8	8	010		backspace
9	9	011		tab orizzontale
10	UN	012		nuova linea
11	B	013		tab verticale
12	C	014		nuova pagina
13	D	015		ritorno a capo
14	E	016		spostare fuori
15	F	017		spostamento in
16	10	020		fuga collegamento dati
17	11	021		controllo del dispositivo 1
18	12	022		controllo del dispositivo 2
19	13	023		controllo del dispositivo 3
20	14	024		controllo del dispositivo 4
21	15	025		riconoscimento negativo
22	16	026		inattivo sincrono
23	17	027		fine trad. bloccare
24	18	030		Annulla
25	19	031		fine del mezzo
26	1A	032		sostituire
27	1B	033		fuga
28	1C	034		separatore di file
29	1D	035		separatore di gruppo
30	1E	036		separatore di record
31	1F	037		separatore di unità
32	20	040		spazio
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3F	077	?

dicembre	Esadecimale	ottobre	Char
64	40	100	@
65	41	101	UN
66	42	102	B
67	43	103	C
68	44	104	D
69	45	105	E
70	46	106	F
71	47	107	G
72	48	110	h
73	49	111	io
74	4A	112	J
75	4B	113	K
76	4C	114	l
77	4D	115	m
78	4E	116	n
79	4F	117	oh
80	50	120	P
81	51	121	Q
82	52	122	R
83	53	123	S
84	54	124	T
85	55	125	tu
86	56	126	V
87	57	127	W
88	58	130	X
89	59	131	sì
90	5A	132	Z
91	5B	133	[
92	5C	134	\
93	5 D	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	un
98	62	142	B
99	63	143	C
100	64	144	D
101	65	145	e
102	66	146	F
103	67	147	G
104	68	150	h
105	69	151	io
106	6A	152	J
107	6B	153	K
108	6C	154	io
109	6D	155	m
110	6E	156	n
111	6F	157	o
112	70	160	P
113	71	161	Q
114	72	162	R
115	73	163	S
116	74	164	T
117	75	165	tu
118	76	166	v
119	77	167	w
120	78	170	X
121	79	171	sì
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

Come puoi facilmente vedere, questa codifica contiene solo lettere latine e quelle utilizzate in inglese. Ci sono anche aritmetici e altri simboli di servizio. Ma non ci sono lettere russe, né lettere latine speciali per il tedesco o il francese. Questo è facile da spiegare: la codifica è stata sviluppata appositamente come standard americano. Quando i computer iniziarono ad essere usati in tutto il mondo, divenne necessario codificare altri simboli.

Per questo si è deciso di utilizzare l'ottavo bit in ogni byte. Pertanto, erano disponibili altri 128 valori (da 80 a FF), che potevano essere utilizzati per codificare i caratteri. La prima delle tabelle a otto bit è "ASCII esteso" ( ASCII esteso) - includeva varie varianti di caratteri latini usati in alcune lingue dell'Europa occidentale. Conteneva anche altri simboli aggiuntivi, inclusi pseudo grafici.

I caratteri pseudografici consentono, visualizzando solo caratteri di testo, di fornire una parvenza di grafica. Ad esempio, il programma per la gestione dei file FAR Manager funziona con l'aiuto di pseudo-grafica.

Non c'erano lettere russe nella tabella ASCII estesa. In Russia (ex URSS) e in altri stati sono state create le proprie codifiche, che hanno permesso di rappresentare caratteri "nazionali" specifici in file di testo a 8 bit: lettere latine delle lingue polacca e ceca, cirillico (comprese le lettere russe ) e altri alfabeti.

In tutte le codifiche che si sono diffuse, i primi 127 caratteri (cioè i valori dei byte con l'ottavo bit uguale a 0) coincidono con ASCII. Pertanto, un file ASCII funziona in una qualsiasi di queste codifiche; le lettere della lingua inglese sono rappresentate allo stesso modo.

Organizzazione ISO(International Standardization Organization) ha adottato un gruppo di standard ISO 8859... Definisce codifiche a 8 bit per diversi gruppi di lingue. Quindi, ISO 8859-1 è Extended ASCII, una tabella per gli Stati Uniti e l'Europa occidentale. E ISO 8859-5 è una tabella per il cirillico (incluso il russo).

Tuttavia, per ragioni storiche, la codifica ISO 8859-5 non ha preso piede. In realtà, per la lingua russa vengono utilizzate le seguenti codifiche:

Codice Pagina 866 ( CP866), alias "DOS", alias "codifica GOST alternativa". È stato ampiamente utilizzato fino alla metà degli anni '90; è ora utilizzato in misura limitata. Praticamente non utilizzato per la distribuzione di testi su Internet.
- KOI-8. Sviluppato negli anni '70 e '80. È uno standard generalmente accettato per la trasmissione di messaggi di posta su Internet russo. È anche ampiamente utilizzato nei sistemi operativi della famiglia Unix, incluso Linux. La versione KOI-8, progettata per la lingua russa, si chiama KOI-8R; esistono versioni per altre lingue cirilliche (ad esempio, KOI8-U è un'opzione per la lingua ucraina).
- Codice Pagina 1251, CP1251, Windows-1251. Sviluppato da Microsoft per supportare la lingua russa in Windows.

Il vantaggio principale del CP866 era la conservazione dei caratteri pseudografici negli stessi posti dell'ASCII esteso; quindi, programmi di testo stranieri, ad esempio il famoso Norton Commander, potrebbero funzionare senza modifiche. Al giorno d'oggi CP866 viene utilizzato per i programmi Windows in esecuzione in finestre di testo o in modalità testo a schermo intero, incluso FAR Manager.

Negli ultimi anni, i testi in CP866 sono piuttosto rari (ma è usato per codificare nomi di file russi in Windows). Pertanto, ci soffermeremo più in dettaglio su altre due codifiche: KOI-8R e CP1251.

Come puoi vedere, nella tabella di codifica CP1251, le lettere russe sono disposte in ordine alfabetico (tranne, tuttavia, la lettera E). Questa disposizione facilita l'ordinamento alfabetico dei programmi per computer.

Ma in KOI-8R, l'ordine delle lettere russe sembra essere casuale. Ma in realtà non lo è.

Molti programmi più vecchi hanno perso l'ottavo bit durante l'elaborazione o la trasmissione del testo. (Ora tali programmi sono praticamente "scomparsi", ma alla fine degli anni '80 - primi anni '90 erano molto diffusi). Per ottenere un valore a 7 bit da un valore a 8 bit, sottrarre 8 dalla cifra più significativa; per esempio E1 diventa 61.

Ora confronta il KOI-8R con la tabella ASCII (Tabella 1). Scoprirai che le lettere russe sono chiaramente allineate con quelle latine. Se l'ottavo bit scompare, le lettere russe minuscole si trasformano in lettere latine maiuscole e le lettere russe maiuscole in lettere latine minuscole. Quindi, E1 in KOI-8 è il russo "A", mentre 61 in ASCII è il latino "a".

Quindi, KOI-8 ti consente di preservare la leggibilità del testo russo perdendo l'ottavo bit. “Ciao a tutti” diventa “pRIWET WSEM”.

Recentemente, sia l'ordine alfabetico dei caratteri nella tabella di codifica, sia la leggibilità con la perdita dell'8° bit hanno perso la loro importanza decisiva. L'ottavo bit nei computer moderni non viene perso né durante la trasmissione né durante l'elaborazione. L'ordinamento in ordine alfabetico si basa sulla codifica e non solo sul confronto dei codici. (A proposito, i codici CP1251 non sono completamente alfabetici - la lettera E non è al suo posto).

A causa del fatto che ci sono due codifiche comuni, quando si lavora con Internet (posta, navigazione di siti Web), a volte è possibile vedere un insieme di lettere senza significato invece del testo russo. Ad esempio, "Sono SBUFEMHEL". Queste sono solo le parole "con rispetto"; ma sono stati codificati nella codifica CP1251, e il computer ha decodificato il testo secondo la tabella KOI-8. Se le stesse parole fossero, al contrario, codificate in KOI-8, e il computer avesse decodificato il testo secondo la tabella CP1251, il risultato sarà “У ХЧБЦЕОЙЕН”.

A volte capita che il computer decritti le lettere in lingua russa secondo una tabella che non è destinata alla lingua russa. Quindi, al posto delle lettere russe, appare un insieme di simboli senza significato (ad esempio, lettere latine delle lingue dell'Europa orientale); sono spesso chiamati "crocozyabras".

Nella maggior parte dei casi, i programmi moderni riescono da soli a determinare le codifiche dei documenti Internet (e-mail e pagine Web). Ma a volte si "accendono male", e quindi puoi vedere strane sequenze di lettere russe o "krokozyabra". Di norma, per visualizzare il testo reale sullo schermo, è sufficiente selezionare manualmente la codifica nel menu del programma.

Per l'articolo sono state utilizzate le informazioni dalla pagina http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Materiale tratto dal sito: