Codici di caratteri decimali ascii c. Codifica delle informazioni di testo

06.09.2019 Windows 7, XP

dicembre	Esadecimale	Simbolo	dicembre	Esadecimale	Simbolo
000	00	specialista. NO	128	80	Ђ
001	01	specialista. SOH	129	81	Ѓ
002	02	specialista. STX	130	82	‚
003	03	specialista. ETX	131	83	ѓ
004	04	specialista. EOT	132	84	„
005	05	specialista. ENQ	133	85	…
006	06	specialista. ACK	134	86	†
007	07	specialista. BEL	135	87	‡
008	08	specialista. BS	136	88	€
009	09	specialista. TAB	137	89	‰
010	0A	specialista. LF	138	8A	Љ
011	0B	specialista. VT	139	8B	‹ ‹
012	0C	specialista. FF	140	8C	Њ
013	0D	specialista. CR	141	8D	Ќ
014	0E	specialista. COSÌ	142	8E	Ћ
015	0F	specialista. SI	143	8F	Џ
016	10	specialista. DLE	144	90	ђ
017	11	specialista. DC1	145	91	‘
018	12	specialista. DC2	146	92	’
019	13	specialista. DC3	147	93	“
020	14	specialista. DC4	148	94	”
021	15	specialista. NAK	149	95
022	16	specialista. SYN	150	96	–
023	17	specialista. ETB	151	97	—
024	18	specialista. POTERE	152	98
025	19	specialista. EM	153	99	™
026	1A	specialista. SUB	154	9A	љ
027	1B	specialista. ESC	155	9B	›
028	1C	specialista. FS	156	9C	њ
029	1D	specialista. GS	157	9D	ќ
030	1E	specialista. Rs	158	9E	ћ
031	1F	specialista. noi	159	9F	џ
032	20	frizione SP (spazio)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	la2	ў
035	23	#	163	LA3	Ћ
036	24	$	164	A4	¤
037	25	%	165	la5	Ґ
038	26	&	166	LA6	¦
039	27	"	167	la7	§
040	28	(	168	la8	si
041	29	)	169	la9	©
042	2A	*	170	aa	Є
043	2B	+	171	AB	«
044	2C	,	172	AC	¬
045	2D	-	173	ANNO DOMINI
046	2E	.	174	AE	®
047	2F	/	175	AF	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	BA	є
059	3B	;	187	BB	»
060	3C	<	188	AVANTI CRISTO	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	ESSERE	ѕ
063	3F	?	191	bf	ї
064	40	@	192	C0	UN
065	41	UN	193	do1	B
066	42	B	194	do2	V
067	43	C	195	do3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	F
071	47	G	199	do7	Z
072	48	h	200	do8	E
073	49	io	201	C9	questo
074	4A	J	202	circa	A
075	4B	K	203	CB	l
076	4C	l	204	CC	m
077	4D	m	205	cd	n
078	4E	n	206	CE	oh
079	4F	oh	207	CF	P
080	50	P	208	D0	R
081	51	Q	209	D1	CON
082	52	R	210	re2	T
083	53	S	211	RE3	Ho
084	54	T	212	re4	F
085	55	tu	213	D5	X
086	56	V	214	D6	C
087	57	W	215	RE7	h
088	58	X	216	D8	SH
089	59	sì	217	D9	SCH
090	5A	Z	218	DA	B
091	5B	[	219	DB	S
092	5C	\	220	DC	B
093	5 D	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	DF	IO SONO
096	60	`	224	E0	un
097	61	un	225	mi1	B
098	62	B	226	E2	v
099	63	C	227	E3	G
100	64	D	228	mi4	D
101	65	e	229	E5	e
102	66	F	230	E6	F
103	67	G	231	E7	S
104	68	h	232	E8	e
105	69	io	233	E9	questo
106	6A	J	234	EA	a
107	6B	K	235	EB	io
108	6C	io	236	EC	m
109	6D	m	237	ED	n
110	6E	n	238	EE	oh
111	6F	o	239	EF	P
112	70	P	240	F0	R
113	71	Q	241	F1	Con
114	72	R	242	F2	T
115	73	S	243	F3	in
116	74	T	244	F4	F
117	75	tu	245	F5	X
118	76	v	246	F6	C
119	77	w	247	F7	h
120	78	X	248	F8	w
121	79	sì	249	F9	SCH
122	7A	z	250	fa	B
123	7B	{	251	FB	S
124	7C	\|	252	FC	B
125	7D	}	253	FD	eh
126	7E	~	254	FE	Yu
127	7F	Specialista. DEL	255	FF	io sono

Tabella dei codici dei caratteri ASCII di Windows.
Descrizione di caratteri speciali (di controllo)

È da notare che inizialmente i caratteri di controllo della tabella ASCII venivano utilizzati per fornire lo scambio di dati tramite telescrivente, l'immissione di dati da nastro perforato e per il più semplice controllo di dispositivi esterni.
Attualmente, la maggior parte dei caratteri di controllo ASCII nella tabella non comporta più questo onere e può essere utilizzata per altri scopi.

Il codice	Descrizione
NUL, 00	nullo, vuoto
SOH, 01	Inizio dell'intestazione, inizio dell'intestazione
STX, 02	Inizio di TeXt, l'inizio del testo.
ETX, 03	Fine del testo, fine del testo
EOT, 04	Fine della trasmissione, fine della trasmissione
ENQ, 05	Chiedere informazioni. chiedo conferma
ACK, 06	Riconoscimento. confermo
BEL, 07	campana, campana
BS, 08	Backspace, torna indietro di un carattere
SCHEDA, 09	Scheda, scheda orizzontale
LF, 0A	Avanzamento riga, avanzamento riga. Ora nella maggior parte dei linguaggi di programmazione è indicato come \ n
VT, 0B	Scheda verticale, scheda verticale.
FF, 0C	Avanzamento modulo, avanzamento pagina, nuova pagina
CR, 0D	Ritorno a capo Ora nella maggior parte dei linguaggi di programmazione è indicato come \ r
SO, 0E	Shift Out, cambia il colore del nastro di inchiostro nel dispositivo di stampa
SI, 0F	Shift In, restituisce il colore del nastro di inchiostro nel dispositivo di stampa
DLE, 10	Data Link Escape, cambia canale in trasmissione dati
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Controllo del dispositivo, simboli di controllo del dispositivo
NAK, 15	Riconoscimento negativo, non riconosco.
SIN, 16	Sincronizzazione. Simbolo di sincronizzazione
ETB, 17	Fine del blocco di testo, fine del blocco di testo
PU, 18	Annulla, annullando uno precedentemente superato
EM, 19	Fine del mezzo, fine del supporto dati
SUB, 1A	Sostituire Posto al posto di un carattere il cui valore è stato perso o corrotto durante la trasmissione
ESC, 1B	Fuga sequenza di fuga
FA, 1C	Separatore di file, separatore di file
GS, 1D	Separatore di gruppi, separatore di gruppi
RS, 1E	Separatore di record, separatore di record
USA, 1F	Separatore di unità, separatore di unità
DEL, 7FA	Elimina, elimina l'ultimo carattere.

Simboli sovrapposti

Il carattere BS (backspace) consente alla stampante di sovrascrivere un carattere. In ASCII era prevista l'aggiunta dei segni diacritici alle lettere in questo modo, ad esempio:

un BS "→ á
a BS `→ à
a BS ^ → â
o BS / → ø
c BS, → ç
n BS ~ → ñ

Nota: nei caratteri antichi, l'apostrofo "è stato disegnato con un'inclinazione a sinistra e la tilde ~ è stata spostata verso l'alto, in modo che si adattassero appena al ruolo dell'acuto e della tilde in alto.

Se lo stesso simbolo viene sovrapposto a un carattere, si ottiene l'effetto di un carattere in grassetto e se viene sovrapposto un carattere di sottolineatura, si ottiene il testo sottolineato.

a BS a → un
a BS _ → un

Nota: viene utilizzato, ad esempio, nel sistema di man help.

Varianti nazionali ASCII

Lo standard ISO 646 (ECMA-6) prevede la possibilità di inserire caratteri nazionali @ [ \ ] ^ ` { | } ~ ... Oltre a questo, a posto # può essere ospitato £ , e sul posto $ - ¤ ... Questo sistema è adatto per le lingue europee in cui sono necessari solo pochi caratteri in più. La versione ASCII senza caratteri nazionali è denominata US-ASCII o "International Reference Version".

Successivamente, si è rivelato più conveniente utilizzare le codifiche a 8 bit (code page), in cui la metà inferiore della tabella dei codici (0-127) è occupata da caratteri US-ASCII e la metà superiore (128-255) è occupato da caratteri aggiuntivi, compreso un insieme di caratteri nazionali. Pertanto, la metà superiore della tabella ASCII, prima della diffusa adozione di Unicode, veniva utilizzata attivamente per rappresentare caratteri localizzati, lettere della lingua locale. La mancanza di uno standard unificato per posizionare i caratteri cirillici nella tabella ASCII ha causato molti problemi con le codifiche (KOI-8, Windows-1251 e altri). Anche altre lingue con una scrittura non latina soffrivano della presenza di diverse codifiche.

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.UN	.B	.C	.D	.E	.F
0.	NUL	SOM	EOA	EOM	EQT	WRU	RU	CAMPANA	BKSP	Ht	LF	VT	FF	CR	COSÌ	SI
1.	CC 0	CC 1	CC 2	CC 3	CC 4	ERR	SINCRONIZZAZIONE	LEM	S 0	S 1	S 2	S 3	S 4	S 5	S 6	S 7
2.
3.
4.	VUOTO	!	"	#	$	%	&	"	(	)	*	+	,	-	.	/
5.	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
6.
7.
8.
9.
UN.	@	UN	B	C	D	E	F	G	h	io	J	K	l	m	n	oh
B.	P	Q	R	S	T	tu	V	W	X	sì	Z	[	\	]		←
C.
D.
e.		un	B	C	D	e	F	G	h	io	J	K	io	m	n	o
F.	P	Q	R	S	T	tu	v	w	X	sì	z				ESC	DEL

Su quei computer in cui l'unità di memoria minima indirizzabile era una parola a 36 bit, inizialmente venivano utilizzati caratteri a 6 bit (1 parola = 6 caratteri). Dopo il passaggio ad ASCII su tali computer, hanno iniziato a inserire 5 caratteri a sette bit in una parola (1 bit è rimasto superfluo) o 4 caratteri a nove bit.

I codici ASCII vengono utilizzati anche per identificare il tasto premuto durante la programmazione. Per una tastiera QWERTY standard, la tabella dei codici ha questo aspetto:

Unicode (in inglese Unicode) è uno standard di codifica dei caratteri. In poche parole, questa è una tabella di corrispondenza dei caratteri di testo (, lettere, elementi di punteggiatura) codici binari. Il computer comprende solo la sequenza di zero e uno. Per sapere cosa esattamente dovrebbe visualizzare sullo schermo, è necessario assegnare un numero univoco a ciascun personaggio. Negli anni ottanta i caratteri venivano codificati in un byte, cioè in otto bit (ogni bit è 0 o 1). Pertanto, si è scoperto che una tabella (anche nota come codifica o set) può contenere solo 256 caratteri. Questo potrebbe non essere sufficiente nemmeno per una lingua. Pertanto, sono apparse molte codifiche diverse, la confusione con la quale spesso ha portato al fatto che invece del testo leggibile, sullo schermo è apparso uno strano krakozyabry. Era richiesto un unico standard, che divenne Unicode. La codifica più utilizzata è UTF-8 (Unicode Transformation Format), che utilizza da 1 a 4 byte per visualizzare un carattere.

Simboli

I caratteri nelle tabelle Unicode sono numerati con numeri esadecimali. Ad esempio, la lettera maiuscola cirillica M è designata U + 041C. Ciò significa che si trova all'intersezione della riga 041 e della colonna C. Puoi semplicemente copiarlo e incollarlo da qualche parte. Per non rovistare in un elenco di più chilometri, dovresti usare la ricerca. Andando alla pagina dei simboli, vedrai il suo numero in Unicode e il modo in cui è disegnato in diversi caratteri. Puoi anche guidare il segno stesso nella barra di ricerca, anche se invece viene disegnato un quadrato, almeno per scoprire cosa fosse. Inoltre, su questo sito ci sono set speciali (e - casuali) dello stesso tipo di icone, raccolte da diverse sezioni, per facilità d'uso.

Lo standard Unicode è internazionale. Include segni di quasi tutti gli script del mondo. Compresi quelli che non vengono più utilizzati. Geroglifici egizi, rune germaniche, scrittura maya, cuneiformi e alfabeti degli antichi stati. Presentato e la designazione di misure e pesi, notazione musicale, concetti matematici.

Lo stesso Consorzio Unicode non inventa nuovi caratteri. Quelle icone che trovano la loro applicazione nella società vengono aggiunte alle tabelle. Ad esempio, il segno del rublo è stato utilizzato attivamente per sei anni prima di essere aggiunto a Unicode. Anche i pittogrammi Emoji (emoticon) sono stati ampiamente utilizzati per la prima volta in Giappone e prima di essere inclusi nella codifica. Ma i marchi e i loghi aziendali non vengono aggiunti in linea di principio. Anche comune come la mela di Apple o la bandiera di Windows. Oggi, nella versione 8.0, vengono codificati circa 120mila caratteri.

Un computer comprende il processo della sua trasformazione in una forma che consente di organizzare un trasferimento, un'archiviazione o un'elaborazione automatica più conveniente di questi dati. A tale scopo vengono utilizzate varie tabelle. La codifica ASCII è il primo sistema sviluppato negli Stati Uniti per lavorare con il testo in lingua inglese, che si è successivamente diffuso in tutto il mondo. L'articolo seguente è dedicato alla sua descrizione, caratteristiche, proprietà e ulteriore utilizzo.

Visualizzazione e memorizzazione di informazioni in un computer

I simboli sul monitor di un computer o uno o l'altro gadget digitale mobile sono formati sulla base di insiemi di forme vettoriali di tutti i tipi di segni e un codice che consente di trovare tra loro il simbolo che deve essere inserito nel posto giusto. È una serie di bit. Pertanto, ogni carattere deve corrispondere in modo univoco a un insieme di zeri e uno, che si trovano in un ordine specifico e univoco.

Come tutto cominciò

Storicamente, i primi computer erano in inglese. Per codificare in essi informazioni simboliche è stato sufficiente utilizzare solo 7 bit di memoria, mentre a questo scopo è stato allocato 1 byte, composto da 8 bit. Il numero di caratteri compresi dal computer in questo caso era pari a 128. Il numero di tali caratteri includeva l'alfabeto inglese con i suoi segni di punteggiatura, numeri e alcuni caratteri speciali. La codifica a sette bit in lingua inglese con la tabella corrispondente (code page), sviluppata nel 1963, è stata denominata American Standard Code for Information Interchange. Di solito l'abbreviazione "codifica ASCII" veniva usata per denotarlo ed è ancora usata fino ad oggi.

Transizione al multilinguismo

Nel corso del tempo, i computer sono diventati ampiamente utilizzati anche nei paesi non di lingua inglese. A questo proposito, c'era bisogno di codifiche che consentissero l'uso delle lingue nazionali. Si è deciso di non reinventare la ruota e di prendere come base l'ASCII. La tabella di codifica nella nuova edizione è stata ampliata in modo significativo. L'uso dell'ottavo bit ha permesso di tradurre 256 caratteri nel linguaggio del computer.

Descrizione

La codifica ASCII ha una tabella divisa in 2 parti. Solo la prima metà è considerata lo standard internazionale generalmente accettato. Include:

Caratteri con numeri ordinali da 0 a 31, codificati da sequenze da 00000000 a 00011111. Sono riservati ai caratteri di controllo che controllano il processo di visualizzazione del testo sullo schermo o stampante, dando un segnale acustico, ecc.
I caratteri con NN nella tabella da 32 a 127, codificati con sequenze da 0010000 a 01111111, costituiscono la parte standard della tabella. Questi includono uno spazio (N 32), lettere dell'alfabeto latino (minuscolo e maiuscolo), numeri di dieci cifre da 0 a 9, segni di punteggiatura, parentesi di diversi stili e altri simboli.
Caratteri con numeri ordinali da 128 a 255, codificati da sequenze da 10000000 a 11111111. Questi includono lettere di alfabeti nazionali diversi dal latino. È questa parte alternativa della tabella che viene utilizzata la codifica ASCII per convertire i caratteri russi in formato computer.

Alcune proprietà

Le peculiarità della codifica ASCII includono la differenza tra le lettere "A" - "Z" di minuscole e maiuscole di un solo bit. Questa circostanza semplifica notevolmente la conversione del registro, nonché la sua verifica dell'appartenenza all'intervallo di valori specificato. Inoltre, tutte le lettere nel sistema di codifica ASCII sono rappresentate dai propri numeri ordinali nell'alfabeto, che sono scritti in 5 cifre in notazione binaria, preceduti da 011 2 per le lettere minuscole e 010 2 per le maiuscole.

Tra le caratteristiche della codifica ASCII si può considerare la rappresentazione di 10 cifre - "0" - "9". Nel secondo sistema numerico, iniziano con 00112 e finiscono con 2 numeri. Ad esempio, 0101 2 è equivalente al quinto decimale, quindi il carattere "5" è scritto come 0011 01012. Sulla base di questo, puoi facilmente convertire i BCD in una stringa ASCII aggiungendo 00112 a ciascun nibble a sinistra.

"Unicode"

Come sai, sono necessari migliaia di caratteri per visualizzare testi nelle lingue del gruppo del sud-est asiatico. Un tale numero di essi non è in alcun modo descritto in un byte di informazioni, quindi anche le versioni ASCII estese non potrebbero più soddisfare le crescenti esigenze degli utenti di diversi paesi.

Pertanto, è sorta la necessità di creare una codifica di testo universale, sviluppata dal consorzio Unicode in collaborazione con molti leader del settore IT globale. I suoi specialisti hanno creato il sistema UTF 32. In esso sono stati assegnati 32 bit per la codifica di 1 carattere, che costituiscono 4 byte di informazioni. Lo svantaggio principale era un forte aumento della quantità di memoria richiesta fino a 4 volte, il che comportava molti problemi.

Allo stesso tempo, per la maggior parte dei paesi con lingue ufficiali appartenenti al gruppo indoeuropeo, il numero di caratteri pari a 2 32 è più che ridondante.

Come risultato di un ulteriore lavoro di specialisti del consorzio Unicode, è apparsa la codifica UTF-16. Divenne l'opzione per trasformare le informazioni simboliche che andava bene a tutti sia in termini di quantità di memoria richiesta che di numero di caratteri codificati. Ecco perché UTF-16 è stato accettato per impostazione predefinita e richiede la prenotazione di 2 byte per un carattere.

Anche questa versione piuttosto avanzata e di successo di "Unicode" presentava alcuni inconvenienti, e dopo il passaggio dalla versione estesa di ASCII a UTF-16 ha raddoppiato il peso del documento.

A tal proposito si è deciso di utilizzare la codifica a lunghezza variabile UTF-8. In questo caso, ogni carattere del testo sorgente è codificato con una sequenza da 1 a 6 byte.

Relazione con il codice standard americano per lo scambio di informazioni

Tutti i caratteri dell'alfabeto latino in UTF-8 di lunghezza variabile sono codificati in 1 byte, come nel sistema di codifica ASCII.

La particolarità di UTP-8 è che nel caso di un testo in latino senza l'utilizzo di altri caratteri, anche i programmi che non comprendono "Unicode" ti permetteranno comunque di leggerlo. In altre parole, la parte di base della codifica del testo ASCII viene semplicemente fusa nel nuovo UTF a lunghezza variabile. I caratteri cirillici in UTP-8 occupano 2 byte e, ad esempio, quelli georgiani - 3 byte. La creazione di UTF-16 e 8 ha risolto il problema principale della creazione di un unico spazio di codice nei caratteri. Da allora, i produttori di font possono riempire la tabella solo con forme vettoriali di caratteri di testo in base alle loro esigenze.

Codifiche diverse sono preferite su diversi sistemi operativi. Per poter leggere e modificare i testi digitati con una codifica diversa, vengono utilizzati programmi di conversione di testo russi. Alcuni editor di testo contengono transcodificatori incorporati e consentono di leggere il testo indipendentemente dalla codifica.

Ora sai quanti caratteri ci sono in ASCII e come e perché è stato sviluppato. Certo, oggi lo standard più diffuso al mondo è "Unicode". Tuttavia, non dobbiamo dimenticare che è stato creato sulla base di ASCII, quindi dovrebbe essere apprezzato il contributo dei suoi sviluppatori nel campo dell'IT.

Viene chiamato l'insieme di caratteri con cui viene scritto il testo alfabeto.

Il numero di caratteri dell'alfabeto è suo potenza.

Formula per determinare la quantità di informazioni: N = 2 b,

dove N è la cardinalità dell'alfabeto (numero di caratteri),

b - numero di bit (peso informativo del carattere).

L'alfabeto con una capacità di 256 caratteri può contenere quasi tutti i caratteri necessari. Questo alfabeto si chiama sufficiente.

Perché 256 = 2 8, quindi il peso di 1 carattere è 8 bit.

L'unità a 8 bit è stata nominata 1 byte:

1 byte = 8 bit.

Il codice binario di ogni carattere nel testo del computer occupa 1 byte di memoria.

Come vengono rappresentate le informazioni di testo nella memoria del computer?

La comodità della codifica dei caratteri in byte è ovvia, poiché un byte è la più piccola parte indirizzabile della memoria e, quindi, il processore può accedere a ciascun carattere separatamente, eseguendo l'elaborazione del testo. D'altra parte, 256 caratteri è un numero abbastanza sufficiente per rappresentare un'ampia varietà di informazioni sui caratteri.

Ora sorge la domanda, che tipo di codice binario a otto bit associare a ciascun carattere.

È chiaro che questa è una questione condizionale, puoi trovare molti metodi di codifica.

Tutti i caratteri dell'alfabeto del computer sono numerati da 0 a 255. Ogni numero corrisponde a un codice binario di otto cifre da 00000000 a 11111111. Questo codice è semplicemente il numero ordinale del carattere nel sistema binario.

La tabella in cui tutti i caratteri dell'alfabeto del computer sono assegnati ai numeri di serie è chiamata tabella di codifica.

Diverse tabelle di codifica vengono utilizzate per diversi tipi di computer.

Lo standard internazionale per il PC è diventato il tavolo ASCII(leggi asci) (Codice standard americano per lo scambio di informazioni).

La tabella ASCII è divisa in due parti.

Lo standard internazionale è solo la prima metà della tabella, ad es. simboli con numeri da 0 (00000000), fino a 127 (01111111).

Struttura della tabella di codifica ASCII

Numero di serie	Il codice	Simbolo
0 - 31	00000000 - 00011111	I simboli con numeri da 0 a 31 sono generalmente chiamati caratteri di controllo. La loro funzione è controllare il processo di visualizzazione del testo sullo schermo o la stampa, dare un segnale sonoro, contrassegnare il testo, ecc.
32 - 127	00100000 - 01111111	Parte standard della tabella (inglese). Ciò include lettere minuscole e maiuscole dell'alfabeto latino, cifre decimali, segni di punteggiatura, tutti i tipi di parentesi, simboli commerciali e di altro tipo. Il carattere 32 è uno spazio, ad es. posizione vuota nel testo. Tutti gli altri si riflettono in certi segni.
128 - 255	10000000 - 11111111	Parte alternativa del tavolo (russo). La seconda metà della tabella dei codici ASCII, chiamata code page (128 codici, che iniziano da 10000000 e terminano con 11111111), può avere diverse varianti, ogni variante ha il proprio numero. La tabella codici viene utilizzata principalmente per ospitare alfabeti nazionali diversi dal latino. Nelle codifiche nazionali russe, questa parte della tabella contiene i simboli dell'alfabeto russo.

La prima metà della tabella ASCII

Attiro la tua attenzione sul fatto che nella tabella di codifica, le lettere (maiuscole e minuscole) sono disposte in ordine alfabetico e i numeri sono ordinati in ordine crescente di valori. Questa osservanza dell'ordine lessicografico nella disposizione dei caratteri è chiamata il principio della codifica sequenziale dell'alfabeto.

Per le lettere dell'alfabeto russo si osserva anche il principio della codifica sequenziale.

La seconda metà della tabella ASCII

Sfortunatamente, ci sono attualmente cinque diverse codifiche cirilliche (KOI8-R, Windows. MS-DOS, Macintosh e ISO). Per questo motivo, spesso sorgono problemi con il trasferimento di testo russo da un computer a un altro, da un sistema software a un altro.

Cronologicamente, uno dei primi standard per la codifica delle lettere russe sui computer era KOI8 ("Codice di scambio di informazioni, 8 bit"). Questa codifica è stata utilizzata negli anni '70 sui computer della serie di computer ES e dalla metà degli anni '80 ha iniziato a essere utilizzata nelle prime versioni russificate del sistema operativo UNIX.

Dall'inizio degli anni '90, epoca del predominio del sistema operativo MS DOS, rimane la codifica CP866 ("CP" sta per "Code Page").

I computer Apple che eseguono Mac OS utilizzano la propria codifica Mac.

Inoltre, l'Organizzazione internazionale per la standardizzazione (International Standards Organization, ISO) ha approvato un'altra codifica chiamata ISO 8859-5 come standard per la lingua russa.

Attualmente, la codifica più comune è Microsoft Windows, abbreviata in CP1251.

Dalla fine degli anni '90, il problema della standardizzazione della codifica dei caratteri è stato risolto con l'introduzione di un nuovo standard internazionale chiamato Unicode... Questa è una codifica a 16 bit, ad es. alloca 2 byte di memoria per ogni carattere. Ovviamente, questo raddoppia la quantità di memoria utilizzata. Ma d'altra parte, una tale tabella di codici consente l'inclusione di un massimo di 65536 caratteri. La specifica completa dello standard Unicode include tutti gli alfabeti esistenti, estinti e creati artificialmente del mondo, nonché molti simboli matematici, musicali, chimici e di altro tipo.

Proviamo a usare una tabella ASCII per immaginare come appariranno le parole nella memoria del computer.

Rappresentazione interna delle parole nella memoria del computer

A volte capita che un testo composto da lettere dell'alfabeto russo, ricevuto da un altro computer, non possa essere letto - una sorta di "senza senso" è visibile sullo schermo del monitor. Ciò è dovuto al fatto che i computer utilizzano una codifica diversa dei caratteri della lingua russa.

Principali articoli correlati

Diversi movimenti del mouse in verticale e in orizzontale

Come comprimere le trame in fallout 4

Resta solo da capire il livello richiesto

Categorie:

Codici di caratteri decimali ascii c. Codifica delle informazioni di testo

Tabella dei codici dei caratteri ASCII di Windows. Descrizione di caratteri speciali (di controllo)

Simboli sovrapposti

Varianti nazionali ASCII

Simboli

Visualizzazione e memorizzazione di informazioni in un computer

Come tutto cominciò

Transizione al multilinguismo

Descrizione

Alcune proprietà

"Unicode"

Relazione con il codice standard americano per lo scambio di informazioni

Come vengono rappresentate le informazioni di testo nella memoria del computer?

Ora sorge la domanda, che tipo di codice binario a otto bit associare a ciascun carattere.

La tabella in cui tutti i caratteri dell'alfabeto del computer sono assegnati ai numeri di serie è chiamata tabella di codifica.

Struttura della tabella di codifica ASCII

Numero di serie

Il codice

Simbolo

0 - 31

00000000 - 00011111

32 - 127

00100000 - 01111111

128 - 255

10000000 - 11111111