Codici caratteri latini. Codifica ASCII (codice standard americano per lo scambio di informazioni) - codifica del testo di base per il latino

05.09.2019 Interessante

dicembre	Esadecimale	Simbolo	dicembre	Esadecimale	Simbolo
000	00	specialista. NO	128	80	Ђ
001	01	specialista. SOH	129	81	Ѓ
002	02	specialista. STX	130	82	‚
003	03	specialista. ETX	131	83	ѓ
004	04	specialista. EOT	132	84	„
005	05	specialista. ENQ	133	85	…
006	06	specialista. ACK	134	86	†
007	07	specialista. BEL	135	87	‡
008	08	specialista. BS	136	88	€
009	09	specialista. TAB	137	89	‰
010	0A	specialista. LF	138	8A	Љ
011	0B	specialista. VT	139	8B	‹ ‹
012	0C	specialista. FF	140	8C	Њ
013	0D	specialista. CR	141	8D	Ќ
014	0E	specialista. COSÌ	142	8E	Ћ
015	0F	specialista. SI	143	8F	Џ
016	10	specialista. DLE	144	90	ђ
017	11	specialista. DC1	145	91	‘
018	12	specialista. DC2	146	92	’
019	13	specialista. DC3	147	93	“
020	14	specialista. DC4	148	94	”
021	15	specialista. NAK	149	95
022	16	specialista. SYN	150	96	–
023	17	specialista. ETB	151	97	—
024	18	specialista. POTERE	152	98
025	19	specialista. EM	153	99	™
026	1A	specialista. SUB	154	9A	љ
027	1B	specialista. ESC	155	9B	›
028	1C	specialista. FS	156	9C	њ
029	1D	specialista. GS	157	9D	ќ
030	1E	specialista. Rs	158	9E	ћ
031	1F	specialista. noi	159	9F	џ
032	20	frizione SP (spazio)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	la2	ў
035	23	#	163	LA3	Ћ
036	24	$	164	A4	¤
037	25	%	165	la5	Ґ
038	26	&	166	LA6	¦
039	27	"	167	la7	§
040	28	(	168	la8	si
041	29	)	169	la9	©
042	2A	*	170	aa	Є
043	2B	+	171	AB	«
044	2C	,	172	AC	¬
045	2D	-	173	ANNO DOMINI
046	2E	.	174	AE	®
047	2F	/	175	AF	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	BA	є
059	3B	;	187	BB	»
060	3C	<	188	AVANTI CRISTO	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	ESSERE	ѕ
063	3F	?	191	bf	ї
064	40	@	192	C0	UN
065	41	UN	193	do1	B
066	42	B	194	do2	V
067	43	C	195	do3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	F
071	47	G	199	do7	Z
072	48	h	200	do8	E
073	49	io	201	C9	questo
074	4A	J	202	circa	A
075	4B	K	203	CB	l
076	4C	l	204	CC	m
077	4D	m	205	cd	n
078	4E	n	206	CE	oh
079	4F	oh	207	CF	P
080	50	P	208	D0	R
081	51	Q	209	D1	CON
082	52	R	210	re2	T
083	53	S	211	RE3	Ho
084	54	T	212	re4	F
085	55	tu	213	D5	X
086	56	V	214	D6	C
087	57	W	215	RE7	h
088	58	X	216	D8	SH
089	59	sì	217	D9	SCH
090	5A	Z	218	DA	B
091	5B	[	219	DB	S
092	5C	\	220	DC	B
093	5 D	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	DF	IO SONO
096	60	`	224	E0	un
097	61	un	225	mi1	B
098	62	B	226	E2	v
099	63	C	227	E3	G
100	64	D	228	mi4	D
101	65	e	229	E5	e
102	66	F	230	E6	F
103	67	G	231	E7	S
104	68	h	232	E8	e
105	69	io	233	E9	questo
106	6A	J	234	EA	a
107	6B	K	235	EB	io
108	6C	io	236	EC	m
109	6D	m	237	ED	n
110	6E	n	238	EE	oh
111	6F	o	239	EF	P
112	70	P	240	F0	R
113	71	Q	241	F1	Con
114	72	R	242	F2	T
115	73	S	243	F3	in
116	74	T	244	F4	F
117	75	tu	245	F5	X
118	76	v	246	F6	C
119	77	w	247	F7	h
120	78	X	248	F8	w
121	79	sì	249	F9	SCH
122	7A	z	250	fa	B
123	7B	{	251	FB	S
124	7C	\|	252	FC	B
125	7D	}	253	FD	eh
126	7E	~	254	FE	Yu
127	7F	Specialista. DEL	255	FF	io sono

Tabella dei codici dei caratteri ASCII di Windows.
Descrizione di caratteri speciali (di controllo)

È da notare che inizialmente i caratteri di controllo della tabella ASCII venivano utilizzati per fornire lo scambio di dati tramite telescrivente, l'immissione di dati da nastro perforato e per il più semplice controllo di dispositivi esterni.
Attualmente, la maggior parte dei caratteri di controllo ASCII nella tabella non comporta più questo onere e può essere utilizzata per altri scopi.

Il codice	Descrizione
NUL, 00	nullo, vuoto
SOH, 01	Inizio dell'intestazione, inizio dell'intestazione
STX, 02	Inizio di TeXt, l'inizio del testo.
ETX, 03	Fine del testo, fine del testo
EOT, 04	Fine della trasmissione, fine della trasmissione
ENQ, 05	Chiedere informazioni. chiedo conferma
ACK, 06	Riconoscimento. confermo
BEL, 07	campana, campana
BS, 08	Backspace, torna indietro di un carattere
SCHEDA, 09	Scheda, scheda orizzontale
LF, 0A	Avanzamento riga, avanzamento riga. Ora nella maggior parte dei linguaggi di programmazione è indicato come \ n
VT, 0B	Scheda verticale, scheda verticale.
FF, 0C	Avanzamento modulo, avanzamento pagina, nuova pagina
CR, 0D	Ritorno a capo Ora nella maggior parte dei linguaggi di programmazione è indicato come \ r
SO, 0E	Shift Out, cambia il colore del nastro di inchiostro nel dispositivo di stampa
SI, 0F	Shift In, restituisce il colore del nastro di inchiostro nel dispositivo di stampa
DLE, 10	Data Link Escape, cambia canale in trasmissione dati
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Controllo del dispositivo, simboli di controllo del dispositivo
NAK, 15	Riconoscimento negativo, non riconosco.
SIN, 16	Sincronizzazione. Simbolo di sincronizzazione
ETB, 17	Fine del blocco di testo, fine del blocco di testo
PU, 18	Annulla, annullando uno precedentemente superato
EM, 19	Fine del mezzo, fine del supporto dati
SUB, 1A	Sostituire Posto al posto di un carattere il cui valore è stato perso o corrotto durante la trasmissione
ESC, 1B	Fuga sequenza di fuga
FA, 1C	Separatore di file, separatore di file
GS, 1D	Separatore di gruppi, separatore di gruppi
RS, 1E	Separatore di record, separatore di record
USA, 1F	Separatore di unità, separatore di unità
DEL, 7FA	Elimina, elimina l'ultimo carattere.

Un computer comprende il processo della sua trasformazione in una forma che consente di organizzare un trasferimento, un'archiviazione o un'elaborazione automatica più conveniente di questi dati. A tale scopo vengono utilizzate varie tabelle. La codifica ASCII è il primo sistema sviluppato negli Stati Uniti per lavorare con il testo in lingua inglese, che si è successivamente diffuso in tutto il mondo. L'articolo seguente è dedicato alla sua descrizione, caratteristiche, proprietà e ulteriore utilizzo.

Visualizzazione e memorizzazione di informazioni in un computer

I simboli sul monitor di un computer o uno o l'altro gadget digitale mobile sono formati sulla base di insiemi di forme vettoriali di tutti i tipi di segni e un codice che consente di trovare tra loro il simbolo che deve essere inserito nel posto giusto. È una serie di bit. Pertanto, ogni carattere deve corrispondere in modo univoco a un insieme di zeri e uno, che si trovano in un ordine specifico e univoco.

Come tutto cominciò

Storicamente, i primi computer erano in inglese. Per codificare in essi informazioni simboliche è stato sufficiente utilizzare solo 7 bit di memoria, mentre a questo scopo è stato allocato 1 byte, composto da 8 bit. Il numero di caratteri compresi dal computer in questo caso era pari a 128. Il numero di tali caratteri includeva l'alfabeto inglese con i suoi segni di punteggiatura, numeri e alcuni caratteri speciali. La codifica a sette bit in lingua inglese con la tabella corrispondente (code page), sviluppata nel 1963, è stata denominata American Standard Code for Information Interchange. Di solito l'abbreviazione "codifica ASCII" veniva usata per denotarlo ed è ancora usata fino ad oggi.

Transizione al multilinguismo

Nel corso del tempo, i computer sono diventati ampiamente utilizzati anche nei paesi non di lingua inglese. A questo proposito, c'era bisogno di codifiche che consentissero l'uso delle lingue nazionali. Si è deciso di non reinventare la ruota e di prendere come base l'ASCII. La tabella di codifica nella nuova edizione è stata ampliata in modo significativo. L'uso dell'ottavo bit ha permesso di tradurre 256 caratteri nel linguaggio del computer.

Descrizione

La codifica ASCII ha una tabella divisa in 2 parti. Solo la prima metà è considerata lo standard internazionale generalmente accettato. Include:

Caratteri con numeri ordinali da 0 a 31, codificati da sequenze da 00000000 a 00011111. Sono riservati ai caratteri di controllo che controllano il processo di visualizzazione del testo sullo schermo o stampante, dando un segnale acustico, ecc.
I caratteri con NN nella tabella da 32 a 127, codificati con sequenze da 0010000 a 01111111, costituiscono la parte standard della tabella. Questi includono uno spazio (N 32), lettere dell'alfabeto latino (minuscolo e maiuscolo), numeri di dieci cifre da 0 a 9, segni di punteggiatura, parentesi di diversi stili e altri simboli.
Caratteri con numeri ordinali da 128 a 255, codificati da sequenze da 10000000 a 11111111. Questi includono lettere di alfabeti nazionali diversi dal latino. È questa parte alternativa della tabella che viene utilizzata la codifica ASCII per convertire i caratteri russi in formato computer.

Alcune proprietà

Le peculiarità della codifica ASCII includono la differenza tra le lettere "A" - "Z" di minuscole e maiuscole di un solo bit. Questa circostanza semplifica notevolmente la conversione del registro, nonché la sua verifica dell'appartenenza all'intervallo di valori specificato. Inoltre, tutte le lettere nel sistema di codifica ASCII sono rappresentate dai propri numeri ordinali nell'alfabeto, che sono scritti in 5 cifre in notazione binaria, preceduti da 011 2 per le lettere minuscole e 010 2 per le maiuscole.

Tra le caratteristiche della codifica ASCII si può considerare la rappresentazione di 10 cifre - "0" - "9". Nel secondo sistema numerico, iniziano con 00112 e finiscono con 2 numeri. Ad esempio, 0101 2 è equivalente al cinque decimale, quindi il carattere "5" è scritto come 0011 01012. Sulla base di questo, puoi facilmente convertire i BCD in una stringa ASCII aggiungendo 00112 a ciascun nibble a sinistra.

"Unicode"

Come sai, sono necessari migliaia di caratteri per visualizzare testi nelle lingue del gruppo del sud-est asiatico. Un tale numero di essi non può essere descritto in un byte di informazioni, quindi anche le versioni ASCII estese non potrebbero più soddisfare le crescenti esigenze degli utenti di diversi paesi.

Pertanto, è sorta la necessità di creare una codifica di testo universale, il cui sviluppo, in collaborazione con molti leader dell'industria IT globale, è stato intrapreso dal consorzio Unicode. I suoi specialisti hanno creato il sistema UTF 32. In esso sono stati assegnati 32 bit per la codifica di 1 carattere, che costituiscono 4 byte di informazioni. Lo svantaggio principale era un forte aumento della quantità di memoria richiesta fino a 4 volte, il che comportava molti problemi.

Allo stesso tempo, per la maggior parte dei paesi con lingue ufficiali appartenenti al gruppo indoeuropeo, il numero di caratteri pari a 2 32 è più che ridondante.

Come risultato di un ulteriore lavoro di specialisti del consorzio Unicode, è apparsa la codifica UTF-16. Divenne l'opzione per trasformare le informazioni simboliche, adatta a tutti sia in termini di quantità di memoria richiesta che di numero di simboli codificati. Ecco perché UTF-16 è stato accettato per impostazione predefinita e richiede la prenotazione di 2 byte per un carattere.

Anche questa versione piuttosto avanzata e di successo di "Unicode" presentava alcuni inconvenienti, e dopo il passaggio dalla versione estesa di ASCII a UTF-16, ha raddoppiato il peso del documento.

A tal proposito si è deciso di utilizzare la codifica a lunghezza variabile UTF-8. In questo caso, ogni carattere del testo sorgente è codificato con una sequenza da 1 a 6 byte.

Relazione con il codice standard americano per lo scambio di informazioni

Tutti i caratteri dell'alfabeto latino in UTF-8 di lunghezza variabile sono codificati in 1 byte, come nel sistema di codifica ASCII.

La particolarità di UTP-8 è che nel caso di un testo in latino senza l'utilizzo di altri caratteri, anche i programmi che non comprendono Unicode ti permetteranno comunque di leggerlo. In altre parole, la parte di base della codifica del testo ASCII viene semplicemente fusa nel nuovo UTF a lunghezza variabile. I caratteri cirillici in UTP-8 occupano 2 byte e, ad esempio, quelli georgiani - 3 byte. La creazione di UTF-16 e 8 ha risolto il problema principale della creazione di un unico spazio di codice nei caratteri. Da allora, i produttori di font possono riempire la tabella solo con forme vettoriali di caratteri di testo in base alle loro esigenze.

Codifiche diverse sono preferite su diversi sistemi operativi. Per poter leggere e modificare i testi digitati con una codifica diversa, vengono utilizzati programmi di conversione di testo russi. Alcuni editor di testo contengono transcodificatori incorporati e consentono di leggere il testo indipendentemente dalla codifica.

Ora sai quanti caratteri ci sono in ASCII e come e perché è stato sviluppato. Certo, oggi lo standard più diffuso al mondo è "Unicode". Tuttavia, non dobbiamo dimenticare che è stato creato sulla base di ASCII, quindi dovrebbe essere apprezzato il contributo dei suoi sviluppatori nel campo dell'IT.

Come sai, un computer memorizza le informazioni in forma binaria, rappresentandole come una sequenza di uno e zero. Per tradurre le informazioni in una forma conveniente per la percezione umana, ogni sequenza univoca di numeri viene sostituita con il simbolo corrispondente quando viene visualizzata.

Uno dei sistemi per correlare codici binari con caratteri stampabili e di controllo è

All'attuale livello di sviluppo della tecnologia informatica, l'utente non è tenuto a conoscere il codice di ogni simbolo specifico. Tuttavia, una comprensione generale di come viene eseguita la codifica è estremamente utile e per alcune categorie di specialisti persino necessaria.

Creazione ASCII

Nella sua forma originale, la codifica è stata sviluppata nel 1963 e poi aggiornata due volte entro 25 anni.

Nella versione originale, la tabella dei caratteri ASCII includeva 128 caratteri, successivamente è apparsa una versione estesa, in cui sono stati salvati i primi 128 caratteri e i caratteri precedentemente assenti sono stati assegnati a codici con l'ottavo bit coinvolto.

Per molti anni, questa codifica è stata la più popolare al mondo. Nel 2006, Latin 1252 ha preso la posizione di leader e, dalla fine del 2007 ad oggi, Unicode ha mantenuto saldamente la posizione di leader.

Rappresentazione computerizzata ASCII

Ogni carattere ASCII ha il proprio codice di 8 caratteri che rappresentano zero o uno. Il numero minimo in tale rappresentazione è zero (otto zeri nel sistema binario), che è il codice del primo elemento della tabella.

Due codici nella tabella sono stati riservati per il passaggio dallo standard US-ASCII alla sua versione nazionale.

Dopo che l'ASCII ha iniziato a includere non 128, ma 256 caratteri, si è diffusa una variante della codifica, in cui la versione originale della tabella è stata salvata nei primi 128 codici con un ottavo bit zero. I segni della scrittura nazionale sono stati mantenuti nella metà superiore della tabella (posizioni 128-255).

L'utente non ha bisogno di conoscere direttamente i codici dei caratteri ASCII. Di solito è sufficiente che uno sviluppatore di software conosca il numero di un elemento in una tabella per calcolarne il codice utilizzando un sistema binario, se necessario.

lingua russa

Dopo lo sviluppo delle codifiche per le lingue scandinave, cinese, coreana, greca, ecc. nei primi anni '70, anche l'Unione Sovietica iniziò a creare la propria versione. Presto fu sviluppata una versione della codifica a 8 bit chiamata KOI8, che conserva i primi 128 codici di caratteri ASCII e assegna lo stesso numero di posizioni per le lettere dell'alfabeto nazionale e caratteri aggiuntivi.

Prima dell'introduzione di Unicode, KOI8 dominava il segmento russo di Internet. C'erano opzioni di codifica per entrambi gli alfabeti russo e ucraino.

Problemi ASCII

Poiché il numero di elementi anche nella tabella estesa non superava i 256, non c'era la possibilità di ospitare diversi script diversi in un'unica codifica. Negli anni '90, il problema di "crocozyabr" è apparso in Runet, quando i testi digitati in caratteri ASCII russi venivano visualizzati in modo errato.

Il problema era che i codici delle diverse varianti ASCII non corrispondevano tra loro. Ricorda che le posizioni 128-255 potrebbero contenere caratteri diversi e quando si cambia una codifica cirillica in un'altra, tutte le lettere del testo sono state sostituite con altre aventi un numero identico in un'altra versione della codifica.

Stato attuale

Con l'avvento di Unicode, la popolarità di ASCII è diminuita drasticamente.

La ragione di ciò risiede nel fatto che la nuova codifica ha permesso di accogliere i segni di quasi tutte le lingue scritte. In questo caso, i primi 128 caratteri ASCII corrispondono agli stessi caratteri in Unicode.

Nel 2000, ASCII era la codifica più popolare su Internet ed era utilizzata nel 60% delle pagine web indicizzate da Google. Nel 2012, la quota di tali pagine era scesa al 17% e Unicode (UTF-8) ha preso il posto della codifica più popolare.

Pertanto, l'ASCII è una parte importante della storia della tecnologia dell'informazione, ma il suo utilizzo in futuro è visto come poco promettente.

Secondo l'Unione internazionale delle telecomunicazioni, nel 2016 tre miliardi e mezzo di persone hanno utilizzato Internet con regolarità variabile. La maggior parte di loro non pensa nemmeno al fatto che tutti i messaggi inviati da loro tramite PC o gadget mobili, così come i testi visualizzati su tutti i tipi di monitor, sono in realtà combinazioni di 0 e 1. Questa presentazione di informazioni è chiamata codifica . Fornisce e facilita notevolmente la sua memorizzazione, elaborazione e trasmissione. Nel 1963 fu sviluppata la codifica ASCII americana, a cui questo articolo è dedicato.

Presentazione di informazioni in un computer

Dal punto di vista di qualsiasi computer elettronico, il testo è una raccolta di singoli caratteri. Questi includono non solo lettere, comprese le lettere maiuscole, ma anche segni di punteggiatura e numeri. Inoltre, vengono utilizzati i caratteri speciali "=", "&", "(" e spazi).

L'insieme dei simboli che compongono il testo è chiamato alfabeto e il loro numero è chiamato cardinalità (indicato come N). Per definirlo, viene utilizzata l'espressione N = 2 ^ b, dove b è il numero di bit o il peso informativo di un particolare carattere.

È stato dimostrato che un alfabeto con una capacità di 256 caratteri può rappresentare tutti i caratteri necessari.

Poiché 256 è l'ottava potenza di due, il peso di ciascun carattere è di 8 bit.

L'unità di misura di 8 bit è chiamata 1 byte, quindi è consuetudine dire che qualsiasi carattere in un testo memorizzato su un computer occupa un byte di memoria.

Come viene eseguita la codifica?

Eventuali testi vengono inseriti nella memoria di un personal computer mediante i tasti della tastiera sui quali sono scritti numeri, lettere, segni di punteggiatura e altri simboli. Vengono trasferiti alla RAM in un codice binario, ovvero ogni carattere è associato a un codice decimale familiare all'uomo, da 0 a 255, che corrisponde a un codice binario - da 00000000 a 11111111.

La codifica dei caratteri in byte consente all'elaboratore di testi di accedere a ciascun carattere separatamente. Allo stesso tempo, 256 caratteri sono sufficienti per rappresentare qualsiasi informazione sui caratteri.

Codifica dei caratteri ASCII

Questa abbreviazione in inglese sta per codice per lo scambio di informazioni.

Anche agli albori dell'informatizzazione, è diventato ovvio che è possibile trovare un'ampia varietà di modi per codificare le informazioni. Tuttavia, per trasferire informazioni da un computer a un altro, era necessario sviluppare un unico standard. Così, nel 1963, negli Stati Uniti apparve una tabella di codifica ASCII. In esso, qualsiasi simbolo dell'alfabeto del computer è associato al suo numero ordinale in rappresentazione binaria. Inizialmente, ASCII era utilizzato solo negli Stati Uniti e in seguito divenne lo standard internazionale per i PC.

I codici ASCII sono divisi in 2 parti. Solo la prima metà di questa tabella è considerata uno standard internazionale. Include caratteri con numeri ordinali da 0 (codificato come 00000000) a 127 (codice 01111111).

Numero di serie	Codifica del testo ASCII	Simbolo
	0000 0000 - 0001 1111	I caratteri con N da 0 a 31 sono chiamati caratteri di controllo. La loro funzione è quella di "guidare" il processo di visualizzazione del testo su un monitor o dispositivo di stampa, dando un segnale sonoro, ecc.
	0010 0000 - 0111 1111	Caratteri con N da 32 a 127 (parte standard della tabella) - lettere maiuscole e minuscole dell'alfabeto latino, numeri a 10 cifre, segni di punteggiatura, nonché varie parentesi, simboli commerciali e di altro tipo. Il carattere 32 denota uno spazio.
	1000 0000 - 1111 1111	I caratteri con N da 128 a 255 (parte alternativa della tabella o della tabella codici) possono avere diverse varianti, ognuna delle quali ha un proprio numero. La tabella codici viene utilizzata per specificare alfabeti nazionali diversi dal latino. In particolare, è con il suo aiuto che viene eseguita la codifica ASCII per i caratteri russi.

Nella tabella di codifica, lettere maiuscole e una dopo l'altra in ordine alfabetico e numeri, in ordine crescente di valori. Questo principio si applica anche all'alfabeto russo.

Personaggi di controllo

La tabella di codifica ASCII è stata originariamente creata per ricevere e trasmettere informazioni su un dispositivo del genere che non è stato utilizzato per molto tempo, come una telescrivente. A tal proposito, nel set di caratteri sono stati inseriti dei caratteri non stampabili, utilizzati come comandi per controllare questo dispositivo. Comandi simili sono stati utilizzati in tali metodi di messaggistica pre-computer come il codice Morse, ecc.

Il carattere "telescrivente" più comune è NUL (00, "zero"). È ancora utilizzato nella maggior parte dei linguaggi di programmazione fino ad oggi, indicando un terminatore di riga.

Dove viene utilizzata la codifica ASCII?

Il codice standard degli Stati Uniti è necessario per qualcosa di più della semplice immissione di informazioni di testo dalla tastiera. Viene utilizzato anche in grafica. Nello specifico, in ASCII Art Maker, le immagini di diverse estensioni rappresentano uno spettro di caratteri ASCII.

Tali prodotti sono di due tipi: svolgono la funzione di editor grafici convertendo le immagini in testo e convertendo le "immagini" in grafica ASCII. Ad esempio, la famosa emoticon è un ottimo esempio di carattere di codifica.

ASCII può essere utilizzato anche durante la creazione di un documento HTML. In questo caso, puoi inserire un determinato set di caratteri e, durante la visualizzazione della pagina, sullo schermo apparirà un carattere che corrisponde a questo codice.

L'ASCII è necessario anche per la creazione di siti multilingue, poiché i caratteri che non sono inclusi in una specifica tabella nazionale sono sostituiti da codici ASCII.

Alcune caratteristiche

Per codificare le informazioni di testo nella codifica ASCII, originariamente venivano utilizzati 7 bit (uno è stato lasciato vuoto), ma oggi funziona come 8 bit.

Le lettere nelle colonne superiore e inferiore differiscono l'una dall'altra per un solo bit. Ciò riduce notevolmente la complessità del controllo.

Utilizzo di ASCII in Microsoft Office

Se necessario, questo tipo di codifica del testo può essere utilizzato negli editor di testo Microsoft come Blocco note e Office Word. Tuttavia, durante la digitazione in questo caso, non sarà possibile utilizzare alcune funzioni. Ad esempio, non sarai in grado di mettere in grassetto, perché ASCII conserva solo il significato delle informazioni, ignorandone l'aspetto e la forma generali.

Standardizzazione

L'organizzazione ISO ha adottato gli standard ISO 8859. Questo gruppo definisce codifiche a otto bit per diversi gruppi linguistici. Nello specifico, ISO 8859-1 è Extended ASCII, ovvero una tabella per gli Stati Uniti e l'Europa occidentale. E ISO 8859-5 è una tabella utilizzata per l'alfabeto cirillico, inclusa la lingua russa.

Per una serie di ragioni storiche, lo standard ISO 8859-5 è in uso da pochissimo tempo.

Per la lingua russa, al momento, vengono effettivamente utilizzate le codifiche:

CP866 (Codice Pagina 866) o DOS, che viene spesso definita codifica GOST alternativa. È stato utilizzato attivamente fino alla metà degli anni '90 del secolo scorso. Al momento, praticamente non viene utilizzato.
KOI-8. La codifica è stata sviluppata negli anni '70-'80 e al momento è uno standard generalmente accettato per i messaggi di posta su Runet. È ampiamente utilizzato nei sistemi operativi della famiglia Unix, incluso Linux. La versione "russa" di KOI-8 si chiama KOI-8R. Inoltre, esistono versioni per altre lingue cirilliche, come l'ucraino.
Codice pagina 1251 (CP 1251, Windows - 1251). Sviluppato da Microsoft per fornire supporto per la lingua russa in ambiente Windows.

Il vantaggio principale del primo standard CP866 era la conservazione dei caratteri pseudografici nelle stesse posizioni dell'ASCII esteso. Ciò ha permesso di eseguire senza modifiche programmi di testo di origine straniera, come il noto Norton Commander. Al momento, CP866 viene utilizzato per programmi sviluppati sotto Windows che funzionano in modalità testo a schermo intero o in finestre di testo, incluso FAR Manager.

I testi per computer scritti con la codifica CP866 sono piuttosto rari ultimamente, ma è proprio questa codifica che viene utilizzata per i nomi di file russi in Windows.

"Unicode"

Al momento, è questa codifica che ha ricevuto l'uso più diffuso. I codici Unicode sono suddivisi in aree. Il primo (da U + 0000 a U + 007F) include caratteri ASCII con codici. Seguono le aree dei segni di varie scritture nazionali, nonché i segni di punteggiatura e i simboli tecnici. Inoltre, alcuni dei codici "Unicode" sono riservati nel caso in cui sia necessario includere nuovi caratteri in futuro.

Ora sai che in ASCII ogni carattere è rappresentato come una combinazione di 8 zeri e uno. Ai non addetti ai lavori queste informazioni possono sembrare inutili e poco interessanti, ma non vuoi sapere cosa sta succedendo “nel cervello” del tuo PC?!

Viene chiamato l'insieme di caratteri con cui viene scritto il testo alfabeto.

Il numero di caratteri dell'alfabeto è suo potenza.

Formula per determinare la quantità di informazioni: N = 2 b,

dove N è la cardinalità dell'alfabeto (numero di caratteri),

b - numero di bit (peso informativo del carattere).

L'alfabeto con una capacità di 256 caratteri può contenere quasi tutti i caratteri necessari. Questo alfabeto si chiama sufficiente.

Perché 256 = 2 8, quindi il peso di 1 carattere è 8 bit.

L'unità a 8 bit è stata nominata 1 byte:

1 byte = 8 bit.

Il codice binario di ogni carattere nel testo del computer occupa 1 byte di memoria.

Come vengono rappresentate le informazioni di testo nella memoria del computer?

La comodità della codifica dei caratteri in byte è ovvia, poiché un byte è la più piccola parte indirizzabile della memoria e, quindi, il processore può accedere a ciascun carattere separatamente, eseguendo l'elaborazione del testo. D'altra parte, 256 caratteri è un numero abbastanza sufficiente per rappresentare un'ampia varietà di informazioni sui caratteri.

Ora sorge la domanda, che tipo di codice binario a otto bit associare a ciascun carattere.

È chiaro che questa è una questione condizionale, puoi trovare molti metodi di codifica.

Tutti i caratteri dell'alfabeto del computer sono numerati da 0 a 255. Ogni numero corrisponde a un codice binario di otto cifre da 00000000 a 11111111. Questo codice è semplicemente il numero ordinale del carattere nel sistema binario.

La tabella in cui tutti i caratteri dell'alfabeto del computer sono assegnati ai numeri di serie è chiamata tabella di codifica.

Diverse tabelle di codifica vengono utilizzate per diversi tipi di computer.

Lo standard internazionale per il PC è diventato il tavolo ASCII(leggi asci) (Codice standard americano per lo scambio di informazioni).

La tabella ASCII è divisa in due parti.

Lo standard internazionale è solo la prima metà della tabella, ad es. simboli con numeri da 0 (00000000), fino a 127 (01111111).

Struttura della tabella di codifica ASCII

Numero di serie	Il codice	Simbolo
0 - 31	00000000 - 00011111	I simboli con numeri da 0 a 31 sono generalmente chiamati caratteri di controllo. La loro funzione è controllare il processo di visualizzazione del testo sullo schermo o la stampa, dare un segnale sonoro, contrassegnare il testo, ecc.
32 - 127	00100000 - 01111111	Parte standard della tabella (inglese). Ciò include lettere minuscole e maiuscole dell'alfabeto latino, cifre decimali, segni di punteggiatura, tutti i tipi di parentesi, simboli commerciali e di altro tipo. Il carattere 32 è uno spazio, ad es. posizione vuota nel testo. Tutti gli altri si riflettono in certi segni.
128 - 255	10000000 - 11111111	Parte alternativa del tavolo (russo). La seconda metà della tabella dei codici ASCII, chiamata code page (128 codici, che iniziano da 10000000 e terminano con 11111111), può avere diverse varianti, ogni variante ha il proprio numero. La tabella codici viene utilizzata principalmente per ospitare alfabeti nazionali diversi dal latino. Nelle codifiche nazionali russe, questa parte della tabella contiene i simboli dell'alfabeto russo.

La prima metà della tabella ASCII

Attiro la tua attenzione sul fatto che nella tabella di codifica, le lettere (maiuscole e minuscole) sono disposte in ordine alfabetico e i numeri sono ordinati in ordine crescente di valori. Questa osservanza dell'ordine lessicografico nella disposizione dei caratteri è chiamata il principio della codifica sequenziale dell'alfabeto.

Per le lettere dell'alfabeto russo si osserva anche il principio della codifica sequenziale.

La seconda metà della tabella ASCII

Sfortunatamente, ci sono attualmente cinque diverse codifiche cirilliche (KOI8-R, Windows. MS-DOS, Macintosh e ISO). Per questo motivo, spesso sorgono problemi con il trasferimento di testo russo da un computer a un altro, da un sistema software a un altro.

Cronologicamente, uno dei primi standard per la codifica delle lettere russe sui computer era KOI8 ("Codice di scambio di informazioni, 8 bit"). Questa codifica è stata utilizzata negli anni '70 sui computer della serie di computer ES e dalla metà degli anni '80 ha iniziato a essere utilizzata nelle prime versioni russificate del sistema operativo UNIX.

Dall'inizio degli anni '90, epoca del predominio del sistema operativo MS DOS, rimane la codifica CP866 ("CP" sta per "Code Page").

I computer Apple che eseguono Mac OS utilizzano la propria codifica Mac.

Inoltre, l'Organizzazione internazionale per la standardizzazione (International Standards Organization, ISO) ha approvato un'altra codifica chiamata ISO 8859-5 come standard per la lingua russa.

Attualmente, la codifica più comune è Microsoft Windows, abbreviata in CP1251.

Dalla fine degli anni '90, il problema della standardizzazione della codifica dei caratteri è stato risolto con l'introduzione di un nuovo standard internazionale chiamato Unicode... Questa è una codifica a 16 bit, ad es. alloca 2 byte di memoria per ogni carattere. Ovviamente, questo raddoppia la quantità di memoria utilizzata. Ma d'altra parte, una tale tabella di codici consente l'inclusione di un massimo di 65536 caratteri. La specifica completa dello standard Unicode include tutti gli alfabeti esistenti, estinti e creati artificialmente del mondo, nonché molti simboli matematici, musicali, chimici e di altro tipo.

Proviamo a usare una tabella ASCII per immaginare come appariranno le parole nella memoria del computer.

Rappresentazione interna delle parole nella memoria del computer

A volte capita che un testo composto da lettere dell'alfabeto russo, ricevuto da un altro computer, non possa essere letto - una sorta di "senza senso" è visibile sullo schermo del monitor. Ciò è dovuto al fatto che i computer utilizzano una codifica diversa dei caratteri della lingua russa.

Codici caratteri latini. Codifica ASCII (codice standard americano per lo scambio di informazioni) - codifica del testo di base per il latino

Tabella dei codici dei caratteri ASCII di Windows. Descrizione di caratteri speciali (di controllo)

Visualizzazione e memorizzazione di informazioni in un computer

Come tutto cominciò

Transizione al multilinguismo

Descrizione

Alcune proprietà

"Unicode"

Relazione con il codice standard americano per lo scambio di informazioni

Creazione ASCII

Rappresentazione computerizzata ASCII

lingua russa

Problemi ASCII

Stato attuale

Presentazione di informazioni in un computer

Come viene eseguita la codifica?

Codifica dei caratteri ASCII

Personaggi di controllo

Dove viene utilizzata la codifica ASCII?

Alcune caratteristiche

Utilizzo di ASCII in Microsoft Office

Standardizzazione

"Unicode"

Come vengono rappresentate le informazioni di testo nella memoria del computer?

Ora sorge la domanda, che tipo di codice binario a otto bit associare a ciascun carattere.

La tabella in cui tutti i caratteri dell'alfabeto del computer sono assegnati ai numeri di serie è chiamata tabella di codifica.

Struttura della tabella di codifica ASCII

Numero di serie

Il codice

Simbolo

0 - 31

00000000 - 00011111

32 - 127

00100000 - 01111111

128 - 255

10000000 - 11111111

La prima metà della tabella ASCII

La seconda metà della tabella ASCII

Proviamo a usare una tabella ASCII per immaginare come appariranno le parole nella memoria del computer.

Rappresentazione interna delle parole nella memoria del computer

Principali articoli correlati

Tabella dei codici dei caratteri ASCII di Windows.
Descrizione di caratteri speciali (di controllo)