Viene chiamato l'insieme di caratteri con cui viene scritto il testo alfabeto.
Il numero di caratteri dell'alfabeto è suo potenza.
Formula per determinare la quantità di informazioni: N = 2 b,
dove N è la cardinalità dell'alfabeto (numero di caratteri),
b - numero di bit (peso informativo del carattere).
L'alfabeto con una capacità di 256 caratteri può contenere quasi tutti i caratteri necessari. Questo alfabeto si chiama sufficiente.
Perché 256 = 2 8, quindi il peso di 1 carattere è 8 bit.
L'unità a 8 bit è stata nominata 1 byte:
1 byte = 8 bit.
Il codice binario di ogni carattere nel testo del computer occupa 1 byte di memoria.
Come vengono rappresentate le informazioni di testo nella memoria del computer?
La comodità della codifica dei caratteri in byte è ovvia, poiché un byte è la parte più piccola della memoria indirizzabile e, quindi, il processore può accedere a ciascun carattere separatamente, eseguendo l'elaborazione del testo. D'altra parte, 256 caratteri è un numero abbastanza sufficiente per rappresentare un'ampia varietà di informazioni sui caratteri.
Ora sorge la domanda, che tipo di codice binario a otto bit associare a ciascun carattere.
È chiaro che questa è una questione condizionale, puoi trovare molti metodi di codifica.
Tutti i caratteri dell'alfabeto del computer sono numerati da 0 a 255. Ogni numero corrisponde a un codice binario di otto cifre da 00000000 a 11111111. Questo codice è semplicemente il numero ordinale del carattere nel sistema binario.
La tabella in cui tutti i caratteri dell'alfabeto del computer sono assegnati ai numeri di serie è chiamata tabella di codifica.
Diverse tabelle di codifica vengono utilizzate per diversi tipi di computer.
Lo standard internazionale per il PC è diventato il tavolo ASCII(leggi asci) (Codice standard americano per lo scambio di informazioni).
La tabella ASCII è divisa in due parti.
Lo standard internazionale è solo la prima metà della tabella, ad es. simboli con numeri da 0 (00000000), fino a 127 (01111111).
Struttura della tabella di codifica ASCII
Numero di serie |
Il codice |
Simbolo |
0 - 31 |
00000000 - 00011111 |
I simboli con numeri da 0 a 31 sono generalmente chiamati caratteri di controllo. |
32 - 127 |
00100000 - 01111111 |
Parte standard della tabella (inglese). Ciò include lettere minuscole e maiuscole dell'alfabeto latino, cifre decimali, segni di punteggiatura, tutti i tipi di parentesi, simboli commerciali e di altro tipo. |
128 - 255 |
10000000 - 11111111 |
Parte alternativa del tavolo (russo). |
La prima metà della tabella ASCII
![]() |
Attiro la tua attenzione sul fatto che nella tabella di codifica, le lettere (maiuscole e minuscole) sono disposte in ordine alfabetico e i numeri sono ordinati in ordine crescente di valori. Questa osservanza dell'ordine lessicografico nella disposizione dei caratteri è chiamata il principio della codifica sequenziale dell'alfabeto.
Per le lettere dell'alfabeto russo si osserva anche il principio della codifica sequenziale.
La seconda metà della tabella ASCII
![](https://i0.wp.com/school497.ru/download/u/02/img/asc1.gif)
Sfortunatamente, ci sono attualmente cinque diverse codifiche cirilliche (KOI8-R, Windows. MS-DOS, Macintosh e ISO). Per questo motivo, spesso sorgono problemi con il trasferimento di testo russo da un computer a un altro, da un sistema software a un altro.
Cronologicamente, uno dei primi standard per la codifica delle lettere russe sui computer era KOI8 ("Codice di scambio di informazioni, 8 bit"). Questa codifica è stata utilizzata negli anni '70 sui computer della serie di computer ES e dalla metà degli anni '80 ha iniziato a essere utilizzata nelle prime versioni russificate del sistema operativo UNIX.
Dall'inizio degli anni '90, epoca del predominio del sistema operativo MS DOS, rimane la codifica CP866 ("CP" sta per "Code Page").
I computer Apple con sistema operativo Mac utilizzano la propria codifica Mac.
Inoltre, l'Organizzazione internazionale per la standardizzazione (International Standards Organization, ISO) ha approvato un'altra codifica chiamata ISO 8859-5 come standard per la lingua russa.
Attualmente, la codifica più comune è Microsoft Windows, abbreviata in CP1251.
Dalla fine degli anni '90, il problema della standardizzazione della codifica dei caratteri è stato risolto con l'introduzione di un nuovo standard internazionale chiamato Unicode... Questa è una codifica a 16 bit, ad es. alloca 2 byte di memoria per ogni carattere. Ovviamente, questo raddoppia la quantità di memoria utilizzata. Ma d'altra parte, una tale tabella di codici consente l'inclusione di un massimo di 65536 caratteri. La specifica completa dello standard Unicode include tutti gli alfabeti esistenti, estinti e creati artificialmente del mondo, nonché molti simboli matematici, musicali, chimici e di altro tipo.
Proviamo a usare una tabella ASCII per immaginare come appariranno le parole nella memoria del computer.
Rappresentazione interna delle parole nella memoria del computer
A volte capita che un testo composto da lettere dell'alfabeto russo, ricevuto da un altro computer, non possa essere letto - una sorta di "senza senso" è visibile sullo schermo del monitor. Ciò è dovuto al fatto che i computer utilizzano una codifica diversa dei caratteri della lingua russa.
Excel per Office 365 Word per Office 365 Outlook per Office 365 PowerPoint per Office 365 Publisher per Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Excel 2007 Word 2007 Outlook 2007 PowerPoint 2007 Publisher 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Standard 2007 Visio Standard 2010 Meno
In questo articolo
Inserisci un carattere ASCII o Unicode in un documento
Se hai solo bisogno di inserire pochi caratteri speciali o simboli, puoi utilizzare entrambe le scorciatoie da tastiera. Per un elenco di caratteri ASCII, vedere le tabelle seguenti o l'articolo Inserire alfabeti nazionali utilizzando le scorciatoie da tastiera.
Appunti:
Inserisci caratteri ASCII
Per inserire un carattere ASCII, tieni premuto il tasto ALT mentre inserisci il codice del carattere. Ad esempio, per inserire un simbolo di grado (º), tenere premuto il tasto Alt, quindi immettere 0176 sul tastierino numerico.
Usa il tastierino numerico per inserire i numeri invece dei numeri sulla tastiera principale. Se è necessario immettere numeri sul tastierino numerico, assicurarsi che l'indicatore BLOC NUM sia acceso.
Inserimento di caratteri Unicode
Per inserire un carattere Unicode, immettere il codice carattere, quindi premere in sequenza ALT e X. Ad esempio, per inserire un simbolo del dollaro ($), immettere 0024 e premere in sequenza ALT e X. Per tutti i codici carattere Unicode, vedere.
Importante: Alcuni programmi di Microsoft Office, come PowerPoint e InfoPath, non supportano la conversione di codici Unicode in caratteri. Se è necessario inserire un carattere Unicode in uno di questi programmi, utilizzare.
Appunti:
Se vedi il carattere Unicode sbagliato dopo aver premuto ALT + X, seleziona il codice corretto, quindi premi nuovamente ALT + X.
Inoltre, prima del codice deve essere inserito "U +". Ad esempio, se inserisci "1U + B5" e premi Alt + X, viene visualizzato il testo "1µ", e se inserisci "1B5" e premi Alt + X, viene visualizzato il carattere "Ƶ".
Usando la tabella dei simboli
Symbol Map è un programma integrato in Microsoft Windows che consente di visualizzare i simboli disponibili per un carattere selezionato.
Utilizzando una tabella dei simboli, è possibile copiare singoli simboli o un gruppo di simboli negli appunti e incollarli in qualsiasi programma in grado di visualizzare tali simboli. Apertura della tabella dei simboli
Su Windows 10 Inserisci la parola "simbolo" nella casella di ricerca sulla barra delle applicazioni e seleziona una tabella dei simboli dai risultati della ricerca.
Su Windows 8 Inserisci la parola "carattere" nella schermata iniziale e seleziona una tabella dei caratteri dai risultati della ricerca.
Su Windows 7 premi il bottone Inizio, seleziona in sequenza Tutti i programmi, Standard, Servizio e clicca tabella dei simboli.
I caratteri sono raggruppati per font. Fare clic sull'elenco dei caratteri per selezionare il set di caratteri appropriato. Per selezionare un simbolo, fai clic su di esso, quindi fai clic su Selezionare... Per inserire un simbolo, fare clic con il pulsante destro del mouse sulla posizione desiderata nel documento e selezionare Inserire.
Codici simboli usati di frequente
Per un elenco completo dei caratteri, vedere il computer, la tabella dei codici dei caratteri ASCII o le tabelle dei set di caratteri Unicode.
Glifo |
Glifo |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Unità monetarie |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Simboli legali |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Simboli matematici |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
frazioni |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Simboli di punteggiatura e dialetto |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Simboli di forma |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Codici diacritici comunemente usatiPer un elenco completo dei glifi e dei relativi codici, vedere.
|
A proposito, sul nostro sito puoi tradurre qualsiasi testo in codice decimale, esadecimale, binario utilizzando il calcolatore di codice online.
Tabella ASCII
ASCII (codice standard americano per lo scambio di informazioni)
Tabella riassuntiva dei codici ASCII
Tabella codici caratteri Windows ASCII (Win-1251)
|
|
Tabella ASCII estesa
Caratteri di formattazione.
Backspace (Backspace di un carattere). Indica il movimento del meccanismo di stampa o visualizza il cursore indietro di una posizione. |
|
Tabulazione orizzontale Mostra il movimento del motore di stampa o visualizza il cursore al successivo "tab stop" prescritto. |
|
Avanzamento di linea. Mostra il movimento del motore di stampa o visualizza il cursore all'inizio della riga successiva (una riga in basso). |
|
Tabulazione verticale Mostra il movimento del motore di stampa o visualizza il cursore sul gruppo di righe successivo. |
|
Modulo di alimentazione. Indica il movimento del motore di stampa o del cursore di visualizzazione nella posizione iniziale della pagina, del modulo o della schermata successiva. |
|
Ritorno a capo. Mostra il movimento del meccanismo di stampa o visualizza il cursore nella posizione originale (più a sinistra) della riga corrente. |
Trasferimento dati.
Inizio della rubrica. Utilizzato per identificare l'inizio di un'intestazione, che può contenere informazioni di instradamento o un indirizzo. |
|
Inizio del testo. Mostra l'inizio del testo e contemporaneamente la fine del titolo. |
|
Fine del testo. Si applica alla fine del testo che inizia con il carattere STX. |
|
Inchiesta. Richiesta dati identificativi (tipo "Chi sei?") dalla postazione remota. |
|
Riconoscere. Il dispositivo ricevente trasmette questo carattere al mittente come conferma della corretta ricezione dei dati. |
|
Riconoscimento negativo. Il dispositivo ricevente trasmette questo carattere al mittente in caso di rifiuto (fallimento) di ricezione dei dati. |
|
Sincrono / Inattivo. Utilizzato nei sistemi di trasmissione sincronizzati. Quando non c'è trasmissione di dati, il sistema invia continuamente simboli SYN per garantire la sincronizzazione. |
|
Blocco di fine trasmissione. Indica la fine di un blocco dati ai fini della comunicazione. Viene utilizzato per suddividere grandi quantità di dati in blocchi separati. |
Segni di separazione durante il trasferimento delle informazioni.
Altri simboli.
Nullo. (Nessun carattere - nessun dato). Viene utilizzato per la trasmissione in assenza di dati. |
|
campana Viene utilizzato per controllare i dispositivi di allarme. |
|
Spostare fuori. Indica che tutti i codici successivi devono essere interpretati in base al set di caratteri esterno prima dell'arrivo del carattere SI. |
|
Sposta dentro. Indica che i codici successivi devono essere interpretati secondo il set di caratteri standard. |
|
Fuga dal collegamento dati Modifica del significato dei seguenti caratteri. Viene utilizzato per un controllo aggiuntivo o per il trasferimento di un modello di bit arbitrario. |
|
DC1, DC2, DC3, DC4 |
Controlli del dispositivo. Simboli per il comando di dispositivi ausiliari (funzioni speciali). |
Annulla. Indica che i dati che hanno preceduto questo carattere in un messaggio o blocco devono essere ignorati (di solito se si verifica un errore). |
|
Fine del Medio. Indica la fine fisica di un nastro o altro supporto di memorizzazione |
|
Sostituire Utilizzato per sostituire un carattere errato o non valido. |
|
Fuga (estensione). Utilizzato per espandere il codice, indicando che il carattere successivo ha un significato alternativo. |
|
Spazio Un carattere non stampabile per separare le parole o spostare il motore di stampa o visualizzare il cursore in avanti di una posizione. |
|
Eliminare. Utilizzato per eliminare (cancellare) il carattere precedente nel messaggio |
[Codifiche a 8 bit: ASCII, KOI-8R e CP1251] Le prime tabelle di set di caratteri create negli Stati Uniti non utilizzavano l'ottavo bit in un byte. Il testo è stato presentato come una sequenza di byte, ma l'ottavo bit non è stato preso in considerazione (è stato utilizzato per scopi di servizio).
Lo standard generalmente accettato è diventato il tavolo ASCII(Codice Standard Americano per Interscambio di Informazioni). I primi 32 caratteri ASCII (da 00 a 1F) sono stati utilizzati per caratteri non stampabili. Sono stati progettati per controllare un dispositivo di stampa e simili. Il resto - da 20 a 7F - sono caratteri normali (stampabili).
Tabella 1 - Codifica ASCII
|
|
Come puoi facilmente vedere, questa codifica contiene solo lettere latine e quelle utilizzate in inglese. Ci sono anche aritmetici e altri simboli di servizio. Ma non ci sono lettere russe, né lettere latine speciali per il tedesco o il francese. Questo è facile da spiegare: la codifica è stata sviluppata appositamente come standard americano. Quando i computer iniziarono ad essere usati in tutto il mondo, divenne necessario codificare altri simboli.
Per questo si è deciso di utilizzare l'ottavo bit in ogni byte. Pertanto, erano disponibili altri 128 valori (da 80 a FF), che potevano essere utilizzati per codificare i caratteri. La prima delle tabelle a otto bit è "ASCII esteso" ( ASCII esteso) - includeva varie varianti di caratteri latini usati in alcune lingue dell'Europa occidentale. Conteneva anche altri simboli aggiuntivi, inclusi pseudo grafici.
I caratteri pseudografici consentono, visualizzando solo caratteri di testo, di fornire una parvenza di grafica. Ad esempio, il programma per la gestione dei file FAR Manager funziona con l'aiuto di pseudo-grafica.
Non c'erano lettere russe nella tabella ASCII estesa. In Russia (ex URSS) e in altri stati sono state create le proprie codifiche, che hanno permesso di rappresentare caratteri "nazionali" specifici in file di testo a 8 bit: lettere latine delle lingue polacca e ceca, cirillico (comprese le lettere russe ) e altri alfabeti.
In tutte le codifiche che si sono diffuse, i primi 127 caratteri (cioè i valori dei byte con l'ottavo bit uguale a 0) coincidono con ASCII. Pertanto, un file ASCII funziona in una qualsiasi di queste codifiche; le lettere della lingua inglese sono rappresentate allo stesso modo.
Organizzazione ISO(International Standardization Organization) ha adottato un gruppo di standard ISO 8859... Definisce codifiche a 8 bit per diversi gruppi di lingue. Quindi, ISO 8859-1 è Extended ASCII, una tabella per gli Stati Uniti e l'Europa occidentale. E ISO 8859-5 è una tabella per il cirillico (incluso il russo).
Tuttavia, per ragioni storiche, la codifica ISO 8859-5 non ha preso piede. In realtà, per la lingua russa vengono utilizzate le seguenti codifiche:
Codice Pagina 866 ( CP866), alias "DOS", alias "codifica GOST alternativa". È stato ampiamente utilizzato fino alla metà degli anni '90; è ora utilizzato in misura limitata. Praticamente non utilizzato per la distribuzione di testi su Internet.
- KOI-8. Sviluppato negli anni '70 e '80. È uno standard generalmente accettato per la trasmissione di messaggi di posta su Internet russo. È anche ampiamente utilizzato nei sistemi operativi della famiglia Unix, incluso Linux. La versione KOI-8, progettata per la lingua russa, si chiama KOI-8R; esistono versioni per altre lingue cirilliche (ad esempio, KOI8-U è un'opzione per la lingua ucraina).
- Codice Pagina 1251, CP1251, Windows-1251. Sviluppato da Microsoft per supportare la lingua russa in Windows.
Il vantaggio principale del CP866 era la conservazione dei caratteri pseudografici negli stessi posti dell'ASCII esteso; quindi, programmi di testo stranieri, ad esempio il famoso Norton Commander, potrebbero funzionare senza modifiche. Al giorno d'oggi CP866 viene utilizzato per i programmi Windows in esecuzione in finestre di testo o in modalità testo a schermo intero, incluso FAR Manager.
Negli ultimi anni, i testi in CP866 sono piuttosto rari (ma è usato per codificare nomi di file russi in Windows). Pertanto, ci soffermeremo più in dettaglio su altre due codifiche: KOI-8R e CP1251.
Come puoi vedere, nella tabella di codifica CP1251, le lettere russe sono disposte in ordine alfabetico (tranne, tuttavia, la lettera E). Questa disposizione facilita l'ordinamento alfabetico dei programmi per computer.
Ma in KOI-8R, l'ordine delle lettere russe sembra essere casuale. Ma in realtà non lo è.
Molti programmi più vecchi hanno perso l'ottavo bit durante l'elaborazione o la trasmissione del testo. (Ora tali programmi sono praticamente "scomparsi", ma alla fine degli anni '80 - primi anni '90 erano molto diffusi). Per ottenere un valore a 7 bit da un valore a 8 bit, sottrarre 8 dalla cifra più significativa; per esempio E1 diventa 61.
Ora confronta il KOI-8R con la tabella ASCII (Tabella 1). Scoprirai che le lettere russe sono chiaramente allineate con quelle latine. Se l'ottavo bit scompare, le lettere russe minuscole si trasformano in lettere latine maiuscole e le lettere russe maiuscole in lettere latine minuscole. Quindi, E1 in KOI-8 è il russo "A", mentre 61 in ASCII è il latino "a".
Quindi, KOI-8 ti consente di preservare la leggibilità del testo russo perdendo l'ottavo bit. “Ciao a tutti” diventa “pRIWET WSEM”.
Recentemente, sia l'ordine alfabetico dei caratteri nella tabella di codifica, sia la leggibilità con la perdita dell'8° bit hanno perso la loro importanza decisiva. L'ottavo bit nei computer moderni non viene perso né durante la trasmissione né durante l'elaborazione. L'ordinamento in ordine alfabetico si basa sulla codifica e non solo sul confronto dei codici. (A proposito, i codici CP1251 non sono completamente alfabetici - la lettera E non è al suo posto).
A causa del fatto che ci sono due codifiche comuni, quando si lavora con Internet (posta, navigazione di siti Web), a volte è possibile vedere un insieme di lettere senza significato invece del testo russo. Ad esempio, "Sono SBUFEMHEL". Queste sono solo le parole "con rispetto"; ma sono stati codificati nella codifica CP1251, e il computer ha decodificato il testo secondo la tabella KOI-8. Se le stesse parole fossero, al contrario, codificate in KOI-8, e il computer avesse decodificato il testo secondo la tabella CP1251, il risultato sarà “У ХЧБЦЕОЙЕН”.
A volte capita che il computer decritti le lettere in lingua russa secondo una tabella che non è destinata alla lingua russa. Quindi, al posto delle lettere russe, appare un insieme di simboli senza significato (ad esempio, lettere latine delle lingue dell'Europa orientale); sono spesso chiamati "crocozyabras".
Nella maggior parte dei casi, i programmi moderni riescono da soli a determinare le codifiche dei documenti Internet (e-mail e pagine Web). Ma a volte si "accendono male", e quindi puoi vedere strane sequenze di lettere russe o "krokozyabra". Di norma, per visualizzare il testo reale sullo schermo, è sufficiente selezionare manualmente la codifica nel menu del programma.
Per l'articolo sono state utilizzate le informazioni dalla pagina http://open-office.edusite.ru/TextProcessor/p5aa1.html.
Materiale tratto dal sito: