Codurile de caractere zecimale ascii c. Codificarea informațiilor text

06.09.2019 Windows 7, XP

Dec	hex	Simbol	Dec	hex	Simbol
000	00	specialist. NOP	128	80	Ђ
001	01	specialist. DECI H	129	81	Ѓ
002	02	specialist. STX	130	82	‚
003	03	specialist. ETX	131	83	ѓ
004	04	specialist. EOT	132	84	„
005	05	specialist. ENQ	133	85	…
006	06	specialist. ACK	134	86	†
007	07	specialist. BEL	135	87	‡
008	08	specialist. BS	136	88	€
009	09	specialist. TAB	137	89	‰
010	0A	specialist. LF	138	8A	Љ
011	0B	specialist. VT	139	8B	‹ ‹
012	0C	specialist. FF	140	8C	Њ
013	0D	specialist. CR	141	8 D	Ќ
014	0E	specialist. ASA DE	142	8E	Ћ
015	0F	specialist. SI	143	8F	Џ
016	10	specialist. DLE	144	90	ђ
017	11	specialist. DC1	145	91	‘
018	12	specialist. DC2	146	92	’
019	13	specialist. DC3	147	93	“
020	14	specialist. DC4	148	94	”
021	15	specialist. NAK	149	95
022	16	specialist. SYN	150	96	–
023	17	specialist. ETB	151	97	—
024	18	specialist. POATE SA	152	98
025	19	specialist. EM	153	99	™
026	1A	specialist. SUB	154	9A	љ
027	1B	specialist. ESC	155	9B	›
028	1C	specialist. FS	156	9C	њ
029	1D	specialist. GS	157	9D	ќ
030	1E	specialist. RS	158	9E	ћ
031	1F	specialist. S.U.A.	159	9F	џ
032	20	ambreiaj SP (Spațiu)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Eu
041	29	)	169	A9	©
042	2A	*	170	AA	Є
043	2B	+	171	AB	«
044	2C	,	172	AC	¬
045	2D	-	173	ANUNȚ
046	2E	.	174	AE	®
047	2F	/	175	AF	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	yo
057	39	9	185	B9	№
058	3A	:	186	BA	є
059	3B	;	187	BB	»
060	3C	<	188	î.Hr	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	FI	ѕ
063	3F	?	191	bf	ї
064	40	@	192	C0	DAR
065	41	A	193	C1	B
066	42	B	194	C2	ÎN
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	F
071	47	G	199	C7	W
072	48	H	200	C8	ȘI
073	49	eu	201	C9	Y
074	4A	J	202	CA	LA
075	4B	K	203	CB	L
076	4C	L	204	CC	M
077	4D	M	205	CD	H
078	4E	N	206	CE	DESPRE
079	4F	O	207	CF	P
080	50	P	208	D0	R
081	51	Q	209	D1	DIN
082	52	R	210	D2	T
083	53	S	211	D3	La
084	54	T	212	D4	F
085	55	U	213	D5	X
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	W
089	59	Y	217	D9	SCH
090	5A	Z	218	DA	Kommersant
091	5B	[	219	D.B.	S
092	5C	\	220	DC	b
093	5D	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	D.F.	eu
096	60	`	224	E0	dar
097	61	A	225	E1	b
098	62	b	226	E2	în
099	63	c	227	E3	G
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	f	230	E6	bine
103	67	g	231	E7	h
104	68	h	232	E8	Și
105	69	i	233	E9	al
106	6A	j	234	EA	la
107	6B	k	235	EB	l
108	6C	l	236	UE	m
109	6D	m	237	ED	n
110	6E	n	238	EE	despre
111	6F	o	239	EF	P
112	70	p	240	F0	R
113	71	q	241	F1	din
114	72	r	242	F2	T
115	73	s	243	F3	la
116	74	t	244	F4	f
117	75	u	245	F5	X
118	76	v	246	F6	c
119	77	w	247	F7	h
120	78	X	248	F8	w
121	79	y	249	F9	SCH
122	7A	z	250	FA	b
123	7B	{	251	Facebook	s
124	7C	\|	252	FC	b
125	7D	}	253	FD	uh
126	7E	~	254	F.E.	Yu
127	7F	Specialist. DEL	255	FF	eu

Tabelul ASCII al codurilor de caractere Windows.
Descrierea caracterelor speciale (de control).

Trebuie remarcat faptul că inițial caracterele de control ale tabelului ASCII au fost folosite pentru a oferi schimb de date prin teletip, intrare de date de pe o bandă perforată și pentru cel mai simplu control al dispozitivelor externe.
În prezent, majoritatea caracterelor de control ASCII ale tabelului nu mai poartă această încărcare și pot fi folosite în alte scopuri.

Codul	Descriere
NUL, 00	Nulă, goală
SO-01	Începutul titlului
STX 02	Începutul textului, începutul textului.
ETX 03	Sfârșitul textului
EOT, 04	Sfârșitul transmisiei
ENQ, 05	Întreba. Vă rugăm să confirmați
ACK, 06	Confirmare. confirm
B.E.L. 07	Bell, sună
B.S. 08	Backspace, întoarceți un caracter înapoi
TAB, 09	Filă, filă orizontală
LF, 0A	Line Feed, line feed. Acum, în majoritatea limbajelor de programare este notat ca \n
VT, 0B	Filă verticală, tabulare verticală.
FF, 0C	Feed de formulare, feed de pagini, pagină nouă
CR, 0D	Retur transport Acum, în majoritatea limbajelor de programare este notat ca \r
deci, 0E	Shift Out, schimbați culoarea benzii de cerneală din imprimantă
SI, 0F	Schimbați, întoarceți înapoi culoarea benzii de cerneală din dispozitivul de imprimare
DLE, 10	Data Link Escape, comutarea canalului la transmisia de date
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Controlul dispozitivului, simboluri de control al dispozitivului
N.A.K. 15	Confirmare negativă, nu confirm.
SYN, 16	sincronizare. Simbol de sincronizare
ETB, 17	Sfârșitul blocului de text, sfârșitul blocului de text
CAN, 18	Anulare, anularea unui trecut anterior
EM, 19	Sfârșitul Mediului
SUB, 1A	Înlocuitor, înlocuitor. Plasat în locul unui personaj a cărui valoare a fost pierdută sau coruptă în timpul transmiterii
ESC, 1B	Secvență de evadare
FS, 1C	Separator de fișiere, separator de fișiere
GS, 1D	Separator de grup, separator de grup
RS, 1E	Separator de înregistrări
SUA, 1F	Separator de unități, separator de unități
DEL, 7F	Șterge, șterge ultimul caracter.

Suprapunere simbol

Datorită caracterului BS (pas înapoi), imprimanta poate imprima un caracter peste altul. ASCII prevedea adăugarea de semne diacritice la litere în acest fel, de exemplu:

a BS " → a
a BS ` → a
a BS ^ → â
o BS / → ø
c BS , → ç
n BS ~ → ñ

Notă: în fonturile mai vechi, apostroful „ a fost înclinat spre stânga, iar tilda ~ a fost deplasată în sus, astfel încât să se potrivească doar cu rolul accentului și al tildei deasupra.

Dacă același caracter este suprapus pe un caracter, atunci efectul este aldine, iar dacă pe caracter este suprapus o subliniere, atunci se obține text subliniat.

a BS a → A
a BS_→ A

Notă: aceasta este folosită, de exemplu, în sistemul de ajutor pentru om.

Variante naționale ale ASCII

Standardul ISO 646 (ECMA-6) prevede posibilitatea de a plasa simboluri naționale @ [ \ ] ^ ` { | } ~ . Pe lângă asta, pe loc # poate fi pus £ , și pe loc $ - ¤ . Acest sistem este potrivit pentru limbile europene unde sunt necesare doar câteva caractere suplimentare. O variantă de ASCII fără caractere naționale se numește US-ASCII sau „International Reference Version”.

Ulterior, s-a dovedit a fi mai convenabil să folosești codificări pe 8 biți (pagini de coduri), unde jumătatea inferioară a tabelului de coduri (0-127) este ocupată de caractere US-ASCII, iar jumătatea superioară (128-255) este ocupat de caractere suplimentare, inclusiv un set de caractere naționale. Astfel, jumătatea superioară a tabelului ASCII, înainte de adoptarea pe scară largă a Unicode, a fost foarte folosită pentru a reprezenta caractere localizate, literele limbii locale. Lipsa unui standard unic pentru plasarea caracterelor chirilice în tabelul ASCII a cauzat multe probleme cu codificările (KOI-8, Windows-1251 și altele). Alte limbi cu scripturi non-latine au avut, de asemenea, de suferit din cauza prezenței mai multor codificări diferite.

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
0.	NUL	SOM	EOA	EOM	EQT	WRU	RO	CLOPOT	BKSP	HT	LF	VT	FF	CR	ASA DE	SI
1.	DC 0	DC 1	DC 2	DC 3	DC 4	ERR	SINCRONIZARE	LEM	S0	S1	S2	S3	S4	S5	S6	S7
2.
3.
4.	GOL	!	"	#	$	%	&	"	(	)	*	+	,	-	.	/
5.	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
6.
7.
8.
9.
A.	@	A	B	C	D	E	F	G	H	eu	J	K	L	M	N	O
b.	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]		←
C.
D.
E.		A	b	c	d	e	f	g	h	i	j	k	l	m	n	o
F.	p	q	r	s	t	u	v	w	X	y	z				ESC	DEL

Pe acele computere în care unitatea minimă de memorie adresabilă a fost un cuvânt de 36 de biți, au fost utilizate mai întâi caractere de 6 biți (1 cuvânt = 6 caractere). După trecerea la ASCII, astfel de computere au început să plaseze fie 5 caractere de șapte biți într-un cuvânt (1 bit a rămas de prisos), fie 4 caractere de nouă biți.

Codurile ASCII sunt, de asemenea, folosite pentru a determina ce tastă a fost apăsată la programare. Pentru o tastatură QWERTY standard, tabelul de coduri arată astfel:

Unicode (în engleză Unicode) este un standard de codificare a caracterelor. Mai simplu spus, acesta este un tabel de corespondență a caracterelor text ( , litere, elemente de punctuație) la coduri binare. Calculatorul înțelege doar succesiunea de zerouri și unu. Pentru ca acesta să știe ce anume ar trebui să afișeze pe ecran, este necesar să atribuiți un număr unic fiecărui caracter. În anii optzeci, caracterele erau codificate cu un octet, adică opt biți (fiecare bit este un 0 sau 1). Astfel, s-a dovedit că un tabel (este și o codificare sau un set) poate găzdui doar 256 de caractere. Acest lucru poate să nu fie suficient chiar și pentru o singură limbă. Prin urmare, au apărut multe codificări diferite, confuzie cu care deseori a dus la faptul că pe ecran apăreau niște farfurii ciudate în loc de text care poate fi citit. Era necesar un singur standard, care a devenit Unicode. Cea mai folosită codificare - UTF-8 (Unicode Transformation Format) folosește de la 1 la 4 octeți pentru a reprezenta un caracter.

Simboluri

Caracterele din tabelele Unicode sunt numerotate cu numere hexazecimale. De exemplu, litera majusculă chirilică M este U+041C. Aceasta înseamnă că se află la intersecția liniei 041 și a coloanei C. Puteți pur și simplu să-l copiați și apoi să-l lipiți undeva. Pentru a nu scotoci printr-o listă de mai mulți kilometri, ar trebui să folosiți căutarea. Când accesați pagina unui personaj, veți vedea numărul său Unicode și cum este scris în diferite fonturi. De asemenea, puteți introduce caracterul în sine în bara de căutare, chiar dacă în schimb este desenat un pătrat, cel puțin pentru a afla ce a fost. De asemenea, acest site are seturi speciale (și - aleatoare) de același tip de pictograme, colectate din secțiuni diferite, pentru ușurință în utilizare.

Standardul Unicode este internațional. Include semne ale aproape tuturor scenariilor din lume. Inclusiv cele care nu mai sunt folosite. Hieroglife egiptene, rune germanice, scriere mayașă, cuneiforme și alfabete ale statelor antice. Sunt prezentate, de asemenea, desemnările măsurilor și greutăților, notația muzicală și conceptele matematice.

Consorțiul Unicode în sine nu inventează caractere noi. Pe tabele se adaugă acele icoane care își găsesc aplicarea în societate. De exemplu, semnul rublei a fost folosit în mod activ timp de șase ani înainte de a fi adăugat la Unicode. Pictogramele Emoji (emoticons) au fost, de asemenea, utilizate pe scară largă în Japonia înainte de a fi incluse în codificare. Dar mărcile comerciale și siglele companiei nu sunt adăugate în principiu. Chiar și la fel de comun ca Apple Apple sau Windows flag. Până în prezent, aproximativ 120.000 de caractere au fost codificate în versiunea 8.0.

Calculatorul înțelege procesul de transformare a acestuia într-o formă care permite organizarea unei transmisii, stocări sau procesări automate mai convenabile a acestor date. În acest scop, se folosesc diverse tabele. Codificarea ASCII a fost primul sistem dezvoltat în Statele Unite pentru a lucra cu text în limba engleză, care a devenit ulterior răspândit în întreaga lume. Articolul de mai jos este dedicat descrierii, caracteristicilor, proprietăților și utilizării ulterioare.

Afișarea și stocarea informațiilor într-un computer

Simbolurile de pe monitorul unui computer sau al unui anumit gadget digital mobil sunt formate pe baza unor seturi de forme vectoriale de diferite caractere și a unui cod care vă permite să găsiți printre ele simbolul care trebuie introdus la locul potrivit. Este o secvență de biți. Astfel, fiecare caracter trebuie să corespundă în mod unic unui set de zerouri și uni care stau într-o anumită ordine unică.

Cum a început totul

Din punct de vedere istoric, primele computere au fost în limba engleză. Pentru a codifica informațiile simbolice în ele, a fost suficient să folosiți doar 7 biți de memorie, în timp ce 1 octet format din 8 biți a fost alocat în acest scop. Numărul de caractere înțeles de computer în acest caz a fost 128. Aceste caractere includ alfabetul englez cu semnele de punctuație, numerele și unele caractere speciale. Codificarea pe șapte biți în limba engleză cu tabelul corespunzător (pagina de cod), dezvoltată în 1963, a fost numită Codul standard american pentru schimbul de informații. De obicei, abrevierea „codificare ASCII” a fost folosită și este încă folosită până în prezent.

Trecerea la multilingvism

De-a lungul timpului, computerele au devenit utilizate pe scară largă în țările care nu vorbesc engleza. În acest sens, a fost nevoie de codificări care să permită utilizarea limbilor naționale. S-a decis să nu reinventăm roata și să ia ca bază ASCII. Tabelul de codificare din noua ediție s-a extins semnificativ. Utilizarea celui de-al 8-lea bit a făcut posibilă traducerea a 256 de caractere într-un limbaj de calculator.

Descriere

Codificarea ASCII are un tabel care este împărțit în 2 părți. Standardul internațional general acceptat este considerat a fi doar prima jumătate a acestuia. Include:

Caractere cu numere de serie de la 0 la 31, codificate prin secvențe de la 00000000 la 00011111. Sunt rezervate caracterelor de control care controlează procesul de afișare a textului pe un ecran sau imprimantă, oferind un semnal sonor etc.
Caracterele cu NN în tabel de la 32 la 127, codificate prin secvențe de la 00100000 la 01111111, formează partea standard a tabelului. Acestea includ un spațiu (N 32), litere ale alfabetului latin (minuscule și majuscule), numere din zece cifre de la 0 la 9, semne de punctuație, paranteze de diferite stiluri și alte simboluri.
Caractere cu numere de serie de la 128 la 255, codificate prin secvențe de la 10000000 la 11111111. Acestea includ litere ale alfabetului național, altele decât cele latine. Această parte alternativă a tabelului de codificare ASCII este folosită pentru a converti caracterele rusești într-o formă de computer.

Unele proprietăți

Particularitățile codificării ASCII includ diferența dintre literele "A" - "Z" ale literelor mici și mari cu un singur bit. Această împrejurare simplifică foarte mult conversia registrului, precum și verificarea acestuia pentru apartenența la un interval dat de valori. În plus, toate literele din sistemul de codificare ASCII sunt reprezentate de propriile numere de serie în alfabet, care sunt scrise în 5 cifre în sistemul de numere binar, precedate de 011 2 pentru literele mici și 010 2 pentru literele mari.

Reprezentarea a 10 cifre - "0" - "9" poate fi, de asemenea, numărată printre caracteristicile codificării ASCII. În al doilea sistem de numere, ele încep cu 00112 și se termină cu 2 valori de numere. Astfel, 0101 2 este echivalent cu zecimala cinci, deci caracterul „5” este scris ca 0011 01012. Pe baza celor de mai sus, puteți converti cu ușurință numerele BCD într-un șir ASCII adăugând secvența de biți 00112 la fiecare nibble din stânga.

„Unicode”

După cum știți, sunt necesare mii de caractere pentru a afișa texte în limbile grupului din Asia de Sud-Est. Un astfel de număr dintre ele nu este descris în niciun fel într-un octet de informații, prin urmare, nici măcar versiunile extinse de ASCII nu ar mai putea satisface nevoile crescute ale utilizatorilor din diferite țări.

Deci, a fost nevoie de a crea o codificare universală a textului, care a fost dezvoltată de consorțiul Unicode în cooperare cu mulți lideri ai industriei IT globale. Specialiștii săi au creat sistemul UTF 32. În acesta, au fost alocați 32 de biți pentru a codifica 1 caracter, formând 4 octeți de informații. Principalul dezavantaj a fost o creștere bruscă a cantității de memorie necesară de până la 4 ori, ceea ce a implicat multe probleme.

În același timp, pentru majoritatea țărilor cu limbi oficiale aparținând grupului indo-european, numărul de caractere egal cu 232 este mai mult decât redundant.

Ca urmare a lucrărilor ulterioare ale specialiștilor din consorțiul Unicode, a apărut codificarea UTF-16. A devenit opțiunea de conversie a informațiilor simbolice care se potrivește tuturor atât în ceea ce privește cantitatea de memorie necesară, cât și numărul de caractere codificate. De aceea, UTF-16 a fost adoptat implicit și necesită 2 octeți pentru a fi rezervați pentru un caracter.

Chiar și această versiune destul de avansată și de succes a „Unicode” a avut unele dezavantaje și, după trecerea de la versiunea extinsă a ASCII la UTF-16, a dublat dimensiunea documentului.

În acest sens, s-a decis să se utilizeze codificarea cu lungime variabilă UTF-8. În acest caz, fiecare caracter al textului sursă este codificat printr-o secvență de 1 până la 6 octeți lungime.

Asociere cu codul standard american pentru schimbul de informații

Toate caracterele alfabetului latin în UTF-8 de lungime variabilă sunt codificate pe 1 octet, ca în sistemul de codare ASCII.

O caracteristică a UTF-8 este că, în cazul textului în latină fără utilizarea altor caractere, chiar și programele care nu înțeleg Unicode vor permite totuși citirea acestuia. Cu alte cuvinte, partea de bază a codificării textului ASCII intră pur și simplu în noua lungime variabilă UTF. Caracterele chirilice în UTF-8 iau 2 octeți, iar, de exemplu, caracterele georgiane iau 3 octeți. Prin crearea UTF-16 și 8, principala problemă a creării unui singur spațiu de cod în fonturi a fost rezolvată. De atunci, producătorii de fonturi au trebuit să completeze tabelul doar cu forme vectoriale de caractere text în funcție de nevoile lor.

Sistemele de operare diferite preferă codificări diferite. Pentru a putea citi și edita textele tastate într-o altă codificare, se folosesc programe de conversie a textului rusesc. Unele editoare de text conțin transcoduri încorporate și vă permit să citiți text indiferent de codificare.

Acum știi câte caractere sunt în ASCII și cum și de ce a fost proiectat. Desigur, astăzi standardul Unicode a primit cea mai mare distribuție din lume. Totuși, nu trebuie să uităm că a fost creat pe baza ASCII, așa că trebuie apreciată contribuția dezvoltatorilor săi în domeniul IT.

Setul de simboluri folosite pentru scrierea textului este numit alfabetic.

Numărul de caractere din alfabet este putere.

Formula pentru determinarea cantității de informații: N = 2b,

unde N este cardinalitatea alfabetului (numărul de simboluri),

b este numărul de biți (greutatea informației a simbolului).

Aproape toate caracterele necesare pot fi plasate într-un alfabet cu o capacitate de 256 de caractere. Acest alfabet se numește suficient.

pentru că 256 = 2 8 , atunci greutatea unui caracter este de 8 biți.

Unitatea de măsură pe 8 biți a primit un nume 1 octet:

1 octet = 8 biți.

Codul binar al fiecărui caracter din textul computerului ocupă 1 octet de memorie.

Cum este reprezentată informația textuală în memoria computerului?

Comoditatea codificării octet-cu-octet a caracterelor este evidentă, deoarece un octet este cea mai mică parte adresabilă a memoriei și, prin urmare, procesorul poate accesa fiecare caracter separat atunci când efectuează procesarea textului. Pe de altă parte, 256 de caractere sunt destul de suficiente pentru a reprezenta o mare varietate de informații despre caractere.

Acum se pune întrebarea, ce cod binar de opt biți să puneți în corespondență cu fiecare caracter.

Este clar că aceasta este o chestiune condiționată, puteți veni cu multe modalități de codificare.

Toate simbolurile alfabetului computerului sunt numerotate de la 0 la 255. Fiecare număr corespunde unui cod binar de opt cifre de la 00000000 la 11111111. Acest cod este pur și simplu numărul ordinal al caracterului din sistemul de numere binar.

Un tabel în care tuturor caracterelor alfabetului computerului li se atribuie numere de serie se numește tabel de codificare.

Pentru diferite tipuri de computere, sunt utilizate diferite tabele de codificare.

Tabelul a devenit standardul internațional pentru computere. ASCII(pronunțat asci) (Codul standard american pentru schimbul de informații).

Tabelul de coduri ASCII este împărțit în două părți.

Doar prima jumătate a tabelului este un standard internațional, adică. caractere cu numere din 0 (00000000), până la 127 (01111111).

Structura tabelului de codificare ASCII

Număr de serie	Codul	Simbol
0 - 31	00000000 - 00011111	Caracterele cu numere de la 0 la 31 se numesc caractere de control. Funcția lor este de a controla procesul de afișare a textului pe ecran sau de imprimare, de a da un semnal sonor, de marcare a textului etc.
32 - 127	00100000 - 01111111	Parte standard a tabelului (engleză). Aceasta include litere mici și mari ale alfabetului latin, cifre zecimale, semne de punctuație, tot felul de paranteze, simboluri comerciale și alte simboluri. Caracterul 32 este un spațiu, adică. poziție goală în text. Toate celelalte sunt reflectate de anumite semne.
128 - 255	10000000 - 11111111	Parte alternativă a tabelului (rusă). A doua jumătate a tabelului de coduri ASCII, numită pagina de coduri (128 de coduri, începând cu 10000000 și terminând cu 11111111), poate avea opțiuni diferite, fiecare opțiune având propriul număr. Pagina de coduri este folosită în principal pentru a găzdui scripturi naționale, altele decât latină. În codificările naționale rusești, caracterele alfabetului rus sunt plasate în această parte a tabelului.

Prima jumătate a tabelului de coduri ASCII

Vă atrag atenția că în tabelul de codificare, literele (majuscule și mici) sunt aranjate în ordine alfabetică, iar numerele sunt sortate crescător. Această respectare a ordinii lexicografice în aranjarea caracterelor se numește principiul codificării secvențiale a alfabetului.

Pentru literele alfabetului rus, se respectă și principiul codificării secvențiale.

A doua jumătate a tabelului de coduri ASCII

Din păcate, în prezent există cinci codificări chirilice diferite (KOI8-R, Windows. MS-DOS, Macintosh și ISO). Din această cauză, apar adesea probleme cu transferul de text rusesc de la un computer la altul, de la un sistem software la altul.

Cronologic, unul dintre primele standarde pentru codificarea literelor rusești pe computere a fost KOI8 („Cod de schimb de informații, 8 biți”). Această codificare a fost folosită încă din anii 70 pe computerele din seria de calculatoare EC, iar de la mijlocul anilor 80 a început să fie folosită în primele versiuni rusificate ale sistemului de operare UNIX.

De la începutul anilor 90, vremea dominației sistemului de operare MS DOS, codificarea rămâne CP866 ("CP" înseamnă "Code Page", "code page").

Computerele Apple care rulează sistemul de operare Mac OS folosesc propria lor codificare Mac.

În plus, Organizația Internațională pentru Standardizare (International Standards Organization, ISO) a aprobat o altă codificare numită ISO 8859-5 ca standard pentru limba rusă.

Cea mai comună codificare utilizată în prezent este Microsoft Windows, prescurtat ca CP1251.

De la sfârșitul anilor 90, problema standardizării codării caracterelor a fost rezolvată prin introducerea unui nou standard internațional, care se numește Unicode. Aceasta este o codificare pe 16 biți, adică are 2 octeți de memorie pe caracter. Desigur, în acest caz, cantitatea de memorie ocupată crește de 2 ori. Dar un astfel de tabel de coduri permite includerea a până la 65536 de caractere. Specificația completă a standardului Unicode include toate alfabetele existente, dispărute și create artificial din lume, precum și multe simboluri matematice, muzicale, chimice și alte simboluri.

Să încercăm să folosim un tabel ASCII pentru a ne imagina cum vor arăta cuvintele în memoria computerului.

Reprezentarea internă a cuvintelor în memoria computerului

Uneori se întâmplă ca textul, constând din litere ale alfabetului rus, primit de la alt computer, să nu poată fi citit - un fel de „abracadabra” este vizibil pe ecranul monitorului. Acest lucru se datorează faptului că computerele folosesc diferite codificări de caractere ale limbii ruse.

Top articole similare

Formatarea caracterelor și a paragrafelor în MS Word Ce este formatarea paragrafelor

Sistemul de fișiere îndeplinește o funcție

Istoricul creării monitoarelor CRT - CRT cu o mască de fante (Slot Mask)

Categorii:

Codurile de caractere zecimale ascii c. Codificarea informațiilor text

Tabelul ASCII al codurilor de caractere Windows. Descrierea caracterelor speciale (de control).

Suprapunere simbol

Variante naționale ale ASCII

Simboluri

Afișarea și stocarea informațiilor într-un computer

Cum a început totul

Trecerea la multilingvism

Descriere

Unele proprietăți

„Unicode”

Asociere cu codul standard american pentru schimbul de informații

Cum este reprezentată informația textuală în memoria computerului?

Acum se pune întrebarea, ce cod binar de opt biți să puneți în corespondență cu fiecare caracter.

Un tabel în care tuturor caracterelor alfabetului computerului li se atribuie numere de serie se numește tabel de codificare.

Structura tabelului de codificare ASCII

Număr de serie

Codul

Simbol

0 - 31

00000000 - 00011111

32 - 127

00100000 - 01111111

128 - 255

10000000 - 11111111