coduri de caractere latine. Codificare ASCII (cod standard american pentru schimbul de informații) - codificare de bază a textului pentru latină

05.09.2019 Interesant

Dec	Hex	Simbol	Dec	Hex	Simbol
000	00	specialist. NOP	128	80	Ђ
001	01	specialist. DECI H	129	81	Ѓ
002	02	specialist. STX	130	82	‚
003	03	specialist. ETX	131	83	ѓ
004	04	specialist. EOT	132	84	„
005	05	specialist. ENQ	133	85	…
006	06	specialist. ACK	134	86	†
007	07	specialist. BEL	135	87	‡
008	08	specialist. BS	136	88	€
009	09	specialist. TAB	137	89	‰
010	0A	specialist. LF	138	8A	Љ
011	0B	specialist. VT	139	8B	‹ ‹
012	0C	specialist. FF	140	8C	Њ
013	0D	specialist. CR	141	8 D	Ќ
014	0E	specialist. ASA DE	142	8E	Ћ
015	0F	specialist. SI	143	8F	Џ
016	10	specialist. DLE	144	90	ђ
017	11	specialist. DC1	145	91	‘
018	12	specialist. DC2	146	92	’
019	13	specialist. DC3	147	93	“
020	14	specialist. DC4	148	94	”
021	15	specialist. NAK	149	95
022	16	specialist. SYN	150	96	–
023	17	specialist. ETB	151	97	—
024	18	specialist. POATE SA	152	98
025	19	specialist. EM	153	99	™
026	1A	specialist. SUB	154	9A	љ
027	1B	specialist. ESC	155	9B	›
028	1C	specialist. FS	156	9C	њ
029	1D	specialist. GS	157	9D	ќ
030	1E	specialist. Rs	158	9E	ћ
031	1F	specialist. S.U.A.	159	9F	џ
032	20	ambreiaj SP (Spațiu)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Eu
041	29	)	169	A9	©
042	2A	*	170	AA	Є
043	2B	+	171	AB	«
044	2C	,	172	AC	¬
045	2D	-	173	ANUNȚ
046	2E	.	174	AE	®
047	2F	/	175	AF	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	BA	є
059	3B	;	187	BB	»
060	3C	<	188	î.Hr	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	FI	ѕ
063	3F	?	191	Bf	ї
064	40	@	192	C0	A
065	41	A	193	C1	B
066	42	B	194	C2	V
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	F
071	47	G	199	C7	Z
072	48	H	200	C8	ȘI
073	49	eu	201	C9	Th
074	4A	J	202	CA	LA
075	4B	K	203	CB	L
076	4C	L	204	CC	M
077	4D	M	205	CD	N
078	4E	N	206	CE	O
079	4F	O	207	CF	P
080	50	P	208	D0	R
081	51	Q	209	D1	CU
082	52	R	210	D2	T
083	53	S	211	D3	Avea
084	54	T	212	D4	F
085	55	U	213	D5	X
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	SH
089	59	Y	217	D9	SCH
090	5A	Z	218	DA	B
091	5B	[	219	DB	S
092	5C	\	220	DC	B
093	5D	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	DF	EU SUNT
096	60	`	224	E0	A
097	61	A	225	E1	b
098	62	b	226	E2	v
099	63	c	227	E3	G
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	f	230	E6	f
103	67	g	231	E7	s
104	68	h	232	E8	și
105	69	i	233	E9	al
106	6A	j	234	EA	La
107	6B	k	235	EB	l
108	6C	l	236	EC	m
109	6D	m	237	ED	n
110	6E	n	238	EE	O
111	6F	o	239	EF	P
112	70	p	240	F0	R
113	71	q	241	F1	Cu
114	72	r	242	F2	T
115	73	s	243	F3	la
116	74	t	244	F4	f
117	75	u	245	F5	X
118	76	v	246	F6	c
119	77	w	247	F7	h
120	78	X	248	F8	w
121	79	y	249	F9	SCH
122	7A	z	250	FA	b
123	7B	{	251	FB	s
124	7C	\|	252	FC	b
125	7D	}	253	FD	eh
126	7E	~	254	FE	Yu
127	7F	Specialist. DEL	255	FF	eu sunt

Tabelul de coduri de caractere ASCII Windows.
Descrierea caracterelor speciale (de control).

De menționat că inițial caracterele de control ale tabelului ASCII au fost folosite pentru a asigura schimbul de date prin teletip, introducerea datelor de pe bandă perforată și pentru cel mai simplu control al dispozitivelor externe.
În prezent, majoritatea caracterelor de control ASCII din tabel nu mai poartă această sarcină și pot fi utilizate în alte scopuri.

Codul	Descriere
NUL, 00	Nulă, goală
SOH, 01	Start Of Heading, începutul titlului
STX, 02	Începutul textului, începutul textului.
ETX, 03	Sfârșitul textului, sfârșitul textului
EOT, 04	Sfârșitul transmisiei, sfârșitul transmisiei
ENQ, 05	Întreba. Cer confirmare
ACK, 06	Confirmare. confirm
BEL, 07	Clopot, clopot
BS, 08	Backspace, întoarceți un caracter înapoi
TAB, 09	Filă, filă orizontală
LF, 0A	Line Feed, line feed. Acum, în majoritatea limbajelor de programare este notat ca \ n
VT, 0B	Filă verticală, filă verticală.
FF, 0C	Feed de formulare, Feed de pagină, pagină nouă
CR, 0D	Retur transport Acum, în majoritatea limbajelor de programare este notat ca \ r
deci, 0E	Shift Out, schimbați culoarea benzii de cerneală din dispozitivul de imprimare
SI, 0F	Schimbați, întoarceți înapoi culoarea benzii de cerneală din dispozitivul de imprimare
DLE, 10	Data Link Escape, comutați canalul la transmisia de date
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Controlul dispozitivului, simboluri de control al dispozitivului
NAK, 15	Recunoaștere negativă, nu recunosc.
SYN, 16	Sincronizare. Simbol de sincronizare
ETB, 17	Sfârșitul blocului de text, sfârșitul blocului de text
CAN, 18	Anulare, anularea unuia trecut anterior
EM, 19	Sfârșitul mediului, sfârșitul suportului de date
SUB, 1A	Substitui Plasat în locul unui personaj a cărui valoare a fost pierdută sau coruptă în timpul transmiterii
ESC, 1B	Secvență de evacuare
FS, 1C	Separator de fișiere, separator de fișiere
GS, 1D	Separator de grup, separator de grup
RS, 1E	Separator de înregistrări, separator de înregistrări
SUA, 1F	Separator de unități, separator de unități
DEL, 7F	Șterge, șterge ultimul caracter.

Un computer înțelege procesul de transformare a acestuia într-o formă care permite organizarea unui transfer, stocare sau prelucrare automată mai convenabilă a acestor date. În acest scop, se folosesc diverse tabele. Codificarea ASCII este primul sistem dezvoltat în Statele Unite pentru lucrul cu text în limba engleză, care a devenit ulterior răspândit în întreaga lume. Articolul de mai jos este dedicat descrierii, caracteristicilor, proprietăților și utilizării ulterioare.

Afișarea și stocarea informațiilor într-un computer

Simbolurile de pe un monitor de computer sau unul sau altul gadget digital mobil sunt formate pe baza unor seturi de forme vectoriale de tot felul de semne și a unui cod care vă permite să găsiți printre ele simbolul care trebuie introdus la locul potrivit. Este o serie de biți. Astfel, fiecare caracter trebuie să corespundă în mod unic unui set de zerouri și unu, care stau într-o ordine specifică, unică.

Cum a început totul

Din punct de vedere istoric, primele computere au fost în limba engleză. Pentru a codifica informațiile simbolice în ele, a fost suficient să folosiți doar 7 biți de memorie, în timp ce în acest scop a fost alocat 1 octet, format din 8 biți. Numărul de caractere înțeles de computer în acest caz a fost egal cu 128. Numărul de astfel de caractere includea alfabetul englez cu semnele de punctuație, numerele și unele caractere speciale. Codificarea pe șapte biți în limba engleză cu tabelul corespunzătoare (pagina de cod), dezvoltată în 1963, a fost denumită Codul standard american pentru schimbul de informații. De obicei, abrevierea „codificare ASCII” a fost folosită pentru a o desemna și este încă folosită până în prezent.

Trecerea la multilingvism

De-a lungul timpului, computerele au devenit utilizate pe scară largă și în țările care nu vorbesc engleza. În acest sens, era nevoie de codificări care să permită utilizarea limbilor naționale. S-a decis să nu se reinventeze roata și să se ia ca bază ASCII. Tabelul de codificare din noua ediție s-a extins semnificativ. Utilizarea celui de-al 8-lea bit a făcut posibilă traducerea a 256 de caractere în limbajul computerului.

Descriere

Codificarea ASCII are un tabel care este împărțit în 2 părți. Doar prima jumătate este considerată a fi standardul internațional general acceptat. Include:

Caractere cu numere ordinale de la 0 la 31, codificate prin secvențe de la 00000000 la 00011111. Sunt rezervate caracterelor de control care controlează procesul de afișare a textului pe ecran sau imprimantă, oferind un semnal sonor etc.
Caracterele cu NN în tabelul de la 32 la 127, codificate prin secvențe de la 00100000 la 01111111, constituie partea standard a tabelului. Acestea includ un spațiu (N 32), litere ale alfabetului latin (minuscule și majuscule), numere din zece cifre de la 0 la 9, semne de punctuație, paranteze de diferite stiluri și alte simboluri.
Caractere cu numere ordinale de la 128 la 255, codificate prin secvențe de la 10000000 la 11111111. Acestea includ litere ale alfabetului național, altele decât cele latine. În această parte alternativă a tabelului este folosită codificarea ASCII pentru a converti caracterele rusești în formă de computer.

Unele proprietăți

Particularitățile codificării ASCII includ diferența dintre literele „A” - „Z” ale literelor mici și mari de doar un bit. Această împrejurare simplifică foarte mult conversia registrului, precum și verificarea apartenenței acestuia la intervalul specificat de valori. În plus, toate literele din sistemul de codare ASCII sunt reprezentate prin numerele lor ordinale proprii în alfabet, care sunt scrise în 5 cifre în notație binară, precedate de 011 2 pentru literele mici și 010 2 pentru litere mari.

Printre caracteristicile codificării ASCII poate fi considerată reprezentarea a 10 cifre - „0” - „9”. În al doilea sistem de numere, ele încep cu 00112 și se termină cu 2 numere. De exemplu, 0101 2 este echivalent cu zecimala cinci, deci caracterul „5” este scris ca 0011 01012. Pe baza acestui lucru, puteți converti cu ușurință BCD-urile într-un șir ASCII adăugând 00112 la fiecare nibble din stânga.

„Unicode”

După cum știți, sunt necesare mii de caractere pentru a afișa texte în limbile grupului din Asia de Sud-Est. Un astfel de număr dintre ele nu este în niciun fel descris într-un octet de informații, așa că nici măcar versiunile ASCII extinse nu ar mai putea satisface nevoile crescute ale utilizatorilor din diferite țări.

Astfel, a apărut necesitatea creării unei codări universale a textului, care a fost dezvoltată de consorțiul Unicode în cooperare cu mulți lideri ai industriei IT globale. Specialiștii săi au creat sistemul UTF 32. În acesta, au fost alocați 32 de biți pentru codificarea unui caracter, alcătuind 4 octeți de informații. Principalul dezavantaj a fost o creștere bruscă a cantității de memorie necesară de până la 4 ori, ceea ce a implicat multe probleme.

În același timp, pentru majoritatea țărilor cu limbi oficiale aparținând grupului indo-european, numărul de caractere egal cu 232 este mai mult decât redundant.

Ca urmare a lucrărilor ulterioare ale specialiștilor din consorțiul Unicode, a apărut codificarea UTF-16. A devenit opțiunea de transformare a informațiilor simbolice care se potrivea tuturor atât în ceea ce privește cantitatea de memorie necesară, cât și numărul de caractere codificate. De aceea, UTF-16 a fost acceptat implicit și necesită 2 octeți pentru a fi rezervați pentru un caracter.

Chiar și această versiune destul de avansată și de succes a „Unicode” a avut unele dezavantaje, iar după trecerea de la versiunea extinsă a ASCII la UTF-16 a dublat greutatea documentului.

În acest sens, s-a decis să se utilizeze codificarea cu lungime variabilă UTF-8. În acest caz, fiecare caracter al textului sursă este codificat cu o secvență de 1 până la 6 octeți.

Comunicare cu codul standard american pentru schimbul de informații

Toate caracterele alfabetului latin în UTF-8 de lungime variabilă sunt codificate pe 1 octet, ca în sistemul de codare ASCII.

Particularitatea UTP-8 este că, în cazul unui text în latină fără a utiliza alte caractere, chiar și programele care nu înțeleg „Unicode” vă vor permite totuși să-l citiți. Cu alte cuvinte, partea de bază a codificării textului ASCII este pur și simplu îmbinată în noul UTF cu lungime variabilă. Caracterele chirilice în UTP-8 ocupă 2 octeți și, de exemplu, cele georgiane - 3 octeți. Crearea UTF-16 și 8 a rezolvat principala problemă a creării unui singur spațiu de cod în fonturi. De atunci, producătorii de fonturi pot completa tabelul doar cu forme vectoriale de caractere text în funcție de nevoile lor.

Sunt preferate diferite codificări pe sisteme de operare diferite. Pentru a putea citi și edita textele tastate într-o altă codificare, se folosesc programe de conversie a textului rusesc. Unele editoare de text conțin transcoduri încorporate și vă permit să citiți text indiferent de codificare.

Acum știi câte caractere sunt în ASCII și cum și de ce a fost dezvoltat. Desigur, astăzi cel mai răspândit standard în lume este „Unicode”. Totuși, nu trebuie să uităm că a fost creat pe baza ASCII, prin urmare, trebuie apreciată contribuția dezvoltatorilor săi în domeniul IT.

După cum știți, un computer stochează informații în formă binară, reprezentând-o ca o secvență de unu și zero. Pentru a traduce informațiile într-o formă convenabilă pentru percepția umană, fiecare secvență unică de numere este înlocuită cu simbolul corespunzător atunci când este afișată.

Unul dintre sistemele de corelare a codurilor binare cu caractere imprimabile și de control este

La nivelul actual de dezvoltare a tehnologiei informatice, utilizatorului nu i se cere să cunoască codul fiecărui simbol specific. Cu toate acestea, o înțelegere generală a modului în care se realizează codificarea este extrem de utilă, iar pentru unele categorii de specialiști chiar necesară.

Creare ASCII

În forma sa originală, codificarea a fost dezvoltată în 1963 și apoi actualizată de două ori în 25 de ani.

În versiunea originală, tabelul de caractere ASCII includea 128 de caractere, ulterior a apărut o versiune extinsă, în care au fost salvate primele 128 de caractere, iar caracterele absente anterior au fost atribuite codurilor cu al optulea bit implicat.

De mulți ani, această codificare a fost cea mai populară din lume. În 2006, Latin 1252 a ocupat poziția de lider, iar de la sfârșitul lui 2007 până în prezent, Unicode a deținut ferm poziția de lider.

Reprezentare pe computer ASCII

Fiecare caracter ASCII are propriul cod de 8 caractere reprezentând zero sau unu. Numărul minim într-o astfel de reprezentare este zero (opt zerouri în sistemul binar), care este codul primului element din tabel.

Două coduri din tabel au fost rezervate pentru comutarea între standardul US-ASCII și versiunea sa națională.

După ce ASCII a început să includă nu 128, ci 256 de caractere, s-a răspândit o variantă de codificare, în care versiunea originală a tabelului a fost salvată în primele 128 de coduri cu un al 8-lea bit zero. Semnele scrisului național au fost păstrate în jumătatea superioară a tabelului (pozițiile 128-255).

Utilizatorul nu trebuie să cunoască direct codurile de caractere ASCII. De obicei, este suficient ca un dezvoltator de software să cunoască numărul unui element dintr-un tabel pentru a-și calcula codul folosind un sistem binar, dacă este necesar.

Limba rusă

După dezvoltarea codificărilor pentru limbile scandinave, chineză, coreeană, greacă etc., la începutul anilor '70, Uniunea Sovietică a început să-și creeze propria versiune. În curând, a fost dezvoltată o versiune a codificării pe 8 biți numită KOI8, care păstrează primele 128 de coduri de caractere ASCII și alocă același număr de poziții pentru literele alfabetului național și caractere suplimentare.

Înainte de introducerea Unicode, KOI8 domina segmentul rus al internetului. Au existat opțiuni de codare atât pentru alfabetul rus, cât și pentru cel ucrainean.

Probleme ASCII

Deoarece numărul de elemente chiar și în tabelul extins nu a depășit 256, nu a existat nicio posibilitate de a găzdui mai multe scripturi diferite într-o singură codificare. În anii 90, problema „crocozyabr” a apărut în Runet, când textele tastate cu caractere ASCII rusești erau afișate incorect.

Problema a fost că codurile diferitelor variante ASCII nu se potriveau între ele. Amintiți-vă că pozițiile 128-255 ar putea conține caractere diferite, iar la schimbarea unei codări chirilice cu alta, toate literele textului au fost înlocuite cu altele având un număr identic într-o versiune diferită a codificării.

Starea curenta

Odată cu apariția Unicode, popularitatea ASCII a scăzut brusc.

Motivul pentru aceasta constă în faptul că noua codificare a făcut posibilă găzduirea semnelor aproape tuturor limbilor scrise. În acest caz, primele 128 de caractere ASCII corespund acelorași caractere în Unicode.

În 2000, ASCII era cea mai populară codare de pe Internet și era folosită în 60% din paginile web indexate de Google. Până în 2012, ponderea acestor pagini a scăzut la 17%, iar Unicode (UTF-8) a luat locul celei mai populare codări.

Astfel, ASCII este o parte importantă a istoriei tehnologiei informației, dar utilizarea sa în viitor este văzută ca nepromițătoare.

Potrivit Uniunii Internaționale de Telecomunicații, în 2016, trei miliarde și jumătate de oameni au folosit internetul cu o regularitate diferită. Majoritatea dintre ei nici măcar nu se gândesc la faptul că orice mesaje trimise de ei prin intermediul computerelor sau gadgeturilor mobile, precum și textele care sunt afișate pe tot felul de monitoare, sunt de fapt combinații de 0 și 1. Această prezentare a informațiilor se numește codificare . Acesta asigură și facilitează foarte mult stocarea, prelucrarea și transmiterea acestuia. În 1963, a fost dezvoltată codarea ASCII americană, căreia îi este dedicat acest articol.

Prezentarea informațiilor într-un computer

Din punctul de vedere al oricărui computer electronic, textul este o colecție de caractere individuale. Acestea includ nu numai litere, inclusiv majuscule, ci și semne de punctuație și numere. În plus, sunt folosite caractere speciale „=", „&”, „(” și spații.

Setul de simboluri care alcătuiesc textul se numește alfabet, iar numărul lor se numește cardinalitate (notat cu N). Pentru a-l defini, se folosește expresia N = 2 ^ b, unde b este numărul de biți sau greutatea informațională a unui anumit caracter.

S-a dovedit că un alfabet cu o capacitate de 256 de caractere poate reprezenta toate caracterele necesare.

Deoarece 256 este a 8-a putere a doi, greutatea fiecărui caracter este de 8 biți.

Unitatea de măsură de 8 biți se numește 1 octet, deci se obișnuiește să spunem că orice caracter dintr-un text stocat pe un computer ocupă un octet de memorie.

Cum se face codarea

Orice texte sunt introduse în memoria unui computer personal prin intermediul tastelor de la tastatură pe care sunt scrise numere, litere, semne de punctuație și alte simboluri. Ele sunt transferate în RAM într-un cod binar, adică fiecare caracter este asociat cu un cod zecimal cunoscut oamenilor, de la 0 la 255, care corespunde unui cod binar - de la 00000000 la 11111111.

Codificarea caracterelor byte permite procesorului de text să acceseze fiecare caracter separat. În același timp, 256 de caractere sunt suficiente pentru a reprezenta orice informație despre caracter.

Codificarea caracterelor ASCII

Această abreviere în engleză înseamnă cod pentru schimbul de informații.

Chiar și în zorii computerizării, a devenit evident că puteți veni cu o mare varietate de moduri de a codifica informațiile. Cu toate acestea, pentru a transfera informații de la un computer la altul, a fost necesar să se dezvolte un singur standard. Deci, în 1963, în Statele Unite a apărut un tabel de codificare ASCII. În el, orice simbol al alfabetului computerului este asociat cu numărul său ordinal în reprezentare binară. Inițial, ASCII a fost folosit doar în Statele Unite și mai târziu a devenit standardul internațional pentru computere.

Codurile ASCII sunt împărțite în 2 părți. Doar prima jumătate a acestui tabel este considerată standard internațional. Include caractere cu numere ordinale de la 0 (codificat ca 00000000) la 127 (cod 01111111).

Număr de serie	Codificarea textului ASCII	Simbol
	0000 0000 - 0001 1111	Caracterele cu N de la 0 la 31 se numesc caractere de control. Funcția lor este de a „ghida” procesul de afișare a textului pe un monitor sau dispozitiv de imprimare, de a da un semnal sonor etc.
	0010 0000 - 0111 1111	Caractere cu N de la 32 la 127 (partea standard a tabelului) - litere mari și mici ale alfabetului latin, numere din 10 cifre, semne de punctuație, precum și diverse paranteze, simboluri comerciale și alte simboluri. Caracterul 32 denotă un spațiu.
	1000 0000 - 1111 1111	Caracterele cu N de la 128 la 255 (parte alternativă a tabelului sau a paginii de cod) pot avea diferite variante, fiecare având propriul număr. Pagina de coduri este folosită pentru a specifica alfabetele naționale care sunt diferite de latină. În special, cu ajutorul acestuia se realizează codificarea ASCII pentru caracterele rusești.

În tabelul de codificare, majuscule și urmează una după alta în ordine alfabetică, iar numerele - în ordinea crescătoare a valorilor. Acest principiu se aplică și alfabetului rus.

Personaje de control

Tabelul de codificare ASCII a fost creat inițial pentru a primi și transmite informații pe un astfel de dispozitiv care nu a fost folosit de mult timp, cum ar fi un teletype. În acest sens, în setul de caractere au fost incluse caractere neprintabile, folosite ca comenzi pentru a controla acest dispozitiv. Comenzi similare au fost folosite în astfel de metode de mesagerie pre-computer precum codul Morse etc.

Cel mai comun caracter de „teletip” este NUL (00, „zero”). Este încă folosit în majoritatea limbajelor de programare până în prezent, denotă un terminator de linie.

Unde este folosită codificarea ASCII?

Codul standard al SUA este necesar pentru mai mult decât pentru a introduce informații text de la tastatură. Este folosit și în grafică. Mai exact, în ASCII Art Maker, imaginile diferitelor extensii reprezintă un spectru de caractere ASCII.

Astfel de produse sunt de două tipuri: îndeplinesc funcția de editor grafic prin conversia imaginilor în text și conversia „imaginilor” în grafică ASCII. De exemplu, celebra emoticon este un exemplu excelent de caracter de codificare.

ASCII poate fi folosit și la crearea unui document HTML. În acest caz, puteți introduce un anumit set de caractere, iar la vizualizarea paginii, pe ecran va apărea un caracter care corespunde acestui cod.

ASCII este, de asemenea, necesar pentru crearea site-urilor multilingve, deoarece caracterele care nu sunt incluse într-un tabel național specific sunt înlocuite cu coduri ASCII.

Unele caracteristici

Pentru a codifica informațiile text în codificare ASCII, au fost utilizați inițial 7 biți (unul a fost lăsat gol), dar astăzi funcționează ca pe 8 biți.

Literele din coloanele de sus și de jos diferă între ele doar printr-un singur bit. Acest lucru reduce foarte mult complexitatea verificării.

Utilizarea ASCII în Microsoft Office

Dacă este necesar, acest tip de codificare a textului poate fi utilizat în editorii de text Microsoft, cum ar fi Notepad și Office Word. Cu toate acestea, atunci când tastați în acest caz, nu va fi posibilă utilizarea anumitor funcții. De exemplu, nu veți putea îngroșa, deoarece ASCII păstrează doar sensul informațiilor, ignorând aspectul și forma generală a acesteia.

Standardizare

Organizația ISO a adoptat standardele ISO 8859. Acest grup definește codificări pe opt biți pentru diferite grupuri de limbi. Mai exact, ISO 8859-1 este ASCII extins, care este un tabel pentru Statele Unite și Europa de Vest. Și ISO 8859-5 este un tabel folosit pentru alfabetul chirilic, inclusiv limba rusă.

Din mai multe motive istorice, standardul ISO 8859-5 a fost utilizat pentru o perioadă foarte scurtă de timp.

Pentru limba rusă, în prezent, codificări sunt de fapt utilizate:

CP866 (Pagina de cod 866) sau DOS, care este adesea denumită codificare GOST alternativă. A fost folosit în mod activ până la mijlocul anilor 90 ai secolului trecut. Momentan, practic nu este folosit.
KOI-8. Codificarea a fost dezvoltată în anii 1970-80, iar în prezent este un standard general acceptat pentru mesajele de e-mail pe Runet. Este utilizat pe scară largă în sistemul de operare al familiei Unix, inclusiv Linux. Versiunea „rusă” a KOI-8 se numește KOI-8R. În plus, există versiuni pentru alte limbi chirilice, cum ar fi ucraineană.
Pagina de cod 1251 (CP 1251, Windows - 1251). Dezvoltat de Microsoft pentru a oferi suport pentru limba rusă în mediul Windows.

Principalul avantaj al primului standard CP866 a fost păstrarea caracterelor pseudografice în aceleași poziții ca în ASCII extins. Acest lucru a făcut posibilă rularea fără modificări a programelor text realizate în străinătate, cum ar fi binecunoscutul Norton Commander. În prezent, CP866 este utilizat pentru programele dezvoltate sub Windows care funcționează în modul text pe ecran complet sau în ferestre text, inclusiv FAR Manager.

Textele de computer scrise în codificarea CP866 sunt destul de rare în ultima vreme, dar tocmai această codificare este folosită pentru numele fișierelor rusești în Windows.

„Unicode”

În prezent, această codificare este cea care a primit cea mai răspândită utilizare. Codurile Unicode sunt împărțite în zone. Primul (U + 0000 la U + 007F) include caractere ASCII cu coduri. Urmează zonele de semne ale diferitelor scripturi naționale, precum și semnele de punctuație și simbolurile tehnice. În plus, unele dintre codurile „Unicode” sunt rezervate în cazul în care este nevoie de a include noi caractere în viitor.

Acum știți că în ASCII, fiecare caracter este reprezentat ca o combinație de 8 zerouri și unu. Pentru nespecialiști, aceste informații pot părea inutile și neinteresante, dar nu vrei să știi ce se întâmplă „în creierul” computerului tău?!

Se numește setul de caractere cu care este scris textul alfabet.

Numărul de caractere din alfabet este al lui putere.

Formula pentru determinarea cantității de informații: N = 2 b,

unde N este cardinalitatea alfabetului (numărul de caractere),

b - numărul de biți (greutatea informațională a caracterului).

Alfabetul cu o capacitate de 256 de caractere poate găzdui aproape toate caracterele necesare. Acest alfabet se numește suficient.

pentru că 256 = 2 8, atunci greutatea unui caracter este de 8 biți.

Unitatea de 8 biți a fost numită 1 octet:

1 octet = 8 biți.

Codul binar al fiecărui caracter din textul computerului ocupă 1 octet de memorie.

Cum sunt reprezentate informațiile text în memoria computerului?

Comoditatea codificării octet a caracterelor este evidentă, deoarece un octet este cea mai mică parte adresabilă a memoriei și, prin urmare, procesorul poate accesa fiecare caracter separat, efectuând procesarea textului. Pe de altă parte, 256 de caractere este un număr destul de suficient pentru a reprezenta o mare varietate de informații despre caractere.

Acum se pune întrebarea, ce fel de cod binar pe opt biți să asociem cu fiecare caracter.

Este clar că aceasta este o chestiune condiționată, puteți veni cu multe metode de codare.

Toate caracterele alfabetului computerului sunt numerotate de la 0 la 255. Fiecare număr corespunde unui cod binar de opt cifre de la 00000000 la 11111111. Acest cod este pur și simplu numărul ordinal al caracterului din sistemul binar.

Tabelul în care toate caracterele alfabetului computerului sunt atribuite numere de serie se numește tabel de codificare.

Pentru diferite tipuri de computere sunt folosite tabele de codare diferite.

Standardul internațional pentru PC a devenit tabelul ASCII(citiți asci) (Codul standard american pentru schimbul de informații).

Tabelul ASCII este împărțit în două părți.

Standardul internațional este doar prima jumătate a tabelului, adică. simboluri cu numere din 0 (00000000), până la 127 (01111111).

Structura tabelului de codificare ASCII

Număr de serie	Codul	Simbol
0 - 31	00000000 - 00011111	Simbolurile cu numere de la 0 la 31 sunt de obicei numite caractere de control. Funcția lor este de a controla procesul de afișare a textului pe ecran sau de imprimare, de a da un semnal sonor, de a marca textul etc.
32 - 127	00100000 - 01111111	Parte standard a tabelului (engleză). Aceasta include litere mici și mari ale alfabetului latin, cifre zecimale, semne de punctuație, tot felul de paranteze, simboluri comerciale și alte simboluri. Caracterul 32 este un spațiu, adică. poziție goală în text. Toate celelalte se reflectă în anumite semne.
128 - 255	10000000 - 11111111	Parte alternativă a tabelului (rusă). A doua jumătate a tabelului de coduri ASCII, numită pagina de coduri (128 de coduri, începând cu 10000000 și terminând cu 11111111), poate avea variante diferite, fiecare variantă având propriul număr. Pagina de coduri este folosită în primul rând pentru a găzdui alfabetele naționale, altele decât latină. În codificările naționale rusești, această parte a tabelului conține simboluri ale alfabetului rus.

Prima jumătate a tabelului ASCII

Vă atrag atenția că în tabelul de codificare literele (majuscule și mici) sunt aranjate în ordine alfabetică, iar numerele sunt ordonate în ordine crescătoare a valorilor. Această respectare a ordinii lexicografice în aranjarea caracterelor se numește principiul codificării secvențiale a alfabetului.

Pentru literele alfabetului rus, se respectă și principiul codificării secvențiale.

A doua jumătate a tabelului ASCII

Din păcate, în prezent există cinci codificări chirilice diferite (KOI8-R, Windows. MS-DOS, Macintosh și ISO). Din această cauză, apar adesea probleme cu transferul de text rusesc de la un computer la altul, de la un sistem software la altul.

Cronologic, unul dintre primele standarde pentru codificarea literelor rusești pe computere a fost KOI8 („Cod de schimb de informații, 8 biți”). Această codificare a fost folosită încă din anii 70 pe computerele din seria de calculatoare ES, iar de la mijlocul anilor 80 a început să fie folosită în primele versiuni rusificate ale sistemului de operare UNIX.

De la începutul anilor 90, vremea dominației sistemului de operare MS DOS, codificarea CP866 rămâne („CP” înseamnă „Code Page”).

Computerele Apple care rulează Mac OS folosesc propria lor codificare Mac.

În plus, Organizația Internațională pentru Standardizare (International Standards Organization, ISO) a aprobat o altă codificare numită ISO 8859-5 ca standard pentru limba rusă.

În prezent, cea mai comună codificare este Microsoft Windows, prescurtat ca CP1251.

De la sfârșitul anilor 90, problema standardizării codării caracterelor a fost rezolvată prin introducerea unui nou standard internațional numit Unicode... Aceasta este o codificare pe 16 biți, adică alocă 2 octeți de memorie pentru fiecare caracter. Desigur, acest lucru dublează cantitatea de memorie utilizată. Dar, pe de altă parte, un astfel de tabel de coduri permite includerea a până la 65536 de caractere. Specificația completă a standardului Unicode include toate alfabetele existente, dispărute și create artificial din lume, precum și multe simboluri matematice, muzicale, chimice și alte simboluri.

Să încercăm să folosim un tabel ASCII pentru a ne imagina cum vor arăta cuvintele în memoria computerului.

Reprezentarea internă a cuvintelor în memoria computerului

Uneori se întâmplă ca un text format din litere ale alfabetului rus, primit de la un alt computer, să nu poată fi citit - pe ecranul monitorului este vizibil un fel de „farful”. Acest lucru se datorează faptului că computerele folosesc codificare diferită a caracterelor limbii ruse.

coduri de caractere latine. Codificare ASCII (cod standard american pentru schimbul de informații) - codificare de bază a textului pentru latină

Tabelul de coduri de caractere ASCII Windows. Descrierea caracterelor speciale (de control).

Afișarea și stocarea informațiilor într-un computer

Cum a început totul

Trecerea la multilingvism

Descriere

Unele proprietăți

„Unicode”

Comunicare cu codul standard american pentru schimbul de informații

Creare ASCII

Reprezentare pe computer ASCII

Limba rusă

Probleme ASCII

Starea curenta

Prezentarea informațiilor într-un computer

Cum se face codarea

Codificarea caracterelor ASCII

Personaje de control

Unde este folosită codificarea ASCII?

Unele caracteristici

Utilizarea ASCII în Microsoft Office

Standardizare

„Unicode”

Cum sunt reprezentate informațiile text în memoria computerului?

Acum se pune întrebarea, ce fel de cod binar pe opt biți să asociem cu fiecare caracter.

Tabelul în care toate caracterele alfabetului computerului sunt atribuite numere de serie se numește tabel de codificare.

Structura tabelului de codificare ASCII

Număr de serie

Codul

Simbol

0 - 31

00000000 - 00011111

32 - 127

00100000 - 01111111

128 - 255

10000000 - 11111111

Prima jumătate a tabelului ASCII

A doua jumătate a tabelului ASCII

Să încercăm să folosim un tabel ASCII pentru a ne imagina cum vor arăta cuvintele în memoria computerului.

Reprezentarea internă a cuvintelor în memoria computerului

Top articole similare

Tabelul de coduri de caractere ASCII Windows.
Descrierea caracterelor speciale (de control).