Decimalni ascii kodovi znakova c. Kodiranje tekstualnih informacija

06.09.2019 Windows 7, XP

dec	Hex	Simbol	dec	Hex	Simbol
000	00	specijalista. NOP	128	80	Ђ
001	01	specijalista. SOH	129	81	Ѓ
002	02	specijalista. STX	130	82	‚
003	03	specijalista. ETX	131	83	ѓ
004	04	specijalista. EOT	132	84	„
005	05	specijalista. ENQ	133	85	…
006	06	specijalista. ACK	134	86	†
007	07	specijalista. BEL	135	87	‡
008	08	specijalista. B.S.	136	88	€
009	09	specijalista. TAB	137	89	‰
010	0A	specijalista. LF	138	8A	Љ
011	0B	specijalista. VT	139	8B	‹ ‹
012	0C	specijalista. FF	140	8C	Њ
013	0D	specijalista. CR	141	8D	Ќ
014	0E	specijalista. SO	142	8E	Ћ
015	0F	specijalista. S.I.	143	8F	Џ
016	10	specijalista. DLE	144	90	ђ
017	11	specijalista. DC1	145	91	‘
018	12	specijalista. DC2	146	92	’
019	13	specijalista. DC3	147	93	“
020	14	specijalista. DC4	148	94	”
021	15	specijalista. N.A.K.	149	95
022	16	specijalista. SYN	150	96	–
023	17	specijalista. ETB	151	97	—
024	18	specijalista. CAN	152	98
025	19	specijalista. E.M.	153	99	™
026	1A	specijalista. SUB	154	9A	љ
027	1B	specijalista. ITD	155	9B	›
028	1C	specijalista. FS	156	9C	њ
029	1D	specijalista. G.S.	157	9D	ќ
030	1E	specijalista. R.S.	158	9E	ћ
031	1F	specijalista. US	159	9F	џ
032	20	kvačilo SP (prostor)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Yo
041	29	)	169	A9	©
042	2A	*	170	AA.	Є
043	2B	+	171	AB	«
044	2C	,	172	A.C.	¬
045	2D	-	173	AD
046	2E	.	174	A.E.	®
047	2F	/	175	A.F.	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	B.A.	є
059	3B	;	187	BB	»
060	3C	<	188	B.C.	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	BE	ѕ
063	3F	?	191	B.F.	ї
064	40	@	192	C0	A
065	41	A	193	C1	B
066	42	B	194	C2	IN
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	I
071	47	G	199	C7	Z
072	48	H	200	C8	I
073	49	I	201	C9	Y
074	4A	J	202	C.A.	TO
075	4B	K	203	C.B.	L
076	4C	L	204	CC	M
077	4D	M	205	CD	N
078	4E	N	206	C.E.	O
079	4F	O	207	CF	P
080	50	P	208	D0	R
081	51	Q	209	D1	WITH
082	52	R	210	D2	T
083	53	S	211	D3	U
084	54	T	212	D4	F
085	55	U	213	D5	X
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	Sh
089	59	Y	217	D9	SCH
090	5A	Z	218	D.A.	Kommersant
091	5B	[	219	D.B.	Y
092	5C	\	220	DC	b
093	5D	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	DF	I
096	60	`	224	E0	A
097	61	a	225	E1	b
098	62	b	226	E2	V
099	63	c	227	E3	G
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	f	230	E6	i
103	67	g	231	E7	h
104	68	h	232	E8	I
105	69	i	233	E9	th
106	6A	j	234	E.A.	To
107	6B	k	235	E.B.	l
108	6C	l	236	E.C.	m
109	6D	m	237	ED	n
110	6E	n	238	E.E.	O
111	6F	o	239	EF	P
112	70	str	240	F0	R
113	71	q	241	F1	With
114	72	r	242	F2	T
115	73	s	243	F3	at
116	74	t	244	F4	f
117	75	u	245	F5	X
118	76	v	246	F6	ts
119	77	w	247	F7	h
120	78	x	248	F8	w
121	79	y	249	F9	sch
122	7A	z	250	F.A.	ʺ
123	7B	{	251	FB	s
124	7C	\|	252	F.C.	b
125	7D	}	253	FD	uh
126	7E	~	254	F.E.	Yu
127	7F	Specijalista. DEL	255	FF	I

ASCII Windows tablica kodova znakova.
Opis posebnih (kontrolnih) znakova

Treba napomenuti da su kontrolni znakovi ASCII tabele prvobitno korišćeni za obezbeđivanje razmene podataka putem teletipske mašine, unosa podataka sa bušene trake i za jednostavnu kontrolu eksternih uređaja.
Trenutno, većina kontrolnih znakova ASCII tablice više ne nosi ovo opterećenje i može se koristiti u druge svrhe.

Kod	Opis
NUL, 00	Null, prazno
SOH, 01	Početak naslova
STX, 02	Početak teksta, početak teksta.
ETX, 03	Kraj teksta, kraj teksta
EOT, 04	Kraj prijenosa
ENQ, 05	Raspitati se. Molimo potvrdite
ACK, 06	Priznanje. Potvrđujem
BEL, 07	Bell, zovi
BS, 08	Povratak, povratak za jedan znak
TAB, 09	Kartica, horizontalna kartica
LF, 0A	Line Feed, Line Feed. Danas se u većini programskih jezika označava kao \n
VT, 0B	Vertikalna kartica, vertikalna tabela.
FF, 0C	Feed obrasca, feed stranice, nova stranica
CR, 0D	Povratak kočije, povratak kočije. Danas se u većini programskih jezika označava kao \r
SO,0E	Shift Out, promenite boju trake sa mastilom u uređaju za štampanje
SI,0F	Shift In, vratite boju trake sa mastilom u uređaj za štampanje
DLE, 10	Data Link Escape, prebacivanje kanala na prijenos podataka
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Kontrola uređaja, simboli za kontrolu uređaja
NAK, 15	Negativna potvrda, ne potvrđujem.
SYN, 16	Sinhronizacija. Simbol za sinhronizaciju
ETB, 17	Kraj tekstualnog bloka, kraj tekstualnog bloka
MOŽE, 18	Otkaži, otkazivanje prethodno preneseno
EM, 19	Kraj srednjeg
SUB, 1A	Zamena, zamena. Stavlja se na mjesto simbola čije je značenje izgubljeno ili oštećeno tokom prijenosa
ESC, 1B	Escape Control Sequence
FS, 1C	File Separator, File Separator
GS, 1D	Grupni separator
RS, 1E	Razdjelnik zapisa, separator zapisa
SAD, 1F	Unit Separator
DEL, 7F	Izbrišite, obrišite poslednji znak.

Preklapanje znakova

BS (backspace) znak omogućava štampaču da štampa jedan znak na drugom. ASCII omogućava dodavanje dijakritičkih znakova slovima na ovaj način, na primjer:

a BS "→ á
a BS ` → à
a BS ^ → â
o BS / → ø
c BS , → ç
n BS ~ → s

Bilješka: u starim fontovima apostrof " je nacrtan koso ulijevo, a tilda ~ je pomaknuta prema gore, tako da samo odgovaraju ulozi akuta i tilde na vrhu.

Ako je isti znak postavljen na znak, rezultat je efekat podebljanog fonta, a ako je podvučeno postavljeno na znak, rezultat je podvučeni tekst.

a BS a → a
aBS_→ a

Bilješka: Ovo se koristi, na primjer, u sistemu pomoći za čovjeka.

Nacionalne ASCII varijante

Standard ISO 646 (ECMA-6) predviđa mogućnost postavljanja nacionalnih simbola @ [ \ ] ^ ` { | } ~ . Osim toga, na licu mjesta # može se objaviti £ , i na mjestu $ - ¤ . Ovaj sistem je veoma pogodan za evropske jezike gde je potrebno samo nekoliko dodatnih znakova. Verzija ASCII bez nacionalnih znakova naziva se US-ASCII, ili "Međunarodna referentna verzija".

Nakon toga, pokazalo se da je zgodnije koristiti 8-bitna kodiranja (kodnih stranica), gdje donju polovicu kodne tablice (0-127) zauzimaju US-ASCII znakovi, a gornju (128-255) dodatnim znakovima, uključujući skup nacionalnih znakova. Dakle, gornja polovina ASCII tablice, prije širokog usvajanja Unicodea, aktivno se koristila za predstavljanje lokaliziranih znakova, slova lokalnog jezika. Nedostatak jedinstvenog standarda za postavljanje ćiriličkih znakova u ASCII tablicu uzrokovao je mnoge probleme sa kodiranjem (KOI-8, Windows-1251 i drugi). Drugi jezici s nelatinskim pismom također su patili od nekoliko različitih kodiranja.

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
0.	NUL	SOM	EOA	EOM	EQT	W.R.U.	RU	BELL	BKSP	HT	LF	VT	FF	CR	SO	S.I.
1.	DC 0	DC 1	DC 2	DC 3	DC 4	ERR	SYNC	L.E.M.	S 0	S 1	S 2	S 3	S 4	S 5	S 6	S 7
2.
3.
4.	BLANK	!	"	#	$	%	&	"	(	)	*	+	,	-	.	/
5.	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
6.
7.
8.
9.
A.	@	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O
B.	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]		←
C.
D.
E.		a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
F.	str	q	r	s	t	u	v	w	x	y	z				ITD	DEL

Na onim računarima gdje je minimalna adresabilna jedinica memorije bila 36-bitna riječ, u početku su korišteni 6-bitni znakovi (1 riječ = 6 znakova). Nakon prelaska na ASCII, takvi računari su počeli da sadrže ili 5 sedmobitnih znakova (1 bit je ostao dodatni) ili 4 devetobitna znaka u jednoj riječi.

ASCII kodovi se takođe koriste za određivanje koji taster je pritisnut tokom programiranja. Za standardnu QWERTY tastaturu, tabela kodova izgleda ovako:

Unicode (Unicode na engleskom) je standard za kodiranje znakova. Jednostavno rečeno, ovo je tabela korespondencije između tekstualnih znakova ( , slova, interpunkcijskih elemenata) binarni kodovi. Računar razumije samo niz nula i jedinica. Da bi znao šta tačno treba da prikaže na ekranu, potrebno je svakom karakteru dodeliti svoj jedinstveni broj. Osamdesetih godina, znakovi su bili kodirani u jednom bajtu, odnosno osam bitova (svaki bit je 0 ili 1). Tako se ispostavilo da jedna tabela (aka kodiranje ili skup) može da primi samo 256 karaktera. Ovo možda neće biti dovoljno ni za jedan jezik. Stoga se pojavilo mnogo različitih kodiranja, zbog kojih je zabuna često dovodila do toga da se na ekranu umjesto čitljivog teksta pojavljuje neka čudna brbljarija. Bio je potreban jedinstven standard, što je i postao Unicode. Najčešće korišteno kodiranje je UTF-8 (Unicode Transformation Format), koji koristi 1 do 4 bajta za predstavljanje znaka.

Simboli

Znakovi u Unicode tabelama su numerisani heksadecimalnim brojevima. Na primjer, ćirilično veliko slovo M označeno je U+041C. To znači da se nalazi na raskrsnici reda 041 i kolone C. Možete ga jednostavno kopirati i zatim negdje zalijepiti. Da ne biste preturali po višekilometarskoj listi, trebali biste koristiti pretragu. Kada odete na stranicu sa simbolima, vidjet ćete njen Unicode broj i kako je napisan različitim fontovima. Sam znak možete unijeti u traku za pretraživanje, čak i ako je umjesto njega nacrtan kvadrat, barem da biste saznali o čemu je riječ. Takođe, na ovom sajtu postoje posebni (i nasumični) setovi ikona iste vrste, sakupljeni iz različitih sekcija, radi lakšeg korišćenja.

Unicode standard je međunarodni. Uključuje likove iz gotovo svih svjetskih spisa. Uključujući i one koji se više ne koriste. Egipatski hijeroglifi, germanske rune, majansko pismo, klinopis i abecede drevnih država. Prikazane su i oznake težina i mjera, notni zapisi i matematički pojmovi.

Sam Unicode konzorcij ne izmišlja nove znakove. One ikone koje nađu svoju upotrebu u društvu dodaju se na tabele. Na primjer, znak rublje se aktivno koristio šest godina prije nego što je dodan u Unicode. Emoji piktogrami (emotikoni) su također prvi put bili široko korišteni u Japanu prije nego što su uključeni u kodiranje. Ali zaštitni znakovi i logotipi kompanije se u principu ne dodaju. Čak i one uobičajene kao što su Apple Apple ili Windows zastava. Do danas je u verziji 8.0 kodirano oko 120 hiljada znakova.

Računar razumije proces pretvaranja u oblik koji omogućava praktičniji prijenos, skladištenje ili automatsku obradu ovih podataka. U tu svrhu koriste se različite tablice. ASCII je bio prvi sistem razvijen u Sjedinjenim Državama za rad s engleskim tekstom, koji je kasnije postao široko rasprostranjen u cijelom svijetu. Donji članak posvećen je njegovom opisu, karakteristikama, svojstvima i daljnjoj upotrebi.

Prikaz i skladištenje informacija u računaru

Simboli na kompjuterskom monitoru ili jednom ili drugom mobilnom digitalnom gadgetu formiraju se na osnovu skupova vektorskih oblika različitih znakova i koda koji vam omogućava da među njima pronađete simbol koji treba umetnuti na pravo mjesto. Predstavlja niz bitova. Dakle, svaki znak mora jedinstveno odgovarati skupu nula i jedinica, koji se pojavljuju određenim, jedinstvenim redoslijedom.

Kako je sve počelo

Istorijski gledano, prvi računari su bili na engleskom jeziku. Za kodiranje simboličkih informacija u njima bilo je dovoljno koristiti samo 7 bitova memorije, dok je za tu svrhu dodijeljen 1 bajt od 8 bitova. Broj znakova koje je kompjuter razumio u ovom slučaju je bio 128. Ovi znakovi su uključivali englesku abecedu sa svojim interpunkcijskim znacima, brojevima i nekim posebnim znakovima. Sedmobitno kodiranje na engleskom jeziku sa odgovarajućom tablicom (kodnom stranicom), razvijeno 1963. godine, nazvano je američkim standardnim kodom za razmjenu informacija. Obično se za označavanje koristila i još uvijek se koristi skraćenica “ASCII encoding”.

Prelazak na višejezičnost

Vremenom su kompjuteri postali široko korišćeni u zemljama gde se ne govori engleski. S tim u vezi, postojala je potreba za kodiranjem koje dozvoljava upotrebu nacionalnih jezika. Odlučeno je da se ne izmišlja ponovo točak i da se za osnovu uzme ASCII. Tabela kodiranja u novom izdanju značajno je proširena. Upotreba 8. bita omogućila je prevođenje 256 znakova u kompjuterski jezik.

Opis

ASCII kodiranje ima tabelu koja je podijeljena na 2 dijela. Samo se njegova prva polovina smatra općeprihvaćenim međunarodnim standardom. To uključuje:

Znakovi sa serijskim brojevima od 0 do 31, kodirani u sekvencama od 00000000 do 00011111. Rezervisani su za kontrolne znakove koji kontrolišu proces prikazivanja teksta na ekranu ili štampaču, oglašavanja zvučnog signala itd.
Znakovi sa NN u tabeli od 32 do 127, kodirani sekvencama od 00100000 do 01111111 čine standardni deo tabele. To uključuje razmak (N 32), slova latinice (mala i velika), desetocifreni brojevi od 0 do 9, znakove interpunkcije, zagrade različitih stilova i druge simbole.
Znakovi sa serijskim brojevima od 128 do 255, kodirani sekvencama od 10000000 do 11111111. Ovo uključuje slova nacionalnog alfabeta osim latinice. Upravo ovaj alternativni dio ASCII tabele se koristi za pretvaranje ruskih znakova u kompjuterski oblik.

Neke nekretnine

Karakteristike ASCII kodiranja uključuju razliku između slova “A” - “Z” malih i velikih slova za samo jedan bit. Ova okolnost uvelike pojednostavljuje konverziju registra, kao i provjeru da li pripada datom rasponu vrijednosti. Pored toga, sva slova u sistemu ASCII kodiranja su predstavljena sopstvenim rednim brojevima u abecedi, koji su napisani sa 5 cifara u binarnom brojevnom sistemu, kojima prethodi 011 2 za mala slova i 010 2 za velika slova.

Jedna od karakteristika ASCII kodiranja je predstavljanje 10 cifara - "0" - "9". U drugom brojevnom sistemu počinju sa 00112 i završavaju sa 2 brojevne vrednosti. Dakle, 0101 2 je ekvivalentno decimalnom broju pet, tako da je znak "5" napisan kao 0011 01012. Na osnovu gore navedenog, možete lako pretvoriti BCD brojeve u ASCII niz dodavanjem sekvence bitova 00112 svakom grickanju na lijevo.

"Unicode"

Kao što znate, hiljade znakova su potrebne za prikazivanje tekstova na jezicima grupe jugoistočne Azije. Toliki broj njih se ni na koji način ne može opisati u jednom bajtu informacija, pa čak ni proširene verzije ASCII-a više ne mogu zadovoljiti povećane potrebe korisnika iz različitih zemalja.

Tako se pojavila potreba za stvaranjem univerzalnog kodiranja teksta, čiji je razvoj, u saradnji sa mnogim liderima globalne IT industrije, preuzeo Unicode konzorcij. Njegovi stručnjaci kreirali su UTF 32 sistem. U njemu su 32 bita dodijeljena za kodiranje 1 znaka, što čini 4 bajta informacija. Glavni nedostatak je bio naglo povećanje količine potrebne memorije za čak 4 puta, što je za sobom povlačilo mnoge probleme.

Istovremeno, za većinu zemalja sa službenim jezicima koji pripadaju indoevropskoj grupi, broj znakova jednak 2 32 je više nego pretjeran.

Kao rezultat daljnjeg rada stručnjaka iz Unicode konzorcija, pojavio se UTF-16 kodiranje. Postala je opcija za pretvaranje simboličkih informacija koja je svima odgovarala iu pogledu količine potrebne memorije i broja kodiranih znakova. Zbog toga je UTF-16 usvojen po defaultu i zahtijeva da se 2 bajta rezerviraju za jedan znak.

Čak je i ova prilično napredna i uspješna verzija Unicode-a imala neke nedostatke, a nakon prelaska sa proširene verzije ASCII-a na UTF-16, težina dokumenta se udvostručila.

S tim u vezi, odlučeno je da se koristi UTF-8 kodiranje promjenjive dužine. U ovom slučaju, svaki znak izvornog teksta je kodiran kao niz dužine od 1 do 6 bajtova.

Kontaktirajte američki standardni kod za razmjenu informacija

Svi latinični znakovi u UTF-8 varijabilne dužine su kodirani u 1 bajt, kao u ASCII sistemu kodiranja.

Posebna karakteristika YTF-8 je da će u slučaju teksta na latinici bez upotrebe drugih znakova, čak i programi koji ne razumiju Unicode moći da ga pročitaju. Drugim riječima, osnovno ASCII kodiranje teksta jednostavno postaje dio novog UTF-a promjenjive dužine. Ćirilični znakovi u YTF-8 zauzimaju 2 bajta, a, na primjer, gruzijski znakovi - 3 bajta. Kreiranjem UTF-16 i 8 riješen je glavni problem stvaranja jedinstvenog kodnog prostora u fontovima. Od tada, proizvođači fontova mogu popuniti tabelu samo vektorskim oblicima tekstualnih znakova na osnovu svojih potreba.

Različiti operativni sistemi preferiraju različita kodiranja. Da biste mogli čitati i uređivati tekstove otkucane u drugom kodiranju, koriste se ruski programi za konverziju teksta. Neki uređivači teksta sadrže ugrađene transkodere i omogućavaju vam čitanje teksta bez obzira na kodiranje.

Sada znate koliko znakova ima ASCII kodiranje i kako i zašto je razvijeno. Naravno, danas je Unicode standard najrašireniji u svijetu. Međutim, ne smijemo zaboraviti da je baziran na ASCII-u, tako da treba cijeniti doprinos njegovih programera IT polju.

Skup znakova kojim se piše tekst naziva se abeceda.

Broj znakova u abecedi je njegov moć.

Formula za određivanje količine informacija: N=2b,

gdje je N snaga abecede (broj znakova),

b – broj bitova (informaciona težina simbola).

Abeceda kapaciteta 256 znakova može primiti gotovo sve potrebne znakove. Ova abeceda se zove dovoljno.

Jer 256 = 2 8, tada je težina 1 karaktera 8 bita.

Jedinica mjerenja 8 bita dobila je ime 1 bajt:

1 bajt = 8 bitova.

Binarni kod svakog znaka u kompjuterskom tekstu zauzima 1 bajt memorije.

Kako su tekstualne informacije predstavljene u memoriji računara?

Pogodnost kodiranja znakova bajt po bajt je očigledna jer je bajt najmanji adresabilni dio memorije i stoga procesor može pristupiti svakom karakteru posebno prilikom obrade teksta. S druge strane, 256 znakova je sasvim dovoljan broj za predstavljanje širokog spektra simboličkih informacija.

Sada se postavlja pitanje koji osmobitni binarni kod dodijeliti svakom znaku.

Jasno je da je ovo uslovna stvar, možete smisliti mnoge metode kodiranja.

Svi znakovi kompjuterske abecede su numerisani od 0 do 255. Svaki broj odgovara osmobitnom binarnom kodu od 00000000 do 11111111. Ovaj kod je jednostavno serijski broj znaka u binarnom brojevnom sistemu.

Tabela u kojoj su svim znakovima kompjuterske abecede dodijeljeni serijski brojevi naziva se tabela kodiranja.

Različiti tipovi računara koriste različite tablice kodiranja.

Tabela je postala međunarodni standard za računare ASCII(pročitajte upitno) (Američki standardni kod za razmjenu informacija).

Tabela ASCII kodova podijeljena je na dva dijela.

Samo prva polovina tabele je međunarodni standard, tj. simboli sa brojevima iz 0 (00000000), do 127 (01111111).

Struktura ASCII tablice kodiranja

Serijski broj	Kod	Simbol
0 - 31	00000000 - 00011111	Simboli s brojevima od 0 do 31 obično se nazivaju kontrolnim simbolima. Njihova funkcija je kontrola procesa prikazivanja teksta na ekranu ili štampanja, oglašavanja zvučnog signala, označavanja teksta itd.
32 - 127	00100000 - 01111111	Standardni dio tabele (engleski). To uključuje mala i velika slova latinice, decimalne brojeve, znakove interpunkcije, sve vrste zagrada, komercijalne i druge simbole. Znak 32 je razmak, tj. prazna pozicija u tekstu. Svi ostali se odražavaju određenim znacima.
128 - 255	10000000 - 11111111	Alternativni dio tabele (ruski). Druga polovina tabele kodova ASCII, nazvana kodna stranica (128 kodova, počevši od 10000000 i završavajući sa 11111111), može imati različite opcije, svaka opcija ima svoj broj. Kodna stranica se prvenstveno koristi za smještaj nacionalnih alfabeta osim latinice. U ruskim nacionalnim kodovima, znakovi iz ruskog alfabeta nalaze se u ovom dijelu tabele.

Prva polovina tabele ASCII kodova

Imajte na umu da su u tablici kodiranja slova (velika i mala slova) raspoređena abecednim redom, a brojevi rastućim redoslijedom. Ovo poštovanje leksikografskog reda u rasporedu simbola naziva se princip sekvencijalnog kodiranja abecede.

Za slova ruskog alfabeta također se poštuje princip sekvencijalnog kodiranja.

Druga polovina tabele ASCII kodova

Nažalost, trenutno postoji pet različitih ćiriličkih kodiranja (KOI8-R, Windows. MS-DOS, Macintosh i ISO). Zbog toga često nastaju problemi sa prenošenjem ruskog teksta sa jednog računara na drugi, iz jednog softverskog sistema u drugi.

Hronološki, jedan od prvih standarda za kodiranje ruskih slova na računarima bio je KOI8 („Kod za razmenu informacija, 8-bitni“). Ovo kodiranje je korišćeno još 70-ih godina na računarima serije računara ES, a od sredine 80-ih počelo je da se koristi u prvim rusifikovanim verzijama UNIX operativnog sistema.

Od ranih 90-ih, vremena dominacije operativnog sistema MS DOS, ostaje CP866 kodiranje („CP“ znači „Kodna stranica“, „kodna stranica“).

Apple računari koji koriste Mac OS operativni sistem koriste vlastito Mac kodiranje.

Pored toga, Međunarodna organizacija za standarde (ISO) je odobrila još jedno kodiranje pod nazivom ISO 8859-5 kao standard za ruski jezik.

Najčešći kodiranje koje se trenutno koristi je Microsoft Windows, skraćeno CP1251.

Od kasnih 90-ih, problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda tzv. Unicode. Ovo je 16-bitno kodiranje, tj. dodjeljuje 2 bajta memorije za svaki znak. Naravno, ovo povećava količinu zauzete memorije za 2 puta. Ali takva kodna tabela dozvoljava uključivanje do 65536 znakova. Kompletna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene alfabete svijeta, kao i mnoge matematičke, muzičke, hemijske i druge simbole.

Pokušajmo koristiti ASCII tablicu da zamislimo kako će riječi izgledati u memoriji računara.

Interno predstavljanje riječi u memoriji računara

Ponekad se desi da se tekst koji se sastoji od slova ruske abecede primljen sa drugog računara ne može pročitati - na ekranu monitora je vidljiva neka vrsta "abrakadabre". To se dešava zato što računari koriste različita kodiranja znakova za ruski jezik.

Najbolji članci na ovu temu

Načini za određivanje vašeg Steam ID-a ili ID-a prijatelja

Kako smanjiti ćirilični niz koristeći PHP

PHP _SELF u atributu radnje obrasca

Kategorije: