Latinski kodovi znakova. ASCII (američki standardni kod za razmjenu informacija) kodiranje - osnovno kodiranje teksta za latinicu

05.09.2019 Zanimljivo

dec	Hex	Simbol	dec	Hex	Simbol
000	00	specijalista. NOP	128	80	Ђ
001	01	specijalista. SOH	129	81	Ѓ
002	02	specijalista. STX	130	82	‚
003	03	specijalista. ETX	131	83	ѓ
004	04	specijalista. EOT	132	84	„
005	05	specijalista. ENQ	133	85	…
006	06	specijalista. ACK	134	86	†
007	07	specijalista. BEL	135	87	‡
008	08	specijalista. BS	136	88	€
009	09	specijalista. TAB	137	89	‰
010	0A	specijalista. LF	138	8A	Љ
011	0B	specijalista. VT	139	8B	‹ ‹
012	0C	specijalista. FF	140	8C	Њ
013	0D	specijalista. CR	141	8D	Ќ
014	0E	specijalista. SO	142	8E	Ћ
015	0F	specijalista. SI	143	8F	Џ
016	10	specijalista. DLE	144	90	ђ
017	11	specijalista. DC1	145	91	‘
018	12	specijalista. DC2	146	92	’
019	13	specijalista. DC3	147	93	“
020	14	specijalista. DC4	148	94	”
021	15	specijalista. NAK	149	95
022	16	specijalista. SYN	150	96	–
023	17	specijalista. ETB	151	97	—
024	18	specijalista. CAN	152	98
025	19	specijalista. EM	153	99	™
026	1A	specijalista. SUB	154	9A	љ
027	1B	specijalista. ITD	155	9B	›
028	1C	specijalista. FS	156	9C	њ
029	1D	specijalista. GS	157	9D	ќ
030	1E	specijalista. Rs	158	9E	ћ
031	1F	specijalista. US	159	9F	џ
032	20	kvačilo SP (prostor)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Yo
041	29	)	169	A9	©
042	2A	*	170	aa	Є
043	2B	+	171	AB	«
044	2C	,	172	AC	¬
045	2D	-	173	AD
046	2E	.	174	AE	®
047	2F	/	175	AF	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	BA	є
059	3B	;	187	BB	»
060	3C	<	188	BC	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	BE	ѕ
063	3F	?	191	Bf	ї
064	40	@	192	C0	A
065	41	A	193	C1	B
066	42	B	194	C2	V
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	F
071	47	G	199	C7	Z
072	48	H	200	C8	I
073	49	I	201	C9	Th
074	4A	J	202	CA	TO
075	4B	K	203	CB	L
076	4C	L	204	CC	M
077	4D	M	205	CD	N
078	4E	N	206	CE	O
079	4F	O	207	CF	NS
080	50	P	208	D0	R
081	51	Q	209	D1	WITH
082	52	R	210	D2	T
083	53	S	211	D3	Imati
084	54	T	212	D4	F
085	55	U	213	D5	NS
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	NS
089	59	Y	217	D9	SCH
090	5A	Z	218	DA	B
091	5B	[	219	DB	NS
092	5C	\	220	DC	B
093	5D	]	221	DD	NS
094	5E	^	222	DE	NS
095	5F	_	223	DF	JA SAM
096	60	`	224	E0	a
097	61	a	225	E1	b
098	62	b	226	E2	v
099	63	c	227	E3	G
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	f	230	E6	f
103	67	g	231	E7	s
104	68	h	232	E8	i
105	69	i	233	E9	th
106	6A	j	234	EA	To
107	6B	k	235	EB	l
108	6C	l	236	EC	m
109	6D	m	237	ED	n
110	6E	n	238	EE	O
111	6F	o	239	EF	NS
112	70	str	240	F0	R
113	71	q	241	F1	sa
114	72	r	242	F2	T
115	73	s	243	F3	at
116	74	t	244	F4	f
117	75	u	245	F5	NS
118	76	v	246	F6	c
119	77	w	247	F7	h
120	78	x	248	F8	NS
121	79	y	249	F9	SCH
122	7A	z	250	FA	b
123	7B	{	251	FB	NS
124	7C	\|	252	FC	b
125	7D	}	253	FD	NS
126	7E	~	254	FE	NS
127	7F	Specijalista. DEL	255	FF	ja sam

Windows ASCII tabela kodova znakova.
Opis posebnih (kontrolnih) znakova

Treba napomenuti da su se u početku kontrolni znakovi ASCII tabele koristili za razmjenu podataka putem teletipa, unos podataka sa bušene trake i za najjednostavniju kontrolu vanjskih uređaja.
Trenutno, većina ASCII kontrolnih znakova u tabeli više ne nosi ovo opterećenje i može se koristiti u druge svrhe.

Kod	Opis
NUL, 00	Null, prazno
SOH, 01	Početak naslova, početak naslova
STX, 02	Početak teksta, početak teksta.
ETX, 03	Kraj teksta, kraj teksta
EOT, 04	Kraj prijenosa, kraj prijenosa
ENQ, 05	Raspitati se. Tražim potvrdu
ACK, 06	Priznanje. Potvrđujem
BEL, 07	Zvono, zvono
BS, 08	Povratak, povratak za jedan znak
TAB, 09	Kartica, horizontalna kartica
LF, 0A	Line Feed, Line Feed. Sada se u većini programskih jezika označava kao \ n
VT, 0B	Vertikalni jezičak, vertikalni jezičak.
FF, 0C	Sažetak obrasca, Feed stranice, Nova stranica
CR, 0D	Povrat kočije Sada se u većini programskih jezika označava kao \ r
SO, 0E	Shift Out, promijenite boju trake s mastilom u uređaju za štampanje
SI, 0F	Shift In, vratite boju trake sa mastilom u uređaj za štampanje
DLE, 10	Data Link Escape, prebacite kanal na prijenos podataka
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Kontrola uređaja, simboli za kontrolu uređaja
NAK, 15	Negativna potvrda, ne priznajem.
SYN, 16	Sinhronizacija. Simbol sinhronizacije
ETB, 17	Kraj tekstualnog bloka, kraj tekstualnog bloka
MOŽE, 18	Otkazivanje, poništavanje prethodno položenog
EM, 19	Kraj medija, kraj nosača podataka
SUB, 1A	Zamena Stavlja se na mjesto znaka čija je vrijednost izgubljena ili oštećena tokom prijenosa
ESC, 1B	Escape Escape Sequence
FS, 1C	File Separator, File Separator
GS, 1D	Grupni separator, separator grupe
RS, 1E	Razdjelnik zapisa, separator zapisa
SAD, 1F	Jedinica separator, jedinica separator
DEL, 7F	Izbriši, izbriši zadnji znak.

Računar razumije proces svoje transformacije u formu koja omogućava organiziranje praktičnijeg prijenosa, skladištenja ili automatske obrade ovih podataka. U tu svrhu koriste se različite tablice. ASCII kodiranje je prvi sistem razvijen u Sjedinjenim Državama za rad s tekstom na engleskom jeziku, koji je kasnije postao široko rasprostranjen u cijelom svijetu. Donji članak posvećen je njegovom opisu, karakteristikama, svojstvima i daljnjoj upotrebi.

Prikaz i skladištenje informacija u računaru

Simboli na kompjuterskom monitoru ili jednom ili drugom mobilnom digitalnom gadgetu formiraju se na osnovu skupova vektorskih oblika svih vrsta znakova i koda koji vam omogućava da među njima pronađete simbol koji treba umetnuti na pravo mjesto. To je serija bitova. Dakle, svaki znak mora jedinstveno odgovarati skupu nula i jedinica, koji stoje u specifičnom, jedinstvenom poretku.

Kako je sve počelo

Istorijski gledano, prvi kompjuteri su bili na engleskom. Za kodiranje simboličkih informacija u njima bilo je dovoljno koristiti samo 7 bitova memorije, dok je za tu svrhu dodijeljen 1 bajt koji se sastoji od 8 bitova. Broj znakova koje je kompjuter razumio u ovom slučaju bio je jednak 128. Broj takvih znakova uključivao je englesku abecedu sa svojim interpunkcijskim znacima, brojevima i nekim posebnim znakovima. Sedmobitno kodiranje na engleskom jeziku sa odgovarajućom tablicom (kodnom stranicom), razvijeno 1963. godine, nazvano je američkim standardnim kodom za razmjenu informacija. Obično se za označavanje koristila skraćenica "ASCII encoding" koja se i danas koristi.

Prelazak na višejezičnost

Vremenom su kompjuteri postali široko korišćeni iu zemljama u kojima se ne govori engleski. U tom smislu, postojala je potreba za kodiranjem koje bi omogućilo upotrebu nacionalnih jezika. Odlučeno je da se ne izmišlja ponovo točak, i da se kao osnova uzme ASCII. Tabela kodiranja u novom izdanju značajno je proširena. Upotreba 8. bita omogućila je prevođenje 256 znakova na kompjuterski jezik.

Opis

ASCII kodiranje ima tabelu koja je podijeljena na 2 dijela. Samo prva polovina se smatra opšteprihvaćenim međunarodnim standardom. To uključuje:

Znakovi sa rednim brojevima od 0 do 31, kodirani sekvencama od 00000000 do 00011111. Rezervisani su za kontrolne znakove koji kontrolišu proces prikazivanja teksta na ekranu ili štampaču, davanja zvučnog signala itd.
Znakovi sa NN u tabeli od 32 do 127, kodirani sekvencama od 00100000 do 01111111, čine standardni deo tabele. To uključuje razmak (N 32), slova latinice (mala i velika), desetocifreni brojevi od 0 do 9, znakove interpunkcije, zagrade različitih stilova i druge simbole.
Znakovi sa rednim brojevima od 128 do 255, kodirani nizovima od 10000000 do 11111111. Ovo uključuje slova nacionalnog alfabeta osim latinice. Upravo ovaj alternativni dio tabele koristi se ASCII kodiranjem za pretvaranje ruskih znakova u kompjuterski oblik.

Neke nekretnine

Posebnosti ASCII kodiranja uključuju razliku između slova "A" - "Z" malih i velikih slova za samo jedan bit. Ova okolnost uvelike pojednostavljuje konverziju registra, kao i njegovu provjeru pripadnosti navedenom rasponu vrijednosti. Osim toga, sva slova u sistemu ASCII kodiranja su predstavljena sopstvenim rednim brojevima u abecedi, koji su u binarnom sistemu napisani sa 5 cifara, kojima prethodi 011 2 za mala slova i 010 2 za velika slova.

Među karakteristikama ASCII kodiranja može se smatrati predstavljanje 10 cifara - "0" - "9". U drugom brojevnom sistemu počinju sa 00112 i završavaju sa 2 broja. Na primjer, 0101 2 je ekvivalentno decimalnoj petici, tako da je znak "5" napisan kao 0011 01012. Na osnovu toga, možete lako pretvoriti BCD-ove u ASCII niz dodavanjem 00112 svakom grickanju s lijeve strane.

"Unicode"

Kao što znate, hiljade znakova su potrebne za prikaz tekstova na jezicima grupe jugoistočne Azije. Toliki broj njih ni na koji način nije opisan u jednom bajtu informacija, pa čak ni proširene ASCII verzije više ne mogu zadovoljiti povećane potrebe korisnika iz različitih zemalja.

Tako se pojavila potreba za stvaranjem univerzalnog kodiranja teksta, koje je razvio Unicode konzorcij u saradnji sa mnogim liderima globalne IT industrije. Njegovi stručnjaci kreirali su sistem UTF 32. U njemu su 32 bita dodijeljena za kodiranje 1 znaka, što čini 4 bajta informacija. Glavni nedostatak je bio naglo povećanje količine potrebne memorije za čak 4 puta, što je za sobom povlačilo mnoge probleme.

Istovremeno, za većinu zemalja sa službenim jezicima koji pripadaju indoevropskoj grupi, broj znakova jednak 2 32 je više nego suvišan.

Kao rezultat daljeg rada stručnjaka iz Unicode konzorcijuma, pojavio se UTF-16 kodiranje. Postala je opcija za transformaciju simboličkih informacija koja je svima odgovarala i po količini potrebne memorije i po broju kodiranih znakova. Zbog toga je UTF-16 prihvaćen po defaultu i zahtijeva da se za jedan znak rezerviraju 2 bajta.

Čak je i ova prilično napredna i uspješna verzija "Unicode-a" imala neke nedostatke, a nakon prelaska sa proširene verzije ASCII na UTF-16 udvostručila je težinu dokumenta.

S tim u vezi, odlučeno je da se koristi kodiranje promjenjive dužine UTF-8. U ovom slučaju, svaki znak izvornog teksta je kodiran nizom od 1 do 6 bajtova.

Odnos sa američkim standardnim kodom za razmjenu informacija

Svi znakovi latinice u UTF-8 varijabilne dužine kodirani su u 1 bajt, kao u ASCII sistemu kodiranja.

Posebnost UTP-8 je da u slučaju teksta na latinici bez korištenja drugih znakova, čak i programi koji ne razumiju "Unicode" će vam i dalje omogućiti da ga pročitate. Drugim riječima, osnovni dio ASCII kodiranja teksta jednostavno se spaja u novi UTF promjenjive dužine. Ćirilični znakovi u UTP-8 zauzimaju 2 bajta, a, na primjer, gruzijski - 3 bajta. Kreiranje UTF-16 i 8 riješilo je glavni problem stvaranja jedinstvenog kodnog prostora u fontovima. Od tada, proizvođači fontova mogu popuniti tabelu samo vektorskim oblicima tekstualnih znakova na osnovu svojih potreba.

Na različitim operativnim sistemima preferiraju se različita kodiranja. Da biste mogli čitati i uređivati tekstove ukucane u drugom kodiranju, koriste se ruski programi za konverziju teksta. Neki uređivači teksta sadrže ugrađene transkodere i omogućavaju vam čitanje teksta bez obzira na kodiranje.

Sada znate koliko znakova ima u ASCII-u i kako i zašto je razvijen. Naravno, danas je najrašireniji standard u svijetu "Unicode". Međutim, ne smijemo zaboraviti da je kreiran na bazi ASCII-a, stoga treba cijeniti doprinos njegovih programera na polju IT-a.

Kao što znate, računar pohranjuje informacije u binarnom obliku, predstavljajući ih kao niz jedinica i nula. Za prevođenje informacija u oblik koji je prikladan za ljudsku percepciju, svaki jedinstveni niz brojeva zamjenjuje se odgovarajućim simbolom kada se prikaže.

Jedan od sistema za korelaciju binarnih kodova sa ispisnim i kontrolnim znakovima je

Na sadašnjem nivou razvoja računarske tehnologije, korisnik nije obavezan da zna šifru svakog specifičnog simbola. Međutim, opće razumijevanje načina na koji se provodi kodiranje je izuzetno korisno, a za neke kategorije stručnjaka čak i neophodno.

ASCII kreiranje

U svom izvornom obliku, kodiranje je razvijeno 1963. godine, a zatim dva puta ažurirano u roku od 25 godina.

U originalnoj verziji, ASCII tablica znakova je sadržavala 128 znakova, kasnije se pojavila proširena verzija, gdje je prvih 128 znakova sačuvano, a prethodno odsutni znakovi su dodijeljeni kodovima sa uključenim osmim bitom.

Dugi niz godina ovo kodiranje je bilo najpopularnije na svijetu. 2006. godine latinica 1252 zauzima vodeću poziciju, a od kraja 2007. do danas, Unicode čvrsto drži vodeću poziciju.

ASCII kompjuterska reprezentacija

Svaki ASCII znak ima svoj vlastiti kod od 8 znakova koji predstavljaju nulu ili jedan. Minimalni broj u takvoj reprezentaciji je nula (osam nula u binarnom sistemu), što je kod prvog elementa u tabeli.

Dva koda u tabeli bila su rezervirana za prebacivanje između standardnog US-ASCII i njegove nacionalne verzije.

Nakon što je ASCII počeo da uključuje ne 128, već 256 znakova, varijanta kodiranja je postala široko rasprostranjena, u kojoj je originalna verzija tablice sačuvana u prvih 128 kodova sa nultim 8. bitom. U gornjoj polovini tabele (pozicije 128-255) zadržani su znaci nacionalnog pisma.

Korisnik ne mora direktno znati ASCII znakovne kodove. Obično je dovoljno da programer softvera zna broj elementa u tabeli kako bi izračunao njegov kod koristeći binarni sistem, ako je potrebno.

ruski jezik

Nakon razvoja kodiranja za skandinavske jezike, kineski, korejski, grčki, itd. početkom 70-ih, Sovjetski Savez je također počeo stvarati svoju verziju. Ubrzo je razvijena verzija 8-bitnog kodiranja pod nazivom KOI8, koja čuva prvih 128 ASCII znakovnih kodova i dodjeljuje isti broj pozicija za slova nacionalne abecede i dodatne znakove.

Prije uvođenja Unicode-a, KOI8 je dominirao ruskim segmentom interneta. Postojale su opcije kodiranja i za rusko i za ukrajinsko pismo.

ASCII problemi

Budući da broj elemenata čak ni u proširenoj tabeli nije prelazio 256, nije postojala mogućnost smještaja nekoliko različitih skripti u jednom kodiranju. Devedesetih godina u Runetu se pojavio problem "crocozyabra", kada su tekstovi ukucani ruskim ASCII znakovima bili pogrešno prikazani.

Problem je bio u tome što se kodovi različitih ASCII varijanti nisu podudarali. Podsjetimo da su pozicije 128-255 mogle sadržavati različite znakove, a prilikom promjene jednog ćiriličnog kodiranja u drugi, sva slova teksta su zamijenjena drugim s identičnim brojem u drugoj verziji kodiranja.

Trenutna drzava

Sa pojavom Unicode-a, popularnost ASCII-a je naglo opala.

Razlog tome leži u činjenici da je novo kodiranje omogućilo prilagođavanje znakova gotovo svih pisanih jezika. U ovom slučaju, prvih 128 ASCII znakova odgovara istim znakovima u Unicode-u.

Godine 2000. ASCII je bio najpopularniji kodiranje na Internetu i korišten je na 60% web stranica koje je indeksirao Google. Do 2012. godine udio takvih stranica je pao na 17%, a Unicode (UTF-8) je zauzeo mjesto najpopularnijeg kodiranja.

Dakle, ASCII je važan dio povijesti informatičke tehnologije, ali se njegova upotreba u budućnosti smatra neperspektivnom.

Prema podacima Međunarodne unije za telekomunikacije, 2016. godine, tri i po milijarde ljudi koristilo je internet s različitom redovnošću. Većina njih i ne razmišlja o tome da su sve poruke koje šalju preko računara ili mobilnih uređaja, kao i tekstovi koji se prikazuju na svim vrstama monitora, zapravo kombinacije 0 i 1. Ovakav prikaz informacija naziva se kodiranje . Omogućava i uvelike olakšava njegovo skladištenje, obradu i prijenos. Godine 1963. razvijeno je američko ASCII kodiranje, čemu je i posvećen ovaj članak.

Prezentacija informacija u kompjuteru

Sa stanovišta svakog elektronskog računara, tekst je skup pojedinačnih znakova. To uključuje ne samo slova, uključujući velika slova, već i znakove interpunkcije i brojeve. Osim toga, koriste se posebni znakovi "=", "&", "(" i razmaci.

Skup simbola koji čine tekst naziva se abeceda, a njihov broj kardinalitet (označen kao N). Da bi se to definiralo, koristi se izraz N = 2 ^ b, gdje je b broj bitova ili informacijska težina određenog karaktera.

Dokazano je da abeceda kapaciteta 256 znakova može predstavljati sve potrebne znakove.

Pošto je 256 8. stepen dvojke, težina svakog znaka je 8 bita.

Mjerna jedinica od 8 bita naziva se 1 bajt, pa je uobičajeno reći da bilo koji znak u tekstu pohranjenom na računaru zauzima jedan bajt memorije.

Kako se radi kodiranje

Bilo koji tekst se unosi u memoriju personalnog računara pomoću tastera na tastaturi na kojima su ispisani brojevi, slova, interpunkcijski znaci i drugi simboli. Oni se prenose u RAM u binarnom kodu, odnosno svaki znak je povezan sa decimalnim kodom poznatim ljudima, od 0 do 255, što odgovara binarnom kodu - od 00000000 do 11111111.

Kodiranje znakova u bajtu omogućava procesoru teksta da pristupi svakom karakteru zasebno. U isto vrijeme, 256 znakova je dovoljno za predstavljanje bilo koje informacije o karakteru.

ASCII kodiranje znakova

Ova skraćenica na engleskom znači kod za razmjenu informacija.

Čak i u zoru kompjuterizacije, postalo je očigledno da možete smisliti širok izbor načina za kodiranje informacija. Međutim, za prijenos informacija s jednog računala na drugi, bilo je potrebno razviti jedinstveni standard. Tako se 1963. godine u Sjedinjenim Državama pojavila ASCII tablica kodiranja. U njemu je bilo koji simbol kompjuterske abecede povezan sa njegovim rednim brojem u binarnom prikazu. U početku se ASCII koristio samo u Sjedinjenim Državama, a kasnije je postao međunarodni standard za PC.

ASCII kodovi su podijeljeni u 2 dijela. Samo prva polovina ove tabele se smatra međunarodnim standardom. Sadrži znakove sa rednim brojevima od 0 (kodirano kao 00000000) do 127 (šifra 01111111).

Serijski broj	ASCII kodiranje teksta	Simbol
	0000 0000 - 0001 1111	Znakovi sa N od 0 do 31 nazivaju se kontrolni znakovi. Njihova funkcija je da „vode“ proces prikazivanja teksta na monitoru ili uređaju za štampanje, daju zvučni signal itd.
	0010 0000 - 0111 1111	Znakovi sa N od 32 do 127 (standardni dio tabele) - velika i mala slova latinice, 10-cifreni brojevi, znaci interpunkcije, kao i razni zagrade, komercijalni i drugi simboli. Znak 32 označava razmak.
	1000 0000 - 1111 1111	Znakovi sa N od 128 do 255 (alternativni dio tabele ili kodne stranice) mogu imati različite varijante, od kojih svaka ima svoj broj. Kodna stranica se koristi za određivanje nacionalnih alfabeta koje se razlikuju od latinice. Konkretno, uz njegovu pomoć se provodi ASCII kodiranje za ruske znakove.

U tablici kodiranja, velika slova i slijede jedan za drugim abecednim redom, a brojevi - uzlaznim redoslijedom vrijednosti. Ovaj princip važi i za rusko pismo.

Kontrolni znakovi

ASCII tablica kodiranja prvobitno je kreirana za primanje i prijenos informacija na takvom uređaju koji se dugo nije koristio, kao što je teletip. S tim u vezi, znakovi koji se ne mogu štampati su uključeni u skup znakova, koji se koriste kao komande za kontrolu ovog uređaja. Slične komande su korištene u takvim metodama razmjene poruka prije kompjutera kao što su Morzeov kod, itd.

Najčešći "teletip" znak je NUL (00, "nula"). Još uvijek se koristi u većini programskih jezika do danas, označavajući terminator linije.

Gdje se koristi ASCII kodiranje?

Američki standardni kod je potreban za više od samog unosa tekstualnih informacija sa tastature. Takođe se koristi u grafici. Konkretno, u ASCII Art Maker-u, slike različitih ekstenzija predstavljaju spektar ASCII znakova.

Takvi proizvodi su dvije vrste: oni obavljaju funkciju grafičkih uređivača tako što pretvaraju slike u tekst i pretvaraju "slike" u ASCII grafiku. Na primjer, poznati emotikon je odličan primjer kodirajućeg karaktera.

ASCII se također može koristiti prilikom kreiranja HTML dokumenta. U tom slučaju možete unijeti određeni skup znakova, a prilikom pregleda stranice na ekranu će se pojaviti znak koji odgovara ovom kodu.

ASCII je takođe neophodan za kreiranje višejezičnih sajtova, pošto se znakovi koji nisu uključeni u određenu nacionalnu tabelu zamenjuju ASCII kodovima.

Neke karakteristike

Za kodiranje tekstualnih informacija u ASCII kodiranju prvobitno je korišteno 7 bitova (jedan je ostavljen prazan), ali danas radi kao 8-bitni.

Slova u gornjem i donjem stupcu razlikuju se jedno od drugog za samo jedan bit. Ovo uvelike smanjuje složenost provjere.

Korišćenje ASCII-a u Microsoft Office-u

Ako je potrebno, ovaj tip kodiranja teksta može se koristiti u Microsoft uređivačima teksta kao što su Notepad i Office Word. Međutim, prilikom kucanja u ovom slučaju, neke funkcije neće biti moguće koristiti. Na primjer, nećete moći podebljati, jer ASCII samo čuva značenje informacija, zanemarujući njihov opći izgled i oblik.

Standardizacija

ISO organizacija je usvojila standarde ISO 8859. Ova grupa definiše osmobitna kodiranja za različite jezičke grupe. Konkretno, ISO 8859-1 je prošireni ASCII, što je tabela za Sjedinjene Države i Zapadnu Evropu. A ISO 8859-5 je tabela koja se koristi za ćirilično pismo, uključujući ruski jezik.

Iz brojnih istorijskih razloga, standard ISO 8859-5 je u upotrebi veoma kratko vreme.

Za ruski jezik se trenutno koriste kodiranja:

CP866 (kod stranice 866) ili DOS, koji se često naziva alternativnim GOST kodiranjem. Aktivno se koristio do sredine 90-ih godina prošlog stoljeća. Trenutno se praktično ne koristi.
KOI-8. Kodiranje je razvijeno 1970-80-ih i trenutno je općeprihvaćeni standard za poruke pošte na Runetu. Široko se koristi u OS porodice Unix, uključujući Linux. "Ruska" verzija KOI-8 zove se KOI-8R. Osim toga, postoje verzije za druge ćiriličke jezike, kao što je ukrajinski.
Kodna stranica 1251 (CP 1251, Windows - 1251). Razvijen od strane Microsofta za pružanje podrške za ruski jezik u Windows okruženju.

Glavna prednost prvog standarda CP866 bila je očuvanje pseudografskih znakova na istim pozicijama kao u proširenom ASCII-u. Ovo je omogućilo pokretanje bez izmjena stranih tekstualnih programa, kao što je dobro poznati Norton Commander. Trenutno se CP866 koristi za programe razvijene pod Windows-om koji rade u tekstualnom modu preko cijelog ekrana ili u tekstualnim prozorima, uključujući FAR Manager.

Kompjuterski tekstovi pisani u CP866 kodiranju su prilično rijetki u posljednje vrijeme, ali se upravo to kodiranje koristi za ruske nazive datoteka u Windows-u.

"Unicode"

U ovom trenutku, upravo je ovo kodiranje dobilo najširu upotrebu. Unicode kodovi su podijeljeni na područja. Prvi (U + 0000 do U + 007F) uključuje ASCII znakove sa kodovima. Zatim slijede područja znakova različitih nacionalnih pisama, kao i znakova interpunkcije i tehničkih simbola. Osim toga, neki od "Unicode" kodova su rezervirani u slučaju da u budućnosti bude potrebe za uključivanjem novih znakova.

Sada znate da je u ASCII-u svaki znak predstavljen kao kombinacija 8 nula i jedinica. Nespecijalistima ove informacije mogu izgledati nepotrebne i nezanimljive, ali zar ne želite da znate šta se dešava "u mozgu" vašeg računara ?!

Skup znakova kojim se piše tekst naziva se abeceda.

Broj znakova u abecedi je njegov moć.

Formula za određivanje količine informacija: N = 2 b,

gdje je N kardinalnost abecede (broj znakova),

b - broj bitova (informaciona težina karaktera).

Abeceda kapaciteta 256 znakova može primiti gotovo sve potrebne znakove. Ova abeceda se zove dovoljno.

Jer 256 = 2 8, tada je težina 1 znaka 8 bita.

8-bitna jedinica je dobila ime 1 bajt:

1 bajt = 8 bitova.

Binarni kod svakog znaka u kompjuterskom tekstu zauzima 1 bajt memorije.

Kako su tekstualne informacije predstavljene u memoriji računara?

Pogodnost bajt kodiranja znakova je očigledna, budući da je bajt najmanji adresabilni dio memorije i stoga procesor može pristupiti svakom karakteru zasebno, obavljajući obradu teksta. S druge strane, 256 znakova je sasvim dovoljan broj za predstavljanje širokog spektra informacija o znakovima.

Sada se postavlja pitanje kakvu vrstu osmobitnog binarnog koda povezati sa svakim znakom.

Jasno je da je ovo uslovna stvar, možete smisliti mnoge metode kodiranja.

Svi znakovi kompjuterske abecede su numerisani od 0 do 255. Svaki broj odgovara osmocifrenom binarnom kodu od 00000000 do 11111111. Ovaj kod je jednostavno redni broj znaka u binarnom sistemu.

Tabela u kojoj su svim znakovima kompjuterske abecede dodijeljeni serijski brojevi naziva se tabela kodiranja.

Za različite tipove računara koriste se različite tablice kodiranja.

Međunarodni standard za PC je postao stol ASCII(čitaj asci) (Američki standardni kod za razmjenu informacija).

ASCII tabela je podijeljena na dva dijela.

Međunarodni standard je samo prva polovina tabele, tj. simboli sa brojevima iz 0 (00000000), do 127 (01111111).

Struktura ASCII tablice kodiranja

Serijski broj	Kod	Simbol
0 - 31	00000000 - 00011111	Simboli s brojevima od 0 do 31 obično se nazivaju kontrolni znakovi. Njihova funkcija je kontrola procesa prikazivanja teksta na ekranu ili štampanja, davanja zvučnog signala, označavanja teksta itd.
32 - 127	00100000 - 01111111	Standardni dio tabele (engleski). Ovo uključuje mala i velika slova latinice, decimalne cifre, znakove interpunkcije, sve vrste zagrada, komercijalne i druge simbole. Znak 32 je razmak, tj. prazna pozicija u tekstu. Svi ostali se ogledaju u određenim znacima.
128 - 255	10000000 - 11111111	Alternativni dio tabele (ruski). Druga polovina tabele kodova ASCII, nazvana kodna stranica (128 kodova, počevši od 10000000 i završavajući sa 11111111), može imati različite varijante, svaka varijanta ima svoj broj. Kodna stranica se prvenstveno koristi za smještaj nacionalnih alfabeta osim latinice. U ruskim nacionalnim kodovima, ovaj dio tabele sadrži simbole ruskog alfabeta.

Prva polovina ASCII tabele

Skrećem vam pažnju da su u tablici kodiranja slova (velika i mala slova) raspoređena abecednim redom, a brojevi rastućim redoslijedom vrijednosti. Ovo poštovanje leksikografskog reda u rasporedu znakova naziva se princip sekvencijalnog kodiranja abecede.

Za slova ruske abecede također se poštuje princip sekvencijalnog kodiranja.

Druga polovina ASCII tabele

Nažalost, trenutno postoji pet različitih ćiriličkih kodiranja (KOI8-R, Windows. MS-DOS, Macintosh i ISO). Zbog toga često nastaju problemi sa prenosom ruskog teksta sa jednog računara na drugi, iz jednog softverskog sistema u drugi.

Hronološki, jedan od prvih standarda za kodiranje ruskih slova na računarima bio je KOI8 („Kod za razmjenu informacija, 8-bitni“). Ovo kodiranje je korišćeno još 70-ih godina na računarima serije računara ES, a od sredine 80-ih počelo je da se koristi u prvim rusifikovanim verzijama UNIX operativnog sistema.

Od početka 90-ih, vremena dominacije operativnog sistema MS DOS, ostaje CP866 kodiranje („CP“ znači „Code Page“).

Apple računari koji koriste Mac OS koriste vlastito Mac kodiranje.

Pored toga, Međunarodna organizacija za standardizaciju (International Standards Organization, ISO) odobrila je još jedno kodiranje pod nazivom ISO 8859-5 kao standard za ruski jezik.

Trenutno, najčešće kodiranje je Microsoft Windows, skraćeno CP1251.

Od kasnih 90-ih, problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda tzv. Unicode... Ovo je 16-bitno kodiranje, tj. dodjeljuje 2 bajta memorije za svaki znak. Naravno, ovo udvostručuje količinu korištene memorije. Ali s druge strane, takva kodna tabela omogućava uključivanje do 65536 znakova. Kompletna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene alfabete svijeta, kao i mnoge matematičke, muzičke, hemijske i druge simbole.

Pokušajmo koristiti ASCII tablicu da zamislimo kako će riječi izgledati u memoriji računara.

Interno predstavljanje riječi u memoriji računara

Ponekad se desi da se tekst koji se sastoji od slova ruske abecede, primljen sa drugog računara, ne može pročitati - na ekranu monitora je vidljiva neka vrsta "blebetanja". To je zbog činjenice da računari koriste različito kodiranje znakova ruskog jezika.

Latinski kodovi znakova. ASCII (američki standardni kod za razmjenu informacija) kodiranje - osnovno kodiranje teksta za latinicu

Windows ASCII tabela kodova znakova. Opis posebnih (kontrolnih) znakova

Prikaz i skladištenje informacija u računaru

Kako je sve počelo

Prelazak na višejezičnost

Opis

Neke nekretnine

"Unicode"

Odnos sa američkim standardnim kodom za razmjenu informacija

ASCII kreiranje

ASCII kompjuterska reprezentacija

ruski jezik

ASCII problemi

Trenutna drzava

Prezentacija informacija u kompjuteru

Kako se radi kodiranje

ASCII kodiranje znakova

Kontrolni znakovi

Gdje se koristi ASCII kodiranje?

Neke karakteristike

Korišćenje ASCII-a u Microsoft Office-u

Standardizacija

"Unicode"

Kako su tekstualne informacije predstavljene u memoriji računara?

Sada se postavlja pitanje kakvu vrstu osmobitnog binarnog koda povezati sa svakim znakom.

Tabela u kojoj su svim znakovima kompjuterske abecede dodijeljeni serijski brojevi naziva se tabela kodiranja.

Struktura ASCII tablice kodiranja

Serijski broj

Kod

Simbol

0 - 31

00000000 - 00011111

32 - 127

00100000 - 01111111

128 - 255

10000000 - 11111111

Prva polovina ASCII tabele

Druga polovina ASCII tabele

Pokušajmo koristiti ASCII tablicu da zamislimo kako će riječi izgledati u memoriji računara.

Interno predstavljanje riječi u memoriji računara

Top srodni članci

Windows ASCII tabela kodova znakova.
Opis posebnih (kontrolnih) znakova