Skup znakova kojim se piše tekst naziva se abeceda.
Broj znakova u abecedi je njegov moć.
Formula za određivanje količine informacija: N = 2 b,
gdje je N kardinalnost abecede (broj znakova),
b - broj bitova (informaciona težina karaktera).
Abeceda kapaciteta 256 znakova može primiti gotovo sve potrebne znakove. Ova abeceda se zove dovoljno.
Jer 256 = 2 8, tada je težina 1 znaka 8 bita.
8-bitna jedinica je dobila ime 1 bajt:
1 bajt = 8 bitova.
Binarni kod svakog znaka u kompjuterskom tekstu zauzima 1 bajt memorije.
Kako su tekstualne informacije predstavljene u memoriji računara?
Pogodnost bajt kodiranja znakova je očigledna, budući da je bajt najmanji adresabilni dio memorije i stoga procesor može pristupiti svakom karakteru zasebno, obavljajući obradu teksta. S druge strane, 256 znakova je sasvim dovoljan broj za predstavljanje širokog spektra informacija o znakovima.
Sada se postavlja pitanje kakvu vrstu osmobitnog binarnog koda povezati sa svakim znakom.
Jasno je da je ovo uslovna stvar, možete smisliti mnoge metode kodiranja.
Svi znakovi kompjuterske abecede su numerisani od 0 do 255. Svaki broj odgovara osmocifrenom binarnom kodu od 00000000 do 11111111. Ovaj kod je jednostavno redni broj znaka u binarnom sistemu.
Tabela u kojoj su svim znakovima kompjuterske abecede dodijeljeni serijski brojevi naziva se tabela kodiranja.
Za različite tipove računara koriste se različite tablice kodiranja.
Međunarodni standard za PC je postao stol ASCII(čitaj asci) (Američki standardni kod za razmjenu informacija).
ASCII tabela je podijeljena na dva dijela.
Međunarodni standard je samo prva polovina tabele, tj. simboli sa brojevima iz 0 (00000000), do 127 (01111111).
Struktura ASCII tablice kodiranja
Serijski broj |
Kod |
Simbol |
0 - 31 |
00000000 - 00011111 |
Simboli sa brojevima od 0 do 31 obično se nazivaju kontrolni znakovi. |
32 - 127 |
00100000 - 01111111 |
Standardni dio tabele (engleski). Ovo uključuje mala i velika slova latinice, decimalne cifre, znakove interpunkcije, sve vrste zagrada, komercijalne i druge simbole. |
128 - 255 |
10000000 - 11111111 |
Alternativni dio tabele (ruski). |
Prva polovina ASCII tabele
![]() |
Skrećem vam pažnju da su u tablici kodiranja slova (velika i mala slova) raspoređena abecednim redom, a brojevi rastućim redoslijedom vrijednosti. Ovo poštovanje leksikografskog reda u rasporedu znakova naziva se princip sekvencijalnog kodiranja abecede.
Za slova ruske abecede također se poštuje princip sekvencijalnog kodiranja.
Druga polovina ASCII tabele
![](https://i0.wp.com/school497.ru/download/u/02/img/asc1.gif)
Nažalost, trenutno postoji pet različitih ćiriličkih kodiranja (KOI8-R, Windows. MS-DOS, Macintosh i ISO). Zbog toga često nastaju problemi sa prenosom ruskog teksta sa jednog računara na drugi, iz jednog softverskog sistema u drugi.
Hronološki, jedan od prvih standarda za kodiranje ruskih slova na računarima bio je KOI8 („Kod za razmjenu informacija, 8-bitni“). Ovo kodiranje se koristilo još 70-ih godina na računarima serije računara ES, a od sredine 80-ih počelo je da se koristi u prvim rusifikovanim verzijama UNIX operativnog sistema.
Od početka 90-ih, vremena dominacije operativnog sistema MS DOS, ostaje CP866 kodiranje („CP“ je skraćenica za „Code Page“).
Apple računari koji koriste Mac OS koriste vlastito Mac kodiranje.
Pored toga, Međunarodna organizacija za standardizaciju (International Standards Organization, ISO) odobrila je još jedno kodiranje pod nazivom ISO 8859-5 kao standard za ruski jezik.
Trenutno, najčešće kodiranje je Microsoft Windows, skraćeno CP1251.
Od kasnih 90-ih, problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda tzv. Unicode... Ovo je 16-bitno kodiranje, tj. dodjeljuje 2 bajta memorije za svaki znak. Naravno, ovo udvostručuje količinu korištene memorije. Ali s druge strane, takva kodna tabela omogućava uključivanje do 65536 znakova. Kompletna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene alfabete svijeta, kao i mnoge matematičke, muzičke, hemijske i druge simbole.
Pokušajmo koristiti ASCII tablicu da zamislimo kako će riječi izgledati u memoriji računara.
Interno predstavljanje riječi u memoriji računara
Ponekad se desi da se tekst koji se sastoji od slova ruske abecede, primljen sa drugog računara, ne može pročitati - na ekranu monitora je vidljiva neka vrsta "brblja". To je zbog činjenice da računari koriste različito kodiranje znakova ruskog jezika.
Excel za Office 365 Word za Office 365 Outlook za Office 365 PowerPoint za Office 365 Publisher za Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Excel 2007 Word 2010 Excel 2007 Word 2007 Visio07 Office2007 Power07 Office202 Access07 Visio Standard 2007 Visio Standard 2010 Manje
U ovom članku
Umetnite ASCII ili Unicode znak u dokument
Ako trebate unijeti samo nekoliko posebnih znakova ili simbola, možete koristiti bilo koje tipkovne prečice. Za listu ASCII znakova, pogledajte sljedeće tabele ili članak Umetanje nacionalnih alfabeta pomoću prečica na tastaturi.
napomene:
Umetnite ASCII znakove
Da unesete ASCII znak, pritisnite i držite tipku ALT dok unosite kod karaktera. Na primjer, da biste umetnuli simbol stepena (º), pritisnite i držite tipku Alt, a zatim unesite 0176 na numeričkoj tastaturi.
Koristite numeričku tastaturu za unos brojeva umjesto brojeva na glavnoj tastaturi. Ako trebate unijeti brojeve na numeričkoj tastaturi, provjerite je li indikator NUM LOCK uključen.
Umetanje Unicode znakova
Da biste umetnuli Unicode znak, unesite kod karaktera, a zatim pritisnite ALT i X u nizu. Na primjer, da biste umetnuli znak dolara ($), unesite 0024 i pritisnite ALT i X u nizu. Za sve kodove Unicode znakova pogledajte.
Bitan: Neki Microsoft Office programi, kao što su PowerPoint i InfoPath, ne podržavaju pretvaranje Unicode kodova u znakove. Ako trebate umetnuti Unicode znak u jedan od ovih programa, koristite.
napomene:
Ako vidite pogrešan Unicode znak nakon što pritisnete ALT + X, odaberite ispravan kod, a zatim ponovo pritisnite ALT + X.
Osim toga, "U +" se mora unijeti prije koda. Na primjer, ako unesete "1U + B5" i pritisnete Alt + X, prikazuje se tekst "1µ", a ako unesete "1B5" i pritisnete Alt + X, prikazuje se znak "Ƶ".
Korišćenje tabele simbola
Symbol Map je program ugrađen u Microsoft Windows koji vam omogućava da vidite simbole dostupne za odabrani font.
Koristeći tablicu simbola, možete kopirati pojedinačne simbole ili grupu simbola u međuspremnik i zalijepiti ih u bilo koji program koji može prikazati te simbole. Otvaranje tabele simbola
Na Windows 10 Unesite riječ "simbol" u okvir za pretraživanje na traci zadataka i odaberite tablicu simbola iz rezultata pretraživanja.
Na Windows 8 Unesite riječ "znak" na početnom ekranu i odaberite tabelu znakova iz rezultata pretraživanja.
Na Windows 7 pritisnite dugme Počni, uzastopno odaberite Svi programi, Standard, Servis i kliknite tabela simbola.
Znakovi su grupirani po fontu. Kliknite na listu fontova da odaberete odgovarajući skup znakova. Da biste odabrali simbol, kliknite na njega, a zatim kliknite Odaberite... Da biste umetnuli simbol, desnom tipkom miša kliknite željenu lokaciju u dokumentu i odaberite Insert.
Često korišteni kodovi simbola
Za kompletnu listu znakova pogledajte svoj računar, tabelu kodova ASCII znakova ili tabele skupova Unicode znakova.
Glif |
Glif |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Monetarne jedinice |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Pravni simboli |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Matematički simboli |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Razlomci |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Znakovi interpunkcije i dijalekatski simboli |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Simboli obrazaca |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Često korišteni dijakritički kodoviZa kompletnu listu glifova i povezanih kodova, pogledajte.
|
Usput, na našoj stranici možete prevesti bilo koji tekst u decimalni, heksadecimalni, binarni kod pomoću online kalkulatora kodova.
ASCII tabela
ASCII (američki standardni kod za razmjenu informacija)
Tabela sažetka ASCII kodova
ASCII Windows tablica kodova znakova (Win-1251)
|
|
Proširena ASCII tabela
Formatiranje znakova.
Backspace (Backspace jedan znak). Označava pomicanje mehanizma za štampanje ili pokazivača pokazivača unazad za jednu poziciju. |
|
Horizontalna tabulacija Pokazuje kretanje mašine za štampanje ili pokazivača pokazivača do sledećeg propisanog "tab stop". |
|
Line Feed. Pokazuje kretanje mašine za štampanje ili pokazivača na početku sledećeg reda (jedan red naniže). |
|
Vertikalna tablica Pokazuje kretanje mašine za štampanje ili pokazivača na sljedeću grupu linija. |
|
Form Feed. Označava pomeranje mašine za štampanje ili pokazivača na početnu poziciju sledeće stranice, obrasca ili ekrana. |
|
Povrat kočije. Pokazuje pomicanje mehanizma za ispis ili pokazivača pokazivača na originalnu (krajnju lijevu) poziciju tekuće linije. |
Prijenos podataka.
Početak naslova. Koristi se za identifikaciju početka zaglavlja, koje može sadržavati informacije o usmjeravanju ili adresu. |
|
Početak teksta. Prikazuje početak teksta i istovremeno kraj naslova. |
|
Kraj teksta. Primjenjuje se kada završava tekst koji je započeo STX znakom. |
|
Upit. Zahtjev za identifikacijskim podacima (poput "Ko si ti?") sa udaljene stanice. |
|
Priznati. Prijemni uređaj šalje ovaj znak pošiljaocu kao potvrdu uspješnog prijema podataka. |
|
Negativna potvrda. Prijemni uređaj šalje ovaj znak pošiljaocu u slučaju odbijanja (neuspjeha) prijema podataka. |
|
Sinhroni / Idle. Koristi se u sistemima sinhronizovanog prenosa. Kada nema prijenosa podataka, sistem kontinuirano šalje SYN simbole kako bi osigurao sinhronizaciju. |
|
Kraj bloka prijenosa. Označava kraj bloka podataka za potrebe komunikacije. Koristi se za cijepanje velikih količina podataka u zasebne blokove. |
Oznake za razdvajanje prilikom prenošenja informacija.
Ostali simboli.
Null. (Nema karaktera - nema podataka). Koristi se za prijenos u nedostatku podataka. |
|
Bell Koristi se za kontrolu alarmnih uređaja. |
|
Shift Out. Označava da sve naredne kodne riječi treba tumačiti prema vanjskom skupu znakova prije dolaska SI znaka. |
|
Shift In. Označava da naredne kodne riječi treba tumačiti prema standardnom skupu znakova. |
|
Data Link Escape Promjena značenja sljedećih znakova. Koristi se za dodatnu kontrolu ili za prijenos proizvoljnog uzorka bitova. |
|
DC1, DC2, DC3, DC4 |
Kontrole uređaja. Simboli za upravljanje pomoćnim uređajima (posebne funkcije). |
Otkaži. Označava da podatke koji su prethodili ovom znaku u poruci ili bloku treba zanemariti (obično ako dođe do greške). |
|
Kraj srednjeg. Označava fizički kraj trake ili drugog medija za pohranu |
|
Zamena Koristi se za zamjenu pogrešnog ili nevažećeg znaka. |
|
Escape (Proširenje). Koristi se za proširenje koda, što ukazuje da sljedeći znak ima alternativno značenje. |
|
Svemir Znak koji se ne može ispisati za razdvajanje riječi ili pomicanje stroja za štampanje ili pokazivača za jednu poziciju naprijed. |
|
Izbriši. Koristi se za brisanje (brisanje) prethodnog karaktera u poruci |
[8-bitna kodiranja: ASCII, KOI-8R i CP1251] Prve tabele skupova znakova kreirane u SAD-u nisu koristile osmi bit u bajtu. Tekst je predstavljen kao niz bajtova, ali osmi bit nije uzet u obzir (koristio se u servisne svrhe).
Općeprihvaćeni standard je postao tabela ASCII(Američki standardni kod za razmjenu informacija). Prva 32 ASCII znaka (00 do 1F) korištena su za znakove koji se ne mogu ispisati. Dizajnirani su za kontrolu uređaja za štampanje i slično. Ostatak - od 20 do 7F - su normalni (štampavi) znakovi.
Tabela 1 - ASCII kodiranje
|
|
Kao što možete lako vidjeti, ovo kodiranje sadrži samo latinična slova, i to ona koja se koriste u engleskom jeziku. Tu su i aritmetički i drugi uslužni simboli. Ali ne postoje ruska slova, pa čak ni posebna latinična slova za njemački ili francuski. Ovo je lako objasniti - kodiranje je razvijeno posebno kao američki standard. Kada su kompjuteri počeli da se koriste širom sveta, postalo je neophodno kodiranje drugih simbola.
Za to je odlučeno da se koristi osmi bit u svakom bajtu. Tako je bilo dostupno još 128 vrijednosti (od 80 do FF), koje su se mogle koristiti za kodiranje znakova. Prva od osmobitnih tabela je "prošireni ASCII" ( Prošireni ASCII) - uključuje različite varijante latiničnih znakova koji se koriste u nekim jezicima zapadne Evrope. Sadržao je i druge dodatne simbole, uključujući pseudo grafiku.
Pseudografički znakovi omogućavaju, prikazujući samo tekstualne znakove, da pruže neki privid grafike. Na primjer, program za upravljanje datotekama FAR Manager radi uz pomoć pseudo-grafike.
U proširenoj ASCII tabeli nije bilo ruskih slova. U Rusiji (bivši SSSR) i drugim državama stvorena su vlastita kodiranja koja su omogućila predstavljanje specifičnih „nacionalnih“ znakova u 8-bitnim tekstualnim datotekama - latinična slova poljskog i češkog jezika, ćirilica (uključujući ruska slova ) i druga pisma.
U svim kodiranjima koja su postala široko rasprostranjena, prvih 127 znakova (to jest, vrijednosti bajta s osmim bitom jednakim 0) podudaraju se sa ASCII. Dakle, ASCII datoteka radi u bilo kojem od ovih kodiranja; slova engleskog jezika su predstavljena na isti način.
Organizacija ISO(Međunarodna organizacija za standardizaciju) usvojila je grupu standarda ISO 8859... Definira 8-bitna kodiranja za različite grupe jezika. Dakle, ISO 8859-1 je prošireni ASCII, tabela za Sjedinjene Države i Zapadnu Evropu. A ISO 8859-5 je tabela za ćirilicu (uključujući ruski).
Međutim, iz istorijskih razloga, ISO 8859-5 kodiranje se nije uhvatilo. U stvarnosti, za ruski jezik se koriste sljedeća kodiranja:
Kodna stranica 866 ( CP866), zvani “DOS”, zvani “alternativno GOST kodiranje”. Bio je u širokoj upotrebi do sredine 90-ih; sada se koristi u ograničenoj mjeri. Praktično se ne koristi za distribuciju tekstova na Internetu.
- KOI-8. Razvijen 70-ih i 80-ih godina. To je općeprihvaćeni standard za prijenos mail poruka na ruskom Internetu. Takođe se široko koristi u operativnim sistemima porodice Unix, uključujući Linux. Zove se verzija KOI-8, dizajnirana za ruski jezik KOI-8R; postoje verzije za druge ćiriličke jezike (na primjer, KOI8-U je opcija za ukrajinski jezik).
- Šifra 1251, CP1251, Windows-1251. Razvijen od strane Microsofta za podršku ruskom jeziku u Windows-u.
Glavna prednost CP866 bila je očuvanje pseudografskih znakova na istim mjestima kao u proširenom ASCII-u; stoga bi strani tekstualni programi, na primjer, čuveni Norton Commander, mogli raditi bez promjena. Danas se CP866 koristi za Windows programe koji rade u tekstualnim prozorima ili tekstualnom režimu preko celog ekrana, uključujući FAR Manager.
Poslednjih godina tekstovi u CP866 su prilično retki (ali se koristi za kodiranje ruskih imena datoteka u Windows-u). Stoga ćemo se detaljnije zadržati na dva druga kodiranja - KOI-8R i CP1251.
Kao što možete vidjeti, u tablici kodiranja CP1251 ruska slova su raspoređena po abecednom redu (osim, međutim, slova E). Ovaj raspored olakšava kompjuterskim programima da sortiraju po abecednom redu.
Ali u KOI-8R, redoslijed ruskih slova izgleda nasumičan. Ali zapravo nije.
Mnogi stariji programi izgubili su 8. bit prilikom obrade ili prijenosa teksta. (Sada su takvi programi praktički "izumrli", ali su kasnih 80-ih - ranih 90-ih bili široko rasprostranjeni). Da biste dobili 7-bitnu vrijednost od 8-bitne vrijednosti, oduzmite 8 od najznačajnije cifre; na primjer E1 postaje 61.
Sada uporedite KOI-8R sa ASCII tabelom (Tabela 1). Videćete da su ruska slova jasno usklađena sa latiničnim. Ako osmi bit nestane, mala ruska slova pretvaraju se u velika latinična slova, a velika ruska slova pretvaraju se u mala latinična slova. Dakle, E1 u KOI-8 je rusko "A", dok je 61 u ASCII latinično "a".
Dakle, KOI-8 vam omogućava da sačuvate čitljivost ruskog teksta dok gubite 8. bit. “Zdravo svima” postaje “pRIWET WSEM”.
Nedavno su i abecedni red znakova u tablici kodiranja i čitljivost sa gubitkom 8. bita izgubili odlučujuću važnost. Osmi bit se u savremenim računarima ne gubi ni tokom prenosa ni obrade. Sortiranje po abecednom redu zasniva se na kodiranju, a ne samo na upoređivanju kodova. (Usput, CP1251 kodovi nisu potpuno abecedni - slovo E nije na svom mjestu).
Zbog činjenice da postoje dva uobičajena kodiranja, kada radite sa Internetom (pošta, pregledavanje web stranica), ponekad možete vidjeti besmislen skup slova umjesto ruskog teksta. Na primjer, "Ja sam SBUFEMHEL". Ovo su samo riječi "s poštovanjem"; ali su bili kodirani u CP1251 kodiranju, a kompjuter je dekodirao tekst prema tabeli KOI-8. Ako su iste riječi bile, naprotiv, kodirane u KOI-8, a kompjuter je dekodirao tekst prema tabeli CP1251, rezultat će biti “U HČBCEOJEN”.
Ponekad se desi da kompjuter uopšte dešifruje slova ruskog jezika prema tabeli koja nije namenjena ruskom jeziku. Tada se umjesto ruskih slova pojavljuje besmislen skup simbola (na primjer, latinična slova istočnoevropskih jezika); često se nazivaju "krokozijabre".
U većini slučajeva, moderni programi se sami nose sa određivanjem kodiranja internetskih dokumenata (e-pošte i web stranica). Ali ponekad "zapadnu", i tada možete vidjeti čudne sekvence ruskih slova ili "krokozyabra". U pravilu, da bi se na ekranu prikazao pravi tekst, dovoljno je ručno odabrati kodiranje u meniju programa.
Za članak su korištene informacije sa stranice http://open-office.edusite.ru/TextProcessor/p5aa1.html.
Materijal preuzet sa sajta: