Një kompjuter kupton procesin e shndërrimit të tij në një formë që lejon organizimin e një transferimi, ruajtjeje ose përpunimi automatik më të përshtatshëm të këtyre të dhënave. Për këtë qëllim përdoren tabela të ndryshme. Kodimi ASCII është sistemi i parë i zhvilluar në Shtetet e Bashkuara për të punuar me tekst në gjuhën angleze, i cili më pas u përhap në të gjithë botën. Artikulli më poshtë i kushtohet përshkrimit, veçorive, vetive dhe përdorimit të mëtejshëm të tij.
Shfaqja dhe ruajtja e informacionit në një kompjuter
Simbolet në një monitor kompjuteri ose një ose një tjetër vegël dixhitale celulare formohen në bazë të grupeve të formave vektoriale të të gjitha llojeve të shenjave dhe një kodi që ju lejon të gjeni midis tyre simbolin që duhet të futet në vendin e duhur. Është një seri bitash. Kështu, çdo personazh duhet të korrespondojë në mënyrë unike me një grup zero dhe njësh, të cilat qëndrojnë në një renditje specifike, unike.
Si filloi gjithçka
Historikisht, kompjuterët e parë ishin në anglisht. Për të koduar informacionin simbolik në to, mjaftonte të përdoreshin vetëm 7 bit memorie, ndërsa për këtë qëllim u nda 1 bajt, i përbërë nga 8 bit. Numri i karaktereve të kuptuara nga kompjuteri në këtë rast ishte i barabartë me 128. Numri i karaktereve të tilla përfshinte alfabetin anglez me shenjat e pikësimit, numrat dhe disa karaktere të veçanta. Kodimi shtatë-bit në gjuhën angleze me tabelën përkatëse (faqe kodi), i zhvilluar në vitin 1963, u emërua Kodi Standard Amerikan për Shkëmbimin e Informacionit. Zakonisht shkurtesa "ASCII encoding" është përdorur për ta treguar atë dhe përdoret ende sot e kësaj dite.
Kalimi në shumëgjuhësi
Me kalimin e kohës, kompjuterët janë përdorur gjerësisht edhe në vendet jo-anglishtfolëse. Në këtë drejtim, kishte nevojë për kodime që do të lejonin përdorimin e gjuhëve kombëtare. U vendos që të mos rikrijohej rrota dhe të merrej ASCII si bazë. Tabela e kodimit në edicionin e ri është zgjeruar ndjeshëm. Përdorimi i bitit të 8-të bëri të mundur përkthimin e 256 karaktereve në gjuhën e kompjuterit.
Përshkrim
Kodimi ASCII ka një tabelë që ndahet në 2 pjesë. Vetëm gjysma e parë konsiderohet të jetë standardi ndërkombëtar i pranuar përgjithësisht. Ai përfshin:
- Karaktere me numra rendor nga 0 deri në 31, të koduar nga sekuenca nga 00000000 deri në 00011111. Ato janë të rezervuara për karakteret e kontrollit që kontrollojnë procesin e shfaqjes së tekstit në ekran ose printer, duke dhënë një sinjal zanor etj.
- Karakteret me NN në tabelën nga 32 në 127, të koduar nga sekuencat nga 00100000 deri në 01111111, përbëjnë pjesën standarde të tabelës. Këto përfshijnë një hapësirë (N 32), shkronja të alfabetit latin (të vogla dhe të mëdha), numra dhjetëshifrorë nga 0 në 9, shenja pikësimi, kllapa të stileve të ndryshme dhe simbole të tjera.
- Karaktere me numra rendorë nga 128 në 255, të koduar nga sekuenca nga 10000000 deri në 11111111. Këto përfshijnë shkronja të alfabeteve kombëtare të ndryshme nga latinishtja. Është kjo pjesë alternative e tabelës që kodimi ASCII përdoret për të kthyer karakteret ruse në formë kompjuteri.
Disa prona
Veçoritë e kodimit ASCII përfshijnë ndryshimin midis shkronjave "A" - "Z" të rasteve të poshtme dhe të sipërme me vetëm një bit. Kjo rrethanë thjeshton shumë konvertimin e regjistrit, si dhe kontrollin e tij për përkatësinë në diapazonin e caktuar të vlerave. Për më tepër, të gjitha shkronjat në sistemin e kodimit ASCII përfaqësohen nga numrat e tyre rendorë në alfabet, të cilët shkruhen me 5 shifra në shënimin binar, të paraprirë nga 011 2 për shkronjat e vogla dhe 010 2 për shkronjat e mëdha.
Ndër veçoritë e kodimit ASCII mund të konsiderohet përfaqësimi i 10 shifrave - "0" - "9". Në sistemin e dytë të numrave, ato fillojnë me 00112 dhe mbarojnë me 2 numra. Për shembull, 0101 2 është ekuivalente me dhjetore pesë, kështu që karakteri "5" shkruhet si 0011 01012. Bazuar në këtë, ju mund t'i konvertoni lehtësisht BCD-të në një varg ASCII duke shtuar 00112 në secilën gërmim në të majtë.
"Unicode"
Siç e dini, mijëra karaktere kërkohen për të shfaqur tekste në gjuhët e grupit të Azisë Juglindore. Një numër i tillë i tyre nuk përshkruhet në asnjë mënyrë në një bajt informacioni, kështu që edhe versionet e zgjeruara ASCII nuk mund të plotësonin më nevojat e shtuara të përdoruesve nga vende të ndryshme.
Kështu, lindi nevoja për të krijuar një kodim universal të tekstit, i cili u zhvillua nga konsorciumi Unicode në bashkëpunim me shumë drejtues të industrisë globale të IT. Specialistët e tij krijuan sistemin UTF 32. Në të u ndanë 32 bit për kodimin e 1 karakteri, duke përbërë 4 bajt informacioni. Pengesa kryesore ishte një rritje e mprehtë e sasisë së kujtesës së kërkuar deri në 4 herë, gjë që solli shumë probleme.
Në të njëjtën kohë, për shumicën e vendeve me gjuhë zyrtare që i përkasin grupit indo-evropian, numri i karaktereve të barabartë me 2 32 është më shumë se i tepërt.
Si rezultat i punës së mëtejshme të specialistëve nga konsorciumi Unicode, u shfaq kodimi UTF-16. Ai u bë opsioni për transformimin e informacionit simbolik që i përshtatej të gjithëve si për sa i përket sasisë së memories së kërkuar ashtu edhe për numrin e karaktereve të koduara. Kjo është arsyeja pse UTF-16 u pranua si parazgjedhje dhe kërkon që 2 bajt të rezervohen për një karakter.
Edhe ky version mjaft i avancuar dhe i suksesshëm i "Unicode" kishte disa të meta, dhe pas kalimit nga versioni i zgjeruar i ASCII në UTF-16 dyfishoi peshën e dokumentit.
Në këtë drejtim, u vendos që të përdoret kodimi i gjatësisë së ndryshueshme UTF-8. Në këtë rast, çdo karakter i tekstit burim është i koduar me një sekuencë prej 1 deri në 6 bajt të gjatë.
Marrëdhënia me kodin standard amerikan për shkëmbimin e informacionit
Të gjithë karakteret e alfabetit latin në UTF-8 me gjatësi të ndryshueshme janë të koduara në 1 bajt, si në sistemin e kodimit ASCII.
E veçanta e UTP-8 është se në rastin e një teksti në latinisht pa përdorur karaktere të tjera, edhe programet që nuk e kuptojnë "Unicode" do t'ju lejojnë ende ta lexoni atë. Me fjalë të tjera, pjesa bazë e kodimit të tekstit ASCII thjesht shkrihet në UTF-në e re me gjatësi të ndryshueshme. Karakteret cirilike në UTP-8 zënë 2 bajt, dhe, për shembull, ato gjeorgjiane - 3 bajtë. Krijimi i UTF-16 dhe 8 zgjidhi problemin kryesor të krijimit të një hapësire të vetme kodi në fonte. Që atëherë, prodhuesit e shkronjave mund ta mbushin tabelën vetëm me forma vektoriale të karaktereve të tekstit bazuar në nevojat e tyre.
Në sisteme të ndryshme operative preferohen kodime të ndryshme. Për të qenë në gjendje të lexoni dhe modifikoni tekstet e shtypura në një kodim tjetër, përdoren programet ruse të konvertimit të tekstit. Disa redaktues teksti përmbajnë transkoder të integruar dhe ju lejojnë të lexoni tekst pavarësisht nga kodimi.
Tani e dini se sa karaktere janë në ASCII dhe si dhe pse u zhvillua. Sigurisht që sot standardi më i përhapur në botë është “Unicode”. Sidoqoftë, nuk duhet të harrojmë se ai u krijua në bazë të ASCII, prandaj duhet vlerësuar kontributi i zhvilluesve të tij në fushën e IT.
Sipas Unionit Ndërkombëtar të Telekomunikacionit, në vitin 2016, tre miliardë e gjysmë njerëz përdorën internetin me rregullsi të ndryshme. Shumica e tyre as që e mendojnë faktin se çdo mesazh i dërguar prej tyre nëpërmjet kompjuterëve apo pajisjeve celulare, si dhe tekstet që shfaqen në të gjitha llojet e monitorëve, në fakt janë kombinime të 0 dhe 1. Ky prezantim i informacionit quhet kodim. . Ai siguron dhe lehtëson shumë ruajtjen, përpunimin dhe transmetimin e tij. Në vitin 1963, u zhvillua kodimi amerikan ASCII, të cilit i kushtohet ky artikull.
Prezantimi i informacionit në kompjuter
Nga pikëpamja e çdo kompjuteri elektronik, teksti është një koleksion karakteresh individuale. Këto përfshijnë jo vetëm shkronjat, duke përfshirë shkronjat e mëdha, por edhe shenjat e pikësimit dhe numrat. Përveç kësaj, përdoren karaktere speciale "=", "&", "(" dhe hapësira.
Tërësia e simboleve që përbëjnë tekstin quhet alfabet dhe numri i tyre quhet kardinalitet (shënohet si N). Për ta përcaktuar atë, përdoret shprehja N = 2 ^ b, ku b është numri i biteve ose pesha informative e një karakteri të caktuar.
Është vërtetuar se një alfabet me një kapacitet prej 256 karakteresh mund të përfaqësojë të gjitha karakteret e nevojshme.
Meqenëse 256 është fuqia e 8-të e dy, pesha e çdo karakteri është 8 bit.
Njësia matëse prej 8 bitësh quhet 1 bajt, kështu që është zakon të thuhet se çdo karakter në një tekst të ruajtur në një kompjuter merr një bajt memorie.
Si bëhet kodimi
Çdo tekst futet në kujtesën e një kompjuteri personal me anë të tasteve të tastierës në të cilat janë shkruar numra, shkronja, shenja pikësimi dhe simbole të tjera. Ato transferohen në RAM në një kod binar, domethënë, çdo karakter shoqërohet me një kod dhjetor të njohur për njerëzit, nga 0 në 255, që korrespondon me një kod binar - nga 00000000 në 11111111.
Kodimi i karaktereve me byte i lejon procesorit të tekstit të aksesojë secilin karakter veç e veç. Në të njëjtën kohë, 256 karaktere janë të mjaftueshme për të përfaqësuar çdo informacion të karakterit.
Kodimi i karaktereve ASCII
Kjo shkurtesë në anglisht qëndron për kodin për shkëmbimin e informacionit.
Edhe në agimin e kompjuterizimit, u bë e qartë se ju mund të gjeni një shumëllojshmëri të gjerë mënyrash për të koduar informacionin. Megjithatë, për të transferuar informacion nga një kompjuter në tjetrin, kërkohej të zhvillohej një standard i vetëm. Pra, në vitin 1963, një tabelë kodimi ASCII u shfaq në Shtetet e Bashkuara. Në të, çdo simbol i alfabetit të kompjuterit shoqërohet me numrin e tij rendor në paraqitjen binar. Fillimisht, ASCII u përdor vetëm në Shtetet e Bashkuara dhe më vonë u bë standardi ndërkombëtar për PC.
Kodet ASCII ndahen në 2 pjesë. Vetëm gjysma e parë e kësaj tabele konsiderohet Standard Ndërkombëtar. Ai përfshin karaktere me numra rendorë nga 0 (i koduar si 00000000) deri në 127 (kodi 01111111).
Numër serik | Kodimi i tekstit ASCII | Simboli |
0000 0000 - 0001 1111 | Karakteret me N nga 0 në 31 quhen karaktere kontrolli. Funksioni i tyre është të "udhëzojnë" procesin e shfaqjes së tekstit në një monitor ose pajisje printimi, duke dhënë një sinjal zanor etj. |
|
0010 0000 - 0111 1111 | Karakteret me N nga 32 në 127 (pjesa standarde e tabelës) - shkronja të mëdha dhe të vogla të alfabetit latin, numra 10-shifror, shenja pikësimi, si dhe kllapa të ndryshme, simbole tregtare dhe të tjera. Karakteri 32 tregon një hapësirë. |
|
1000 0000 - 1111 1111 | Karakteret me N nga 128 në 255 (pjesë alternative e tabelës ose faqe kodi) mund të kenë variante të ndryshme, secila prej të cilave ka numrin e vet. Faqja e kodit përdoret për të specifikuar alfabetet kombëtare që janë të ndryshëm nga latinishtja. Në veçanti, është me ndihmën e tij që kryhet kodimi ASCII për karakteret ruse. |
Në tabelën e kodimit, shkronjat e mëdha dhe ndiqni njëra pas tjetrës sipas rendit alfabetik, dhe numrat - sipas renditjes rritëse të vlerave. Ky parim vlen edhe për alfabetin rus.
Personazhet e kontrollit
Tabela e kodimit ASCII u krijua fillimisht për të marrë dhe transmetuar informacion në një pajisje të tillë që nuk është përdorur për një kohë të gjatë, siç është teletypi. Në këtë drejtim, në grupin e karaktereve janë përfshirë karaktere jo të printueshme, të përdorura si komanda për të kontrolluar këtë pajisje. Komanda të ngjashme u përdorën në metoda të tilla të mesazheve para kompjuterike si kodi Morse, etj.
Karakteri më i zakonshëm "teletipi" është NUL (00, "zero"). Përdoret ende në shumicën e gjuhëve programuese deri më sot, duke treguar një terminator të linjës.
Ku përdoret kodimi ASCII?
Kodi standard i SHBA-së nevojitet për më shumë sesa thjesht futjen e informacionit të tekstit nga tastiera. Përdoret gjithashtu në grafikë. Në mënyrë të veçantë, në ASCII Art Maker, imazhet e zgjerimeve të ndryshme përfaqësojnë një spektër karakteresh ASCII.
Produkte të tilla janë dy llojesh: ato kryejnë funksionin e redaktuesve grafikë duke shndërruar imazhet në tekst dhe duke konvertuar "fotografitë" në grafikë ASCII. Për shembull, emoticon i famshëm është një shembull kryesor i një karakteri kodues.
ASCII mund të përdoret gjithashtu kur krijoni një dokument HTML. Në këtë rast, mund të futni një grup të caktuar karakteresh dhe kur shikoni faqen, në ekran do të shfaqet një karakter që korrespondon me këtë kod.
ASCII është gjithashtu i nevojshëm për krijimin e faqeve shumëgjuhëshe, pasi karakteret që nuk përfshihen në një tabelë specifike kombëtare zëvendësohen me kode ASCII.
Disa veçori
Për të koduar informacionin e tekstit në kodimin ASCII, fillimisht u përdorën 7 bit (njëri mbeti bosh), por sot funksionon si 8-bit.
Shkronjat në kolonën e sipërme dhe të poshtme ndryshojnë nga njëra-tjetra vetëm me një bit të vetëm. Kjo redukton shumë kompleksitetin e kontrollit.
Përdorimi i ASCII në Microsoft Office
Nëse është e nevojshme, ky lloj kodimi teksti mund të përdoret në redaktuesit e tekstit të Microsoft si Notepad dhe Office Word. Sidoqoftë, kur shkruani në këtë rast, nuk do të jetë e mundur të përdorni disa funksione. Për shembull, ju nuk do të jeni në gjendje të bëni bold, sepse ASCII ruan vetëm kuptimin e informacionit, duke injoruar pamjen dhe formën e tij të përgjithshme.
Standardizimi
Organizata ISO ka miratuar standardet ISO 8859. Ky grup përcakton kodimet me tetë bit për grupe të ndryshme gjuhësore. Në mënyrë të veçantë, ISO 8859-1 është Extended ASCII, e cila është një tabelë për Shtetet e Bashkuara dhe Evropën Perëndimore. Dhe ISO 8859-5 është një tabelë e përdorur për alfabetin cirilik, duke përfshirë gjuhën ruse.
Për një sërë arsyesh historike, standardi ISO 8859-5 ka qenë në përdorim për një kohë shumë të shkurtër.
Për gjuhën ruse, për momentin, përdoren në të vërtetë kodimet:
- CP866 (Kodi Faqe 866) ose DOS, i cili shpesh quhet kodimi alternativ GOST. Ajo u përdor në mënyrë aktive deri në mesin e viteve '90 të shekullit të kaluar. Për momentin, praktikisht nuk është përdorur.
- KOI-8. Kodimi u zhvillua në vitet 1970-80, dhe për momentin është një standard i pranuar përgjithësisht për mesazhet postare në Runet. Përdoret gjerësisht në OS të familjes Unix, duke përfshirë Linux. Versioni "rus" i KOI-8 quhet KOI-8R. Përveç kësaj, ka versione për gjuhë të tjera cirilike, si për shembull ukrainisht.
- Kodi Faqe 1251 (CP 1251, Windows - 1251). Zhvilluar nga Microsoft për të ofruar mbështetje për gjuhën ruse në mjedisin Windows.
Avantazhi kryesor i standardit të parë CP866 ishte ruajtja e karaktereve pseudografike në të njëjtat pozicione si në Extended ASCII. Kjo bëri të mundur ekzekutimin pa ndryshime të programeve tekstuale të prodhuara nga jashtë, si p.sh. Norton Commander i mirënjohur. Për momentin, CP866 përdoret për programet e zhvilluara nën Windows që funksionojnë në modalitetin e tekstit në ekran të plotë ose në dritaret e tekstit, duke përfshirë FAR Manager.
Tekstet kompjuterike të shkruara në kodimin CP866 janë mjaft të rralla kohët e fundit, por është pikërisht ky kodim që përdoret për emrat e skedarëve rusë në Windows.
"Unicode"
Për momentin, është ky kodim që ka marrë përdorimin më të përhapur. Kodet Unicode ndahen në zona. E para (U + 0000 në U + 007F) përfshin karaktere ASCII me kode. Kjo pasohet nga zonat e shenjave të shkrimeve të ndryshme kombëtare, si dhe shenjat e pikësimit dhe simbolet teknike. Përveç kësaj, disa nga kodet "Unicode" janë të rezervuara në rast se ka nevojë për të përfshirë karaktere të reja në të ardhmen.
Tani e dini se në ASCII, çdo karakter përfaqësohet si një kombinim i 8 zerave dhe njësheve. Për jo-specialistët, ky informacion mund të duket i panevojshëm dhe jo interesant, por a nuk doni të dini se çfarë po ndodh "në trurin" e kompjuterit tuaj?!
Bashkësia e karaktereve me të cilat shkruhet teksti quhet alfabeti.
Numri i karaktereve në alfabet është i tij pushtetin.
Formula për përcaktimin e sasisë së informacionit: N = 2 b,
ku N është kardinaliteti i alfabetit (numri i karaktereve),
b - numri i biteve (pesha informative e karakterit).
Alfabeti me një kapacitet prej 256 karakteresh mund të strehojë pothuajse të gjitha karakteret e nevojshme. Ky alfabet quhet mjaftueshëm.
Sepse 256 = 2 8, atëherë pesha e 1 karakteri është 8 bit.
Njësia 8-bitëshe u emërua 1 bajt:
1 bajt = 8 bit.
Kodi binar i çdo karakteri në tekstin kompjuterik merr 1 bajt memorie.
Si paraqitet informacioni i tekstit në memorien e kompjuterit?
Lehtësia e kodimit të karaktereve me bajt është e dukshme, pasi një bajt është pjesa më e vogël e adresueshme e memories dhe, për rrjedhojë, procesori mund të aksesojë çdo karakter veç e veç, duke kryer përpunimin e tekstit. Nga ana tjetër, 256 karaktere është një numër mjaft i mjaftueshëm për të përfaqësuar një shumëllojshmëri të gjerë të informacionit të karaktereve.
Tani lind pyetja, çfarë lloj kodi binar tetë-bit të lidhet me secilin karakter.
Është e qartë se kjo është një çështje e kushtëzuar, ju mund të dilni me shumë metoda kodimi.
Të gjithë karakteret e alfabetit të kompjuterit numërohen nga 0 deri në 255. Çdo numër korrespondon me një kod binar tetë-bitësh nga 00000000 deri në 11111111. Ky kod është thjesht numri rendor i karakterit në sistemin e numrave binar.
Tabela në të cilën të gjithë karakteret e alfabetit të kompjuterit janë caktuar numra serialë quhet tabela e kodimit.
Për lloje të ndryshme kompjuterash përdoren tabela të ndryshme kodimi.
Standardi ndërkombëtar për PC është bërë tabela ASCII(lexo asci) (Kodi standard amerikan për shkëmbimin e informacionit).
Tabela ASCII është e ndarë në dy pjesë.
Standardi ndërkombëtar është vetëm gjysma e parë e tabelës, d.m.th. simbolet me numra nga 0 (00000000), deri në 127 (01111111).
Struktura e tabelës koduese ASCII
Numër serik |
Kodi |
Simboli |
0 - 31 |
00000000 - 00011111 |
Simbolet me numra nga 0 në 31 zakonisht quhen karaktere kontrolli. |
32 - 127 |
00100000 - 01111111 |
Pjesa standarde e tabelës (anglisht). Këtu përfshihen shkronjat e vogla dhe të mëdha të alfabetit latin, shifrat dhjetore, shenjat e pikësimit, të gjitha llojet e kllapave, simbolet tregtare dhe të tjera. |
128 - 255 |
10000000 - 11111111 |
Pjesa alternative e tabelës (rusisht). |
Gjysma e parë e tabelës ASCII
Unë tërheq vëmendjen tuaj për faktin se në tabelën e kodimit, shkronjat (të mëdha dhe të vogla) janë renditur sipas rendit alfabetik, dhe numrat renditen në rendin rritës të vlerave. Ky respektim i rendit leksikografik në renditjen e karaktereve quhet parimi i kodimit sekuencial të alfabetit.
Për shkronjat e alfabetit rus, respektohet edhe parimi i kodimit sekuencial.
Gjysma e dytë e tabelës ASCII
Për fat të keq, aktualisht ekzistojnë pesë kodime të ndryshme cirilike (KOI8-R, Windows. MS-DOS, Macintosh dhe ISO). Për shkak të kësaj, shpesh lindin probleme me transferimin e tekstit rus nga një kompjuter në tjetrin, nga një sistem softuer në tjetrin.
Kronologjikisht, një nga standardet e para për kodimin e shkronjave ruse në kompjuter ishte KOI8 ("Kodi i shkëmbimit të informacionit, 8-bit"). Ky kodim u përdor përsëri në vitet '70 në kompjuterët e serisë kompjuterike ES, dhe nga mesi i viteve '80 filloi të përdoret në versionet e para të rusifikuara të sistemit operativ UNIX.
Që nga fillimi i viteve '90, koha e dominimit të sistemit operativ MS DOS, kodimi CP866 mbetet ("CP" do të thotë "Faqja e kodit").
Kompjuterët Apple me Mac OS përdorin kodimin e tyre Mac.
Për më tepër, Organizata Ndërkombëtare për Standardizim (Organizata Ndërkombëtare e Standardeve, ISO) miratoi një kodim tjetër të quajtur ISO 8859-5 si standard për gjuhën ruse.
Aktualisht, kodimi më i zakonshëm është Microsoft Windows, i shkurtuar si CP1251.
Që nga fundi i viteve '90, problemi i standardizimit të kodimit të karaktereve është zgjidhur me futjen e një standardi të ri ndërkombëtar të quajtur Unicode... Ky është një kodim 16-bit d.m.th. cakton 2 bajt memorie për çdo karakter. Sigurisht, kjo dyfishon sasinë e memories së përdorur. Por nga ana tjetër, një tabelë e tillë kodesh lejon përfshirjen deri në 65536 karaktere. Specifikimi i plotë i standardit Unicode përfshin të gjitha alfabetet ekzistuese, të zhdukura dhe të krijuara artificialisht të botës, si dhe shumë simbole matematikore, muzikore, kimike dhe të tjera.
Le të përpiqemi të përdorim një tabelë ASCII për të imagjinuar se si do të duken fjalët në kujtesën e kompjuterit.
Paraqitja e brendshme e fjalëve në kujtesën e kompjuterit
Ndonjëherë ndodh që një tekst i përbërë nga shkronja të alfabetit rus, i marrë nga një kompjuter tjetër, nuk mund të lexohet - një lloj "korrizi" është i dukshëm në ekranin e monitorit. Kjo për faktin se kompjuterët përdorin kodime të ndryshme të karaktereve të gjuhës ruse.
Simbolet e mbivendosjes
Karakteri BS (backspace) lejon printerin të mbishkruajë një karakter. Në ASCII, ishte parashikuar shtimi i diakritikëve në shkronja në këtë mënyrë, për shembull:
- a BS "→ á
- a BS `→ à
- a BS ^ → â
- o BS / → ø
- c BS, → ç
- n BS ~ → ñ
shënim: në shkronjat e vjetra, apostrofi "ishte vizatuar me një pjerrësi në të majtë, dhe tilda ~ u zhvendos lart, në mënyrë që ato të përshtaten vetëm me rolin e akute dhe tildës sipër.
Nëse i njëjti simbol mbivendoset në një karakter, atëherë fitohet efekti i një fonti të theksuar, dhe nëse një nënvizim mbivendoset mbi karakterin, atëherë fitohet teksti i nënvizuar.
- a BS a → a
- a BS _ → a
shënim: kjo përdoret, për shembull, në sistemin e ndihmës mashkullore.
Variantet kombëtare të ASCII
Standardi ISO 646 (ECMA-6) ofron mundësinë e vendosjes së karaktereve kombëtare në vend @ [ \ ] ^ ` { | } ~ ... Përveç kësaj, në vend # mund të akomodohen £ , dhe në vend $ - ¤ ... Ky sistem është i përshtatshëm për gjuhët evropiane ku nevojiten vetëm disa karaktere shtesë. Versioni ASCII pa karaktere kombëtare quhet US-ASCII, ose "Versioni i referencës ndërkombëtare".
Më pas, doli të ishte më i përshtatshëm përdorimi i kodimeve 8-bit (faqet e kodit), ku gjysma e poshtme e tabelës së kodit (0-127) është e zënë nga karakteret US-ASCII, dhe gjysma e sipërme (128-255) është i zënë nga karaktere shtesë, duke përfshirë një grup karakteresh kombëtare. Kështu, gjysma e sipërme e tabelës ASCII, para miratimit të gjerë të Unicode, u përdor në mënyrë aktive për të përfaqësuar karaktere të lokalizuara, shkronja të gjuhës lokale. Mungesa e një standardi të unifikuar për vendosjen e karaktereve cirilike në tabelën ASCII shkaktoi shumë probleme me kodimet (KOI-8, Windows-1251 dhe të tjerët). Gjuhët e tjera me shkrim jo-latin gjithashtu vuanin nga prania e disa kodimeve të ndryshme.
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | .A | .B | .C | .D | .E | .F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0. | NUL | SOM | EOA | MVZ | EQT | WRU | RU | ZILE | BKSP | Ht | LF | VT | FF | CR | KËSHTU QË | SI |
1. | DC 0 | DC 1 | DC 2 | DC 3 | DC 4 | GABIM | SINkronizimi | LEM | S 0 | S 1 | S 2 | S 3 | S 4 | S 5 | S 6 | S 7 |
2. | ||||||||||||||||
3. | ||||||||||||||||
4. | BLANK | ! | " | # | $ | % | & | " | ( | ) | * | + | , | - | . | / |
5. | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
6. | ||||||||||||||||
7. | ||||||||||||||||
8. | ||||||||||||||||
9. | ||||||||||||||||
A. | @ | A | B | C | D | E | F | G | H | Unë | J | K | L | M | N | O |
B. | P | P | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ← | |
C. | ||||||||||||||||
D. | ||||||||||||||||
E. | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o | |
F. | fq | q | r | s | t | u | v | w | x | y | z | ESC | DEL |
Në ata kompjuterë ku njësia minimale e adresueshme e memories ishte një fjalë 36-bit, fillimisht u përdorën karaktere 6-bit (1 fjalë = 6 karaktere). Pas kalimit në ASCII në kompjuterë të tillë, ata filluan të vendosnin ose 5 karaktere shtatë-bitësh në një fjalë (1 bit mbeti i tepërt), ose 4 karaktere nëntë-bitësh.
Kodet ASCII përdoren gjithashtu për të identifikuar tastin e shtypur gjatë programimit. Për një tastierë standarde QWERTY, tabela e kodeve duket si kjo: