Si të konfiguroni telefonat inteligjentë dhe PC. Portali informativ
  • në shtëpi
  • Windows 7, XP
  • Tabela ndërkombëtare e kodit ascii. Kodimi ASCII (kodi standard amerikan për shkëmbimin e informacionit) - kodimi bazë i tekstit për latinisht

Tabela ndërkombëtare e kodit ascii. Kodimi ASCII (kodi standard amerikan për shkëmbimin e informacionit) - kodimi bazë i tekstit për latinisht

Një kompjuter kupton procesin e shndërrimit të tij në një formë që lejon organizimin e një transferimi, ruajtjeje ose përpunimi automatik më të përshtatshëm të këtyre të dhënave. Për këtë qëllim përdoren tabela të ndryshme. Kodimi ASCII është sistemi i parë i zhvilluar në Shtetet e Bashkuara për të punuar me tekst në gjuhën angleze, i cili më pas u përhap në të gjithë botën. Artikulli më poshtë i kushtohet përshkrimit, veçorive, vetive dhe përdorimit të mëtejshëm të tij.

Shfaqja dhe ruajtja e informacionit në një kompjuter

Simbolet në një monitor kompjuteri ose një ose një tjetër vegël dixhitale celulare formohen në bazë të grupeve të formave vektoriale të të gjitha llojeve të shenjave dhe një kodi që ju lejon të gjeni midis tyre simbolin që duhet të futet në vendin e duhur. Është një seri bitash. Kështu, çdo personazh duhet të korrespondojë në mënyrë unike me një grup zero dhe njësh, të cilat qëndrojnë në një renditje specifike, unike.

Si filloi gjithçka

Historikisht, kompjuterët e parë ishin në anglisht. Për të koduar informacionin simbolik në to, mjaftonte të përdoreshin vetëm 7 bit memorie, ndërsa për këtë qëllim u nda 1 bajt, i përbërë nga 8 bit. Numri i karaktereve të kuptuara nga kompjuteri në këtë rast ishte i barabartë me 128. Numri i karaktereve të tilla përfshinte alfabetin anglez me shenjat e pikësimit, numrat dhe disa karaktere të veçanta. Kodimi shtatë-bit në gjuhën angleze me tabelën përkatëse (faqe kodi), i zhvilluar në vitin 1963, u emërua Kodi Standard Amerikan për Shkëmbimin e Informacionit. Zakonisht shkurtesa "ASCII encoding" është përdorur për ta treguar atë dhe përdoret ende sot e kësaj dite.

Kalimi në shumëgjuhësi

Me kalimin e kohës, kompjuterët janë përdorur gjerësisht edhe në vendet jo-anglishtfolëse. Në këtë drejtim, kishte nevojë për kodime që do të lejonin përdorimin e gjuhëve kombëtare. U vendos që të mos rikrijohej rrota dhe të merrej ASCII si bazë. Tabela e kodimit në edicionin e ri është zgjeruar ndjeshëm. Përdorimi i bitit të 8-të bëri të mundur përkthimin e 256 karaktereve në gjuhën e kompjuterit.

Përshkrim

Kodimi ASCII ka një tabelë që ndahet në 2 pjesë. Vetëm gjysma e parë konsiderohet të jetë standardi ndërkombëtar i pranuar përgjithësisht. Ai përfshin:

  • Karaktere me numra rendor nga 0 deri në 31, të koduar nga sekuenca nga 00000000 deri në 00011111. Ato janë të rezervuara për karakteret e kontrollit që kontrollojnë procesin e shfaqjes së tekstit në ekran ose printer, duke dhënë një sinjal zanor etj.
  • Karakteret me NN në tabelën nga 32 në 127, të koduar nga sekuencat nga 00100000 deri në 01111111, përbëjnë pjesën standarde të tabelës. Këto përfshijnë një hapësirë ​​(N 32), shkronja të alfabetit latin (të vogla dhe të mëdha), numra dhjetëshifrorë nga 0 në 9, shenja pikësimi, kllapa të stileve të ndryshme dhe simbole të tjera.
  • Karaktere me numra rendorë nga 128 në 255, të koduar nga sekuenca nga 10000000 deri në 11111111. Këto përfshijnë shkronja të alfabeteve kombëtare të ndryshme nga latinishtja. Është kjo pjesë alternative e tabelës që kodimi ASCII përdoret për të kthyer karakteret ruse në formë kompjuteri.

Disa prona

Veçoritë e kodimit ASCII përfshijnë ndryshimin midis shkronjave "A" - "Z" të rasteve të poshtme dhe të sipërme me vetëm një bit. Kjo rrethanë thjeshton shumë konvertimin e regjistrit, si dhe kontrollin e tij për përkatësinë në diapazonin e caktuar të vlerave. Për më tepër, të gjitha shkronjat në sistemin e kodimit ASCII përfaqësohen nga numrat e tyre rendorë në alfabet, të cilët shkruhen me 5 shifra në shënimin binar, të paraprirë nga 011 2 për shkronjat e vogla dhe 010 2 për shkronjat e mëdha.

Ndër veçoritë e kodimit ASCII mund të konsiderohet përfaqësimi i 10 shifrave - "0" - "9". Në sistemin e dytë të numrave, ato fillojnë me 00112 dhe mbarojnë me 2 numra. Për shembull, 0101 2 është ekuivalente me dhjetore pesë, kështu që karakteri "5" shkruhet si 0011 01012. Bazuar në këtë, ju mund t'i konvertoni lehtësisht BCD-të në një varg ASCII duke shtuar 00112 në secilën gërmim në të majtë.

"Unicode"

Siç e dini, mijëra karaktere kërkohen për të shfaqur tekste në gjuhët e grupit të Azisë Juglindore. Një numër i tillë i tyre nuk përshkruhet në asnjë mënyrë në një bajt informacioni, kështu që edhe versionet e zgjeruara ASCII nuk mund të plotësonin më nevojat e shtuara të përdoruesve nga vende të ndryshme.

Kështu, lindi nevoja për të krijuar një kodim universal të tekstit, i cili u zhvillua nga konsorciumi Unicode në bashkëpunim me shumë drejtues të industrisë globale të IT. Specialistët e tij krijuan sistemin UTF 32. Në të u ndanë 32 bit për kodimin e 1 karakteri, duke përbërë 4 bajt informacioni. Pengesa kryesore ishte një rritje e mprehtë e sasisë së kujtesës së kërkuar deri në 4 herë, gjë që solli shumë probleme.

Në të njëjtën kohë, për shumicën e vendeve me gjuhë zyrtare që i përkasin grupit indo-evropian, numri i karaktereve të barabartë me 2 32 është më shumë se i tepërt.

Si rezultat i punës së mëtejshme të specialistëve nga konsorciumi Unicode, u shfaq kodimi UTF-16. Ai u bë opsioni për transformimin e informacionit simbolik që i përshtatej të gjithëve si për sa i përket sasisë së memories së kërkuar ashtu edhe për numrin e karaktereve të koduara. Kjo është arsyeja pse UTF-16 u pranua si parazgjedhje dhe kërkon që 2 bajt të rezervohen për një karakter.

Edhe ky version mjaft i avancuar dhe i suksesshëm i "Unicode" kishte disa të meta, dhe pas kalimit nga versioni i zgjeruar i ASCII në UTF-16 dyfishoi peshën e dokumentit.

Në këtë drejtim, u vendos që të përdoret kodimi i gjatësisë së ndryshueshme UTF-8. Në këtë rast, çdo karakter i tekstit burim është i koduar me një sekuencë prej 1 deri në 6 bajt të gjatë.

Marrëdhënia me kodin standard amerikan për shkëmbimin e informacionit

Të gjithë karakteret e alfabetit latin në UTF-8 me gjatësi të ndryshueshme janë të koduara në 1 bajt, si në sistemin e kodimit ASCII.

E veçanta e UTP-8 është se në rastin e një teksti në latinisht pa përdorur karaktere të tjera, edhe programet që nuk e kuptojnë "Unicode" do t'ju lejojnë ende ta lexoni atë. Me fjalë të tjera, pjesa bazë e kodimit të tekstit ASCII thjesht shkrihet në UTF-në e re me gjatësi të ndryshueshme. Karakteret cirilike në UTP-8 zënë 2 bajt, dhe, për shembull, ato gjeorgjiane - 3 bajtë. Krijimi i UTF-16 dhe 8 zgjidhi problemin kryesor të krijimit të një hapësire të vetme kodi në fonte. Që atëherë, prodhuesit e shkronjave mund ta mbushin tabelën vetëm me forma vektoriale të karaktereve të tekstit bazuar në nevojat e tyre.

Në sisteme të ndryshme operative preferohen kodime të ndryshme. Për të qenë në gjendje të lexoni dhe modifikoni tekstet e shtypura në një kodim tjetër, përdoren programet ruse të konvertimit të tekstit. Disa redaktues teksti përmbajnë transkoder të integruar dhe ju lejojnë të lexoni tekst pavarësisht nga kodimi.

Tani e dini se sa karaktere janë në ASCII dhe si dhe pse u zhvillua. Sigurisht që sot standardi më i përhapur në botë është “Unicode”. Sidoqoftë, nuk duhet të harrojmë se ai u krijua në bazë të ASCII, prandaj duhet vlerësuar kontributi i zhvilluesve të tij në fushën e IT.

Sipas Unionit Ndërkombëtar të Telekomunikacionit, në vitin 2016, tre miliardë e gjysmë njerëz përdorën internetin me rregullsi të ndryshme. Shumica e tyre as që e mendojnë faktin se çdo mesazh i dërguar prej tyre nëpërmjet kompjuterëve apo pajisjeve celulare, si dhe tekstet që shfaqen në të gjitha llojet e monitorëve, në fakt janë kombinime të 0 dhe 1. Ky prezantim i informacionit quhet kodim. . Ai siguron dhe lehtëson shumë ruajtjen, përpunimin dhe transmetimin e tij. Në vitin 1963, u zhvillua kodimi amerikan ASCII, të cilit i kushtohet ky artikull.

Prezantimi i informacionit në kompjuter

Nga pikëpamja e çdo kompjuteri elektronik, teksti është një koleksion karakteresh individuale. Këto përfshijnë jo vetëm shkronjat, duke përfshirë shkronjat e mëdha, por edhe shenjat e pikësimit dhe numrat. Përveç kësaj, përdoren karaktere speciale "=", "&", "(" dhe hapësira.

Tërësia e simboleve që përbëjnë tekstin quhet alfabet dhe numri i tyre quhet kardinalitet (shënohet si N). Për ta përcaktuar atë, përdoret shprehja N = 2 ^ b, ku b është numri i biteve ose pesha informative e një karakteri të caktuar.

Është vërtetuar se një alfabet me një kapacitet prej 256 karakteresh mund të përfaqësojë të gjitha karakteret e nevojshme.

Meqenëse 256 është fuqia e 8-të e dy, pesha e çdo karakteri është 8 bit.

Njësia matëse prej 8 bitësh quhet 1 bajt, kështu që është zakon të thuhet se çdo karakter në një tekst të ruajtur në një kompjuter merr një bajt memorie.

Si bëhet kodimi

Çdo tekst futet në kujtesën e një kompjuteri personal me anë të tasteve të tastierës në të cilat janë shkruar numra, shkronja, shenja pikësimi dhe simbole të tjera. Ato transferohen në RAM në një kod binar, domethënë, çdo karakter shoqërohet me një kod dhjetor të njohur për njerëzit, nga 0 në 255, që korrespondon me një kod binar - nga 00000000 në 11111111.

Kodimi i karaktereve me byte i lejon procesorit të tekstit të aksesojë secilin karakter veç e veç. Në të njëjtën kohë, 256 karaktere janë të mjaftueshme për të përfaqësuar çdo informacion të karakterit.

Kodimi i karaktereve ASCII

Kjo shkurtesë në anglisht qëndron për kodin për shkëmbimin e informacionit.

Edhe në agimin e kompjuterizimit, u bë e qartë se ju mund të gjeni një shumëllojshmëri të gjerë mënyrash për të koduar informacionin. Megjithatë, për të transferuar informacion nga një kompjuter në tjetrin, kërkohej të zhvillohej një standard i vetëm. Pra, në vitin 1963, një tabelë kodimi ASCII u shfaq në Shtetet e Bashkuara. Në të, çdo simbol i alfabetit të kompjuterit shoqërohet me numrin e tij rendor në paraqitjen binar. Fillimisht, ASCII u përdor vetëm në Shtetet e Bashkuara dhe më vonë u bë standardi ndërkombëtar për PC.

Kodet ASCII ndahen në 2 pjesë. Vetëm gjysma e parë e kësaj tabele konsiderohet Standard Ndërkombëtar. Ai përfshin karaktere me numra rendorë nga 0 (i koduar si 00000000) deri në 127 (kodi 01111111).

Numër serik

Kodimi i tekstit ASCII

Simboli

0000 0000 - 0001 1111

Karakteret me N nga 0 në 31 quhen karaktere kontrolli. Funksioni i tyre është të "udhëzojnë" procesin e shfaqjes së tekstit në një monitor ose pajisje printimi, duke dhënë një sinjal zanor etj.

0010 0000 - 0111 1111

Karakteret me N nga 32 në 127 (pjesa standarde e tabelës) - shkronja të mëdha dhe të vogla të alfabetit latin, numra 10-shifror, shenja pikësimi, si dhe kllapa të ndryshme, simbole tregtare dhe të tjera. Karakteri 32 tregon një hapësirë.

1000 0000 - 1111 1111

Karakteret me N nga 128 në 255 (pjesë alternative e tabelës ose faqe kodi) mund të kenë variante të ndryshme, secila prej të cilave ka numrin e vet. Faqja e kodit përdoret për të specifikuar alfabetet kombëtare që janë të ndryshëm nga latinishtja. Në veçanti, është me ndihmën e tij që kryhet kodimi ASCII për karakteret ruse.

Në tabelën e kodimit, shkronjat e mëdha dhe ndiqni njëra pas tjetrës sipas rendit alfabetik, dhe numrat - sipas renditjes rritëse të vlerave. Ky parim vlen edhe për alfabetin rus.

Personazhet e kontrollit

Tabela e kodimit ASCII u krijua fillimisht për të marrë dhe transmetuar informacion në një pajisje të tillë që nuk është përdorur për një kohë të gjatë, siç është teletypi. Në këtë drejtim, në grupin e karaktereve janë përfshirë karaktere jo të printueshme, të përdorura si komanda për të kontrolluar këtë pajisje. Komanda të ngjashme u përdorën në metoda të tilla të mesazheve para kompjuterike si kodi Morse, etj.

Karakteri më i zakonshëm "teletipi" është NUL (00, "zero"). Përdoret ende në shumicën e gjuhëve programuese deri më sot, duke treguar një terminator të linjës.

Ku përdoret kodimi ASCII?

Kodi standard i SHBA-së nevojitet për më shumë sesa thjesht futjen e informacionit të tekstit nga tastiera. Përdoret gjithashtu në grafikë. Në mënyrë të veçantë, në ASCII Art Maker, imazhet e zgjerimeve të ndryshme përfaqësojnë një spektër karakteresh ASCII.

Produkte të tilla janë dy llojesh: ato kryejnë funksionin e redaktuesve grafikë duke shndërruar imazhet në tekst dhe duke konvertuar "fotografitë" në grafikë ASCII. Për shembull, emoticon i famshëm është një shembull kryesor i një karakteri kodues.

ASCII mund të përdoret gjithashtu kur krijoni një dokument HTML. Në këtë rast, mund të futni një grup të caktuar karakteresh dhe kur shikoni faqen, në ekran do të shfaqet një karakter që korrespondon me këtë kod.

ASCII është gjithashtu i nevojshëm për krijimin e faqeve shumëgjuhëshe, pasi karakteret që nuk përfshihen në një tabelë specifike kombëtare zëvendësohen me kode ASCII.

Disa veçori

Për të koduar informacionin e tekstit në kodimin ASCII, fillimisht u përdorën 7 bit (njëri mbeti bosh), por sot funksionon si 8-bit.

Shkronjat në kolonën e sipërme dhe të poshtme ndryshojnë nga njëra-tjetra vetëm me një bit të vetëm. Kjo redukton shumë kompleksitetin e kontrollit.

Përdorimi i ASCII në Microsoft Office

Nëse është e nevojshme, ky lloj kodimi teksti mund të përdoret në redaktuesit e tekstit të Microsoft si Notepad dhe Office Word. Sidoqoftë, kur shkruani në këtë rast, nuk do të jetë e mundur të përdorni disa funksione. Për shembull, ju nuk do të jeni në gjendje të bëni bold, sepse ASCII ruan vetëm kuptimin e informacionit, duke injoruar pamjen dhe formën e tij të përgjithshme.

Standardizimi

Organizata ISO ka miratuar standardet ISO 8859. Ky grup përcakton kodimet me tetë bit për grupe të ndryshme gjuhësore. Në mënyrë të veçantë, ISO 8859-1 është Extended ASCII, e cila është një tabelë për Shtetet e Bashkuara dhe Evropën Perëndimore. Dhe ISO 8859-5 është një tabelë e përdorur për alfabetin cirilik, duke përfshirë gjuhën ruse.

Për një sërë arsyesh historike, standardi ISO 8859-5 ka qenë në përdorim për një kohë shumë të shkurtër.

Për gjuhën ruse, për momentin, përdoren në të vërtetë kodimet:

  • CP866 (Kodi Faqe 866) ose DOS, i cili shpesh quhet kodimi alternativ GOST. Ajo u përdor në mënyrë aktive deri në mesin e viteve '90 të shekullit të kaluar. Për momentin, praktikisht nuk është përdorur.
  • KOI-8. Kodimi u zhvillua në vitet 1970-80, dhe për momentin është një standard i pranuar përgjithësisht për mesazhet postare në Runet. Përdoret gjerësisht në OS të familjes Unix, duke përfshirë Linux. Versioni "rus" i KOI-8 quhet KOI-8R. Përveç kësaj, ka versione për gjuhë të tjera cirilike, si për shembull ukrainisht.
  • Kodi Faqe 1251 (CP 1251, Windows - 1251). Zhvilluar nga Microsoft për të ofruar mbështetje për gjuhën ruse në mjedisin Windows.

Avantazhi kryesor i standardit të parë CP866 ishte ruajtja e karaktereve pseudografike në të njëjtat pozicione si në Extended ASCII. Kjo bëri të mundur ekzekutimin pa ndryshime të programeve tekstuale të prodhuara nga jashtë, si p.sh. Norton Commander i mirënjohur. Për momentin, CP866 përdoret për programet e zhvilluara nën Windows që funksionojnë në modalitetin e tekstit në ekran të plotë ose në dritaret e tekstit, duke përfshirë FAR Manager.

Tekstet kompjuterike të shkruara në kodimin CP866 janë mjaft të rralla kohët e fundit, por është pikërisht ky kodim që përdoret për emrat e skedarëve rusë në Windows.

"Unicode"

Për momentin, është ky kodim që ka marrë përdorimin më të përhapur. Kodet Unicode ndahen në zona. E para (U + 0000 në U + 007F) përfshin karaktere ASCII me kode. Kjo pasohet nga zonat e shenjave të shkrimeve të ndryshme kombëtare, si dhe shenjat e pikësimit dhe simbolet teknike. Përveç kësaj, disa nga kodet "Unicode" janë të rezervuara në rast se ka nevojë për të përfshirë karaktere të reja në të ardhmen.

Tani e dini se në ASCII, çdo karakter përfaqësohet si një kombinim i 8 zerave dhe njësheve. Për jo-specialistët, ky informacion mund të duket i panevojshëm dhe jo interesant, por a nuk doni të dini se çfarë po ndodh "në trurin" e kompjuterit tuaj?!

Bashkësia e karaktereve me të cilat shkruhet teksti quhet alfabeti.

Numri i karaktereve në alfabet është i tij pushtetin.

Formula për përcaktimin e sasisë së informacionit: N = 2 b,

ku N është kardinaliteti i alfabetit (numri i karaktereve),

b - numri i biteve (pesha informative e karakterit).

Alfabeti me një kapacitet prej 256 karakteresh mund të strehojë pothuajse të gjitha karakteret e nevojshme. Ky alfabet quhet mjaftueshëm.

Sepse 256 = 2 8, atëherë pesha e 1 karakteri është 8 bit.

Njësia 8-bitëshe u emërua 1 bajt:

1 bajt = 8 bit.

Kodi binar i çdo karakteri në tekstin kompjuterik merr 1 bajt memorie.

Si paraqitet informacioni i tekstit në memorien e kompjuterit?

Lehtësia e kodimit të karaktereve me bajt është e dukshme, pasi një bajt është pjesa më e vogël e adresueshme e memories dhe, për rrjedhojë, procesori mund të aksesojë çdo karakter veç e veç, duke kryer përpunimin e tekstit. Nga ana tjetër, 256 karaktere është një numër mjaft i mjaftueshëm për të përfaqësuar një shumëllojshmëri të gjerë të informacionit të karaktereve.

Tani lind pyetja, çfarë lloj kodi binar tetë-bit të lidhet me secilin karakter.

Është e qartë se kjo është një çështje e kushtëzuar, ju mund të dilni me shumë metoda kodimi.

Të gjithë karakteret e alfabetit të kompjuterit numërohen nga 0 deri në 255. Çdo numër korrespondon me një kod binar tetë-bitësh nga 00000000 deri në 11111111. Ky kod është thjesht numri rendor i karakterit në sistemin e numrave binar.

Tabela në të cilën të gjithë karakteret e alfabetit të kompjuterit janë caktuar numra serialë quhet tabela e kodimit.

Për lloje të ndryshme kompjuterash përdoren tabela të ndryshme kodimi.

Standardi ndërkombëtar për PC është bërë tabela ASCII(lexo asci) (Kodi standard amerikan për shkëmbimin e informacionit).

Tabela ASCII është e ndarë në dy pjesë.

Standardi ndërkombëtar është vetëm gjysma e parë e tabelës, d.m.th. simbolet me numra nga 0 (00000000), deri në 127 (01111111).

Struktura e tabelës koduese ASCII

Numër serik

Kodi

Simboli

0 - 31

00000000 - 00011111

Simbolet me numra nga 0 në 31 zakonisht quhen karaktere kontrolli.
Funksioni i tyre është të kontrollojnë procesin e shfaqjes së tekstit në ekran ose të printimit, dhënien e një sinjali zanor, shënimin e tekstit etj.

32 - 127

00100000 - 01111111

Pjesa standarde e tabelës (anglisht). Këtu përfshihen shkronjat e vogla dhe të mëdha të alfabetit latin, shifrat dhjetore, shenjat e pikësimit, të gjitha llojet e kllapave, simbolet tregtare dhe të tjera.
Karakteri 32 është një hapësirë, d.m.th. pozicion bosh në tekst.
Të gjitha të tjerat pasqyrohen në shenja të caktuara.

128 - 255

10000000 - 11111111

Pjesa alternative e tabelës (rusisht).
Gjysma e dytë e tabelës së kodeve ASCII, e quajtur faqja e kodit (128 kode, duke filluar nga 10000000 dhe duke përfunduar me 11111111), mund të ketë variante të ndryshme, secili variant ka numrin e vet.
Faqja e kodit përdoret kryesisht për të akomoduar alfabete kombëtare të ndryshme nga latinishtja. Në kodimet kombëtare ruse, kjo pjesë e tabelës përmban simbole të alfabetit rus.

Gjysma e parë e tabelës ASCII


Unë tërheq vëmendjen tuaj për faktin se në tabelën e kodimit, shkronjat (të mëdha dhe të vogla) janë renditur sipas rendit alfabetik, dhe numrat renditen në rendin rritës të vlerave. Ky respektim i rendit leksikografik në renditjen e karaktereve quhet parimi i kodimit sekuencial të alfabetit.

Për shkronjat e alfabetit rus, respektohet edhe parimi i kodimit sekuencial.

Gjysma e dytë e tabelës ASCII


Për fat të keq, aktualisht ekzistojnë pesë kodime të ndryshme cirilike (KOI8-R, Windows. MS-DOS, Macintosh dhe ISO). Për shkak të kësaj, shpesh lindin probleme me transferimin e tekstit rus nga një kompjuter në tjetrin, nga një sistem softuer në tjetrin.

Kronologjikisht, një nga standardet e para për kodimin e shkronjave ruse në kompjuter ishte KOI8 ("Kodi i shkëmbimit të informacionit, 8-bit"). Ky kodim u përdor përsëri në vitet '70 në kompjuterët e serisë kompjuterike ES, dhe nga mesi i viteve '80 filloi të përdoret në versionet e para të rusifikuara të sistemit operativ UNIX.

Që nga fillimi i viteve '90, koha e dominimit të sistemit operativ MS DOS, kodimi CP866 mbetet ("CP" do të thotë "Faqja e kodit").

Kompjuterët Apple me Mac OS përdorin kodimin e tyre Mac.

Për më tepër, Organizata Ndërkombëtare për Standardizim (Organizata Ndërkombëtare e Standardeve, ISO) miratoi një kodim tjetër të quajtur ISO 8859-5 si standard për gjuhën ruse.

Aktualisht, kodimi më i zakonshëm është Microsoft Windows, i shkurtuar si CP1251.

Që nga fundi i viteve '90, problemi i standardizimit të kodimit të karaktereve është zgjidhur me futjen e një standardi të ri ndërkombëtar të quajtur Unicode... Ky është një kodim 16-bit d.m.th. cakton 2 bajt memorie për çdo karakter. Sigurisht, kjo dyfishon sasinë e memories së përdorur. Por nga ana tjetër, një tabelë e tillë kodesh lejon përfshirjen deri në 65536 karaktere. Specifikimi i plotë i standardit Unicode përfshin të gjitha alfabetet ekzistuese, të zhdukura dhe të krijuara artificialisht të botës, si dhe shumë simbole matematikore, muzikore, kimike dhe të tjera.

Le të përpiqemi të përdorim një tabelë ASCII për të imagjinuar se si do të duken fjalët në kujtesën e kompjuterit.

Paraqitja e brendshme e fjalëve në kujtesën e kompjuterit

Ndonjëherë ndodh që një tekst i përbërë nga shkronja të alfabetit rus, i marrë nga një kompjuter tjetër, nuk mund të lexohet - një lloj "korrizi" është i dukshëm në ekranin e monitorit. Kjo për faktin se kompjuterët përdorin kodime të ndryshme të karaktereve të gjuhës ruse.

Simbolet e mbivendosjes

Karakteri BS (backspace) lejon printerin të mbishkruajë një karakter. Në ASCII, ishte parashikuar shtimi i diakritikëve në shkronja në këtë mënyrë, për shembull:

  • a BS "→ á
  • a BS `→ à
  • a BS ^ → â
  • o BS / → ø
  • c BS, → ç
  • n BS ~ → ñ

shënim: në shkronjat e vjetra, apostrofi "ishte vizatuar me një pjerrësi në të majtë, dhe tilda ~ u zhvendos lart, në mënyrë që ato të përshtaten vetëm me rolin e akute dhe tildës sipër.

Nëse i njëjti simbol mbivendoset në një karakter, atëherë fitohet efekti i një fonti të theksuar, dhe nëse një nënvizim mbivendoset mbi karakterin, atëherë fitohet teksti i nënvizuar.

  • a BS a → a
  • a BS _ → a

shënim: kjo përdoret, për shembull, në sistemin e ndihmës mashkullore.

Variantet kombëtare të ASCII

Standardi ISO 646 (ECMA-6) ofron mundësinë e vendosjes së karaktereve kombëtare në vend @ [ \ ] ^ ` { | } ~ ... Përveç kësaj, në vend # mund të akomodohen £ , dhe në vend $ - ¤ ... Ky sistem është i përshtatshëm për gjuhët evropiane ku nevojiten vetëm disa karaktere shtesë. Versioni ASCII pa karaktere kombëtare quhet US-ASCII, ose "Versioni i referencës ndërkombëtare".

Më pas, doli të ishte më i përshtatshëm përdorimi i kodimeve 8-bit (faqet e kodit), ku gjysma e poshtme e tabelës së kodit (0-127) është e zënë nga karakteret US-ASCII, dhe gjysma e sipërme (128-255) është i zënë nga karaktere shtesë, duke përfshirë një grup karakteresh kombëtare. Kështu, gjysma e sipërme e tabelës ASCII, para miratimit të gjerë të Unicode, u përdor në mënyrë aktive për të përfaqësuar karaktere të lokalizuara, shkronja të gjuhës lokale. Mungesa e një standardi të unifikuar për vendosjen e karaktereve cirilike në tabelën ASCII shkaktoi shumë probleme me kodimet (KOI-8, Windows-1251 dhe të tjerët). Gjuhët e tjera me shkrim jo-latin gjithashtu vuanin nga prania e disa kodimeve të ndryshme.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
0. NUL SOM EOA MVZ EQT WRU RU ZILE BKSP Ht LF VT FF CR KËSHTU QË SI
1. DC 0 DC 1 DC 2 DC 3 DC 4 GABIM SINkronizimi LEM S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7
2.
3.
4. BLANK ! " # $ % & " ( ) * + , - . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
A. @ A B C D E F G H Unë J K L M N O
B. P P R S T U V W X Y Z [ \ ]
C.
D.
E. a b c d e f g h i j k l m n o
F. fq q r s t u v w x y z ESC DEL

Në ata kompjuterë ku njësia minimale e adresueshme e memories ishte një fjalë 36-bit, fillimisht u përdorën karaktere 6-bit (1 fjalë = 6 karaktere). Pas kalimit në ASCII në kompjuterë të tillë, ata filluan të vendosnin ose 5 karaktere shtatë-bitësh në një fjalë (1 bit mbeti i tepërt), ose 4 karaktere nëntë-bitësh.

Kodet ASCII përdoren gjithashtu për të identifikuar tastin e shtypur gjatë programimit. Për një tastierë standarde QWERTY, tabela e kodeve duket si kjo:

[Kodimi 8-bit: ASCII, KOI-8R dhe CP1251] Tabelat e para të grupeve të karaktereve të krijuara në SHBA nuk përdorën bitin e tetë në një bajt. Teksti u prezantua si një sekuencë bajtash, por biti i tetë nuk u mor parasysh (ai u përdor për qëllime shërbimi).

Standardi i pranuar përgjithësisht është bërë tabela ASCII(Kodi Standard Amerikan për Shkëmbimin e Informacionit). 32 karakteret e para ASCII (00 deri në 1F) u përdorën për karaktere që nuk mund të printohen. Ato ishin krijuar për të kontrolluar një pajisje printimi dhe të ngjashme. Pjesa tjetër - nga 20 në 7 F - janë karaktere normale (të printueshme).

Tabela 1 - Kodimi ASCII

dhjetorHekstetorCharPërshkrim
0 0 000 i pavlefshëm
1 1 001 fillimi i titullit
2 2 002 fillimi i tekstit
3 3 003 fundi i tekstit
4 4 004 fundi i transmetimit
5 5 005 hetim
6 6 006 pranoj
7 7 007 zile
8 8 010 backspace
9 9 011 skedë horizontale
10 A 012 linjë e re
11 B 013 skedë vertikale
12 C 014 faqe e re
13 D 015 kthim ngarkese
14 E 016 zhvendosja jashtë
15 F 017 zhvendosje brenda
16 10 020 ikja e lidhjes së të dhënave
17 11 021 kontrolli i pajisjes 1
18 12 022 kontrolli i pajisjes 2
19 13 023 kontrolli i pajisjes 3
20 14 024 kontrolli i pajisjes 4
21 15 025 pranimi negativ
22 16 026 boshe sinkron
23 17 027 fundi i trans. bllokoj
24 18 030 anuloni
25 19 031 fundi i mesëm
26 1A 032 zëvendësues
27 1B 033 arratisje
28 1C 034 ndarës i skedarëve
29 1D 035 ndarës grupi
30 1E 036 ndarës rekord
31 1F 037 ndarës njësi
32 20 040 hapësirë
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
dhjetorHekstetorChar
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 Unë
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 O
80 50 120 P
81 51 121 P
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 a
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 fq
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 x
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Siç mund ta shihni lehtësisht, ky kodim përmban vetëm shkronja latine dhe ato që përdoren në anglisht. Ekzistojnë gjithashtu simbole aritmetike dhe të tjera shërbimi. Por nuk ka shkronja ruse, madje as shkronja të veçanta latine për gjermanishten apo frëngjishten. Kjo është e lehtë për t'u shpjeguar - kodimi u zhvillua posaçërisht si një standard amerikan. Kur kompjuterët filluan të përdoren në të gjithë botën, u bë i nevojshëm kodimi i simboleve të tjera.

Për këtë, u vendos që të përdoret biti i tetë në çdo bajt. Kështu, 128 vlera të tjera ishin në dispozicion (nga 80 në FF), të cilat mund të përdoren për të koduar karakteret. E para nga tabelat me tetë bit është "ASCII e zgjeruar" ( ASCII i zgjeruar) - përfshinte variante të ndryshme të karaktereve latine të përdorura në disa gjuhë të Evropës Perëndimore. Ai gjithashtu përmbante simbole të tjera shtesë, duke përfshirë pseudografikë.

Karakteret pseudografike lejojnë, duke shfaqur vetëm karaktere teksti, të japin njëfarë pamjeje grafike. Për shembull, programi për menaxhimin e skedarëve FAR Manager funksionon me ndihmën e pseudografikës.

Nuk kishte shkronja ruse në tabelën e zgjeruar ASCII. Në Rusi (ish BRSS) dhe në shtetet e tjera, u krijuan kodimet e tyre, të cilat bënë të mundur përfaqësimin e karaktereve specifike "kombëtare" në skedarë teksti 8-bit - shkronja latine të gjuhëve polake dhe çeke, cirilike (përfshirë shkronjat ruse ) dhe alfabete të tjera.

Në të gjitha kodimet që janë bërë të përhapura, 127 karakteret e para (d.m.th., vlerat e bajtit me bitin e tetë të barabartë me 0) përkojnë me ASCII. Kështu, një skedar ASCII funksionon në cilindo nga këto kodime; shkronjat e gjuhës angleze përfaqësohen në të njëjtën mënyrë.

Organizimi ISO(Organizata Ndërkombëtare e Standardizimit) miratoi një grup standardesh ISO 8859... Ai përcakton kodimet 8-bit për grupe të ndryshme gjuhësh. Pra, ISO 8859-1 është Extended ASCII, një tabelë për Shtetet e Bashkuara dhe Evropën Perëndimore. Dhe ISO 8859-5 është një tabelë për cirilik (përfshirë rusishten).

Megjithatë, për arsye historike, kodimi ISO 8859-5 nuk ka arritur. Në realitet, kodimet e mëposhtme përdoren për gjuhën ruse:

Kodi Faqe 866 ( CP866), i njohur si "DOS", i njohur si "kodimi alternativ GOST". U përdor gjerësisht deri në mesin e viteve '90; tani përdoret në një masë të kufizuar. Praktikisht nuk përdoret për shpërndarjen e teksteve në internet.
- KOI-8. Zhvilluar në vitet '70 dhe '80. Është një standard përgjithësisht i pranuar për transmetimin e mesazheve postare në internetin rus. Përdoret gjithashtu gjerësisht në sistemet operative të familjes Unix, duke përfshirë Linux. Versioni KOI-8, i krijuar për gjuhën ruse, quhet KOI-8R; ka versione për gjuhë të tjera cirilike (për shembull, KOI8-U është një opsion për gjuhën ukrainase).
- Kodi Faqe 1251, CP1251, Windows-1251. Zhvilluar nga Microsoft për të mbështetur gjuhën ruse në Windows.

Avantazhi kryesor i CP866 ishte ruajtja e karaktereve pseudografike në të njëjtat vende si në Extended ASCII; prandaj, programet me tekst të huaj, për shembull, i famshëm Norton Commander, mund të funksiononin pa ndryshime. Në ditët e sotme CP866 përdoret për programet Windows që ekzekutohen në dritare me tekst ose në modalitetin e tekstit në ekran të plotë, duke përfshirë "FAR Manager".

Vitet e fundit, tekstet në CP866 janë mjaft të rralla (por përdoret për të koduar emrat e skedarëve rusë në Windows). Prandaj, do të ndalemi më në detaje në dy kodime të tjera - KOI-8R dhe CP1251.



Siç mund ta shihni, në tabelën e kodimit CP1251, shkronjat ruse janë rregulluar sipas rendit alfabetik (me përjashtim të shkronjës E). Ky rregullim e bën shumë të lehtë që programet kompjuterike të renditen sipas alfabetit.

Por në KOI-8R, renditja e shkronjave ruse duket të jetë e rastësishme. Por në fakt nuk është kështu.

Shumë programe të vjetra humbën bitin e 8-të gjatë përpunimit ose transmetimit të tekstit. (Tani programe të tilla praktikisht janë "shuar", por në fund të viteve '80 - fillimi i viteve '90 ato ishin të përhapura). Për të marrë një vlerë 7-bitësh nga një vlerë 8-bitësh, zbritni 8 nga shifra më e rëndësishme; për shembull E1 bëhet 61.

Tani krahasoni KOI-8R me tabelën ASCII (Tabela 1). Do të zbuloni se shkronjat ruse janë të lidhura qartë me ato latine. Nëse biti i tetë zhduket, shkronjat e vogla ruse kthehen në shkronja të mëdha latine dhe shkronjat e mëdha ruse kthehen në shkronja të vogla latine. Pra, E1 në KOI-8 është rusisht "A", ndërsa 61 në ASCII është latinisht "a".

Pra, KOI-8 ju lejon të ruani lexueshmërinë e tekstit rus duke humbur bitin e 8-të. "Përshëndetje të gjithëve" bëhet "pRIWET WSEM".

Kohët e fundit, si rendi alfabetik i karaktereve në tabelën e kodimit ashtu edhe lexueshmëria me humbjen e bitit të 8-të kanë humbur rëndësinë e tyre vendimtare. Biti i tetë në kompjuterët modernë nuk humbet as gjatë transmetimit dhe as gjatë përpunimit. Renditja sipas rendit alfabetik bazohet në kodim, dhe jo në krahasim të thjeshtë të kodeve. (Nga rruga, kodet CP1251 nuk janë plotësisht alfabetike - shkronja E nuk është në vendin e saj).

Për shkak të faktit se ekzistojnë dy kodime të zakonshme, kur punoni me internetin (mail, shfletimi i faqeve në internet), ndonjëherë mund të shihni një grup të pakuptimtë shkronjash në vend të tekstit rus. Për shembull, "Unë jam SBUFEMHEL". Këto janë vetëm fjalët "me respekt"; por ato ishin të koduara në kodimin CP1251, dhe kompjuteri deshifroi tekstin sipas tabelës KOI-8. Nëse të njëjtat fjalë ishin, përkundrazi, të koduara në KOI-8, dhe kompjuteri deshifroi tekstin sipas tabelës CP1251, rezultati do të jetë "У ХЧБЦЕОЙЕН".

Ndonjëherë ndodh që kompjuteri të deshifrojë fare shkronjat në gjuhën ruse sipas një tabele që nuk është menduar për gjuhën ruse. Pastaj, në vend të shkronjave ruse, shfaqet një grup simbolesh të pakuptimta (për shembull, shkronja latine të gjuhëve të Evropës Lindore); ata shpesh quhen "crocozyabras".

Në shumicën e rasteve, programet moderne përballen me përcaktimin e kodimeve të dokumenteve të Internetit (email dhe faqe në internet). Por ndonjëherë ata "shkojnë keq", dhe më pas mund të shihni sekuenca të çuditshme të shkronjave ruse ose "krokozyabra". Si rregull, për të shfaqur tekstin real në ekran, mjafton të zgjidhni kodimin manualisht në menunë e programit.

Për artikullin, u përdor informacioni nga faqja http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Materiali i marrë nga faqja:

Artikujt kryesorë të lidhur