Instaloni cirilik. Përzgjedhja dhe ndryshimi i kodimit në Microsoft Word

18.04.2019 Vlerësime

Përshëndetje, të dashur lexues të faqes së blogut. Sot do të flasim me ju se nga vijnë krakozyabry në faqe dhe në programe, cilat kodime teksti ekzistojnë dhe cilat duhet të përdoren. Le të hedhim një vështrim më të afërt në historinë e zhvillimit të tyre, duke filluar nga ASCII bazë, si dhe versionet e tij të zgjeruara CP866, KOI8-R, Windows 1251 dhe duke përfunduar me kodimet moderne të Unicode Consortium UTF 16 dhe 8.

Për disa, ky informacion mund të duket i tepërt, por ju do ta dini se sa pyetje kam në mënyrë specifike në lidhje me krakozyabrs (një grup karakteresh të palexueshëm). Tani do të kem mundësinë t'i referoj të gjithë në tekstin e këtij artikulli dhe të kërkoj në mënyrë të pavarur bllokimet e mia. Epo, përgatituni të përthithni informacionin dhe përpiquni të ndiqni rrjedhën e tregimit.

ASCII - kodimi bazë i tekstit për latinishten

Zhvillimi i kodimeve të tekstit ndodhi njëkohësisht me formimin e industrisë së IT, dhe gjatë kësaj kohe ata arritën të pësojnë mjaft ndryshime. Historikisht, gjithçka filloi me një shqiptim mjaft disonant rus EBCDIC, i cili ju lejoi të kodoni shkronjat Alfabeti latin, numra arabë dhe shenja pikësimi me karaktere kontrolli.

Por megjithatë, pika fillestare për zhvillimin e kodimeve moderne të tekstit duhet të konsiderohet e famshme ASCII (standard amerikan Kodi për Shkëmbimi i Informacionit, e cila në rusisht zakonisht shqiptohet si "aski"). Ai përshkruan 128 karakteret e para të karaktereve më të përdorura nga përdoruesit anglezë − letra, numrat arabë dhe shenjat e pikësimit.

Edhe në këto 128 karaktere të përshkruara në ASCII, kishte disa karaktere shërbimi si kllapa, shirita, yje, etj. Në fakt, ju mund t'i shihni ato vetë:

Janë këta 128 karaktere nga versioni origjinal i ASCII që janë bërë standard dhe në çdo kodim tjetër do t'i takoni patjetër dhe do të qëndrojnë në atë renditje.

Por fakti është se me ndihmën e një bajt informacioni, ju mund të kodoni jo 128, por deri në 256 kuptime të ndryshme(dy në fuqinë e tetës është 256), pra pas versioni bazë Asuka u shfaq një numër kodime të zgjeruara ASCII, në të cilën, përveç 128 karaktereve bazë, ishte gjithashtu e mundur të kodoheshin simbole të kodimit kombëtar (për shembull, rusisht).

Këtu, me siguri, ia vlen të thuhet pak më shumë për sistemet e numrave që përdoren në përshkrim. Së pari, siç e dini të gjithë, një kompjuter punon vetëm me numra në sistemin binar, përkatësisht zero dhe njësh (" algjebër boolean", nëse dikush kalonte në institut ose në shkollë). , secila prej të cilave është dy në shkallë, duke filluar nga zero, dhe deri në dy në të shtatën:

Nuk është e vështirë të kuptohet se mund të ketë vetëm 256 nga të gjitha kombinimet e mundshme të zeros dhe njëshit në një ndërtim të tillë. Për të përkthyer një numër nga sistemi binar në dhjetor është shumë e lehtë. Ju vetëm duhet të shtoni të gjitha fuqitë e dy, mbi të cilat ka një.

Në shembullin tonë, kjo është 1 (2 në fuqinë e zeros) plus 8 (dy në fuqinë e 3), plus 32 (dy në të pestën), plus 64 (në të gjashtën), plus 128 (në të shtatën) . Totali merr 233 in sistemi dhjetor duke llogaritur. Siç mund ta shihni, gjithçka është shumë e thjeshtë.

Por nëse shikoni tabelën me Personazhet ASCII, do të shihni se ato janë të përfaqësuara në kodim heksadecimal. Për shembull, "yll" përputhet në asci numër heksadecimal 2A. Ju ndoshta e dini se në sistemi heksadecimal përdoren numra, përveç numrave arabë, edhe shkronja latine nga A (që do të thotë dhjetë) deri në F (që do të thotë pesëmbëdhjetë).

Epo, për përkthimi numër binar në heksadecimal përdorni metodën e mëposhtme të thjeshtë dhe vizuale. Çdo bajt informacioni është i ndarë në dy pjesë me katër bit, siç tregohet në pamjen e mësipërme të ekranit. Se. në çdo gjysmë bajt kodi binar mund të kodohen vetëm gjashtëmbëdhjetë vlera (dy në fuqinë e katërt), të cilat lehtë mund të përfaqësohen si një numër heksadecimal.

Për më tepër, në gjysmën e majtë të bajtit, do të jetë e nevojshme të numëroni përsëri shkallët duke filluar nga zero, dhe jo siç tregohet në pamjen e ekranit. Si rezultat, me llogaritje të thjeshta, marrim se numri E9 është i koduar në pamjen e ekranit. Shpresoj që rrjedha e arsyetimit tim dhe zgjidhja e kësaj enigme doli të jetë e qartë për ju. Epo, tani le të vazhdojmë, në fakt, të flasim për kodimet e tekstit.

Versione të zgjeruara të kodimeve Asuka - CP866 dhe KOI8-R me pseudografikë

Pra, filluam të flasim për ASCII, i cili ishte, si të thuash, pika fillestare për zhvillimin e të gjitha kodimeve moderne (Windows 1251, Unicode, UTF 8).

Fillimisht, ai përmbante vetëm 128 karaktere të alfabetit latin, numra arabë dhe diçka tjetër, por në versionin e zgjeruar u bë e mundur të përdoren të gjitha 256 vlerat që mund të kodohen në një bajt informacioni. ato. u bë e mundur të shtoni karaktere të shkronjave të gjuhës suaj në Asci.

Këtu do të jetë e nevojshme të largohemi edhe një herë për të shpjeguar - Pse keni nevojë për kodim fare? tekstet dhe pse është kaq e rëndësishme. Karakteret në ekranin e kompjuterit tuaj formohen në bazë të dy gjërave - grupe formash vektoriale (përfaqësime) të të gjitha llojeve të karaktereve (ato janë në skedarë bashkë) dhe një kod që ju lejon të tërhiqeni nga ky grup formash vektoriale ( skedari i shkronjave) pikërisht karakteri që duhet të futni në vendin e duhur.

Është e qartë se fontet janë përgjegjëse për vetë format e vektorit, por sistemi operativ dhe programet e përdorura në të janë përgjegjës për kodimin. ato. çdo tekst në kompjuterin tuaj do të jetë një grup bajtësh, secili prej të cilëve kodon një karakter të vetëm të këtij teksti.

Programi që shfaq këtë tekst në ekran (redaktori i tekstit, shfletuesi, etj.), ndërsa analizon kodin, lexon kodimin e karakterit tjetër dhe kërkon formën përkatëse vektoriale në skedarin e dëshiruar fontin që është i lidhur për të shfaqur këtë dokument teksti. Gjithçka është e thjeshtë dhe banale.

Kjo do të thotë që për të koduar çdo karakter që na nevojitet (për shembull, nga alfabeti kombëtar), duhet të plotësohen dy kushte - forma vektoriale e këtij karakteri duhet të jetë në fontin e përdorur dhe ky karakter mund të kodohet në të zgjeruar Kodimet ASCII në një bajt. Prandaj, ka një grup të tërë opsionesh të tilla. Vetëm për kodimin e karaktereve të gjuhës ruse, ekzistojnë disa lloje të Aska të zgjeruar.

Për shembull, fillimisht ka pasur CP866, në të cilën ishte e mundur të përdoreshin karakteret e alfabetit rus dhe ishte një version i zgjeruar i ASCII.

ato. saj pjesa e sipërme përkoi plotësisht me versionin bazë të Asuka (128 karaktere latine, numra dhe të gjitha llojet e mut), i cili është paraqitur në pamjen e mësipërme, por tashmë Pjesa e poshtme tabelat me kodimin CP866 kishin formën e treguar në pamjen e ekranit pak më poshtë dhe lejuan të kodonin 128 karaktere të tjera (shkronjat ruse dhe të gjitha llojet e pseudografisë atje):

Shihni, në kolonën e djathtë, numrat fillojnë me 8, sepse numrat nga 0 në 7 i referohen pjesës bazë ASCII (shih pamjen e parë të ekranit). Se. shkronja ruse "M" në CP866 do të ketë kodin 9C (ai ndodhet në kryqëzimin e rreshtit përkatës me 9 dhe kolonës me numrin C në sistemin e numrave heksadecimal), i cili mund të shkruhet në një bajt informacioni, dhe nëse ka një font të përshtatshëm me karaktere ruse, kjo letër pa probleme do të shfaqet në tekst.

Nga ka ardhur kjo shumë? pseudografia në CP866? Gjë është se ky kodim për tekstin rus u zhvillua në ato vite me gëzof, kur nuk kishte një shpërndarje të tillë të sistemeve operative grafike siç është tani. Dhe në Dosa, dhe sisteme të ngjashme operative të tekstit, pseudo-grafika bëri të mundur që disi të diversifikohej dizajni i teksteve, dhe për këtë arsye ai ka bollëk në CP866 dhe të gjithë bashkëmoshatarët e tij nga kategoria e versioneve të zgjeruara të Asuka.

CP866 u shpërnda nga IBM, por përveç kësaj, një numër kodimesh u zhvilluan për karakteret ruse, për shembull, i njëjti lloj (ASCII i zgjeruar) mund t'i atribuohet KOI8-R:

Parimi i funksionimit të tij mbetet i njëjtë me atë të CP866 të përshkruar pak më herët - çdo karakter i tekstit është i koduar nga një bajt i vetëm. Pamja e ekranit tregon gjysmën e dytë të tabelës KOI8-R, sepse gjysma e parë korrespondon plotësisht me Asuka bazë, e cila tregohet në pamjen e parë të ekranit në këtë artikull.

Ndër veçoritë e kodimit KOI8-R, mund të vërehet se shkronjat ruse në tabelën e tij nuk hyjnë në sipas rendit alfabetik, siç bënë, për shembull, në CP866.

Nëse shikoni pamjen e parë të ekranit (të pjesës bazë, e cila përfshihet në të gjitha kodimet e zgjeruara), do të vini re se në KOI8-R shkronjat ruse janë të vendosura në të njëjtat qeliza të tabelës si shkronjat e bashkëtingëllores së alfabetit latin. me ta nga pjesa e parë e tabelës. Kjo u bë për lehtësinë e kalimit nga karakteret ruse në latine duke hedhur vetëm një bit (dy në fuqinë e shtatë ose 128).

Windows 1251 - versioni modern i ASCII dhe pse krakozyabry zvarritet jashtë

Zhvillimi i mëtejshëm i kodimeve të tekstit ishte për faktin se sistemet operative grafike po fitonin popullaritet dhe nevoja për të përdorur pseudografinë në to u zhduk me kalimin e kohës. Si rezultat, u ngrit një grup i tërë, të cilët, në thelb, ishin ende versione të zgjeruara të Asuka (një karakter teksti është i koduar me vetëm një bajt informacioni), por pa përdorimin e karaktereve pseudografike.

Ato i përkisnin të ashtuquajturave kodime ANSI, të cilat u zhvilluan nga Instituti Amerikan i Standardeve. Në gjuhën e zakonshme, emri cirilik u përdor gjithashtu për variantin me mbështetje për gjuhën ruse. Një shembull i kësaj mund të shërbejë.

Krahasohet në mënyrë të favorshme me CP866 dhe KOI8-R të përdorura më parë në atë që vendin e simboleve pseudografike në të e zunë simbolet që mungojnë të tipografisë ruse (përveç shenjës së theksit), si dhe simbolet e përdorura në gjuhët sllave afër Rusisht (ukrainas, bjellorusisht, etj.). ):

Për shkak të një bollëku të tillë të kodimeve të gjuhës ruse, prodhuesve dhe prodhuesve të shkronjave software vazhdimisht shfaqej një dhimbje koke dhe ne, të dashur lexues, shpesh dilnim nga të njëjtët famëkeq krakozyabry kur pati ngatërrim me versionin e përdorur në tekst.

Shumë shpesh ata dilnin kur dërgonin dhe merrnin mesazhe nëpërmjet e-mail, gjë që çoi në krijimin e tabelave shumë komplekse të konvertimit, të cilat, në fakt, nuk mund ta zgjidhnin rrënjësisht këtë problem, dhe shpesh përdoruesit përdorën për korrespondencë për të shmangur krakozyabrët famëkeq kur përdornin kodime ruse si CP866, KOI8-R ose Windows 1251.

Në fakt, krakozyabry, duke u ngjitur në vend të tekstit rus, ishin rezultat i përdorimit të gabuar të kodimit gjuhën e dhënë, e cila nuk përputhej me atë në të cilën ishte koduar mesazh me tekst fillimisht.

Le të themi nëse karakteret e koduara me CP866 përpiqen të shfaqen duke përdorur tabela e kodeve Windows 1251, atëherë do të dalin të njëjtat krakozyabry (një grup karakteresh pa kuptim), duke zëvendësuar plotësisht tekstin e mesazhit.

Një situatë e ngjashme ndodh shumë shpesh me forumet ose bloget, kur teksti me karaktere ruse ruhet gabimisht në kodimin e gabuar që përdoret në sit si parazgjedhje, ose në redaktuesin e gabuar të tekstit që shton gag në kodin që nuk është i dukshëm për sy të lirë.

Në fund, shumë njerëz u lodhën nga një situatë e tillë me shumë kodime dhe duke dalë vazhdimisht nga krakozyabry, kishte parakushte për të krijuar një variant të ri universal që do të zëvendësonte të gjitha ato ekzistuese dhe më në fund do të zgjidhte problemin me shfaqjen e teksteve të palexueshme. . Për më tepër, ekzistonte problemi i gjuhëve si kinezishtja, ku karakteret e gjuhës ishin shumë më tepër se 256.

Unicode (Unicode) - kodime universale UTF 8, 16 dhe 32

Këto mijëra karaktere të grupit të gjuhëve të Azisë Juglindore nuk mund të përshkruheshin në asnjë mënyrë në një bajt informacioni, i cili u nda për kodimin e karaktereve në versionet e zgjeruara të ASCII. Si rezultat, një konsorcium thirri Unicode(Unicode - Unicode Consortium) me bashkëpunimin e shumë drejtuesve të industrisë së IT (ata që prodhojnë softuer, që kodojnë harduerin, që krijojnë fontet), të cilët ishin të interesuar për shfaqjen e një kodimi universal të tekstit.

Variacioni i parë që u lëshua nën kujdesin e Konsorciumit Unicode ishte UTF-32. Numri në emrin e kodimit nënkupton numrin e biteve që përdoren për të koduar një karakter. 32 bit janë 4 bajtë informacion që do të nevojiten për të koduar një karakter të vetëm në kodimin e ri universal UTF.

Si rezultat, i njëjti skedar teksti, i koduar në versionin e zgjeruar të ASCII dhe në UTF-32, në rasti i fundit do të ketë një madhësi (peshë) katër herë më shumë. Kjo është e keqe, por tani kemi mundësinë të kodojmë duke përdorur UTF numrin e karaktereve të barabartë me dy me fuqinë tridhjetë e dytë ( miliarda personazhe, i cili do të mbulojë çdo vlerë vërtet të nevojshme me një diferencë të madhe).

Por për shumë vende me gjuhë të grupit evropian, kjo sasi e madhe nuk kishte fare nevojë të përdoreshin karaktere në kodim, megjithatë, kur përdorni UTF-32, ata do të merrnin një rritje katërfish në peshë për asgjë dokumente tekstuale, dhe si rezultat, një rritje në vëllimin e trafikut në internet dhe sasinë e të dhënave të ruajtura. Kjo është shumë, dhe askush nuk mund të përballonte mbeturina të tilla.

Si rezultat i zhvillimit të Unicode, UTF-16, i cili doli të ishte aq i suksesshëm sa u pranua si hapësira bazë e paracaktuar për të gjithë karakteret që përdorim. Ai përdor dy bajt për të koduar një karakter. Le të shohim se si duket kjo gjë.

Në sistemin operativ Windows, mund të shkoni përgjatë rrugës "Fillimi" - "Programet" - "Aksesorët" - "Shërbimet" - "Tabela e Karaktereve". Si rezultat, do të hapet një tabelë me forma vektoriale të të gjitha shkronjave të instaluara në sistemin tuaj. Nëse zgjidhni në " Opsione shtesë» Seti i karaktereve Unicode, ju mund të shihni për çdo font veçmas të gjithë gamën e karaktereve të përfshira në të.

Nga rruga, duke klikuar në ndonjë prej tyre, mund të shihni dy bajtin e tij kodi në formatin UTF-16, i përbërë nga katër shifra heksadecimal:

Sa karaktere mund të kodohen në UTF-16 duke përdorur 16 bit? 65536 (dy në fuqinë e gjashtëmbëdhjetë), dhe ishte ky numër që u miratua si hapësira bazë në Unicode. Përveç kësaj, ka mënyra për të koduar me të rreth dy milionë karaktere, por të kufizuara në një hapësirë të zgjeruar prej një milion karakteresh teksti.

Por edhe ky version i suksesshëm i kodimit Unicode nuk u solli shumë kënaqësi atyre që shkruan, të themi, programe vetëm në gjuhe angleze, sepse ata, pasi kaluan nga versioni i zgjeruar i ASCII në UTF-16, pesha e dokumenteve u dyfishua (një bajt për karakter në Asci dhe dy bajt për të njëjtin karakter në UTF-16).

Kjo është ajo për kënaqësinë e të gjithëve dhe gjithçkaje në konsorciumin Unicode, u vendos të dilte me kodimi me gjatësi të ndryshueshme. Quhet UTF-8. Pavarësisht tetë në titull, me të vërtetë ka gjatësi e ndryshueshme, d.m.th. çdo karakter teksti mund të kodohet në një sekuencë prej një deri në gjashtë bajt.

Në praktikë, në UTF-8, përdoret vetëm diapazoni nga një deri në katër bajt, sepse pas katër bajteve të kodit, asgjë nuk është as teorikisht e mundur të imagjinohet. Të gjitha karakteret latine në të janë të koduara në një bajt, ashtu si në ASCII të mirë të vjetër.

Çuditërisht, në rastin e kodimit vetëm latinisht, edhe ato programe që nuk kuptojnë Unicode do të lexojnë ende atë që është e koduar në UTF-8. ato. pjesa bazë e Asuka thjesht kaloi në këtë ide të Konsorciumit Unicode.

Karakteret cirilike në UTF-8 janë të koduara në dy bajt, dhe, për shembull, karakteret gjeorgjiane në tre bajtë. Konsorciumi Unicode, pasi krijoi UTF 16 dhe 8, zgjidhi problemin kryesor - tani kemi fontet kanë një hapësirë të vetme kodi. Dhe tani prodhuesit e tyre mund ta mbushin atë vetëm me forma vektoriale të karaktereve të tekstit bazuar në pikat e forta dhe aftësitë e tyre. Tani edhe në grupe.

Në "Tabela e simboleve" më sipër, mund të shihni që fontet e ndryshme mbështesin sasi të ndryshme shenjat. Disa fonte të pasura me Unicode mund të jenë shumë të mëdha. Por tani ato ndryshojnë jo në atë që u krijuan për kodime të ndryshme, por në faktin se prodhuesi i shkronjave plotësoi ose nuk e plotësoi hapësirën e vetme të kodit me një ose një formë tjetër vektoriale deri në fund.

Krakozyabry në vend të shkronjave ruse - si ta rregulloni

Le të shohim tani se si shfaqen krakozyabras në vend të tekstit, ose, me fjalë të tjera, si zgjidhet kodimi i saktë për tekstin rus. Në fakt, ai vendoset në programin në të cilin krijoni ose modifikoni të njëjtin tekst ose kod duke përdorur fragmente teksti.

Për redaktimin dhe krijimin skedarët e tekstit Unë personalisht përdor një shumë të mirë, për mendimin tim, . Sidoqoftë, ai gjithashtu mund të nxjerrë në pah sintaksën njëqind e mirë gjuhë programimi dhe shënjimi, dhe gjithashtu ka aftësinë të zgjerohet duke përdorur shtojca. Lexoni pasqyrë e detajuar ky program i mrekullueshëm në lidhjen e dhënë.

AT menyja kryesore Notepad++ ka një artikull "Encoding", ku do të keni mundësinë të konvertoni një opsion ekzistues në atë të përdorur në faqen tuaj si parazgjedhje:

Në rastin e një faqeje në Joomla 1.5 dhe më të lartë, si dhe në rastin e një blogu në WordPress, për të shmangur shfaqjen e gabimeve, zgjidhni opsionin UTF8 pa BOM. Çfarë është prefiksi BOM?

Fakti është se kur ata zhvilluan kodimin UTF-16, për disa arsye ata vendosën t'i bashkëngjisin një gjë të tillë si aftësia për të shkruar një kod karakteri, si në sekuencë të drejtpërdrejtë (për shembull, 0A15) dhe në të kundërt (150A) . Dhe në mënyrë që programet të kuptojnë se në cilën sekuencë për të lexuar kodet, ajo u shpik BOM(Byte Order Mark ose, me fjalë të tjera, nënshkrimi), i cili u shpreh në shtimin e tre bajteve shtesë në fillimin e dokumenteve.

Në kodimin UTF-8, asnjë BOM nuk ishte parashikuar në konsorciumin Unicode, dhe për këtë arsye shtimi i një nënshkrimi (këto tre bajt shtesë më famëkeq në fillim të dokumentit) thjesht parandalon disa programe të lexojnë kodin. Prandaj, gjatë ruajtjes së skedarëve në UTF, gjithmonë duhet të zgjedhim opsionin pa BOM (pa nënshkrim). Kështu që ju përparoni mbroni veten nga zvarritja e krakozyabry.

Çuditërisht, disa programe në Windows nuk e dinë se si ta bëjnë këtë (ata nuk mund të ruajnë tekstin në UTF-8 pa BOM), për shembull, i njëjti Notepad famëkeq i Windows. Ai e ruan dokumentin në UTF-8, por gjithsesi shton nënshkrimin (tre bajtë shtesë) në fillim të tij. Për më tepër, këto byte do të jenë gjithmonë të njëjta - lexoni kodin në sekuencë të drejtpërdrejtë. Por në serverë, për shkak të kësaj gjëje të vogël, mund të lindë një problem - do të dalë krakozyabry.

Prandaj, në asnjë mënyrë mos përdorni normale Notepad i Windows për redaktimin e dokumenteve të faqes tuaj, nëse nuk dëshironi pamjen e krakozyabrov. Më e mira dhe më e shumta opsion i thjeshtë Unë mendoj se është përmendur tashmë redaktori i bllokut të shënimeve++, i cili praktikisht nuk ka të meta dhe përbëhet vetëm nga avantazhe.

Në Notepad++, kur zgjidhni një kodim, do të keni mundësinë të konvertoni tekstin në kodimin UCS-2, i cili në thelb është shumë afër standardit Unicode. Gjithashtu në Notepad do të mund të kodohet teksti në ANSI, d.m.th. në lidhje me gjuhën ruse, ky do të jetë Windows 1251, të cilin e kemi përshkruar pak më lart.Nga vjen ky informacion?

Është shkruar në regjistrin e sistemit tuaj operativ Windows - cilin kodim të zgjidhni në rastin e ANSI, cilin të zgjidhni në rastin e OEM (për gjuhën ruse do të jetë CP866). Nëse instaloni një gjuhë tjetër të paracaktuar në kompjuterin tuaj, atëherë këto kodime do të zëvendësohen me të ngjashme nga kategoria ANSI ose OEM për të njëjtën gjuhë.

Pasi ta ruani dokumentin në Notepad ++ në kodimin që ju nevojitet ose të hapni dokumentin nga faqja për modifikim, mund ta shihni emrin e tij në këndin e poshtëm djathtas të redaktuesit:

Për të shmangur krakozyabrov, përveç veprimeve të përshkruara më sipër, do të jetë e dobishme të shkruani në kokën e tij Kodi i burimit të gjitha faqet e sitit informacion në lidhje me këtë kodim vetë, në mënyrë që në server ose pritës lokal nuk kishte konfuzion.

Në përgjithësi, në të gjitha gjuhët e shënjimit të hipertekstit përveç Html, përdoret një deklaratë e veçantë xml, e cila specifikon kodimin e tekstit.

Para se të analizojë kodin, shfletuesi e di se cili version është duke u përdorur dhe se si saktësisht duhet të interpretohen kodet e karaktereve të asaj gjuhe. Por ajo që vlen të përmendet, nëse e ruani dokumentin në unicode të paracaktuar, atëherë kjo deklaratë xml mund të hiqet (kodimi do të konsiderohet UTF-8 nëse nuk ka BOM ose UTF-16 nëse ka një BOM).

Në rastin e një dokumenti Gjuha HTML përdoret për të specifikuar kodimin Elementi meta, e cila shkruhet midis etiketës së hapjes dhe mbylljes së kokës:

... ...

Kjo hyrje është mjaft e ndryshme nga ajo në , por është plotësisht në përputhje me standardin e ri Html 5 që po prezantohet ngadalë dhe do të kuptohet 100% saktë nga çdo shfletues aktualisht në përdorim.

Në teori, elementi Meta me tregues Kodimet HTML dokumenti do të ishte më i mirë sa më lart që të jetë e mundur në kokën e dokumentit në mënyrë që në momentin e takimit në tekstin e karakterit të parë jo nga baza ANSI (i cili do të lexohet gjithmonë saktë dhe në çdo variacion), shfletuesi duhet të ketë tashmë informacion se si të interpretojë kodet e këtyre karaktereve.

Paç fat! Shihemi së shpejti në faqen e faqeve të blogut

Mund të shikoni më shumë video duke shkuar te

");">

Ju mund të jeni të interesuar

Çfarë Adresa URL Cili është ndryshimi midis absolute dhe lidhje relative për sitin
OpenServer - modern server lokal dhe një shembull i përdorimit të tij për Instalimet e WordPress në kompjuter
Çfarë është Chmod, çfarë lejesh për t'u caktuar skedarëve dhe dosjeve (777, 755, 666) dhe si ta bëjmë atë nëpërmjet PHP
Kërkimi Yandex në sit dhe dyqanin online

MS Word është me të drejtë më i popullarizuari redaktori i tekstit. Prandaj, më shpesh mund të hasni dokumente në formatin e këtij programi të veçantë. Gjithçka që mund të ndryshojë në to është vetëm versioni Word dhe formati i skedarit (DOC ose DOCX). Megjithatë, pavarësisht nga përgjithësimi, mund të lindin probleme me hapjen e disa dokumenteve.

Është një gjë nëse skedari Word nuk hapet fare ose fillon në funksionalitet të kufizuar, dhe krejt ndryshe kur hapet, por shumica, nëse jo të gjithë karakteret në dokument janë të palexueshëm. Kjo do të thotë, në vend të alfabetit të zakonshëm dhe të kuptueshëm cirilik ose latin, shfaqen disa karaktere të paqarta (katrore, pika, pikëpyetje).

Nëse keni hasur gjithashtu një problem të ngjashëm, ka shumë të ngjarë që faji është kodimi i gabuar i skedarit, ose më saktë, përmbajtja e tij e tekstit. Në këtë artikull, ne do të flasim se si të ndryshojmë kodimin e tekstit në Word, duke e bërë atë të lexueshëm. Nga rruga, mund t'ju duhet gjithashtu të ndryshoni kodimin në mënyrë që ta bëni dokumentin të palexueshëm ose, si të thuash, të "konvertoni" kodimin për përdorim të mëtejshëm të përmbajtjes së tekstit të dokumentit Word në programe të tjera.

Shënim: Standardet e pranuara përgjithësisht të kodimit të tekstit në vende të ndryshme mund të ndryshojnë. Është e mundur që një dokument i krijuar, për shembull, nga një përdorues që jeton në Azi dhe i ruajtur në kodimin lokal, nuk do të shfaqet saktë nga një përdorues në Rusi duke përdorur në një PC dhe në Standardi i fjalës cirilike.

Të gjitha informacionet shfaqen në ekranin e kompjuterit formë teksti, në fakt ruhet në skedarin Word si vlera numerike. Këto vlera konvertohen nga programi në karaktere të shfaqshme, për të cilat përdoret kodimi.

Kodimi- një skemë numërimi në të cilën secili simbol teksti nga ndeshjet e vendosura vlerë numerike. Vetë kodimi mund të përmbajë shkronja, numra, si dhe karaktere dhe simbole të tjera. Më vete, vlen të përmendet se në gjuhë të ndryshme përdoret mjaft shpesh komplete të ndryshme karaktere, kjo është arsyeja pse shumë kodime janë krijuar vetëm për të shfaqur karaktere nga gjuhë specifike.

Zgjedhja e një kodimi kur hapni një skedar

Nëse përmbajtja e tekstit të skedarit shfaqet gabimisht, për shembull, me katrorë, pikëpyetje dhe karaktere të tjera, atëherë MS Word nuk ishte në gjendje të përcaktonte kodimin e tij. Për të zgjidhur këtë problem, duhet të specifikoni kodimin e saktë (të përshtatshëm) për dekodimin (shfaqjen) e tekstit.

1. Hapni menunë "Dosja"(buton "Zyra MS" më parë).

2. Hapni seksionin "Opsione" dhe zgjidhni artikullin "Për më tepër".

3. Lëvizni poshtë përmbajtjen e dritares derisa të gjeni seksionin "Gjeneral". Kontrolloni kutinë pranë "Konfirmo konvertimin e formatit të skedarit në hapje". Klikoni "NE RREGULL" për të mbyllur dritaren.

Shënim: Pasi të zgjidhni kutinë pranë këtij opsioni, sa herë që hapni një skedar në Word në një format të ndryshëm nga DOC, DOCX, DOCM, DOT, DOTM, DOTX, do të shfaqet një kuti dialogu. "Konvertimi i skedarit". Nëse shpesh ju duhet të punoni me dokumente të formateve të tjera, por nuk keni nevojë të ndryshoni kodimin e tyre, zgjidhni këtë kuti në opsionet e programit.

4. Mbyllni skedarin dhe hapeni përsëri.

5. Seksioni "Konvertimi i skedarit" zgjidhni artikullin "tekst i koduar".

6. Në kutinë e dialogut të hapur "Konvertimi i skedarit" vendosni shënuesin përballë parametrit "Tjetër". Zgjidhni kodimin e kërkuar nga lista.

Këshilla: Në dritare "Shembull" ju mund të shihni se si do të duket teksti në një kodim ose në një tjetër.

7. Pasi të keni zgjedhur kodimin e duhur, zbatojeni atë. Tani përmbajtja e tekstit të dokumentit do të shfaqet saktë.

Në rast se i gjithë teksti për të cilin zgjidhni një kodim duket pothuajse i njëjtë (për shembull, në formën e katrorëve, pikave, pikëpyetjeve), ka shumë të ngjarë që fonti i përdorur në dokumentin që po përpiqeni të hapni është nuk është i instaluar në kompjuterin tuaj. Rreth mënyrës së instalimit fontin e palës së tretë në MS Word, mund të lexoni artikullin tonë.

Zgjedhja e një kodimi kur ruani një skedar

Nëse nuk specifikoni (zgjedhni) kodimin e skedarit MS Word gjatë ruajtjes, ai ruhet automatikisht në kodim Unicode e cila është e mjaftueshme në shumicën e rasteve. Ky lloj kodimi mbështet shumicën e karaktereve dhe shumicën e gjuhëve.

Nëse ju (ose dikush tjetër) planifikoni të hapni një dokument të krijuar në Word në një program tjetër që nuk mbështet Unicode, gjithmonë mund të zgjidhni kodimin e kërkuar dhe të ruani skedarin në të. Kështu, për shembull, në një kompjuter me një sistem operativ të rusifikuar, është mjaft e mundur të krijosh një dokument në gjuhën tradicionale kineze duke përdorur Unicode.

Problemi i vetëm është se nëse këtë dokument do të hapet në një program që mbështet kinezisht, por nuk mbështet Unicode, ku do të ishte më e saktë të ruash skedarin në një kodim tjetër, për shembull, "Tradicionale kineze (Big5)". Në këtë rast, përmbajtja e tekstit të dokumentit, kur hapet në çdo program që mbështet kineze, do të shfaqet saktë.

Shënim: Meqenëse Unicode është standardi më i popullarizuar dhe thjesht një standard i gjerë në mesin e kodimeve, kur ruani tekstin në kodime të tjera, është e mundur shfaqja e pasaktë, e paplotë ose edhe e mungesës së plotë të disa skedarëve. Në fazën e zgjedhjes së një kodimi për ruajtjen e skedarit, karakteret dhe simbolet që nuk mbështeten shfaqen me të kuqe, dhe një njoftim shfaqet gjithashtu me informacion për arsyen.

1. Hapni skedarin, kodimin e të cilit duhet ta ndryshoni.

2. Hapni menunë "Dosja"(buton "Zyra MS" më parë) dhe zgjidhni "Ruaj si". Nëse është e nevojshme, jepni një emër skedari.

3. Seksioni "Lloji i skedarit" zgjidhni opsionin "Tekst normal".

5. Bëni një nga sa vijon:

Për të përdorur kodimin standard të vendosur si parazgjedhje, kontrolloni kutinë pranë parametrit "Windows (i parazgjedhur)";

Për të zgjedhur një kodim "MS-DOS" vendosni një shënues përballë artikullit përkatës;

Për të zgjedhur çdo kodim tjetër, vendosni shënuesin përpara artikullit "Tjetër", dritarja me listën e kodimeve të disponueshme do të aktivizohet, pas së cilës mund të zgjidhni kodimin e kërkuar nga lista.

Shënim: Nëse, kur zgjidhni një ose një tjetër ( "Një tjetër") duke koduar e shihni mesazhin "Teksti i theksuar me të kuqe nuk mund të ruhet saktë në kodimin e zgjedhur", zgjidhni një kodim tjetër (përndryshe përmbajtja e skedarit nuk do të shfaqet siç duhet) ose kontrolloni kutinë pranë parametrit "lejo zëvendësimin e karaktereve".

Nëse është aktivizuar zëvendësimi i karaktereve, të gjithë ata karaktere që nuk mund të shfaqen në kodimin e zgjedhur do të zëvendësohen automatikisht me karakteret e tyre ekuivalente. Për shembull, një elipsë mund të zëvendësohet me tre pika, dhe thonjëzat e qosheve mund të zëvendësohen me vija të drejta.

6. Skedari do të ruhet në kodimin e zgjedhjes suaj si Teksti i thjeshtë(format "TEKST").

Kjo është e gjitha, në fakt, tani ju e dini se si të ndryshoni kodimin në Word, dhe gjithashtu dini se si ta zgjidhni atë nëse përmbajtja e dokumentit shfaqet gabimisht.

Ndonjëherë, për një arsye ose një tjetër, përdoruesit e Windows përjetojnë diçka që shkakton dështimin e kodimeve. Një lloj programi i sapo instaluar, një virus, manipulime në regjistër, nuk e dini kurrë se çfarë ... Këtu kodimet kanë fluturuar dhe kjo është ajo!

Një gjë e ngjashme më ndodhi një ditë më parë. Në disa programe të rusifikuara, një pjesë e mbishkrimeve të ndërfaqes filluan të dukeshin sikur ishin futur gjurmët e putrave të shpendëve në vend të shkronjave:

Për të qenë i sinqertë, kalova gati dy ditë duke kërkuar një zgjidhje për problemin. Në të gjitha forumet dhe shërbimet e "pyetjeve dhe përgjigjeve", në të gjitha manualet dhe udhëzimet, të gjithë si një përsërisnin të njëjtën recetë zgjidhjeje, e cila mund t'i ketë ndihmuar dikujt. Por jo për mua. Dhe vetëm kur truri im tashmë kishte filluar të vlonte dhe çdo shpresë për zgjidhjen e problemit më la, gjithçka ra në vend.

Vendosa të rregulloj rezultatet e kërkimeve në " Udhëzues universal për të zgjidhur të gjitha problemet me kodimin në sistemet operative Windows XP dhe Windows Vista/7". Edhe pse mund të mos jetë aq universale... ;)

Zgjidhja e problemeve të kodimit në Windows XP:

Paragrafi 1. Së pari ju duhet të siguroheni që gjuha ruse është e vendosur për programe që nuk mbështesin Unicode.

Ne hapim « Paneli i kontrollit» dhe klikoni dy herë në ikonën « » . Shkoni te skeda « Për më tepër» « ».

Pas kësaj, gjeni artikullin 20880 në listën e vendosur në të njëjtën skedë dhe kontrolloni kutinë pranë tij:

Pika 2. Është e mundur që problemet e kodimit të shkaktohen nga një shkelje cilësimet e sistemit fontet.

Për të rivendosur cilësimet e fontit, shkarkoni këtë arkiv

Pika 3. Hapi tjetër është ndryshimi i çelësave të regjistrit që janë përgjegjës për kodimet. Këshillohet që këto ndryshime të bëhen vetëm si mjeti i fundit dhe vetëm nëse të gjitha pikat e mëparshme nuk kanë çuar në asgjë.

këtë arkiv

Zgjidhja e problemeve të kodimit në Windows Vista/7:

1. Si në rastin e Windows XP, fillimisht sigurohuni që rusishtja të jetë e instaluar për programet që nuk mbështesin Unicode.

Ne hapim « Paneli i kontrollit» dhe klikoni dy herë në ikonën « gjuhës dhe standardeve rajonale» . Shkoni te skeda « Për më tepër» dhe vendosni gjuhën ruse si « Gjuhët e programit që nuk mbështesin Unicode»:

Ruani ndryshimet dhe rinisni kompjuterin tuaj. Nëse problemi vazhdon, shkoni në hapin 2.

2. Për të rivendosur cilësimet e fontit, shkarkoni këtë arkiv dhe ekzekutoni skedarin që ndodhet në të, duke injoruar të gjitha paralajmërimet e sistemit:

Rinisni sistemin. Nëse problemi vazhdon, shkoni në hapin 3.

3. Hapi tjetër është ndryshimi i çelësave të regjistrit që janë përgjegjës për kodimet. Këshillohet që këto ndryshime të bëhen vetëm si mjeti i fundit dhe vetëm nëse të gjitha pikat e mëparshme nuk kanë çuar në asgjë.

Për të bërë këto ndryshime, shkarkoni këtë arkiv dhe ekzekutoni skedarin që gjendet në të. Si në paragrafi i mëparshëm do të shfaqen paralajmërimet e sistemit.

Pas këtyre ndryshimeve, do t'ju duhet gjithashtu të rinisni sistemin.

4. Nëse të gjitha sa më sipër nuk ju ndihmuan, ju duhet të ndryshoni emrat skedarët e mëposhtëm faqet e kodit në dosje C:\Windows\System32:

Skedari " c_1252.nls"në" c_1252.nls.bak»
Skedari " c_1253.nls"në" c_1253.nls.bak»
Skedari " c_1254.nls"në" c_1254.nls.bak»
Skedari " c_1255.nls"në" c_1255.nls.bak»

Meqenëse këta skedarë janë të mbrojtur nga modifikimi, këshillohet të përdorni një program të mrekullueshëm për të kryer këtë veprim. Mund ta shkarkoni programin nga

Ky artikull do të fokusohet në kodimet në Windows. Të gjithë në jetë të paktën një herë kanë përdorur dhe kanë shkruar aplikacionet e konsolës si i tillë. Nuk ka rëndësi se cila është arsyeja. Qoftë për të eliminuar një proces apo thjesht për të shkruar "Përshëndetje!!! Nuk mund ta bëj kodimin normal, ndaj po shikoj këtë artikull!".

Për ata që ende nuk e kuptojnë se cili është problemi, atëherë ja ku jeni:

Dhe këtu shkruhej:

Në çdo rast, në Windows para 10, kodimi BAT dhe gjuhët e tjera nuk përdorin kodimin që mbështet gjuhën tuaj, kështu që të gjitha karakteret ruse do të shkruhen gabimisht.

1. Vendosja e konsolës në skedarin e grupit

Menjëherë për ata që shkruajnë chcp 1251 është më mirë të shkruani këtë:

assoc.bat=.mp4
Mënyra e parë për të zgjidhur problemin është Notepad++. Për ta bërë këtë, duhet të hapni skedarin tuaj të grupit në këtë mënyrë:

Mos kini frikë, do të shihni kodin e skedarit tuaj të grupit dhe më pas do t'ju duhet të bëni sa më poshtë:

Nëse asgjë nuk ju ndihmoi, atëherë konvertohuni në UTF-8 pa BOM.

2. Shkrimi i programeve të konsolës
Shpesh njerëzit shkruajnë programe të konsolës (sepse disa programe desktopi janë të pamundura për t'u shkruar), dhe kodimi është një problem i zakonshëm.

Mënyra e parë është drejtpërdrejt Notepad ++, por çka nëse së pari ju nevojitet një kodim dhe më pas një tjetër?

Menjëherë për ata që përdorin chcp 1251 shkruani këtë:

Del C:\Program Data echo Me pofig pauzë
Mënyra e dytë është të shkruani një program desktop, ose të përdorni studio vizuale. Nëse nuk ndihmon, atëherë ekziston e para: ndryshimi i kodimit të daljes (Shembull në C ++).

#përfshi #përfshi int main() ( SetConsoleCP(numri_encoding); SetConsoleOutputCP(numri_encoding); )
Nëse nuk funksionon:

#përfshi //Mos harroni për bibliotekën e Math. charbufRus; char* Rus (const char* text) ( CharToOem (tekst, bufRus); ktheje bufRus ) int main (cout<< "Тут пишите, что угодно!" << endl; system("pause") return 0 }
3. Ndrysho chcp 1251
Nëse keni një skedar grumbull, atëherë shkruani në fillim:

Chcp 1251 >nul për /f "delims=" %%A në ("Teksti im") bëj >nul chcp 866& echo.%%A
Tani do të kemi një dalje normale në tastierë. Në gjuhë të tjera (C++):

SetConsoleOutputCP(1251) //Dhe këtu shtoni ciklin që ishte në skedarin e grupit
4. Bëje jetën mjaltë
Duke përdorur kjo metodë Ti nuk mundesh:

Zhvilloni aplikacione në Windows nën 10
Shpëtoni botën nga ky problem
Mendoni për njerëzit e tjerë
Zhvilloni aplikacione desktop, sepse jeta do t'ju duket si mjaltë
Ndrysho Windows në një version nën 10
Epo, kuptoni njerëzit që kanë Windows nën 10

Instaloni Windows 10. Atje, kodimi i konsolës është përshtatur posaçërisht për gjuhën e vendit dhe nuk do të keni më nevojë të shqetësoheni për këtë problem. Por do të keni edhe 6 probleme të tjera dhe do të ktheheni te ai i mëparshmi version i licencuar Windows Nuk mundesh.

Etiketat: bat, kodimi, abracadabra, përshëndetje tagreaders, etiketa spam, problem kodimi, si të ndryshojmë kodimin, ahh të gjithë do të vdesim

Krakozyabry Cila është një fjalë interesante? Kjo fjalë zakonisht përdoret nga përdoruesit rusë për t'iu referuar shfaqjes (kodimit) të pasaktë / të pasaktë të karaktereve në programe ose vetë Sistemin Operativ.
Pse ndodh kjo? Ju nuk do të gjeni një përgjigje të vetme. Kjo mund të jetë për shkak të mashtrimeve të viruseve tanë "të preferuar", mund të jetë për shkak të një dështimi të sistemit operativ Windows (për shembull, rryma u fik dhe kompjuteri u fiket), ndoshta programi ka krijuar një konflikt me një tjetër ose OS dhe gjithçka "fluturoi". AT shkaku i përbashkët mund të ketë shumë, por më interesantja është "Thjesht e mori dhe u thye ashtu".
Ne lexojmë artikullin dhe zbulojmë se si ta rregullojmë problemin e kodimit në programe dhe Windows OS, pasi ndodhi.

Për ata që ende nuk e kuptojnë se çfarë dua të them, këtu janë disa:

Meqë ra fjala, edhe unë u futa në këtë situatë një herë dhe ka ende një skedar në Desktop që më ndihmoi ta përballoja. Prandaj, vendosa të shkruaj këtë artikull.

Disa "gjëra" janë përgjegjëse për shfaqjen e kodimit (fontit) në Windows - këto janë gjuha, regjistri dhe skedarët e vetë OS. Tani do t'i kontrollojmë veçmas dhe pikë për pikë.

Si të hiqni dhe rregulloni krakozyabry në vend të rusisht (gërmave ruse) në një program ose Windows.

1. Duke kontrolluar gjuha e instaluar për programet që nuk mbështesin Unicode. Ndoshta ai humbi me ju.

Pra, le të shkojmë përgjatë shtegut: Paneli i kontrollit - Opsionet rajonale dhe gjuhësore - Skeda e avancuar
Aty kërkojmë që gjuha të jetë ruse.

Në Windows XP, përveç kësaj, në fund ka një listë "Faqet e kodit të tabelave të konvertimit" dhe ka një rresht me numrin 20880 në të. Është e nevojshme që ka pasur edhe një rus

6. Pika e fundit në të cilën ju jap një skedar që më ndihmoi të rregulloja çdo gjë një herë dhe prandaj e lashë si kujtim. Këtu është arkivi:

Brenda ka dy skedarë: krakozbroff.cmd dhe krakozbroff.reg

Parimi i tyre është i njëjtë - për të korrigjuar hieroglifet, katrorët, pyetjet ose pikëçuditëse në programe dhe Windows OS (të përbashkëta krakozyabry). E përdora të parën dhe më funksionoi.

Dhe së fundi, disa këshilla:
1) Nëse jeni duke punuar me regjistrin, atëherë mos harroni të bëni një kopje rezervë ( rezervë) në rast se diçka shkon keq.
2) Këshillohet që të kontrolloni artikullin e parë pas çdo artikulli.

Kjo eshte e gjitha. Tani ju e dini se si të rregulloni heqjen / rregullimin e Krakozyabry (katrore, hieroglife, pasthirrma dhe pikëpyetje) në një program ose Windows.