Instalirajte ćirilicu. Odabir i promjena kodiranja u Microsoft Wordu

18.04.2019 Recenzije

Pozdrav, dragi čitatelji bloga. Danas ćemo razgovarati s vama o tome odakle dolaze krakozyabrs na web stranici iu programima, koja kodiranja teksta postoje i koja bi se trebala koristiti. Pogledajmo pobliže povijest njihovog razvoja, počevši od osnovnog ASCII-ja, kao i njegovih proširenih verzija CP866, KOI8-R, Windows 1251 i završavajući s modernim Unicode konzorcijskim kodiranjem UTF 16 i 8.

Nekima se ova informacija može činiti nepotrebnom, ali znate li koliko pitanja primam posebno u vezi s puzećim krakozyabrima (nečitljivi skup znakova). Sada ću imati priliku uputiti sve na tekst ovog članka i pronaći svoje pogreške. Pa, pripremite se za upijanje informacija i pokušajte pratiti tijek priče.

ASCII - osnovno kodiranje teksta za latinicu

Razvoj kodiranja teksta dogodio se istodobno s formiranjem IT industrije, a tijekom tog vremena uspjeli su proći dosta promjena. Povijesno gledano, sve je počelo s EBCDIC-om, koji je bio prilično disonantan u ruskom izgovoru, što je omogućilo kodiranje slova latinica, arapski brojevi i interpunkcijski znakovi s kontrolnim znakovima.

Ali ipak, polazište za razvoj modernog kodiranja teksta treba smatrati slavnim ASCII (američki standard Kod za Razmjena informacija, što se na ruskom obično izgovara kao “aski”). Opisuje prvih 128 znakova koje najčešće koriste korisnici engleskog govornog područja - slova, arapski brojevi i interpunkcijski znakovi.

Ovih 128 znakova opisanih u ASCII-ju također uključuje neke servisne znakove kao što su zagrade, hash oznake, zvjezdice itd. Zapravo, možete ih i sami vidjeti:

Upravo je ovih 128 znakova iz izvorne verzije ASCII-ja postalo standard, au svakom drugom kodiranju sigurno ćete ih pronaći i pojavljivat će se ovim redoslijedom.

Ali činjenica je da jednim bajtom informacija možete kodirati ne 128, već čak 256 različita značenja(dva na potenciju osam jednako je 256), dakle sljedeće osnovna verzija Pojavio se čitav niz Asuka proširena ASCII kodiranja, u kojem je osim 128 osnovnih znakova bilo moguće kodirati i simbole nacionalnog kodiranja (na primjer, ruski).

Ovdje je vjerojatno vrijedno reći nešto više o sustavima brojeva koji se koriste u opisu. Prvo, kao što svi znate, računalo radi samo s brojevima u binarnom sustavu, odnosno nulama i jedinicama (" Booleova algebra"ako je netko išao na fakultet ili školu). , od kojih je svaki dva na potenciju, počevši od nule pa sve do dva na sedmi:

Nije teško razumjeti da sve moguće kombinacije nula i jedinica u takvoj konstrukciji mogu biti samo 256. Pretvorite broj iz binarni sustav u decimalno je vrlo jednostavno. Samo trebate zbrojiti sve moći dvojke s jedinicama iznad njih.

U našem primjeru, ispada da je to 1 (2 na nultu potenciju) plus 8 (dva na 3 potenciju), plus 32 (dva na petu potenciju), plus 64 (na šestu potenciju), plus 128 (na sedmu potenciju). Ukupno dobiva 233 in decimalni sustav Računanje Kao što vidite, sve je vrlo jednostavno.

Ali ako bolje pogledate tablicu sa ASCII znakovi, vidjet ćete da su predstavljeni u heksadecimalnom kodiranju. Na primjer, "zvjezdica" odgovara u Aski heksadecimalni broj 2A. To vjerojatno znate u heksadecimalni sustav Brojevi se koriste uz arapske brojeve i latinična slova od A (znači deset) do F (znači petnaest).

Pa onda, za prijevod binarni broj na heksadecimalni pribjeći sljedećoj jednostavnoj i očitoj metodi. Svaki bajt informacija podijeljen je na dva dijela od četiri bita, kao što je prikazano na gornjoj snimci zaslona. Da. u svakom polubajtu binarni kod može se kodirati samo šesnaest vrijednosti (dva na četvrtu potenciju), koje se lako mogu predstaviti kao heksadecimalni broj.

Štoviše, u lijevoj polovici bajta stupnjevi će se morati ponovno brojati počevši od nule, a ne kao što je prikazano na snimci zaslona. Kao rezultat toga, jednostavnim izračunima dobivamo da je broj E9 kodiran na snimci zaslona. Nadam se da vam je bio jasan tijek mog razmišljanja i rješenje ove zagonetke. Pa, sada nastavimo, zapravo, govoriti o kodiranju teksta.

Proširene verzije Asuke - CP866 i KOI8-R kodiranja s pseudografijom

Dakle, počeli smo razgovarati o ASCII-ju, koji je bio, takoreći, polazište za razvoj svih modernih kodiranja (Windows 1251, Unicode, UTF 8).

U početku je sadržavao samo 128 znakova latinične abecede, arapske brojeve i nešto drugo, ali u proširenoj verziji postalo je moguće koristiti svih 256 vrijednosti koje se mogu kodirati u jednom bajtu informacija. Oni. Postalo je moguće dodati simbole slova vašeg jezika u Aski.

Ovdje ćemo morati ponovno napraviti digresiju kako bismo objasnili - zašto nam uopće trebaju kodiranja? tekstova i zašto je to toliko važno. Znakovi na zaslonu vašeg računala formiraju se na temelju dvije stvari - skupova vektorskih oblika (reprezentacija) različitih znakova (nalaze se u datotekama s ) i koda koji vam omogućuje izvlačenje iz tog skupa vektorskih oblika (datoteka fonta ) upravo znak koji će trebati umetnuti na Pravo mjesto.

Jasno je da su sami fontovi odgovorni za vektorske oblike, ali operativni sustav i programi koji se u njemu koriste odgovorni su za kodiranje. Oni. bilo koji tekst na vašem računalu bit će skup bajtova, od kojih svaki kodira jedan jedini znak istog teksta.

Program koji prikazuje ovaj tekst na ekranu (uređivač teksta, preglednik itd.), prilikom parsiranja koda čita kodiranje sljedećeg znaka i traži odgovarajući vektorski oblik u potrebnu datoteku font koji je povezan za prikaz ovog tekstualnog dokumenta. Sve je jednostavno i banalno.

To znači da za kodiranje bilo kojeg znaka koji nam je potreban (na primjer, iz nacionalne abecede), moraju biti ispunjena dva uvjeta - vektorski oblik ovog znaka mora biti u korištenom fontu i taj se znak može kodirati u proširenom ASCII kodiranja u jednom bajtu. Stoga postoji cijela hrpa takvih opcija. Samo za kodiranje znakova ruskog jezika postoji nekoliko varijanti proširene Aske.

Na primjer, izvorno se pojavio CP866, koji je imao mogućnost korištenja znakova iz ruske abecede i bio je proširena verzija ASCII-ja.

Oni. nju gornji dio u potpunosti se podudarao s osnovnom verzijom Asuke (128 latiničnih znakova, brojeva i ostalih sranja), koja je prikazana na slici iznad, ali sada Donji dio tablice s CP866 kodiranjem imale su oblik prikazan na slici ispod i omogućile su vam da kodirate još 128 znakova (ruska slova i sve vrste pseudo-grafike):

Vidite, u desnom stupcu brojevi počinju s 8, jer... brojevi od 0 do 7 odnose se na osnovni dio ASCII-ja (pogledajte prvu sliku zaslona). Da. Rusko slovo "M" u CP866 imat će kod 9C (nalazi se na sjecištu odgovarajućeg retka s 9 i stupca s brojem C u heksadecimalnom brojevnom sustavu), koji se može napisati u jednom bajtu informacije, a ako postoji odgovarajući font s ruskim znakovima, ovo će se slovo bez problema pojaviti u tekstu.

Odakle ovaj iznos? pseudografija u CP866? Cijela stvar je u tome što je ovo kodiranje za ruski tekst razvijeno još u onim mračnim godinama kada grafički operativni sustavi nisu bili tako rašireni kao sada. A u Dosi i sličnim tekstualnim operativnim sustavima, pseudografika je omogućila da se barem nekako diverzificira dizajn tekstova, pa stoga CP866 i svi ostali njegovi vršnjaci iz kategorije proširenih verzija Asuke obiluju njime.

CP866 je distribuirao IBM, ali osim toga, razvijen je niz kodiranja za znakove ruskog jezika, na primjer, isti tip (prošireni ASCII) može se pripisati KOI8-R:

Načelo njegovog rada ostaje isto kao kod CP866 malo ranije opisanog - svaki znak teksta kodiran je jednim bajtom. Snimka zaslona prikazuje drugu polovicu tablice KOI8-R, jer prva polovica potpuno je u skladu s osnovnom Asukom, koja je prikazana na prvoj snimci zaslona u ovom članku.

Među značajkama KOI8-R kodiranja, može se primijetiti da ruska slova u njegovoj tablici ne ulaze abecedni red, kao što su, primjerice, učinili u CP866.

Ako pogledate prvu snimku zaslona (osnovnog dijela, koji je uključen u sva proširena kodiranja), primijetit ćete da se u KOI8-R ruska slova nalaze u istim ćelijama tablice kao i odgovarajuća slova latinične abecede. iz prvog dijela tablice. To je učinjeno radi praktičnosti prebacivanja s ruskih na latinične znakove odbacivanjem samo jednog bita (dva na sedmu potenciju ili 128).

Windows 1251 - moderna verzija ASCII-ja i zašto se pojavljuju pukotine

Daljnji razvoj kodiranja teksta bio je posljedica činjenice da su grafički operacijski sustavi dobivali na popularnosti i da je potreba za korištenjem pseudografike u njima s vremenom nestala. Kao rezultat toga, nastala je cijela grupa koja je, u biti, još uvijek bila proširena verzija Asuke (jedan znak teksta kodiran je samo jednim bajtom informacije), ali bez upotrebe pseudografskih simbola.

Pripadali su takozvanim ANSI kodovima, koje je razvio Američki institut za standarde. U uobičajenom govoru naziv ćirilica koristio se i za verziju s podrškom za ruski jezik. Primjer za to bi bio.

Povoljno se razlikovao od prethodno korištenih CP866 i KOI8-R po tome što su mjesto pseudografskih simbola u njemu zauzeli nedostajući simboli ruske tipografije (osim znaka naglaska), kao i simboli koji se koriste u slavenskim jezicima bliskim ruski (ukrajinski, bjeloruski itd.):

Zbog takvog obilja kodiranja ruskog jezika, proizvođača i proizvođača fontova softver stalno su se javljale glavobolje, a vi i ja, dragi čitatelji, često smo dobivali iste notorne krakozyabry kada je došlo do zabune s verzijom korištenom u tekstu.

Vrlo često su se pojavljivali prilikom slanja i primanja poruka putem e-pošta, što je podrazumijevalo stvaranje vrlo složenih tablica pretvorbe, koje, zapravo, nisu bile u stanju riješiti ovaj problem, a korisnici su se često koristili za dopisivanje kako bi izbjegli zloglasne trikove pri korištenju ruskih kodiranja poput CP866, KOI8-R ili Windows 1251.

Zapravo, krakozyabrs koji se pojavljuju umjesto ruskog teksta bili su rezultat netočne upotrebe kodiranja ovog jezika, koji nije odgovarao onom u kojem je bio kodiran tekstualna poruka u početku.

Na primjer, ako pokušate prikazati znakove kodirane pomoću CP866 pomoću kodna tablica Windows 1251, tada će se pojaviti te iste besmislice (besmisleni skup znakova), potpuno zamjenjujući tekst poruke.

Slična se situacija vrlo često pojavljuje na forumima ili blogovima, kada se tekst s ruskim znakovima greškom sprema u pogrešnom kodiranju koje se na web-mjestu koristi prema zadanim postavkama ili u pogrešnom uređivaču teksta, koji dodaje gegove kodu koji nisu vidljivi prostim okom.

Na kraju je mnogima dosadila ovakva situacija s gomilom kodiranja i stalnim puzanjem sranja, te su se stvorili preduvjeti za stvaranje nove univerzalne varijacije koja bi zamijenila sve postojeće i konačno riješila problem s izgledom nečitljivih tekstova. Osim toga, postojao je problem jezika poput kineskog, gdje je bilo mnogo više jezičnih znakova od 256.

Unicode - univerzalna kodiranja UTF 8, 16 i 32

Ove tisuće znakova skupine jezika jugoistočne Azije nikako se ne mogu opisati u jednom bajtu informacija koje su bile dodijeljene za kodiranje znakova u proširenim verzijama ASCII-ja. Kao rezultat toga, stvoren je konzorcij tzv Unicode(Unicode - Unicode Consortium) uz suradnju mnogih lidera IT industrije (onih koji proizvode softver, koji kodiraju hardver, koji kreiraju fontove), koji su bili zainteresirani za nastanak univerzalnog kodiranja teksta.

Prva varijacija objavljena pod pokroviteljstvom Unicode konzorcija bila je UTF 32. Broj u nazivu kodiranja označava broj bitova koji se koriste za kodiranje jednog znaka. 32 bita jednaka su 4 bajta informacija koje će biti potrebne za kodiranje jednog znaka u novom univerzalnom UTF kodiranju.

Kao rezultat toga, ista datoteka s tekstom kodiranim u proširenom ASCII i UTF-32, u potonji slučaj imat će veličinu (težinu) četiri puta veću. Ovo je loše, ali sada imamo priliku pomoću YTF kodirati broj znakova jednak dva na trideset drugu potenciju ( milijarde znakova, koji će pokriti bilo koju stvarno potrebnu vrijednost s kolosalnom marginom).

Ali za mnoge zemlje s jezicima europske skupine ovo veliki iznos Uopće nije bilo potrebe za korištenjem znakova u kodiranju, ali kad bi se koristio UTF-32, nikada ne bi dobili četverostruko povećanje težine tekstualni dokumenti, a posljedično i povećanje količine internetskog prometa i količine pohranjenih podataka. To je puno, a takvo rasipanje nitko si ne bi mogao priuštiti.

Kao rezultat razvoja Unicodea, UTF-16, koji se pokazao toliko uspješnim da je standardno prihvaćen kao osnovni prostor za sve znakove koje koristimo. Koristi dva bajta za kodiranje jednog znaka. Da vidimo kako ova stvar izgleda.

U operacijskom sustavu Windows možete slijediti stazu "Start" - "Programi" - "Pribor" - "Alati sustava" - "Tablica znakova". Kao rezultat, otvorit će se tablica s vektorskim oblicima svih fontova instaliranih na vašem sustavu. Ako odaberete u " Dodatne mogućnosti» skup Unicode znakova, možete vidjeti za svaki font posebno cijeli raspon znakova koji su u njemu uključeni.

Usput, klikom na bilo koji od njih možete vidjeti njegov dvobajt kod u UTF-16 formatu, koji se sastoji od četiri heksadecimalne znamenke:

Koliko se znakova može kodirati u UTF-16 pomoću 16 bita? 65,536 (dva na potenciju od šesnaest), a to je broj koji je usvojen kao osnovni prostor u Unicodeu. Osim toga, postoje načini za kodiranje oko dva milijuna znakova pomoću njega, ali oni su bili ograničeni na prošireni prostor od milijun znakova teksta.

Ali ni ova uspješna inačica Unicode kodiranja nije donijela puno zadovoljstva onima koji su npr. pisali programe samo u Engleski jezik, jer se nakon prijelaza s proširene verzije ASCII na UTF-16 težina dokumenata udvostručila (jedan bajt po znaku u Askiju i dva bajta po istom znaku u UTF-16).

Odlučeno je osmisliti upravo kako bi se zadovoljili svi i svašta u Unicode konzorciju kodiranje promjenjive duljine. Zvao se UTF-8. Unatoč osmici u naslovu, doista ima promjenjive duljine, tj. Svaki znak teksta može se kodirati u niz duljine od jednog do šest bajtova.

U praksi UTF-8 koristi samo raspon od jednog do četiri bajta, jer izvan četiri bajta koda više nije ni teoretski moguće zamisliti ništa. Svi latinični znakovi u njemu su kodirani u jedan bajt, baš kao u dobrom starom ASCII-ju.

Ono što je vrijedno pažnje je da u slučaju kodiranja samo latinice, čak i oni programi koji ne razumiju Unicode će i dalje čitati ono što je kodirano u YTF-8. Oni. središnji dio Asuke jednostavno je prebačen u ovu kreaciju konzorcija Unicode.

Ćirilični znakovi u UTF-8 su kodirani u dva bajta, a, na primjer, gruzijski znakovi su kodirani u tri bajta. Konzorcij Unicode, nakon što je stvorio UTF 16 i 8, riješio je glavni problem - sada imamo fontovi imaju jedan prostor koda. A sada ga njihovi proizvođači mogu ispuniti samo vektorskim oblicima tekstualnih znakova na temelju svojih snaga i mogućnosti. Sada čak dolaze u setovima.

U "Tablici znakova" iznad možete vidjeti da različiti fontovi podržavaju različite količine znakovi. Neki fontovi bogati Unicodeom mogu biti prilično teški. Ali sada se ne razlikuju po tome što su stvoreni za različita kodiranja, već po tome što je proizvođač fonta ispunio ili nije u potpunosti ispunio prostor jednog koda određenim vektorskim oblicima.

Lude riječi umjesto ruskih slova - kako to popraviti

Pogledajmo sada kako se krakozyabrs pojavljuju umjesto teksta ili, drugim riječima, kako se odabire ispravno kodiranje za ruski tekst. Zapravo, to je postavljeno u programu u kojem kreirate ili uređujete ovaj tekst, ili kodirate pomoću fragmenata teksta.

Za uređivanje i kreiranje tekstualne datoteke Osobno koristim vrlo dobar, po mom mišljenju, . Međutim, također može istaknuti sintaksu dobra stotka programski i označni jezici, a također ima mogućnost proširenja pomoću dodataka. Čitati detaljan pregled ovaj prekrasan program na priloženoj poveznici.

U gornji izbornik Notepad++ ima stavku "Encodings", gdje ćete imati priliku pretvoriti postojeću opciju u onu koja se prema zadanim postavkama koristi na vašoj stranici:

U slučaju stranice na Joomli 1.5 i novijoj verziji, kao iu slučaju bloga na WordPressu, trebate odabrati opciju za izbjegavanje pojave pukotina UTF 8 bez BOM-a. Što je prefiks sastavnice?

Činjenica je da su, kada su razvijali kodiranje YUTF-16, iz nekog razloga odlučili priložiti mu nešto poput mogućnosti pisanja koda znakova u izravnom nizu (na primjer, 0A15) i obrnuto (150A) . A kako bi programi točno razumjeli u kojem redoslijedu čitati kodove, izumljen je BOM(Byte Order Mark ili, drugim riječima, signatura), što se izražavalo dodavanjem tri dodatna bajta na sam početak dokumenata.

U UTF-8 kodiranju, u konzorciju Unicode nisu predviđeni BOM-ovi, pa stoga dodavanje potpisa (ona notorna dodatna tri bajta na početku dokumenta) jednostavno sprječava neke programe u čitanju koda. Stoga kod spremanja datoteka u UTF uvijek moramo odabrati opciju bez BOM-a (bez potpisa). Dakle, vi ste unaprijed zaštitite se od puzanja krakozyabrs.

Ono što je vrijedno pažnje je da neki programi u sustavu Windows to ne mogu učiniti (ne mogu spremiti tekst u UTF-8 bez BOM-a), na primjer, isti zloglasni Windows Notepad. Sprema dokument u UTF-8, ali još uvijek dodaje potpis (tri dodatna bajta) na njegov početak. Štoviše, ti će bajtovi uvijek biti isti - pročitajte kod u izravnom nizu. Ali na poslužiteljima, zbog ove sitnice, može nastati problem - izaći će prevaranti.

Stoga, ni pod kojim uvjetima ne koristite redovnu Windows Notepad za uređivanje dokumenata na vašoj stranici ako ne želite da se pojave pukotine. Najbolje i najviše jednostavna opcija Mislim da je već spomenuto Uređivač bilježnice++, koji praktički nema nedostataka i sastoji se samo od prednosti.

U Notepad++, kada odaberete kodiranje, imat ćete opciju pretvoriti tekst u UCS-2 kodiranje, koje je po prirodi vrlo blisko standardu Unicode. Također će u Notepadu biti moguće kodirati tekst u ANSI, tj. u odnosu na ruski jezik, to će biti Windows 1251, koji smo već opisali gore.Odakle dolaze ove informacije?

Registriran je u registru vašeg operativnog sustava Windows - koje kodiranje odabrati u slučaju ANSI, koje odabrati u slučaju OEM (za ruski jezik to će biti CP866). Ako postavite neki drugi zadani jezik na svom računalu, ta će kodiranja biti zamijenjena sličnim iz kategorije ANSI ili OEM za taj isti jezik.

Nakon što spremite dokument u Notepad++ u kodiranju koje vam je potrebno ili otvorite dokument sa stranice za uređivanje, možete vidjeti njegov naziv u donjem desnom kutu uređivača:

Kako bi izbjegli rednecks, osim gore opisanih radnji, bit će korisno napisati u zaglavlju izvorni kod sve stranice stranice informacije o ovom kodiranju, tako da na poslužitelju ili lokalni domaćin nije bilo zabune.

Općenito, svi hipertekstualni označni jezici osim Html-a koriste posebnu xml deklaraciju koja određuje kodiranje teksta.

Prije raščlambe koda, preglednik zna koja se verzija koristi i kako točno treba interpretirati znakovne kodove tog jezika. Ali ono što je vrijedno pažnje je da ako spremite dokument u zadanom Unicodeu, onda se ova xml deklaracija može izostaviti (kodiranje će se smatrati UTF-8 ako nema BOM ili UTF-16 ako postoji BOM).

U slučaju dokumenta HTML jezik koristi se za označavanje kodiranja Meta element, koji je napisan između uvodne i završne oznake Head:

... ...

Ovaj unos se prilično razlikuje od onog usvojenog u, ali je u potpunosti u skladu s novim Html 5 standardom koji se polako uvodi, te će ga potpuno ispravno razumjeti svi preglednici koji se trenutno koriste.

U teoriji, Meta element s indikacijom HTML kodiranja bilo bi bolje staviti dokument što je više moguće u zaglavlju dokumenta tako da u trenutku susreta s prvim znakom u tekstu koji nije iz osnovnog ANSI-ja (koji se uvijek čitaju ispravno iu bilo kojoj varijanti), preglednik bi već trebao imati informacije o tome kako interpretirati kodove tih znakova.

Sretno ti! Vidimo se uskoro na stranicama bloga

Više videa možete pogledati ako odete na

");">

Moglo bi vas zanimati

Što se dogodilo URL adrese, koja je razlika između apsolutnog i relativne veze za mjesto
OpenServer - moderan lokalni poslužitelj i primjer njegove upotrebe za WordPress instalacije na računalu
Što je Chmod, koje dozvole dodijeliti datotekama i mapama (777, 755, 666) i kako to učiniti putem PHP-a
Yandex pretraživanje po web-mjestu i online trgovini

MS Word je zasluženo najpopularniji uređivač teksta. Shodno tome, najčešće ćete naići na dokumente u formatu ovog programa. Sve što se kod njih može razlikovati je samo verzija Worda i format datoteke (DOC ili DOCX). No, unatoč općenitosti, kod otvaranja nekih dokumenata mogu se pojaviti problemi.

Jedna je stvar ako se Word datoteka uopće ne otvori ili se pokrene ograničena funkcionalnost, i sasvim druga stvar kada se otvori, ali većina, ako ne i svi, znakovi u dokumentu su nečitljivi. Odnosno, umjesto uobičajene i razumljive ćirilice ili latinice, prikazuju se neki nerazumljivi znakovi (kvadratići, točkice, upitnici).

Ako naiđete na sličan problem, najvjerojatnije je to zbog pogrešnog kodiranja datoteke, točnije, njenog tekstualnog sadržaja. U ovom članku ćemo govoriti o tome kako promijeniti kodiranje teksta u Wordu, čineći ga čitljivim. Usput, promjena kodiranja također može biti potrebna kako bi se dokument učinio nečitljivim ili, da tako kažem, "pretvori" kodiranje za daljnju upotrebu tekstualnog sadržaja Word dokumenta u drugim programima.

Bilješka: Općeprihvaćeni standardi kodiranja teksta u različite zemlje može se razlikovati. Sasvim je moguće da dokument koji je stvorio, na primjer, korisnik koji živi u Aziji i spremljen u lokalnom kodiranju, neće biti ispravno prikazan korisniku u Rusiji koji koristi računalo i Word standardćirilica.

Sve informacije koje se prikazuju na zaslonu računala u tekstualni oblik, zapravo se pohranjuje u Word datoteku kao numeričke vrijednosti. Program pretvara te vrijednosti u prikazane znakove za koje se koristi kodiranje.

Kodiranje- shema numeriranja u kojoj svaki tekstualni simbol od postavljenih utakmica numerička vrijednost. Samo kodiranje može sadržavati slova, brojke, kao i druge znakove i simbole. Vrijedno je posebno spomenuti da je u različiti jezici dosta često korišten razni setovi znakova, zbog čega su mnoga kodiranja dizajnirana isključivo za prikaz znakova iz određenih jezika.

Odabir kodiranja prilikom otvaranja datoteke

Ako se tekstualni sadržaj datoteke pojavljuje netočno, primjerice s kvadratićima, upitnicima i drugim simbolima, tada MS Word nije mogao odrediti njezino kodiranje. Da biste riješili ovaj problem, morate navesti ispravno (prikladno) kodiranje za dekodiranje (prikaz) teksta.

1. Otvorite izbornik "Datoteka"(dugme "MS Office" prethodno).

2. Otvorite odjeljak "Opcije" i odaberite stavku "Dodatno".

3. Pomičite se sadržajem prozora prema dolje dok ne pronađete odjeljak "Su česti". Označite kućicu pokraj stavke “Potvrdi pretvorbu formata datoteke prilikom otvaranja”. Klik "U REDU" zatvoriti prozor.

Bilješka: Nakon što potvrdite okvir pored ove opcije, svaki put kada otvorite datoteku u Wordu u formatu koji nije DOC, DOCX, DOCM, DOT, DOTM, DOTX, prikazat će se dijaloški okvir "Konverzija datoteke". Ako često morate raditi s dokumentima drugih formata, ali ne morate mijenjati njihovo kodiranje, poništite ovaj okvir u parametrima programa.

4. Zatvorite datoteku i zatim je ponovno otvorite.

5. U odjeljku "Konverzija datoteke" odaberite stavku “Kodirani tekst”.

6. U dijaloškom okviru koji se otvori "Konverzija datoteke" postavite oznaku pored parametra "Ostalo". Odaberite potrebno kodiranje s popisa.

Savjet: U prozoru "Uzorak" možete vidjeti kako će tekst izgledati u određenom kodiranju.

7. Nakon odabira odgovarajućeg kodiranja, primijenite ga. Sada će tekstualni sadržaj dokumenta biti ispravno prikazan.

Ako sav tekst za koji odaberete kodiranje izgleda gotovo isto (na primjer, u obliku kvadrata, točkica, upitnika), najvjerojatnije font koji se koristi u dokumentu koji pokušavate otvoriti nije instaliran na vašem računalu . O tome kako instalirati font treće strane u MS Wordu, možete pročitati u našem članku.

Odabir kodiranja prilikom spremanja datoteke

Ako prilikom spremanja ne navedete (ne odaberete) kodiranje MS Word datoteke, ona se automatski sprema u kodiranje Unicode, što je u većini slučajeva dovoljno. Ovaj tip kodiranja podržavaju većinu znakova i većinu jezika.

Ako vi (ili netko drugi) planirate otvoriti dokument izrađen u Wordu u nekom drugom programu koji ne podržava Unicode, uvijek možete odabrati željeni kodni raspored i u njemu spremiti datoteku. Tako je, na primjer, na računalu s rusificiranim operativnim sustavom sasvim moguće stvoriti dokument na tradicionalnom kineskom koristeći Unicode.

Jedini je problem u tome što ako ovaj dokument otvorit će se u programu koji podržava kineski, ali ne podržava Unicode, gdje bi bilo ispravnije spremiti datoteku u drugom kodiranju, npr. “Kineski tradicionalni (Big5)”. U ovom slučaju, tekstualni sadržaj dokumenta kada ga otvorite u bilo kojem programu koji podržava kineski jezik, bit će prikazan ispravno.

Bilješka: Budući da je Unicode najpopularniji i jednostavno opsežan standard među kodiranjima, prilikom spremanja teksta u drugim kodovima moguć je netočan, nepotpun ili čak potpuno odsutan prikaz nekih datoteka. U fazi odabira kodiranja za spremanje datoteke znakovi i simboli koji nisu podržani prikazani su crvenom bojom, a dodatno se prikazuje obavijest s informacijama o razlogu.

1. Otvorite datoteku čije kodiranje trebate promijeniti.

2. Otvorite izbornik "Datoteka"(dugme "MS Office" prethodno) i odaberite "Spremi kao". Ako je potrebno, navedite naziv datoteke.

3. U odjeljku "Vrsta datoteke" odaberite opciju “Običan tekst”.

5. Učinite jedno od sljedećeg:

Za korištenje standardnog kodiranja postavljenog prema zadanim postavkama, potvrdite okvir pored parametra "Windows (zadano)";

Za odabir kodiranja "MS-DOS" postavite marker nasuprot odgovarajuće stavke;

Za odabir bilo kojeg drugog kodiranja, postavite oznaku pored stavke "Ostalo", aktivirat će se prozor s popisom dostupnih kodiranja, nakon čega s popisa možete odabrati traženo kodiranje.

Bilješka: Ako pri odabiru jednog ili drugog ( "Još") kodiranje vidite poruku "Tekst označen crvenom bojom ne može se ispravno spremiti u odabranom kodiranju.", odaberite drugo kodiranje (inače će sadržaj datoteke biti netočno prikazan) ili potvrdite okvir pored opcije “dopusti zamjenu znakova”.

Ako je zamjena znakova dopuštena, svi oni znakovi koji se ne mogu prikazati u odabranom kodiranju bit će automatski zamijenjeni ekvivalentnim znakovima. Na primjer, elipsa se može zamijeniti s tri točke, a kutni navodnici s ravnim crtama.

6. Datoteka će biti spremljena u vašem odabranom kodiranju kao čisti tekst(format "TXT").

To je sve, zapravo, sada znate kako promijeniti kodiranje u Wordu, a također znate kako ga odabrati ako se sadržaj dokumenta neispravno prikazuje.

Ponekad se, zbog ovog ili onog razloga, nešto dogodi korisnicima Windows OS-a što dovodi do kvarova kodiranja. Neki novoinstalirani program, virus, manipulacije u registru, nikad se ne zna... Nema kodiranja i to je to!

Slično mi se dogodilo neki dan. U nekim rusificiranim programima neki od natpisa na sučelju počeli su izgledati kao da su umjesto slova umetnuti otisci ptičjih šapa:

Da budem iskren, proveo sam gotovo dva dana tražeći rješenje problema. Na svim forumima i servisima za pitanja i odgovore, u svim priručnicima i uputama, svi su ponavljali isti recept rješenja, koji je možda nekome pomogao. Ali ne za mene. I tek kad mi je mozak počeo kuhati i napustila me svaka nada u rješenje problema, sve je sjelo na svoje mjesto.

Odlučio sam oblikovati rezultate pretraživanja u " Univerzalni vodič za rješavanje svih problema kodiranja u operativni sustavi Windows XP i Windows Vista/7" Iako možda i nije toliko univerzalan... ;)

Rješavanje problema s kodiranjem u sustavu Windows XP:

Stavak 1. Prvo morate biti sigurni da je za programe koji ne podržavaju Unicode instaliran ruski jezik.

Otvor « Upravljačka ploča» i dvaput kliknite na ikonu « » . Idi na karticu « Dodatno» « ».

Nakon toga pronađite stavku 20880 na listi koja se nalazi na istoj kartici i potvrdite kućicu pored nje:

Točka 2. Moguće je da su problemi kodiranja uzrokovani kršenjem Postavke sustava fontovi.

Za vraćanje postavki fonta preuzmite ovu arhivu

Točka 3. Sljedeći korak je promjena ključeva registra koji su odgovorni za kodiranje. Preporučljivo je napraviti ove promjene samo kao posljednje sredstvo i samo ako sve prethodne točke nisu dovele nikuda.

ovu arhivu

Rješavanje problema s kodiranjem u sustavu Windows Vista/7:

1. Kao iu slučaju sustava Windows XP, prvo provjerite je li za programe koji ne podržavaju Unicode jezik postavljen na ruski.

Otvor « Upravljačka ploča» i dvaput kliknite na ikonu « jezika i regionalnih standarda» . Idi na karticu « Dodatno» i postavite ruski jezik kao « Jezik programa koji ne podržavaju Unicode»:

Spremite promjene i ponovno pokrenite računalo. Ako se problem nastavi, prijeđite na 2. korak.

2. Za vraćanje postavki fonta preuzmite ovu arhivu i pokrenite datoteku koja se nalazi u njoj, ignorirajući sva upozorenja sustava:

Ponovno pokrenite sustav. Ako se problem nastavi, prijeđite na 3. korak.

3. Sljedeća faza je promjena ključeva registra koji su odgovorni za kodiranje. Preporučljivo je napraviti ove promjene samo kao posljednje sredstvo i samo ako sve prethodne točke nisu dovele nikuda.

Da biste napravili ove promjene, preuzmite ovu arhivu i pokrenite datoteku koja se nalazi u njoj. Kao u prethodni odlomak pojavit će se upozorenja sustava.

Nakon ovih promjena morat ćete ponovno pokrenuti sustav.

4. Ako sve gore navedeno ne pomogne, trebate promijeniti imena sljedeće datoteke kodne stranice u mapi C:\Windows\System32:

Datoteka " c_1252.nls" na " c_1252.nls.bak»
Datoteka " c_1253.nls" na " c_1253.nls.bak»
Datoteka " c_1254.nls" na " c_1254.nls.bak»
Datoteka " c_1255.nls" na " c_1255.nls.bak»

Budući da su te datoteke zaštićene od izmjena, za izvođenje ove operacije preporučljivo je koristiti prekrasan program. Program možete preuzeti s

Ovaj članak će raspravljati o kodiranju u sustavu Windows. Svatko ga je koristio i pisao o njemu barem jednom u životu. konzolne aplikacije kao takav. Nije važno iz kojeg razloga. Bilo da prekida proces ili samo piše "Pozdrav!!! Ne mogu napraviti normalno kodiranje, pa gledam ovaj članak!"

Za one koji još uvijek ne razumiju u čemu je problem, evo:

I ovdje je pisalo:

U svakom slučaju, u sustavu Windows do 10, kodiranje BAT-a i drugih jezika ne koristi kodiranje koje podržava vaš jezik, tako da će svi ruski znakovi biti netočno napisani.

1. Postavljanje konzole u batch datoteci

Za one koji pišu chcp 1251, bolje je da napišu ovo:

Assoc.bat=.mp4
Prvi način za rješavanje problema je Notepad++. Da biste to učinili, morate otvoriti batch datoteku na ovaj način:

Ne bojte se, otvorit će se kôd vaše batch datoteke, a zatim ćete morati učiniti sljedeće:

Ako ništa drugo ne uspije, pretvorite u UTF-8 bez BOM-a.

2. Pisanje konzolnih programa
Ljudi često pišu konzolne programe (jer je na nekima nemoguće pisati desktop programe), a kodiranje je čest problem.

Prva metoda je izravno Notepad++, ali što ako prvo trebate jedno kodiranje, a zatim drugo?

Za one koji koriste chcp 1251, odmah napišite ovo:

Del C:\Program Data echo Mne pofig pause
Drugi način je napisati desktop program, ili koristiti Vizualni studio. Ako ne pomaže, onda postoji prva stvar: promjena izlaznog kodiranja (Primjer u C++).

#uključi #uključi int main() ( SetConsoleCP(encoding_number); SetConsoleOutputCP(encoding_number); )
Ako ne radi:

#uključi //Ne zaboravite na Math knjižnicu. char bufRus; char* Rus(const char* text) ( CharToOem(text, bufRus); return bufRus ) int main ( cout<< "Тут пишите, что угодно!" << endl; system("pause") return 0 }
3. Promijenite chcp 1251
Ako imate body file, napišite na početku:

Chcp 1251 >nul for /f "delims=" %%A in ("Moj tekst") do >nul chcp 866& echo.%%A
Sada ćemo imati normalan izlaz na konzolu. Na drugim jezicima (C++):

SetConsoleOutputCP(1251) //I ovdje dodajete petlju koja je bila u batch datoteci
4. Učini život medom
Korištenje ovu metodu Ne možeš:

Razvijajte aplikacije na Windowsima ispod 10
Spasite svijet od ovog problema
Mislite na druge ljude
Razvijajte desktop aplikacije, jer život će vam se činiti kao med
Promijenite Windows na verziju nižu od 10
Pa, razumite ljude koji imaju Windows ispod 10

Instalirajte Windows 10. Ondje je kodiranje konzole posebno prilagođeno jeziku zemlje i više se nećete morati brinuti o ovom problemu. Ali imat ćete još 6 problema i vratiti se na prethodni licencirana verzija Windows Ne možete.

Oznake: bat, kodiranje, abrakadabra, zdravo tagreaders, tagspam, problem s kodiranjem, kako promijeniti kodiranje, ahh svi ćemo umrijeti

Krakozyabry- Kakva je ovo zanimljiva riječ? Ovu riječ obično koriste ruski korisnici za opisivanje netočnog/netočnog prikaza (kodiranja) znakova u programima ili samom Operativnom sustavu.
Zašto se to događa? Nećete naći definitivan odgovor. To može biti zbog trikova naših "omiljenih" virusa, možda zbog kvara Windows OS-a (na primjer, nestalo je struje i računalo se isključilo), možda je program stvorio sukob s drugim OS-om i sve je nestalo poremećen. U opći razlozi može ih biti mnogo, ali najzanimljiviji je "Samo je ustao i slomio se."
Pročitajte članak i saznajte kako riješiti problem s kodiranjem u programima i Windows OS-u, nakon što se dogodi.

Za one koji još uvijek ne razumiju što mislim, evo nekoliko:

Usput, i ja sam se jednom našao u ovoj situaciji i još uvijek imam datoteku na desktopu koja mi je pomogla da se nosim s tim. Zato sam odlučio napisati ovaj članak.

Nekoliko je "stvari" odgovorno za prikaz kodiranja (fonta) u sustavu Windows - jezik, registar i datoteke samog OS-a. Sada ćemo ih provjeriti zasebno i točku po točku.

Kako ukloniti i ispraviti krakozyabry umjesto ruskih (ruskih slova) u programu ili Windowsima.

1. Provjeravanje instalirani jezik za programe koji ne podržavaju Unicode. Možda ste to izgubili.

Dakle, slijedimo put: Upravljačka ploča - Regionalne i jezične mogućnosti - kartica Napredno
Tamo se uvjeravamo da je jezik ruski.

U sustavu Windows XP, osim ovoga, na dnu se nalazi popis “Kodne stranice tablice pretvorbe” iu njemu se nalazi linija s brojem 20880. Tu mora biti i Rus

6. Zadnja točka u kojoj vam dajem datoteku koja mi je jednom pomogla da sve popravim i zato sam je ostavio za uspomenu. Evo arhive:

Unutra se nalaze dvije datoteke: krakozbroff.cmd i krakozbroff.reg

Imaju isti princip - ispravni hijeroglifi, kvadrati, pitanja ili uskličnici u programima i Windows OS-u (uobičajeno rečeno krakozyabry). Koristio sam prvi i pomogao mi je.

I za kraj, par savjeta:
1) Ako radite s registrom, ne zaboravite napraviti sigurnosnu kopiju ( sigurnosna kopija) u slučaju da nešto pođe po zlu.
2) Preporučljivo je provjeriti 1. točku nakon svake točke.

To je sve. Sada znate kako popraviti/ukloniti krekere (kvadratiće, hijeroglife, uskličnike i upitnike) u programu ili Windowsima.