Instalirajte ćirilicu. Odabir i promjena kodiranja u programu Microsoft Word

18.04.2019 Recenzije

Pozdrav dragi čitaoci blog stranice. Danas ćemo razgovarati s vama o tome odakle dolaze krakozyabri na web-mjestu iu programima, koja kodiranja teksta postoje i koja se trebaju koristiti. Pogledajmo pobliže povijest njihovog razvoja, počevši od osnovnog ASCII-a, kao i njegovih proširenih verzija CP866, KOI8-R, Windows 1251 pa do modernih kodiranja Unicode konzorcija UTF 16 i 8.

Nekome se ova informacija može činiti suvišnom, ali znate koliko pitanja dobijam u vezi s ispuzanim krakozjabrima (nečitljivim skupom znakova). Sada ću imati priliku uputiti sve na tekst ovog članka i samostalno pronaći svoje dovratnike. Pa, pripremite se da upijete informacije i pokušajte pratiti priču.

ASCII - osnovno kodiranje teksta za latinično pismo

Razvoj kodiranja teksta odvijao se istovremeno sa formiranjem IT industrije, a za to vrijeme uspjeli su pretrpjeti dosta promjena. Istorijski gledano, sve je počelo sa EBCDIC-om, koji nije bio eufoničan u ruskom izgovoru, što je omogućilo kodiranje slova latinica, arapski brojevi i znakovi interpunkcije sa kontrolnim znakovima.

Ali ipak, početna tačka za razvoj modernog kodiranja teksta je poznato ASCII (American Standard Kod za Razmjena informacija, koji se na ruskom obično izgovara kao "aski"). Opisuje prvih 128 znakova najčešće korištenih od strane korisnika engleskog govornog područja - pisma, arapski brojevi i znaci interpunkcije.

Čak je i ovih 128 znakova opisanih u ASCII-u uključivalo neke uslužne simbole kao što su zagrade, heš linije, zvjezdice itd. Zapravo, i sami ih možete vidjeti:

Upravo je ovih 128 znakova iz originalne ASCII verzije postalo standard, a u bilo kojem drugom kodiranju ćete ih sigurno susresti i oni će stajati tim redoslijedom.

Ali činjenica je da s jednim bajtom informacije možete kodirati ne 128, već čak 256 različita značenja(dva na stepen osam je jednako 256), pa nakon osnovna verzija Asuka se pojavila u čitavoj seriji proširena ASCII kodiranja, u kojem je, pored 128 osnovnih znakova, bilo moguće kodirati simbole nacionalnog kodiranja (na primjer, ruski).

Ovdje, možda, vrijedi reći nešto više o sistemima brojeva koji se koriste u opisu. Prvo, kao što svi znate, računar radi samo sa brojevima u binarnom sistemu, odnosno sa nulama i jedinicama (" boolean algebra“, ako je neko išao u institut ili školu). , od kojih je svaki 2 u potenciji, počevši od nule, pa do dva u sedmom:

Nije teško shvatiti da sve moguće kombinacije nula i jedinica u takvoj konstrukciji mogu biti samo 256. Pretvorite broj iz binarni sistem na decimalni je prilično jednostavan. Samo treba da saberete sve stepene dva iznad kojih ima jedan.

U našem primjeru, ovo je 1 (2 na nulti stepen) plus 8 (dva na stepen 3), plus 32 (dva na peti stepen), plus 64 (na šesti), plus 128 (na sedmi). Ukupno dobija 233 inča decimalni sistem obračun. Kao što vidite, sve je vrlo jednostavno.

Ali ako bolje pogledate tabelu sa ASCII znakovi tada ćete vidjeti da su predstavljeni u heksadecimalnom kodiranju. Na primjer, "zvjezdica" odgovara u Asuki heksadecimalni 2A. Vjerovatno to znate u heksadecimalni sistem Pored arapskih brojeva, u brojevima se koriste i latinična slova od A (znači deset) do F (znači petnaest).

Pa, za prevod binarni broj na heksadecimalni pribjegavajte sljedećoj jednostavnoj i intuitivnoj metodi. Svaki bajt informacija je podijeljen na dva dijela od četiri bita, kao što je prikazano na gornjoj slici. To. u svakom pola bajta binarni kod može se kodirati samo šesnaest vrijednosti (dvije na četvrti stepen), koje se lako mogu predstaviti kao heksadecimalni broj.

Štaviše, u lijevoj polovini bajta bit će potrebno ponovo brojati stepene počevši od nule, a ne kao što je prikazano na snimku ekrana. Kao rezultat, nekim jednostavnim proračunima dobijamo da je broj E9 kodiran na snimku ekrana. Nadam se da su vam tok mog razmišljanja i rješenje ove zagonetke bili jasni. Pa, hajde sada da nastavimo, zapravo, o kodiranju teksta.

Proširene verzije Asuke - CP866 i KOI8-R kodiranja sa pseudografijom

Dakle, počeli smo da pričamo o ASCII-u, koji je bio, takoreći, polazna tačka za razvoj svih modernih kodiranja (Windows 1251, Unicode, UTF 8).

U početku je sadržavao samo 128 znakova latinične abecede, arapske brojeve i još nešto, ali u proširenoj verziji postalo je moguće koristiti svih 256 vrijednosti koje se mogu kodirati u jednom bajtu informacije. One. postalo je moguće dodati simbole slova vašeg jezika u Aski.

Ovdje će biti potrebno još jednom skrenuti pažnju da razjasnimo - zašto su nam uopšte potrebna kodiranja tekstove i zašto je to toliko važno. Simboli na ekranu vašeg računara formiraju se na osnovu dvije stvari - skupova vektorskih formi (reprezentacija) svih vrsta znakova (oni su u ko datotekama) i koda koji vam omogućava da izvučete ovaj skup vektorskih formi (fajl fonta) upravo onaj simbol koji će trebati biti umetnut na pravo mjesto.

Jasno je da su sami fontovi odgovorni za vektorske forme, ali su operativni sistem i programi koji se u njemu koriste odgovorni za kodiranje. One. bilo koji tekst na vašem računaru će biti skup bajtova, od kojih svaki kodira samo jedan karakter ovog teksta.

Program koji ovaj tekst prikazuje na ekranu (uređivač teksta, pretraživač itd.), prilikom raščlanjivanja koda, čita kodiranje sljedećeg znaka i traži odgovarajući vektorski oblik u željeni fajl font koji je povezan za prikaz ovog tekstualnog dokumenta. Sve je jednostavno i otrcano.

To znači da da bismo kodirali bilo koji znak koji nam je potreban (na primjer, iz nacionalnog alfabeta), moraju biti ispunjena dva uslova - vektorski oblik ovog znaka mora biti u korištenom fontu i ovaj znak može biti kodiran u proširenom ASCII kodiranja u jednom bajtu. Stoga postoji čitava gomila takvih opcija. Postoji nekoliko varijanti proširene Asuke samo za kodiranje znakova ruskog jezika.

Na primjer, izvorno se pojavio CP866, u kojem je bilo moguće koristiti znakove ruskog alfabeta i to je bila proširena verzija ASCII-a.

One. ona gornji dio potpuno se poklapa sa osnovnom verzijom Asuke (128 latiničnih znakova, brojeva i bilo kakvog drugog sranja), koja je predstavljena na snimku ekrana odmah iznad, a sada Donji dio tabele sa kodiranjem CP866 imale su oblik prikazan na slici ispod i dozvoljavale su kodiranje još 128 znakova (ruska slova i sve vrste pseudo-grafike):

Vidite, u desnoj koloni brojevi počinju sa 8, jer brojevi od 0 do 7 odnose se na osnovni ASCII dio (pogledajte prvi snimak ekrana). To. rusko slovo "M" u CP866 imaće kod 9C (nalazi se na preseku odgovarajuće linije sa 9 i kolone sa brojem C u heksadecimalnom zapisu), koji se može napisati u jednom bajtu informacije, i ako postoji odgovarajući font sa ruskim znakovima, ovo slovo će bez problema biti prikazano u tekstu.

Odakle taj iznos? pseudografija u CP866? Poenta je da je ovo kodiranje za ruski tekst razvijeno još u tim krznenim godinama, kada nije bilo širenja grafičkih operativnih sistema kao sada. I u Dosu, i sličnim tekstualnim operativnim sistemima, pseudografika je omogućila da se na neki način diverzificira dizajn tekstova i stoga CP866 i svi ostali njegovi vršnjaci iz kategorije proširenih verzija Asuke obiluju njome.

CP866 je distribuirao IBM, ali osim toga, razvijeno je nekoliko kodiranja za ruske znakove, na primjer, ovaj tip (prošireni ASCII) se može pripisati KOI8-R:

Princip njegovog rada ostaje isti kao i kod CP866 opisanog malo ranije - svaki znak teksta je kodiran s jednim bajtom. Snimak ekrana prikazuje drugu polovinu tabele KOI8-R, od prva polovina je u potpunosti u skladu sa osnovnom Asukom, koja je prikazana na prvom snimku ekrana u ovom članku.

Među karakteristikama KOI8-R kodiranja, može se primijetiti da ruska slova u njegovoj tabeli ne idu u abecedni red, kao što je, na primjer, učinjeno u CP866.

Ako pogledate prvi snimak ekrana (osnovnog dijela, koji je uključen u sva proširena kodiranja), primijetit ćete da se u KOI8-R ruska slova nalaze u istim ćelijama tabele kao i slova suglasnika latinice sa njima iz prvog dela tabele. Ovo je učinjeno radi pogodnosti prebacivanja sa ruskih znakova na latinične znakove odbacivanjem samo jednog bita (dva na sedmu potenciju ili 128).

Windows 1251 - moderna verzija ASCII i zašto krakozyabry izlaze

Dalji razvoj kodiranja teksta bio je povezan s činjenicom da su grafički operativni sistemi postajali sve popularniji i da je vremenom nestala potreba za korištenjem pseudografike u njima. Kao rezultat toga, nastala je cijela grupa, koje su, u suštini, još uvijek bile proširene verzije Asuke (jedan znak teksta je kodiran sa samo jednim bajtom informacija), ali već bez upotrebe pseudo-grafičkih znakova.

Pripadali su takozvanim ANSI kodovima, koje je razvio Američki institut za standarde. U običnom govoru, naziv ćirilice i dalje se koristio za verziju s podrškom za ruski jezik. Primjer za to može poslužiti.

Povoljno se razlikovao od ranije korištenih CP866 i KOI8-R po tome što su mjesto pseudografskih simbola u njemu zauzeli nedostajući simboli ruske tipografije (osim znaka akcenta), kao i simboli koji se koriste u slavenskim jezicima blisko ruskom (ukrajinskom, bjeloruskom, itd.) ):

Zbog takvog obilja kodiranja ruskog jezika, proizvođači i proizvođači fontova softvera Stalno sam imala glavobolju, a vi i ja, dragi čitaoci, često smo izvlačili one ozloglašene krakozyabry kada je došlo do zabune sa verzijom korištenom u tekstu.

Vrlo često su izlazili prilikom slanja i primanja poruka putem e-mail, što je dovelo do stvaranja vrlo složenih tablica konverzije, koje, zapravo, nisu mogle fundamentalno riješiti ovaj problem, a često su korisnici dopisivanja koristili kako bi izbjegli ozloglašene krakozyabre kada su koristili ruska kodiranja poput CP866, KOI8-R ili Windows 1251.

Zapravo, krakozyabry, koji je ispuzao umjesto ruskog teksta, bio je rezultat pogrešne upotrebe kodiranja ovog jezika koji nije odgovarao onom u kojem je bio kodiran tekstualna poruka u početku.

Recimo da li znakovi kodirani sa CP866 pokušaju da se prikažu pomoću tablica kodova Windows 1251, tada će se pojaviti ti isti krakozyabry (besmisleni skup znakova) koji će u potpunosti zamijeniti tekst poruke.

Slična situacija se vrlo često dešava kada, na forumima ili blogovima, kada je tekst sa ruskim znakovima greškom sačuvan u pogrešnom kodiranju koje se podrazumevano koristi na sajtu, ili u pogrešnom uređivaču teksta koji dodaje gagging kodu koji nije vidljiv golim okom.

Na kraju, mnogi su bili umorni od ove situacije s puno kodiranja i stalno nastajajućih krakozjabera, postojali su preduslovi za stvaranje nove univerzalne varijacije koja bi zamijenila sve postojeće i konačno riješila korijenski problem pojave nečitljivih tekstova . Osim toga, postojao je problem jezika poput kineskog, gdje je znakova jezika bilo mnogo više od 256.

Unicode - univerzalna UTF kodiranja 8, 16 i 32

Ove hiljade znakova iz grupe jezika jugoistočne Azije ne mogu se opisati u jednom bajtu informacija, koji je bio dodijeljen za kodiranje znakova u proširenim verzijama ASCII-a. Kao rezultat, stvoren je konzorcij tzv Unicode(Unicode - Unicode Consortium) uz saradnju mnogih lidera IT industrije (onih koji proizvode softver, koji kodiraju hardver, koji kreiraju fontove) koji su bili zainteresovani za pojavu univerzalnog kodiranja teksta.

Prva varijacija objavljena pod okriljem Unicode konzorcija je bila UTF 32... Broj u nazivu kodiranja označava broj bitova koji se koriste za kodiranje jednog znaka. 32 bita su 4 bajta informacija koje će biti potrebne za kodiranje jednog pojedinačnog znaka u novom univerzalnom UTF kodiranju.

Kao rezultat, isti fajl sa tekstom kodiranim u proširenoj ASCII verziji i u UTF-32, u poslednji slučajće biti četiri puta veći (težina). Ovo je loše, ali sada imamo priliku da kodiramo broj znakova jednak dva na stepen od trideset druge ( milijarde znakova, koji će pokriti svaku zaista potrebnu vrijednost sa kolosalnom marginom).

Ali mnoge zemlje sa jezicima evropske grupe jesu velika količina nije bilo potrebe za korištenjem znakova u kodiranju, međutim, kada su koristili UTF-32, dobili su četverostruko povećanje težine uzalud tekstualni dokumenti, a kao rezultat toga, povećanje obima Internet prometa i količine pohranjenih podataka. Ovo je mnogo, i niko si nije mogao priuštiti takav otpad.

Kao rezultat razvoja Unicode-a, UTF-16, koji se pokazao toliko uspješnim da je standardno prihvaćen kao osnovni prostor za sve simbole koje koristimo. Koristi dva bajta za kodiranje jednog znaka. Da vidimo kako izgleda ovaj slučaj.

U operativnom sistemu Windows možete pratiti putanju "Start" - "Programi" - "Dodatna oprema" - "Sistemski alati" - "Mapa simbola". Kao rezultat, otvorit će se tabela sa vektorskim oblicima svih fontova instaliranih u vašem sistemu. Ako odaberete da " Dodatni parametri»Skup Unicode znakova, moći ćete vidjeti za svaki font posebno cijeli niz znakova koji su uključeni u njega.

Usput, klikom na bilo koji od njih, možete vidjeti njegov dvobajt UTF-16 kod koji se sastoji od četiri heksadecimalne cifre:

Koliko znakova se može kodirati u UTF-16 sa 16 bita? 65536 (dva na stepen šesnaest), a upravo je taj broj uzet kao osnovni prostor u Unicode-u. Osim toga, postoje načini za kodiranje sa njim i oko dva miliona karaktera, ali su bili ograničeni na prošireni prostor od milion karaktera teksta.

Ali čak ni ova uspješna verzija Unicode kodiranja nije donijela puno zadovoljstva onima koji su pisali, na primjer, programe samo u engleski jezik, jer se nakon prelaska sa proširene verzije ASCII na UTF-16 težina dokumenata udvostručila (jedan bajt za jedan znak u Aski i dva bajta za isti znak u UTF-16).

Upravo na zadovoljstvo svih i svih u Unicode konzorcijumu odlučeno je da se osmisli kodiranje promenljive dužine... Nazvali su ga UTF-8. Uprkos broju osam u nazivu, zaista ima varijabilna dužina, tj. svaki znak u tekstu se može kodirati u niz od jednog do šest bajtova.

U praksi se u UTF-8 koristi samo raspon od jednog do četiri bajta, jer osim četiri bajta koda ništa nije moguće čak ni teoretski zamisliti. Svi latinični znakovi u njemu su kodirani u jedan bajt, baš kao u dobrom starom ASCII-u.

Ono što je vrijedno pažnje, u slučaju kodiranja samo latiničnog pisma, čak i oni programi koji ne razumiju Unicode će i dalje čitati ono što je kodirano u UTF-8. One. osnovni dio Asuke upravo je prešao u ovu zamisao Unicode konzorcijuma.

Ćirilični znakovi u UTF-8 kodirani su u dva bajta, a, na primjer, gruzijski - u tri bajta. Unicode konzorcij nakon kreiranja UTF-a 16 i 8 riješio je glavni problem - sada imamo postoji jedan kodni prostor u fontovima... A sada ih njihovi proizvođači mogu ispuniti samo vektorskim oblicima tekstualnih simbola na osnovu svojih snaga i mogućnosti. Sada čak iu setovima.

U gornjoj "Tablici znakova" možete vidjeti da podržavaju različite fontove različit iznos znakovi. Neki fontovi bogati Unicode-om mogu biti veoma teški. Ali sada se ne razlikuju po tome što su kreirani za različita kodiranja, već po tome što je proizvođač fontova popunio ili nije popunio niti jedan kodni prostor određenim vektorskim oblicima do kraja.

Krakozyabry umjesto ruskih slova - kako popraviti

Pogledajmo sada kako se krakozjabre pojavljuju umjesto teksta, ili, drugim riječima, kako se bira ispravno kodiranje za ruski tekst. Zapravo, to je postavljeno u programu u kojem kreirate ili uređujete upravo ovaj tekst, odnosno kod koristeći fragmente teksta.

Za uređivanje i kreiranje tekstualne datoteke Ja lično koristim jedan veoma dobar, po mom mišljenju. Međutim, može i istaknuti sintaksu. dobra sto programskim jezicima i markiranjem, a također je proširiv dodacima. Čitaj detaljan pregled ovaj divan program sa linka.

V top meni Notepad ++ ima stavku "Encodings", gdje ćete moći konvertirati postojeću verziju u onu koja se standardno koristi na vašoj web stranici:

U slučaju stranice na Joomli 1.5 i novijoj, kao i u slučaju bloga na WordPress-u, kako biste izbjegli pojavu pukotina, odaberite opciju UTF 8 bez BOM-a... Šta je prefiks BOM?

Činjenica je da su, kada je razvijeno YUTF-16 kodiranje, iz nekog razloga odlučili da mu pridruže nešto kao što je mogućnost pisanja koda znakova, kako u direktnom nizu (na primjer, 0A15) tako iu obrnutom (150A) . A da bi programi razumjeli kojim redoslijedom čitati kodove, i izmišljen je BOM(Oznaka reda bajtova ili, drugim riječima, potpis), što je izraženo dodavanjem tri dodatna bajta na samom početku dokumenata.

U UTF-8 kodiranju, u Unicode konzorcijumu nije predviđena BOM, pa stoga dodavanje potpisa (ova najozloglašenija dodatna tri bajta na početak dokumenta) jednostavno sprečava neke programe da čitaju kod. Stoga, kada snimamo datoteke u UTP, uvijek moramo odabrati opciju bez BOM-a (bez potpisa). Dakle, napreduj zaštitite se od puzanja krakozyabrov.

Ono što je vrijedno pažnje je da neki programi u Windows-u to ne mogu (ne mogu sačuvati tekst u UTP-8 bez BOM-a), na primjer, ozloglašeni Windows Notepad. Dokument sprema u UTF-8, ali i dalje dodaje potpis (tri dodatna bajta) na početak. Štaviše, ovi bajtovi će uvijek biti isti - čitajte kod u direktnom nizu. Ali na serverima, zbog ove sitnice, može nastati problem - krakozyabry će izaći.

Dakle, nikako nemojte koristiti uobičajeno Windows Notepad za uređivanje dokumenata vašeg sajta, ako ne želite izgled krakozjabrova. Najbolji i najveći jednostavna opcija Smatram da je već pomenuto Notepad editor++, koji praktički nema nedostataka i sastoji se samo od prednosti.

U Notepad ++, kada birate kodiranje, moći ćete da konvertujete tekst u UCS-2 kodiranje, što je inherentno vrlo blisko Unicode standardu. Također u Notepad-u će biti moguće kodirati tekst u ANSI, tj. u odnosu na ruski jezik to ćemo već opisati odmah iznad Windowsa 1251. Odakle dolazi ova informacija?

Registriran je u registru vašeg Windows operativnog sistema - koje kodiranje odabrati u slučaju ANSI, koje odabrati u slučaju OEM (za ruski jezik će to biti CP866). Ako instalirate drugi podrazumevani jezik na svom računaru, onda će ovi kodovi biti zamenjeni sličnim iz ANSI ili OEM kategorije za isti jezik.

Nakon što snimite dokument u kodiranju koji vam je potreban u Notepad ++ ili otvorite dokument sa stranice za uređivanje, možete vidjeti njegov naziv u donjem desnom kutu uređivača:

Da biste izbjegli krakozyabrov, pored gore opisanih radnji, bit će korisno napisati u njegovom zaglavlju izvorni kod svih stranica stranice informacije upravo o ovom kodiranju, tako da na serveru odn lokalni domaćin nije bilo zabune.

Općenito, u svim jezicima za označavanje hiperteksta osim Html-a, koristi se posebna xml deklaracija, koja označava kodiranje teksta.

Prije nego počne raščlanjivati kod, pretraživač će znati koja se verzija koristi i kako tačno treba tumačiti znakovne kodove ovog jezika. Ali ono što je vredno pažnje je da ako sačuvate dokument u podrazumevanom unicode-u, onda se ova xml deklaracija može izostaviti (kodiranje će se smatrati UTF-8 ako nema BOM ili YUTF-16 ako postoji BOM).

U slučaju dokumenta HTML jezik za označavanje da se koristi kodiranje Meta element, koji je napisan između otvaranja i zatvaranja Head tagova:

... ...

Ovaj unos se dosta razlikuje od onog usvojenog, ali je u potpunosti usklađen sa novim Html 5 standardom koji se polako uvodi i biće 100% ispravno shvaćen od strane svih trenutno korištenih pretraživača.

U teoriji, Meta element sa indikacijom Html kodiranja bilo bi bolje da se stavi dokument što je više moguće u zaglavlju dokumenta tako da bi u trenutku susreta sa prvim znakom u tekstu koji nije iz osnovnog ANSI (koji se uvijek čita ispravno i u bilo kojoj varijaciji) pretraživač već trebao imati informaciju o tome kako tumačiti kodove ovih znakova.

Sretno ti! Vidimo se uskoro na stranicama blog stranice

možete pogledati više video zapisa ako odete na

");">

Možda ste zainteresovani

Šta URL adrese, koja je razlika između apsolutnog i relativne veze za sajt
OpenServer - moderan lokalni server i primjer njegove upotrebe za WordPress instalacije na kompjuteru
Šta je Chmod, koje dozvole dodijeliti datotekama i mapama (777, 755, 666) i kako to učiniti putem PHP-a
Yandex pretraga na web lokaciji i online trgovini

MS Word je zasluženo najpopularniji uređivač teksta... Stoga najčešće možete naići na dokumente u formatu ovog određenog programa. Sve što se kod njih može razlikovati je samo verzija Worda i format datoteke (DOC ili DOCX). Međutim, uprkos opštosti, može doći do problema sa otvaranjem nekih dokumenata.

Jedna je stvar ako se Word datoteka uopće ne otvori ili se pokrene u ograničena funkcionalnost, i sasvim drugačije kada se otvori, ali većina, ako ne i svi znakovi u dokumentu su nečitljivi. Odnosno, umjesto poznate i razumljive ćirilice ili latinice, prikazuju se neki nerazumljivi znakovi (kvadrati, tačke, upitnici).

Ako ste suočeni sa sličnim problemom, najvjerovatnije je greška u pogrešnom kodiranju datoteke, tačnije, u njenom tekstualnom sadržaju. U ovom članku ćemo vam pokazati kako promijeniti kodiranje teksta u Wordu i tako ga učiniti čitljivim. Usput, promjena kodiranja može biti potrebna i kako bi dokument postao nečitljiv ili, da tako kažem, "konvertirao" kodiranje za dalju upotrebu tekstualnog sadržaja Word dokumenta u drugim programima.

Bilješka: Općenito prihvaćeni standardi za kodiranje teksta u različite zemlje mogu se razlikovati. Sasvim je moguće da dokument koji je kreirao, na primjer, korisnik koji živi u Aziji, i sačuvan u lokalnom kodiranju, neće biti ispravno prikazan korisniku u Rusiji koji ga koristi na PC-u ili Standard riječićirilica.

Sve informacije koje se prikazuju na ekranu računara u tekstualni oblik, zapravo je pohranjen u Word datoteci kao numeričke vrijednosti. Ove vrijednosti program pretvara u znakove koji se mogu prikazati, za koje se koristi kodiranje.

Kodiranje- shema numeriranja u kojoj svaki tekstualni znak iz setova utakmica numerička vrijednost... Samo kodiranje može sadržavati slova, brojeve, kao i druge znakove i simbole. Odvojeno, treba reći da u različitim jezicima prilično često korišteni različiti setovi znakova, zbog čega su mnoga kodiranja namijenjena isključivo za prikaz znakova iz određenih jezika.

Odabir kodiranja prilikom otvaranja datoteke

Ako je tekstualni sadržaj datoteke prikazan pogrešno, na primjer, s kvadratima, upitnicima i drugim simbolima, onda MS Word ne može odrediti njegovo kodiranje. Da biste riješili ovaj problem, morate odrediti ispravno (prikladno) kodiranje za dekodiranje (prikazivanje) teksta.

1. Otvorite meni "File"(dugme "MS Office" prethodno).

2. Otvorite odjeljak "Opcije" i odaberite stavku "dodatno".

3. Pomičite se prema dolje po sadržaju prozora dok ne pronađete odjeljak "general"... Označite polje pored "Potvrdite konverziju formata datoteke pri otvaranju"... Kliknite na "UREDU" da zatvorite prozor.

Bilješka: Nakon što označite okvir pored ovog parametra, svaki put kada otvorite datoteku u Wordu u formatu koji nije DOC, DOCX, DOCM, DOT, DOTM, DOTX, prikazat će se dijaloški okvir "Pretvori fajl"... Ako često morate raditi s dokumentima drugih formata, ali ne morate mijenjati njihovo kodiranje, poništite ovaj okvir u parametrima programa.

4. Zatvorite datoteku, a zatim je ponovo otvorite.

5. U odjeljku "Pretvori fajl" odaberite stavku "Kodirani tekst".

6. U otvorenom dijaloškom okviru "Pretvori fajl" postavite marker pored parametra "ostalo"... Izaberite željeno kodiranje sa liste.

savjet: U prozoru "uzorak" možete vidjeti kako će tekst izgledati u jednom ili drugom kodiranju.

7. Nakon odabira odgovarajućeg kodiranja, primijenite ga. Tekstualni sadržaj dokumenta će se sada ispravno prikazati.

Ako sav tekst za koji odaberete kodiranje izgleda gotovo isto (na primjer, u obliku kvadrata, tačaka, upitnika), najvjerovatnije font korišten u dokumentu koji pokušavate otvoriti nije instaliran na vašem računalu . Kako instalirati font treće strane u MS Wordu, možete pročitati u našem članku.

Odabir kodiranja prilikom spremanja datoteke

Ako ne navedete (ne odaberete) kodiranje MS Word datoteke prilikom snimanja, ona se automatski pohranjuje u kodiranju Unicode, što je u većini slučajeva dovoljno. Ovaj tip kodiranja podržavaju većinu znakova i većinu jezika.

Ako vi (ili neko drugi) planirate otvoriti dokument kreiran u Wordu u drugom programu koji ne podržava Unicode, uvijek možete odabrati potrebno kodiranje i sačuvati datoteku u njemu. Tako je, na primjer, na računaru s rusificiranim operativnim sistemom sasvim moguće kreirati dokument na tradicionalnom kineskom koristeći Unicode.

Jedini problem je što ako ovaj dokumentće se otvoriti u programu koji podržava kineski, ali ne podržava Unicode, gdje bi bilo ispravnije sačuvati datoteku u drugom kodiranju, na primjer, "Kineski tradicionalni (Big5)"... U ovom slučaju, tekstualni sadržaj dokumenta kada ga otvorite u bilo kojem programu koji podržava kineski, bit će prikazan ispravno.

Bilješka: Budući da je Unicode najpopularniji, i tek najopsežniji standard među kodovima, prilikom spremanja teksta u drugim kodovima moguć je netačan, nepotpun ili čak potpuno odsutan prikaz nekih datoteka. U fazi odabira kodiranja za pohranjivanje datoteke, crvenom bojom se prikazuju znakovi i znakovi koji nisu podržani, a dodatno se prikazuje obavijest s informacijama o razlogu.

1. Otvorite datoteku čije kodiranje želite promijeniti.

2. Otvorite meni "File"(dugme "MS Office" ranije) i odaberite "Sačuvaj kao"... Navedite naziv datoteke ako je potrebno.

3. U odjeljku "Vrsta fajla" odaberite opciju "Običan tekst".

5. Uradite jedno od sljedećeg:

Za korištenje standardnog kodiranja postavljenog prema zadanim postavkama, postavite marker pored parametra "Windows (zadano)";

Za odabir kodiranja "MS-DOS" postavite marker nasuprot odgovarajuće stavke;

Da odaberete bilo koje drugo kodiranje, postavite marker nasuprot stavke "ostalo", prozor sa listom dostupnih kodiranja će postati aktivan, nakon čega možete odabrati željeno kodiranje na listi.

Bilješka: Ako, prilikom odabira jednog ili drugog ( "Još jedan") kodiranjem vidite poruku "Tekst označen crvenom bojom ne može se ispravno sačuvati u odabranom kodiranju", odaberite drugo kodiranje (inače će sadržaj datoteke biti prikazan pogrešno) ili označite kućicu pored parametra "Dozvoli zamjenu karaktera".

Ako je zamjena znakova dozvoljena, svi oni znakovi koji se ne mogu prikazati u odabranom kodiranju automatski će biti zamijenjeni njihovim ekvivalentnim znakovima. Na primjer, elipsa se može zamijeniti sa tri tačke, a navodnici u uglovima pravim linijama.

6. Datoteka će biti sačuvana u kodiranju po vašem izboru kao običan tekst(format "PORUKA").

To je, zapravo, sve, sada znate kako promijeniti kodiranje u Wordu, a znate i kako ga odabrati ako se sadržaj dokumenta neispravno prikazuje.

Ponekad, iz ovog ili onog razloga, korisnici Windowsa dožive nešto što dovodi do neuspjeha kodiranja. Nekakav novoinstalirani program, virus, manipulacije u registru, nikad se ne zna... Evo kodiranja su nestala i to je to!

Slično mi se desilo pre neki dan. U nekim rusificiranim programima neke su oznake interfejsa počele izgledati kao da su umjesto slova tu umetnuti otisci ptičjih šapa:

Da budem iskren, proveo sam skoro dva dana tražeći rješenje problema. Na svim forumima i servisima "pitanja i odgovora", u svim priručnicima i uputstvima, svi kao jedan ponavljaju isti recept za rješenje, koji je možda nekome pomogao. Ali ne za mene. I tek kada mi je mozak počeo da ključa i kada me je napustila sva nada za rešenje problema, sve je došlo na svoje mesto.

Rezultate pretrage odlučio sam izdati u " Univerzalni vodič za rješavanje svih problema sa kodiranjem u operativni sistemi Windows XP i Windows Vista / 7". Mada možda već nije tako univerzalno...;)

Rješavanje problema kodiranja u Windows XP:

Stav 1. Prvo morate biti sigurni da je ruski jezik instaliran za programe koji ne podržavaju Unicode.

Otvaramo « Kontrolna tabla» i dvaput kliknite na ikonu « » ... Idite na karticu « Dodatno» « ».

Nakon toga pronađite stavku 20880 na listi koja se nalazi na istoj kartici i stavite kvačicu pored nje:

Tačka 2. Moguće je da su problemi sa kodiranjem uzrokovani kršenjem postavke sistema fontove.

Za vraćanje postavki fonta preuzmite ovu arhivu

Tačka 3. Sljedeći korak je promjena ključeva registratora koji su odgovorni za kodiranja. Preporučljivo je izvršiti ove promjene samo u krajnjoj nuždi i samo ako sve prethodne tačke nisu dovele do ničega.

ovu arhivu

Rješavanje problema kodiranja u Windows Vista / 7:

1. Kao iu slučaju Windows XP, prvo se uvjerite da je ruski jezik postavljen za programe koji ne podržavaju Unicode.

Otvaramo « Kontrolna tabla» i dvaput kliknite na ikonu « jezik i regionalni standardi» ... Idite na karticu « Dodatno» i postavite ruski jezik kao « Jezik za programe koji nisu Unicode»:

Sačuvajte promene i ponovo pokrenite računar. Ako problem i dalje postoji, idite na korak 2.

2. Da biste vratili postavke fonta, preuzmite ovu arhivu i pokrenite datoteku koja se nalazi u njoj, zanemarujući sva upozorenja sistema:

Ponovo pokrenite sistem. Ako problem i dalje postoji, idite na korak 3.

3. Sljedeći korak je promjena ključeva registratora koji su odgovorni za kodiranja. Preporučljivo je izvršiti ove promjene samo u krajnjoj nuždi i samo ako sve prethodne tačke nisu dovele do ničega.

Da izvršite ove promjene, preuzmite ovu arhivu i pokrenite datoteku u njoj. Kao u prethodni stav pojavljuju se sistemska upozorenja.

Nakon ovih promjena, također ćete morati ponovo pokrenuti sistem.

4. Ako sve gore navedeno nije pomoglo, potrebno je promijeniti imena sljedeće datoteke kodne stranice u folderu C: \ Windows \ System32:

Fajl " c_1252.nls" na " c_1252.nls.bak»
Fajl " c_1253.nls" na " c_1253.nls.bak»
Fajl " c_1254.nls" na " c_1254.nls.bak»
Fajl " c_1255.nls" na " c_1255.nls.bak»

Pošto su ovi fajlovi zaštićeni od modifikacija, preporučljivo je koristiti prekrasan program za ovu operaciju. Program možete preuzeti sa

Ovaj članak će raspravljati o kodiranju u Windowsu. Svako je u životu bar jednom koristio i pisao konzolne aplikacije kao takav. Nema razlike iz kog razloga. Bilo da se radi o prekidu procesa ili samo pisanju „Zdravo !!! Ne mogu da učinim kodiranje normalnim, pa gledam ovaj članak! "

Za one koji još uvek ne razumeju u čemu je problem, evo za vas:

I ovdje je pisalo:

U svakom slučaju, u Windowsima do 10, BAT kodiranje i drugi jezici ne koriste kodiranje koje podržava vaš jezik, tako da će svi ruski znakovi biti pogrešno napisani.

1. Podešavanje konzole u batch fajlu

Odmah za one koji pišu chcp 1251 bolje je napisati ovo:

Assoc .bat = .mp4
Prvi način da riješite problem je Notepad ++. Da biste to učinili, morate otvoriti svoj batch fajl na ovaj način:

Ne bojte se, otvorit će vam se kod vašeg batch fajla i tada ćete morati učiniti sljedeće:

Ako ništa drugo ne uspije, konvertirajte u UTF-8 bez BOM-a.

2. Pisanje konzolnih programa
Ljudi često pišu konzolne programe (jer je nemoguće pisati na nekim desktop programima), a kodiranje je čest problem.

Prvi način je direktno Notepad ++, ali šta ako vam treba prvo jedno kodiranje, a zatim drugo?

Direktno za one koji koriste chcp 1251 napišite ovo:

Del C: \ Programski podaci echo Mne pofig pause
Drugi način je pisanje desktop programa ili korištenje Visual studio... Ako ne pomogne, onda je tu prvo: promjena izlaznog kodiranja (primjer u C ++).

#include #include int main () (SetConsoleCP (broj_kodiranja); SetConsoleOutputCP (broj_kodiranja);)
Ako ne radi:

#include // Ne zaboravite na biblioteku matematike. char bufRus; char * Rus (const char * text) (CharToOem (tekst, bufRus); return bufRus) int main (cout<< "Тут пишите, что угодно!" << endl; system("pause") return 0 }
3. Promijenite chcp 1251
Ako imate batch fajl, napišite na početku:

Chcp 1251> nul za / f "delims =" %% A in ("Moj tekst") do> nul chcp 866 & echo. %% A
Sada ćemo imati normalan izlaz na konzoli. Na drugim jezicima (C++):

SetConsoleOutputCP (1251) // I ovdje dodajte ciklus koji je bio u batch datoteci
4. Neka život bude med
Koristeći ovu metodu Ne možeš:

Razvijte aplikacije na Windowsima ispod 10
Spasite svijet od ovog problema
Razmišljanje o drugim ljudima
Razvijajte desktop aplikacije, jer će vam život izgledati kao med
Promijenite Windows na verziju ispod 10
Pa, razumite ljude koji imaju Windows ispod 10

Instalirajte Windows 10. Tamo je kodiranje konzole posebno prilagođeno jeziku zemlje i više nećete morati da brinete o ovom problemu. Ali imaćete još 6 problema i vratite se na prethodni licencirana verzija Windows ne možete.

Oznake: šišmiš, kodiranje, brbljanje, zdravo čitačima oznaka, spam oznaka, problem sa kodiranjem, kako promijeniti kodiranje, aaa svi ćemo umrijeti

Krakozyabry- koja je to riječ tako zanimljiva? Ruski korisnici obično koriste ovu riječ za netačan/netačan prikaz (kodiranje) znakova u programima ili samom operativnom sistemu.
Zašto se to dešava? Nećete naći jednoznačan odgovor. Ovo može biti zbog trikova naših "omiljenih" virusa, može biti zbog kvara Windows OS-a (na primjer, nestalo je struje i računar se isključio), program je možda stvorio sukob s drugim ili OS i sve je "letjelo". V opšti razlozi možda mnogo, ali najzanimljivije je "Uzelo je i puklo se tako."
Pročitali smo članak i saznali kako riješiti problem s kodiranjem u programima i Windows OS-u, jer se to dogodilo.

Ko još uvek ne razume na šta mislim, evo nekoliko:

Inače, i ja sam se jednom našao u ovoj situaciji i još uvijek postoji fajl na mom desktopu koji mi je pomogao da se nosim s tim. Stoga sam odlučio napisati ovaj članak.

Nekoliko "stvari" je odgovorno za prikaz kodiranja (font) u Windows-u - to su jezik, registar i datoteke samog OS-a. Sada ćemo ih provjeravati pojedinačno i tačku po tačku.

Kako ukloniti i popraviti krakozyabry umjesto ruskih (ruskih slova) u programu ili Windowsu.

1. Provjeravam postavite jezik za programe koji ne podržavaju Unicode. Možda se izgubio.

Dakle, idite putem: Control Panel - Regional and Language Options - Advanced tab
Tamo tražimo da jezik bude ruski.

U Windows XP-u, pored ovoga, postoji lista "kodnih stranica tabela konverzije" na dnu iu njoj je red sa brojem 20880. I tamo morate imati ruski

6. Posljednja tačka, u kojoj vam dajem fajl koji mi je pomogao kad-tad sve popraviti, i zato sam ga ostavio za uspomenu. Evo arhive:

Unutra se nalaze dva fajla: krakozbroff.cmd i krakozbroff.reg

Njihov princip je isti - ispravljati na sve načine hijeroglife, kvadrate, pitanja ili uzvici u programima i Windows OS (kod običnih ljudi krakozyabry). Koristio sam prvu i pomoglo mi je.

I za kraj, par savjeta:
1) Ako radite sa registrom, ne zaboravite napraviti sigurnosnu kopiju ( backup) u slučaju da nešto krene po zlu.
2) Preporučljivo je provjeriti 1. tačku nakon svake stavke.

To je sve. Sada znate kako popraviti uklanjanje / popravak Krakozyabra (kvadrata, hijeroglifa, uzvika i upitnika) u programu ili Windowsu.