مجموعه ای از علائم مورد استفاده برای نوشتن متن نامیده می شود بر اساس حروف الفبا.
تعداد کاراکترهای حروف الفبا است قدرت.
فرمول تعیین مقدار اطلاعات: N = 2b,
که در آن N اصل الفبا (تعداد نمادها) است.
b تعداد بیت ها (وزن اطلاعات نماد) است.
تقریباً تمام کاراکترهای لازم را می توان در الفبای با ظرفیت 256 کاراکتر قرار داد. این الفبا نامیده می شود کافی
زیرا 256 = 2 8، سپس وزن 1 کاراکتر 8 بیت است.
واحد اندازه گیری 8 بیتی نامی داده شده است 1 بایت:
1 بایت = 8 بیت.
کد باینری هر کاراکتر در متن کامپیوتر 1 بایت حافظه را اشغال می کند.
اطلاعات متنی چگونه در حافظه کامپیوتر نمایش داده می شود؟
راحتی رمزگذاری بایت به بایت کاراکترها واضح است، زیرا یک بایت کوچکترین بخش آدرس پذیر حافظه است و بنابراین، پردازنده هنگام انجام پردازش متن می تواند به هر کاراکتر جداگانه دسترسی داشته باشد. از سوی دیگر، 256 کاراکتر برای نشان دادن طیف گسترده ای از اطلاعات شخصیت ها کاملاً کافی است.
حال این سوال پیش می آید که کدام کد هشت بیتی باینری را با هر کاراکتر مطابقت دهیم.
واضح است که این یک موضوع مشروط است، شما می توانید راه های زیادی برای رمزگذاری پیدا کنید.
تمام نمادهای الفبای کامپیوتر از 0 تا 255 شماره گذاری می شوند. هر عدد مربوط به یک کد باینری هشت رقمی از 00000000 تا 11111111 است. این کد به سادگی عدد ترتیبی کاراکتر در سیستم اعداد باینری است.
جدولی که در آن به تمام کاراکترهای الفبای کامپیوتر شماره سریال اختصاص داده می شود، جدول رمزگذاری نامیده می شود.
برای انواع کامپیوترها از جداول کدگذاری متفاوتی استفاده می شود.
جدول به استاندارد بین المللی رایانه های شخصی تبدیل شده است. ASCII(تلفظ asci) (کد استاندارد آمریکایی برای تبادل اطلاعات).
جدول کد اسکی به دو بخش تقسیم می شود.
فقط نیمه اول جدول یک استاندارد بین المللی است، یعنی. کاراکترها با اعداد از 0 (00000000)، تا 127 (01111111).
ساختار جدول رمزگذاری ASCII
شماره سریال |
کد |
سمبل |
0 - 31 |
00000000 - 00011111 |
کاراکترهایی با اعداد از 0 تا 31 کاراکترهای کنترلی نامیده می شوند. |
32 - 127 |
00100000 - 01111111 |
قسمت استاندارد جدول (انگلیسی). این شامل حروف کوچک و بزرگ الفبای لاتین، اعداد اعشاری، علائم نقطه گذاری، انواع براکت ها، علامت های تجاری و سایر نمادها است. |
128 - 255 |
10000000 - 11111111 |
قسمت جایگزین جدول (روسی). |
نیمه اول جدول کد اسکی
توجه شما را به این نکته جلب می کنم که در جدول رمزگذاری، حروف (بزرگ و کوچک) به ترتیب حروف الفبا و اعداد به ترتیب صعودی مقادیر مرتب شده اند. به این رعایت نظم واژگانی در چینش حروف، اصل رمزگذاری ترتیبی الفبا می گویند.
برای حروف الفبای روسی، اصل کدگذاری متوالی نیز رعایت می شود.
نیمه دوم جدول کد اسکی
متأسفانه، در حال حاضر پنج رمزگذاری سیریلیک مختلف (KOI8-R، Windows. MS-DOS، Macintosh و ISO) وجود دارد. به همین دلیل، اغلب با انتقال متن روسی از یک رایانه به رایانه دیگر، از یک سیستم نرم افزاری به سیستم دیگر، مشکلاتی ایجاد می شود.
از نظر زمانی، یکی از اولین استانداردها برای رمزگذاری حروف روسی در رایانه، KOI8 ("کد تبادل اطلاعات، 8 بیت") بود. این رمزگذاری در دهه 70 در رایانه های سری رایانه های EC مورد استفاده قرار گرفت و از اواسط دهه 80 در اولین نسخه های روسی شده سیستم عامل یونیکس استفاده شد.
از ابتدای دهه 90، زمان تسلط سیستم عامل MS DOS، رمزگذاری CP866 باقی می ماند ("CP" مخفف "صفحه کد"، "صفحه کد" است).
کامپیوترهای اپل که سیستم عامل مک را اجرا می کنند از کدگذاری مک خود استفاده می کنند.
علاوه بر این، سازمان بین المللی استاندارد (سازمان بین المللی استاندارد، ISO) کدگذاری دیگری به نام ISO 8859-5 را به عنوان استاندارد برای زبان روسی تأیید کرد.
رایج ترین رمزگذاری مورد استفاده در حال حاضر مایکروسافت ویندوز است که به اختصار CP1251 نامیده می شود.
از اواخر دهه 90، مشکل استانداردسازی کدنویسی کاراکترها با ارائه یک استاندارد بین المللی جدید حل شد که به نام یونیکد. این یک رمزگذاری 16 بیتی است، یعنی. هر کاراکتر 2 بایت حافظه دارد. البته در این حالت میزان حافظه اشغال شده 2 برابر افزایش می یابد. اما چنین جدول کدی امکان گنجاندن حداکثر 65536 کاراکتر را فراهم می کند. مشخصات کامل استاندارد یونیکد شامل تمام الفبای موجود، منقرض شده و مصنوعی جهان و همچنین بسیاری از نمادهای ریاضی، موسیقی، شیمیایی و غیره است.
بیایید سعی کنیم از جدول ASCII استفاده کنیم تا تصور کنیم کلمات در حافظه کامپیوتر چگونه به نظر می رسند.
نمایش داخلی کلمات در حافظه کامپیوتر
گاهی اوقات اتفاق می افتد که متن، متشکل از حروف الفبای روسی، دریافت شده از رایانه دیگری، قابل خواندن نیست - نوعی "abracadabra" روی صفحه نمایشگر قابل مشاهده است. این به دلیل این واقعیت است که رایانه ها از رمزگذاری کاراکترهای مختلف زبان روسی استفاده می کنند.
Excel برای Office 365 Word برای Office 365 Outlook برای Office 365 PowerPoint برای Office 365 Publisher برای Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 ویزیو استاندارد 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio Professional 2016 ویزیو استاندارد 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Visio 2010 اکسل 2007 اکسل 2007 اکسل 2007 PowerPoint 2007 ویزیو استاندارد 2007 ویزیو استاندارد 2010کمتر
در این مقاله
درج یک کاراکتر ASCII یا Unicode در یک سند
اگر فقط نیاز به وارد کردن چند کاراکتر یا نماد خاص دارید، می توانید از میانبرهای صفحه کلید استفاده کنید. برای فهرستی از کاراکترهای ASCII، به جداول زیر یا مقاله درج الفبای ملی با استفاده از میانبرهای صفحه کلید مراجعه کنید.
یادداشت:
درج کاراکترهای ASCII
برای درج یک نویسه ASCII، کلید ALT را فشار داده و در حین وارد کردن کد کاراکتر نگه دارید. به عنوان مثال، برای درج نماد درجه (º)، کلید ALT را فشار داده و نگه دارید، سپس 0176 را در صفحه کلید عددی وارد کنید.
برای وارد کردن اعداد از صفحه کلید عددی استفاده کنید، نه اعداد روی صفحه کلید اصلی. اگر نیاز به وارد کردن اعداد روی صفحه کلید عددی دارید، مطمئن شوید که نشانگر NUM LOCK روشن است.
درج کاراکترهای یونیکد
برای درج یک کاراکتر یونیکد، کد کاراکتر را تایپ کنید، سپس ALT + X را به ترتیب فشار دهید. به عنوان مثال، برای درج یک نویسه دلاری ($)، 0024 را تایپ کنید و ALT + X را به ترتیب فشار دهید. برای همه کدهای کاراکتر یونیکد، ببینید.
مهم:برخی از برنامه های مایکروسافت آفیس، مانند پاورپوینت و InfoPath، از تبدیل کدهای یونیکد به نویسه پشتیبانی نمی کنند. اگر نیاز به درج یک کاراکتر یونیکد در یکی از این برنامه ها دارید، از .
یادداشت:
اگر بعد از فشار دادن ALT+X یک کاراکتر یونیکد نادرست نمایش داده شد، کد صحیح را انتخاب کنید و سپس دوباره ALT+X را فشار دهید.
علاوه بر این، قبل از کد باید "U+" را وارد کنید. به عنوان مثال، اگر "1U+B5" را تایپ کنید و کلیدهای ALT+X را فشار دهید، متن "1µ" نمایش داده می شود و اگر "1B5" را تایپ کنید و کلیدهای ALT+X را فشار دهید، کاراکتر "Ƶ" نمایش داده می شود.
با استفاده از جدول نمادها
جدول کاراکترها برنامه ای است که در ویندوز مایکروسافت تعبیه شده است که به شما امکان می دهد کاراکترهای موجود برای یک فونت انتخاب شده را مشاهده کنید.
با استفاده از جدول نمادها، می توانید کاراکترهای جداگانه یا گروهی از کاراکترها را در کلیپ بورد کپی کنید و آنها را در هر برنامه ای که از نمایش این کاراکترها پشتیبانی می کند، قرار دهید. باز کردن جدول نمادها
در ویندوز 10کلمه "symbol" را در قسمت جستجو در نوار وظیفه وارد کنید و جدول نمادها را از نتایج جستجو انتخاب کنید.
در ویندوز 8کلمه "symbol" را در صفحه اصلی وارد کنید و جدول نمادها را از نتایج جستجو انتخاب کنید.
در ویندوز 7دکمه را فشار دهید شروع کنید، به ترتیب انتخاب کنید همه برنامه ها, استاندارد, سرویسو کلیک کنید جدول نمادها.
کاراکترها بر اساس فونت گروه بندی می شوند. برای انتخاب مجموعه کاراکتر مناسب، روی لیست فونت کلیک کنید. برای انتخاب نماد، روی آن کلیک کنید، سپس روی دکمه کلیک کنید انتخاب کنید. برای درج نماد، روی محل مورد نظر در سند کلیک راست کرده و انتخاب کنید درج کنید.
کدهای کاراکتر پرکاربرد
برای فهرست کامل نویسهها، در رایانه، جدول کد نویسههای ASCII یا جدولهای کاراکتر یونیکد مرتبشده بر اساس مجموعهها را ببینید.
گلیف |
گلیف |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
واحدهای پولی |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نمادهای قانونی |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نمادهای ریاضی |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
کسری |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
علائم نگارشی و گویش |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نمادهای شکل |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
کدهایی برای دیاکریتیک های رایجبرای فهرست کامل حروف و کدهای مربوطه، نگاه کنید.
|
به هر حال، در وب سایت ما می توانید با استفاده از ماشین حساب آنلاین کد، هر متنی را به کد اعشاری، هگزادسیمال، باینری تبدیل کنید.
جدول ASCII
ASCII (کد استاندارد آمریکایی برای تبادل اطلاعات)
جدول خلاصه کدهای اسکی
جدول کد کاراکتر Windows ASCII (Win-1251)
|
|
جدول کد ASCII توسعه یافته
قالب بندی کاراکترها
Backspace (یک کاراکتر برگردانید). حرکت مکانیسم چاپ یا مکان نما نمایشگر را یک موقعیت به عقب نشان می دهد. |
|
جدول بندی افقی (جدول افقی). حرکت موتور چاپ یا مکان نما نمایشگر را به "ایستگاه تب" بعدی تعیین شده نشان می دهد. |
|
تغذیه خط. حرکت موتور چاپ یا مکان نما نمایشگر را تا ابتدای خط بعدی (یک خط به پایین) نشان می دهد. |
|
جدول بندی عمودی (جدول عمودی). حرکت موتور چاپ یا مکان نما نمایشگر را به گروه بعدی خطوط نشان می دهد. |
|
فید فرم (ترجمه صفحه). حرکت موتور چاپ یا مکان نما نمایشگر را به موقعیت اصلی صفحه، فرم یا صفحه بعدی نشان می دهد. |
|
برگشت محموله. حرکت موتور چاپ یا مکان نما نمایشگر را به موقعیت اولیه (سمت چپ) خط فعلی نشان می دهد. |
انتقال داده.
شروع سرفصل. برای تعیین شروع یک هدر، که ممکن است حاوی اطلاعات مسیریابی یا آدرس باشد، استفاده می شود. |
|
شروع متن ابتدای متن و در عین حال انتهای عنوان را نشان می دهد. |
|
پایان متن (پایان متن). در انتهای متنی که با کاراکتر STX شروع شده بود اعمال می شود. |
|
استعلام (درخواست). درخواست داده های شناسایی (مانند "تو کی هستی؟") از یک ایستگاه راه دور. |
|
تصدیق (تأیید). دستگاه دریافت کننده این کاراکتر را به عنوان تاییدیه دریافت موفقیت آمیز داده ها برای فرستنده ارسال می کند. |
|
تصدیق منفی (عدم تایید). دستگاه دریافت کننده در صورت انکار (شکست) دریافت داده، این کاراکتر را به فرستنده منتقل می کند. |
|
همزمان/بیکار (همگام سازی). در سیستم های انتقال همزمان استفاده می شود. هنگامی که هیچ انتقال داده ای وجود ندارد، سیستم به طور مداوم کاراکترهای SYN را برای اطمینان از همگام سازی ارسال می کند. |
|
پایان بلوک انتقال پایان یک بلوک داده را برای اهداف ارتباطی نشان می دهد. برای تقسیم مقادیر زیادی از داده ها به بلوک های جداگانه استفاده می شود. |
تقسیم کاراکترها در انتقال اطلاعات.
نمادهای دیگر
خالی. (بدون کاراکتر - بدون داده). برای انتقال زمانی که داده ای وجود ندارد استفاده می شود. |
|
زنگ (تماس). برای کنترل دستگاه های هشدار استفاده می شود. |
|
شیفت کردن. نشان می دهد که همه رمزهای بعدی باید بر اساس مجموعه کاراکترهای بیرونی قبل از رسیدن کاراکتر SI تفسیر شوند. |
|
جابجایی در نشان می دهد که کلمات رمز بعدی باید بر اساس مجموعه کاراکترهای استاندارد تفسیر شوند. |
|
Data Link Escape (Switching). تغییر معنی کاراکترهای زیر برای کنترل اضافی یا برای انتقال ترکیب دلخواه از بیت ها استفاده می شود. |
|
DC1، DC2، DC3، DC4 |
کنترل های دستگاه نمادهایی برای کنترل وسایل کمکی (کارکردهای ویژه). |
لغو کنید. نشان می دهد که داده هایی که قبل از این کاراکتر در یک پیام یا بلوک قرار گرفته اند باید نادیده گرفته شوند (معمولاً در صورت بروز خطا). |
|
پایان متوسط (پایان حامل). انتهای فیزیکی نوار یا رسانه های دیگر را نشان می دهد |
|
جانشین (معاون). برای جایگزینی نویسه های اشتباه یا نامعتبر استفاده می شود. |
|
فرار (گسترش). برای گسترش یک کد استفاده می شود که نشان می دهد کاراکتر زیر معنای دیگری دارد. |
|
فضا (فضا). یک کاراکتر غیرچاپی برای جدا کردن کلمات یا حرکت موتور چاپ یا مکان نما نمایشگر یک موقعیت به جلو. |
|
حذف. برای حذف (پاک کردن) کاراکتر قبلی در پیام استفاده می شود |
[کدهای 8 بیتی: ASCII، KOI-8R و CP1251] اولین جداول رمزگذاری ایجاد شده در ایالات متحده از بیت هشتم در یک بایت استفاده نمی کرد. متن به صورت دنباله ای از بایت ها ارائه شد، اما بیت هشتم در نظر گرفته نشد (برای اهداف رسمی استفاده شد).
جدول به استاندارد پذیرفته شده تبدیل شده است. ASCII(کد استاندارد آمریکایی برای تبادل اطلاعات). 32 کاراکتر اول جدول ASCII (00 تا 1F) برای کاراکترهای غیرچاپ استفاده شد. آنها برای کنترل دستگاه چاپ و موارد مشابه طراحی شده بودند. بقیه - از 20 تا 7F - کاراکترهای معمولی (قابل چاپ) هستند.
جدول 1 - رمزگذاری ASCII
|
|
همانطور که به راحتی می توانید ببینید، فقط حروف لاتین در این رمزگذاری نشان داده شده است، و آنهایی که در انگلیسی استفاده می شوند. نمادهای حسابی و دیگر خدمات نیز وجود دارد. اما هیچ حروف روسی یا حتی حروف لاتین خاص برای آلمانی یا فرانسوی وجود ندارد. توضیح این امر آسان است - رمزگذاری به عنوان یک استاندارد آمریکایی توسعه یافته است. با شروع استفاده از رایانه ها در سراسر جهان، سایر کاراکترها نیاز به کدگذاری داشتند.
برای این کار تصمیم گرفته شد که در هر بایت از بیت هشتم استفاده شود. بنابراین، 128 مقدار بیشتر (از 80 تا FF) در دسترس بود که میتوان از آنها برای رمزگذاری کاراکترها استفاده کرد. اولین جدول از جدول های هشت بیتی "ASCII توسعه یافته" است ( ASCII توسعه یافته) - شامل انواع مختلفی از حروف لاتین است که در برخی از زبان های اروپای غربی استفاده می شود. همچنین دارای شخصیت های اضافی دیگری از جمله شبه نگاری بود.
کاراکترهای شبه گرافیکی، با نمایش تنها کاراکترهای متنی، اجازه می دهند تا ظاهری از گرافیک ارائه دهند. به عنوان مثال، با استفاده از شبه نگاری، برنامه مدیریت فایل FAR Manager کار می کند.
هیچ حرف روسی در جدول Extended ASCII وجود نداشت. در روسیه (سابق اتحاد جماهیر شوروی سابق) و در سایر ایالت ها، رمزگذاری های خاص آنها ایجاد شد که نشان دادن کاراکترهای "ملی" خاص در فایل های متنی 8 بیتی - حروف لاتین زبان های لهستانی و چکی، سیریلیک (از جمله حروف روسی) را ممکن ساخت. و الفبای دیگر
در تمام رمزگذاری هایی که گسترده شده اند، 127 کاراکتر اول (یعنی مقادیر بایت با بیت هشتم برابر با 0) مانند ASCII است. بنابراین یک فایل ASCII در هر یک از این کدگذاری ها کار می کند. حروف زبان انگلیسی به همین ترتیب نشان داده می شوند.
سازمان ISO(سازمان بین المللی استاندارد - سازمان بین المللی استاندارد) گروهی از استانداردها را پذیرفت ISO 8859. رمزگذاری های 8 بیتی را برای گروه های مختلف زبان ها تعریف می کند. بنابراین، ISO 8859-1 Extended ASCII است، جدولی برای ایالات متحده و اروپای غربی. و ISO 8859-5 جدولی برای سیریلیک (از جمله روسی) است.
با این حال، به دلایل تاریخی، کدگذاری ISO 8859-5 مورد توجه قرار نگرفت. در واقع، رمزگذاری های زیر برای زبان روسی استفاده می شود:
کد صفحه 866 ( CP866او همچنین "DOS" است، او همچنین "کدگذاری جایگزین GOST" است. تا اواسط دهه 1990 به طور گسترده مورد استفاده قرار گرفت. در حال حاضر در استفاده محدود عملاً برای توزیع متون در اینترنت استفاده نمی شود.
- KOI-8. در دهه 70 و 80 توسعه یافت. این یک استاندارد عمومی پذیرفته شده برای ارسال پیام های پستی در اینترنت روسیه است. همچنین به طور گسترده در سیستم عامل های خانواده یونیکس از جمله لینوکس استفاده می شود. نسخه KOI-8، طراحی شده برای روسی، نامیده می شود KOI-8R; نسخه هایی برای سایر زبان های سیریلیک وجود دارد (به عنوان مثال، KOI8-U یک نوع برای زبان اوکراینی است).
- کد صفحه 1251، CP1251، Windows-1251. توسط مایکروسافت برای پشتیبانی از زبان روسی در سیستم ویندوز توسعه یافته است.
مزیت اصلی CP866 حفظ کاراکترهای شبه در همان مکانهایی بود که در Extended ASCII وجود داشت. بنابراین، برنامه های متنی خارجی، به عنوان مثال، فرمانده معروف نورتون، می توانند بدون تغییر کار کنند. CP866 در حال حاضر برای برنامه های ویندوزی که در پنجره های متنی یا در حالت متن تمام صفحه اجرا می شوند، از جمله FAR Manager استفاده می شود.
متن در CP866 در سال های اخیر بسیار نادر است (اما برای رمزگذاری نام فایل های روسی در ویندوز استفاده می شود). بنابراین، ما در مورد دو رمزگذاری دیگر - KOI-8R و CP1251 صحبت خواهیم کرد.
همانطور که می بینید، در جدول رمزگذاری CP1251، حروف روسی به ترتیب حروف الفبا مرتب شده اند (البته به استثنای حرف YO). این ترتیب مرتب سازی بر اساس حروف الفبا را برای برنامه های کامپیوتری بسیار آسان می کند.
اما در KOI-8R ترتیب حروف روسی تصادفی به نظر می رسد. اما در واقع اینطور نیست.
در بسیاری از برنامه های قدیمی تر، بیت هشتم هنگام پردازش یا انتقال متن از بین می رفت. (اکنون چنین برنامه هایی عملا "منقرض" شده اند، اما در اواخر دهه 80 و اوایل دهه 90 آنها گسترده بودند). برای به دست آوردن یک مقدار 7 بیتی از یک مقدار 8 بیتی، کافی است 8 را از رقم مرتبه بالا کم کنید. به عنوان مثال، E1 می شود 61.
اکنون KOI-8R را با جدول ASCII مقایسه کنید (جدول 1). متوجه خواهید شد که حروف روسی کاملاً مطابق با حروف لاتین هستند. اگر بیت هشتم ناپدید شود، حروف کوچک روسی به حروف لاتین بزرگ و حروف روسی بزرگ به حروف کوچک لاتین تبدیل می شوند. بنابراین، E1 در KOI-8 روسی "A" است، در حالی که 61 در ASCII لاتین "a" است.
بنابراین، KOI-8 به شما اجازه می دهد تا با از دست دادن بیت هشتم، خوانایی متن روسی را حفظ کنید. "سلام به همه" به "pRIWET WSEM" تبدیل می شود.
اخیراً هم ترتیب حروف الفبای کاراکترها در جدول رمزگذاری و هم خوانایی با از دست دادن بیت هشتم اهمیت تعیین کننده خود را از دست داده اند. بیت هشتم در رایانه های مدرن چه در حین انتقال و چه در حین پردازش از بین نمی رود. و مرتب سازی بر اساس حروف الفبا با در نظر گرفتن رمزگذاری انجام می شود و نه مقایسه ساده کدها. (به هر حال، کدهای CP1251 کاملاً حروف الفبا نیستند - حرف Y در جای خود نیست).
با توجه به این واقعیت که دو رمزگذاری رایج وجود دارد، هنگام کار با اینترنت (ایمیل، مرور وب سایت ها)، گاهی اوقات می توانید مجموعه ای بی معنی از حروف را به جای متن روسی مشاهده کنید. به عنوان مثال، "من SBYFEMHEL هستم". این فقط عبارت "با احترام" است. اما آنها در رمزگذاری CP1251 کدگذاری شدند و کامپیوتر متن را مطابق جدول KOI-8 رمزگشایی کرد. اگر همان کلمات، برعکس، در KOI-8 رمزگذاری شده باشند، و کامپیوتر متن را مطابق جدول CP1251 رمزگشایی کند، نتیجه "U HCHBTSEOEN" خواهد بود.
گاهی اوقات اتفاق می افتد که کامپیوتر حروف روسی زبان را رمزگشایی می کند و حتی طبق جدولی که برای زبان روسی در نظر گرفته نشده است. سپس، به جای حروف روسی، مجموعه ای از کاراکترهای بی معنی ظاهر می شود (به عنوان مثال، حروف لاتین زبان های اروپای شرقی). آنها اغلب به عنوان "کروکوس" نامیده می شوند.
در بیشتر موارد، برنامه های مدرن به تنهایی قادر به تعیین رمزگذاری اسناد اینترنتی (ایمیل ها و صفحات وب) هستند. اما گاهی اوقات آنها "اشتباه" می کنند و سپس می توانید دنباله های عجیبی از حروف روسی یا "تمساح" را مشاهده کنید. به عنوان یک قاعده، برای نمایش متن واقعی در چنین شرایطی، کافی است رمزگذاری را به صورت دستی در منوی برنامه انتخاب کنید.
از اطلاعات صفحه http://open-office.edusite.ru/TextProcessor/p5aa1.html برای مقاله استفاده شد.
مطالب برگرفته از سایت: