نحوه راه اندازی گوشی های هوشمند و رایانه های شخصی. پرتال اطلاعاتی
  • خانه
  • مشاوره
  • مشخص است که در جدول کد کاراکترهای ascii. رمزگذاری ASCII (کد استاندارد آمریکایی برای تبادل اطلاعات) - رمزگذاری متن اصلی برای لاتین

مشخص است که در جدول کد کاراکترهای ascii. رمزگذاری ASCII (کد استاندارد آمریکایی برای تبادل اطلاعات) - رمزگذاری متن اصلی برای لاتین

مجموعه ای از علائم مورد استفاده برای نوشتن متن نامیده می شود بر اساس حروف الفبا.

تعداد کاراکترهای حروف الفبا است قدرت.

فرمول تعیین مقدار اطلاعات: N = 2b,

که در آن N اصل الفبا (تعداد نمادها) است.

b تعداد بیت ها (وزن اطلاعات نماد) است.

تقریباً تمام کاراکترهای لازم را می توان در الفبای با ظرفیت 256 کاراکتر قرار داد. این الفبا نامیده می شود کافی

زیرا 256 = 2 8، سپس وزن 1 کاراکتر 8 بیت است.

واحد اندازه گیری 8 بیتی نامی داده شده است 1 بایت:

1 بایت = 8 بیت.

کد باینری هر کاراکتر در متن کامپیوتر 1 بایت حافظه را اشغال می کند.

اطلاعات متنی چگونه در حافظه کامپیوتر نمایش داده می شود؟

راحتی رمزگذاری بایت به بایت کاراکترها واضح است، زیرا یک بایت کوچکترین بخش آدرس پذیر حافظه است و بنابراین، پردازنده هنگام انجام پردازش متن می تواند به هر کاراکتر جداگانه دسترسی داشته باشد. از سوی دیگر، 256 کاراکتر برای نشان دادن طیف گسترده ای از اطلاعات شخصیت ها کاملاً کافی است.

حال این سوال پیش می آید که کدام کد هشت بیتی باینری را با هر کاراکتر مطابقت دهیم.

واضح است که این یک موضوع مشروط است، شما می توانید راه های زیادی برای رمزگذاری پیدا کنید.

تمام نمادهای الفبای کامپیوتر از 0 تا 255 شماره گذاری می شوند. هر عدد مربوط به یک کد باینری هشت رقمی از 00000000 تا 11111111 است. این کد به سادگی عدد ترتیبی کاراکتر در سیستم اعداد باینری است.

جدولی که در آن به تمام کاراکترهای الفبای کامپیوتر شماره سریال اختصاص داده می شود، جدول رمزگذاری نامیده می شود.

برای انواع کامپیوترها از جداول کدگذاری متفاوتی استفاده می شود.

جدول به استاندارد بین المللی رایانه های شخصی تبدیل شده است. ASCII(تلفظ asci) (کد استاندارد آمریکایی برای تبادل اطلاعات).

جدول کد اسکی به دو بخش تقسیم می شود.

فقط نیمه اول جدول یک استاندارد بین المللی است، یعنی. کاراکترها با اعداد از 0 (00000000)، تا 127 (01111111).

ساختار جدول رمزگذاری ASCII

شماره سریال

کد

سمبل

0 - 31

00000000 - 00011111

کاراکترهایی با اعداد از 0 تا 31 کاراکترهای کنترلی نامیده می شوند.
عملکرد آنها کنترل فرآیند نمایش متن روی صفحه یا چاپ، دادن سیگنال صوتی، علامت گذاری متن و غیره است.

32 - 127

00100000 - 01111111

قسمت استاندارد جدول (انگلیسی). این شامل حروف کوچک و بزرگ الفبای لاتین، اعداد اعشاری، علائم نقطه گذاری، انواع براکت ها، علامت های تجاری و سایر نمادها است.
کاراکتر 32 یک فضا است، یعنی. جای خالی در متن
همه بقیه با علائم خاصی منعکس می شوند.

128 - 255

10000000 - 11111111

قسمت جایگزین جدول (روسی).
نیمه دوم جدول کدهای ASCII که صفحه کد نامیده می شود (128 کد که با 10000000 شروع می شود و با 11111111 ختم می شود) می تواند گزینه های مختلفی داشته باشد که هر گزینه شماره مخصوص به خود را دارد.
صفحه کد در درجه اول برای قرار دادن اسکریپت های ملی به غیر از لاتین استفاده می شود. در رمزگذاری های ملی روسیه، حروف الفبای روسی در این قسمت از جدول قرار می گیرند.

نیمه اول جدول کد اسکی


توجه شما را به این نکته جلب می کنم که در جدول رمزگذاری، حروف (بزرگ و کوچک) به ترتیب حروف الفبا و اعداد به ترتیب صعودی مقادیر مرتب شده اند. به این رعایت نظم واژگانی در چینش حروف، اصل رمزگذاری ترتیبی الفبا می گویند.

برای حروف الفبای روسی، اصل کدگذاری متوالی نیز رعایت می شود.

نیمه دوم جدول کد اسکی


متأسفانه، در حال حاضر پنج رمزگذاری سیریلیک مختلف (KOI8-R، Windows. MS-DOS، Macintosh و ISO) وجود دارد. به همین دلیل، اغلب با انتقال متن روسی از یک رایانه به رایانه دیگر، از یک سیستم نرم افزاری به سیستم دیگر، مشکلاتی ایجاد می شود.

از نظر زمانی، یکی از اولین استانداردها برای رمزگذاری حروف روسی در رایانه، KOI8 ("کد تبادل اطلاعات، 8 بیت") بود. این رمزگذاری در دهه 70 در رایانه های سری رایانه های EC مورد استفاده قرار گرفت و از اواسط دهه 80 در اولین نسخه های روسی شده سیستم عامل یونیکس استفاده شد.

از ابتدای دهه 90، زمان تسلط سیستم عامل MS DOS، رمزگذاری CP866 باقی می ماند ("CP" مخفف "صفحه کد"، "صفحه کد" است).

کامپیوترهای اپل که سیستم عامل مک را اجرا می کنند از کدگذاری مک خود استفاده می کنند.

علاوه بر این، سازمان بین المللی استاندارد (سازمان بین المللی استاندارد، ISO) کدگذاری دیگری به نام ISO 8859-5 را به عنوان استاندارد برای زبان روسی تأیید کرد.

رایج ترین رمزگذاری مورد استفاده در حال حاضر مایکروسافت ویندوز است که به اختصار CP1251 نامیده می شود.

از اواخر دهه 90، مشکل استانداردسازی کدنویسی کاراکترها با ارائه یک استاندارد بین المللی جدید حل شد که به نام یونیکد. این یک رمزگذاری 16 بیتی است، یعنی. هر کاراکتر 2 بایت حافظه دارد. البته در این حالت میزان حافظه اشغال شده 2 برابر افزایش می یابد. اما چنین جدول کدی امکان گنجاندن حداکثر 65536 کاراکتر را فراهم می کند. مشخصات کامل استاندارد یونیکد شامل تمام الفبای موجود، منقرض شده و مصنوعی جهان و همچنین بسیاری از نمادهای ریاضی، موسیقی، شیمیایی و غیره است.

بیایید سعی کنیم از جدول ASCII استفاده کنیم تا تصور کنیم کلمات در حافظه کامپیوتر چگونه به نظر می رسند.

نمایش داخلی کلمات در حافظه کامپیوتر

گاهی اوقات اتفاق می افتد که متن، متشکل از حروف الفبای روسی، دریافت شده از رایانه دیگری، قابل خواندن نیست - نوعی "abracadabra" روی صفحه نمایشگر قابل مشاهده است. این به دلیل این واقعیت است که رایانه ها از رمزگذاری کاراکترهای مختلف زبان روسی استفاده می کنند.

Excel برای Office 365 Word برای Office 365 Outlook برای Office 365 PowerPoint برای Office 365 Publisher برای Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 ویزیو استاندارد 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio Professional 2016 ویزیو استاندارد 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Visio 2010 اکسل 2007 اکسل 2007 اکسل 2007 PowerPoint 2007 ویزیو استاندارد 2007 ویزیو استاندارد 2010کمتر

در این مقاله

درج یک کاراکتر ASCII یا Unicode در یک سند

اگر فقط نیاز به وارد کردن چند کاراکتر یا نماد خاص دارید، می توانید از میانبرهای صفحه کلید استفاده کنید. برای فهرستی از کاراکترهای ASCII، به جداول زیر یا مقاله درج الفبای ملی با استفاده از میانبرهای صفحه کلید مراجعه کنید.

یادداشت:

درج کاراکترهای ASCII

برای درج یک نویسه ASCII، کلید ALT را فشار داده و در حین وارد کردن کد کاراکتر نگه دارید. به عنوان مثال، برای درج نماد درجه (º)، کلید ALT را فشار داده و نگه دارید، سپس 0176 را در صفحه کلید عددی وارد کنید.

برای وارد کردن اعداد از صفحه کلید عددی استفاده کنید، نه اعداد روی صفحه کلید اصلی. اگر نیاز به وارد کردن اعداد روی صفحه کلید عددی دارید، مطمئن شوید که نشانگر NUM LOCK روشن است.

درج کاراکترهای یونیکد

برای درج یک کاراکتر یونیکد، کد کاراکتر را تایپ کنید، سپس ALT + X را به ترتیب فشار دهید. به عنوان مثال، برای درج یک نویسه دلاری ($)، 0024 را تایپ کنید و ALT + X را به ترتیب فشار دهید. برای همه کدهای کاراکتر یونیکد، ببینید.

مهم:برخی از برنامه های مایکروسافت آفیس، مانند پاورپوینت و InfoPath، از تبدیل کدهای یونیکد به نویسه پشتیبانی نمی کنند. اگر نیاز به درج یک کاراکتر یونیکد در یکی از این برنامه ها دارید، از .

یادداشت:

    اگر بعد از فشار دادن ALT+X یک کاراکتر یونیکد نادرست نمایش داده شد، کد صحیح را انتخاب کنید و سپس دوباره ALT+X را فشار دهید.

    علاوه بر این، قبل از کد باید "U+" را وارد کنید. به عنوان مثال، اگر "1U+B5" را تایپ کنید و کلیدهای ALT+X را فشار دهید، متن "1µ" نمایش داده می شود و اگر "1B5" را تایپ کنید و کلیدهای ALT+X را فشار دهید، کاراکتر "Ƶ" نمایش داده می شود.

با استفاده از جدول نمادها

جدول کاراکترها برنامه ای است که در ویندوز مایکروسافت تعبیه شده است که به شما امکان می دهد کاراکترهای موجود برای یک فونت انتخاب شده را مشاهده کنید.

با استفاده از جدول نمادها، می توانید کاراکترهای جداگانه یا گروهی از کاراکترها را در کلیپ بورد کپی کنید و آنها را در هر برنامه ای که از نمایش این کاراکترها پشتیبانی می کند، قرار دهید. باز کردن جدول نمادها

    در ویندوز 10کلمه "symbol" را در قسمت جستجو در نوار وظیفه وارد کنید و جدول نمادها را از نتایج جستجو انتخاب کنید.

    در ویندوز 8کلمه "symbol" را در صفحه اصلی وارد کنید و جدول نمادها را از نتایج جستجو انتخاب کنید.

    در ویندوز 7دکمه را فشار دهید شروع کنید، به ترتیب انتخاب کنید همه برنامه ها, استاندارد, سرویسو کلیک کنید جدول نمادها.

کاراکترها بر اساس فونت گروه بندی می شوند. برای انتخاب مجموعه کاراکتر مناسب، روی لیست فونت کلیک کنید. برای انتخاب نماد، روی آن کلیک کنید، سپس روی دکمه کلیک کنید انتخاب کنید. برای درج نماد، روی محل مورد نظر در سند کلیک راست کرده و انتخاب کنید درج کنید.

کدهای کاراکتر پرکاربرد

برای فهرست کامل نویسه‌ها، در رایانه، جدول کد نویسه‌های ASCII یا جدول‌های کاراکتر یونیکد مرتب‌شده بر اساس مجموعه‌ها را ببینید.

گلیف

گلیف

واحدهای پولی

نمادهای قانونی

نمادهای ریاضی

کسری

علائم نگارشی و گویش

نمادهای شکل

کدهایی برای دیاکریتیک های رایج

برای فهرست کامل حروف و کدهای مربوطه، نگاه کنید.

گلیف

گلیف

کاراکترهای کنترلی ASCII غیرچاپی

کاراکترهای مورد استفاده برای کنترل برخی از لوازم جانبی مانند چاپگرها در جدول ASCII 0-31 شماره گذاری شده اند. به عنوان مثال، کاراکتر صفحه خوراک/صفحه جدید با عدد 12 مطابقت دارد. این کاراکتر به چاپگر می گوید که به ابتدای صفحه بعدی برود.

جدول کاراکترهای کنترل غیرقابل چاپ ASCII

عدد اعشاری

امضاء کردن

عدد اعشاری

امضاء کردن

انتشار کانال داده

شروع هدر

اولین کد کنترل دستگاه

شروع متن

کد دوم کنترل دستگاه

انتهای متن

کد کنترل دستگاه سوم

پایان انتقال

کد کنترل دستگاه چهارم

پنج نقطه ای

تایید منفی

تائیدیه

حالت انتقال همزمان

سیگنال صوتی

پایان بلوک داده

زبانه افقی

پایان رسانه

تغذیه خط/خط جدید

شخصیت جایگزین

زبانه عمودی

تجاوز

ترجمه صفحه/صفحه جدید

دوازده

جداکننده فایل

برگشت محموله

جداکننده گروه

تغییر بدون ذخیره ارقام

جداکننده رکورد

تغییر حفظ بیت

پانزده

جداکننده داده ها

به هر حال، در وب سایت ما می توانید با استفاده از ماشین حساب آنلاین کد، هر متنی را به کد اعشاری، هگزادسیمال، باینری تبدیل کنید.

جدول ASCII

ASCII (کد استاندارد آمریکایی برای تبادل اطلاعات)

جدول خلاصه کدهای اسکی

جدول کد کاراکتر Windows ASCII (Win-1251)

سمبل

متخصص. جدول بندی

متخصص. LF (کالسکه برگشت)

متخصص. CR (خط جدید)

کلاچ SP (فضا)

سمبل

جدول کد ASCII توسعه یافته

قالب بندی کاراکترها

Backspace (یک کاراکتر برگردانید). حرکت مکانیسم چاپ یا مکان نما نمایشگر را یک موقعیت به عقب نشان می دهد.

جدول بندی افقی (جدول افقی). حرکت موتور چاپ یا مکان نما نمایشگر را به "ایستگاه تب" بعدی تعیین شده نشان می دهد.

تغذیه خط. حرکت موتور چاپ یا مکان نما نمایشگر را تا ابتدای خط بعدی (یک خط به پایین) نشان می دهد.

جدول بندی عمودی (جدول عمودی). حرکت موتور چاپ یا مکان نما نمایشگر را به گروه بعدی خطوط نشان می دهد.

فید فرم (ترجمه صفحه). حرکت موتور چاپ یا مکان نما نمایشگر را به موقعیت اصلی صفحه، فرم یا صفحه بعدی نشان می دهد.

برگشت محموله. حرکت موتور چاپ یا مکان نما نمایشگر را به موقعیت اولیه (سمت چپ) خط فعلی نشان می دهد.

انتقال داده.

شروع سرفصل. برای تعیین شروع یک هدر، که ممکن است حاوی اطلاعات مسیریابی یا آدرس باشد، استفاده می شود.

شروع متن ابتدای متن و در عین حال انتهای عنوان را نشان می دهد.

پایان متن (پایان متن). در انتهای متنی که با کاراکتر STX شروع شده بود اعمال می شود.

استعلام (درخواست). درخواست داده های شناسایی (مانند "تو کی هستی؟") از یک ایستگاه راه دور.

تصدیق (تأیید). دستگاه دریافت کننده این کاراکتر را به عنوان تاییدیه دریافت موفقیت آمیز داده ها برای فرستنده ارسال می کند.

تصدیق منفی (عدم تایید). دستگاه دریافت کننده در صورت انکار (شکست) دریافت داده، این کاراکتر را به فرستنده منتقل می کند.

همزمان/بیکار (همگام سازی). در سیستم های انتقال همزمان استفاده می شود. هنگامی که هیچ انتقال داده ای وجود ندارد، سیستم به طور مداوم کاراکترهای SYN را برای اطمینان از همگام سازی ارسال می کند.

پایان بلوک انتقال پایان یک بلوک داده را برای اهداف ارتباطی نشان می دهد. برای تقسیم مقادیر زیادی از داده ها به بلوک های جداگانه استفاده می شود.

تقسیم کاراکترها در انتقال اطلاعات.

نمادهای دیگر

خالی. (بدون کاراکتر - بدون داده). برای انتقال زمانی که داده ای وجود ندارد استفاده می شود.

زنگ (تماس). برای کنترل دستگاه های هشدار استفاده می شود.

شیفت کردن. نشان می دهد که همه رمزهای بعدی باید بر اساس مجموعه کاراکترهای بیرونی قبل از رسیدن کاراکتر SI تفسیر شوند.

جابجایی در نشان می دهد که کلمات رمز بعدی باید بر اساس مجموعه کاراکترهای استاندارد تفسیر شوند.

Data Link Escape (Switching). تغییر معنی کاراکترهای زیر برای کنترل اضافی یا برای انتقال ترکیب دلخواه از بیت ها استفاده می شود.

DC1، ​​DC2، DC3، DC4

کنترل های دستگاه نمادهایی برای کنترل وسایل کمکی (کارکردهای ویژه).

لغو کنید. نشان می دهد که داده هایی که قبل از این کاراکتر در یک پیام یا بلوک قرار گرفته اند باید نادیده گرفته شوند (معمولاً در صورت بروز خطا).

پایان متوسط ​​(پایان حامل). انتهای فیزیکی نوار یا رسانه های دیگر را نشان می دهد

جانشین (معاون). برای جایگزینی نویسه های اشتباه یا نامعتبر استفاده می شود.

فرار (گسترش). برای گسترش یک کد استفاده می شود که نشان می دهد کاراکتر زیر معنای دیگری دارد.

فضا (فضا). یک کاراکتر غیرچاپی برای جدا کردن کلمات یا حرکت موتور چاپ یا مکان نما نمایشگر یک موقعیت به جلو.

حذف. برای حذف (پاک کردن) کاراکتر قبلی در پیام استفاده می شود

[کدهای 8 بیتی: ASCII، KOI-8R و CP1251] اولین جداول رمزگذاری ایجاد شده در ایالات متحده از بیت هشتم در یک بایت استفاده نمی کرد. متن به صورت دنباله ای از بایت ها ارائه شد، اما بیت هشتم در نظر گرفته نشد (برای اهداف رسمی استفاده شد).

جدول به استاندارد پذیرفته شده تبدیل شده است. ASCII(کد استاندارد آمریکایی برای تبادل اطلاعات). 32 کاراکتر اول جدول ASCII (00 تا 1F) برای کاراکترهای غیرچاپ استفاده شد. آنها برای کنترل دستگاه چاپ و موارد مشابه طراحی شده بودند. بقیه - از 20 تا 7F - کاراکترهای معمولی (قابل چاپ) هستند.

جدول 1 - رمزگذاری ASCII

دسامبرهگزاکتبرCharشرح
0 0 000 خالی
1 1 001 شروع سرفصل
2 2 002 شروع متن
3 3 003 انتهای متن
4 4 004 پایان انتقال
5 5 005 استعلام
6 6 006 اذعان
7 7 007 زنگ
8 8 010 بک اسپیس
9 9 011 زبانه افقی
10 آ 012 خط جدید
11 ب 013 زبانه عمودی
12 سی 014 صفحه جدید
13 دی 015 برگشت محموله
14 E 016 جابجا کردن
15 اف 017 جابجایی در
16 10 020 فرار لینک داده
17 11 021 کنترل دستگاه 1
18 12 022 کنترل دستگاه 2
19 13 023 کنترل دستگاه 3
20 14 024 کنترل دستگاه 4
21 15 025 تصدیق منفی
22 16 026 بیکار همزمان
23 17 027 پایان ترانس مسدود کردن
24 18 030 لغو
25 19 031 پایان متوسط
26 1A 032 جایگزین
27 1B 033 در رفتن
28 1C 034 جداکننده فایل
29 1D 035 جداکننده گروه
30 1E 036 جداکننده رکورد
31 1F 037 جداکننده واحد
32 20 040 فضا
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2 بعدی 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 سه بعدی 075 =
62 3E 076 >
63 3F 077 ?
دسامبرهگزاکتبرChar
64 40 100 @
65 41 101 آ
66 42 102 ب
67 43 103 سی
68 44 104 دی
69 45 105 E
70 46 106 اف
71 47 107 جی
72 48 110 اچ
73 49 111 من
74 4A 112 جی
75 4B 113 ک
76 4C 114 L
77 4 بعدی 115 م
78 4E 116 ن
79 4F 117 O
80 50 120 پ
81 51 121 س
82 52 122 آر
83 53 123 اس
84 54 124 تی
85 55 125 U
86 56 126 V
87 57 127 دبلیو
88 58 130 ایکس
89 59 131 Y
90 5A 132 ز
91 5B 133 [
92 5C 134 \
93 5 بعدی 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 آ
98 62 142 ب
99 63 143 ج
100 64 144 د
101 65 145 ه
102 66 146 f
103 67 147 g
104 68 150 ساعت
105 69 151 من
106 6A 152 j
107 6B 153 ک
108 6C 154 ل
109 6 بعدی 155 متر
110 6E 156 n
111 6F 157 o
112 70 160 پ
113 71 161 q
114 72 162 r
115 73 163 س
116 74 164 تی
117 75 165 تو
118 76 166 v
119 77 167 w
120 78 170 ایکس
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

همانطور که به راحتی می توانید ببینید، فقط حروف لاتین در این رمزگذاری نشان داده شده است، و آنهایی که در انگلیسی استفاده می شوند. نمادهای حسابی و دیگر خدمات نیز وجود دارد. اما هیچ حروف روسی یا حتی حروف لاتین خاص برای آلمانی یا فرانسوی وجود ندارد. توضیح این امر آسان است - رمزگذاری به عنوان یک استاندارد آمریکایی توسعه یافته است. با شروع استفاده از رایانه ها در سراسر جهان، سایر کاراکترها نیاز به کدگذاری داشتند.

برای این کار تصمیم گرفته شد که در هر بایت از بیت هشتم استفاده شود. بنابراین، 128 مقدار بیشتر (از 80 تا FF) در دسترس بود که می‌توان از آنها برای رمزگذاری کاراکترها استفاده کرد. اولین جدول از جدول های هشت بیتی "ASCII توسعه یافته" است ( ASCII توسعه یافته) - شامل انواع مختلفی از حروف لاتین است که در برخی از زبان های اروپای غربی استفاده می شود. همچنین دارای شخصیت های اضافی دیگری از جمله شبه نگاری بود.

کاراکترهای شبه گرافیکی، با نمایش تنها کاراکترهای متنی، اجازه می دهند تا ظاهری از گرافیک ارائه دهند. به عنوان مثال، با استفاده از شبه نگاری، برنامه مدیریت فایل FAR Manager کار می کند.

هیچ حرف روسی در جدول Extended ASCII وجود نداشت. در روسیه (سابق اتحاد جماهیر شوروی سابق) و در سایر ایالت ها، رمزگذاری های خاص آنها ایجاد شد که نشان دادن کاراکترهای "ملی" خاص در فایل های متنی 8 بیتی - حروف لاتین زبان های لهستانی و چکی، سیریلیک (از جمله حروف روسی) را ممکن ساخت. و الفبای دیگر

در تمام رمزگذاری هایی که گسترده شده اند، 127 کاراکتر اول (یعنی مقادیر بایت با بیت هشتم برابر با 0) مانند ASCII است. بنابراین یک فایل ASCII در هر یک از این کدگذاری ها کار می کند. حروف زبان انگلیسی به همین ترتیب نشان داده می شوند.

سازمان ISO(سازمان بین المللی استاندارد - سازمان بین المللی استاندارد) گروهی از استانداردها را پذیرفت ISO 8859. رمزگذاری های 8 بیتی را برای گروه های مختلف زبان ها تعریف می کند. بنابراین، ISO 8859-1 Extended ASCII است، جدولی برای ایالات متحده و اروپای غربی. و ISO 8859-5 جدولی برای سیریلیک (از جمله روسی) است.

با این حال، به دلایل تاریخی، کدگذاری ISO 8859-5 مورد توجه قرار نگرفت. در واقع، رمزگذاری های زیر برای زبان روسی استفاده می شود:

کد صفحه 866 ( CP866او همچنین "DOS" است، او همچنین "کدگذاری جایگزین GOST" است. تا اواسط دهه 1990 به طور گسترده مورد استفاده قرار گرفت. در حال حاضر در استفاده محدود عملاً برای توزیع متون در اینترنت استفاده نمی شود.
- KOI-8. در دهه 70 و 80 توسعه یافت. این یک استاندارد عمومی پذیرفته شده برای ارسال پیام های پستی در اینترنت روسیه است. همچنین به طور گسترده در سیستم عامل های خانواده یونیکس از جمله لینوکس استفاده می شود. نسخه KOI-8، طراحی شده برای روسی، نامیده می شود KOI-8R; نسخه هایی برای سایر زبان های سیریلیک وجود دارد (به عنوان مثال، KOI8-U یک نوع برای زبان اوکراینی است).
- کد صفحه 1251، CP1251، Windows-1251. توسط مایکروسافت برای پشتیبانی از زبان روسی در سیستم ویندوز توسعه یافته است.

مزیت اصلی CP866 حفظ کاراکترهای شبه در همان مکان‌هایی بود که در Extended ASCII وجود داشت. بنابراین، برنامه های متنی خارجی، به عنوان مثال، فرمانده معروف نورتون، می توانند بدون تغییر کار کنند. CP866 در حال حاضر برای برنامه های ویندوزی که در پنجره های متنی یا در حالت متن تمام صفحه اجرا می شوند، از جمله FAR Manager استفاده می شود.

متن در CP866 در سال های اخیر بسیار نادر است (اما برای رمزگذاری نام فایل های روسی در ویندوز استفاده می شود). بنابراین، ما در مورد دو رمزگذاری دیگر - KOI-8R و CP1251 صحبت خواهیم کرد.



همانطور که می بینید، در جدول رمزگذاری CP1251، حروف روسی به ترتیب حروف الفبا مرتب شده اند (البته به استثنای حرف YO). این ترتیب مرتب سازی بر اساس حروف الفبا را برای برنامه های کامپیوتری بسیار آسان می کند.

اما در KOI-8R ترتیب حروف روسی تصادفی به نظر می رسد. اما در واقع اینطور نیست.

در بسیاری از برنامه های قدیمی تر، بیت هشتم هنگام پردازش یا انتقال متن از بین می رفت. (اکنون چنین برنامه هایی عملا "منقرض" شده اند، اما در اواخر دهه 80 و اوایل دهه 90 آنها گسترده بودند). برای به دست آوردن یک مقدار 7 بیتی از یک مقدار 8 بیتی، کافی است 8 را از رقم مرتبه بالا کم کنید. به عنوان مثال، E1 می شود 61.

اکنون KOI-8R را با جدول ASCII مقایسه کنید (جدول 1). متوجه خواهید شد که حروف روسی کاملاً مطابق با حروف لاتین هستند. اگر بیت هشتم ناپدید شود، حروف کوچک روسی به حروف لاتین بزرگ و حروف روسی بزرگ به حروف کوچک لاتین تبدیل می شوند. بنابراین، E1 در KOI-8 روسی "A" است، در حالی که 61 در ASCII لاتین "a" است.

بنابراین، KOI-8 به شما اجازه می دهد تا با از دست دادن بیت هشتم، خوانایی متن روسی را حفظ کنید. "سلام به همه" به "pRIWET WSEM" تبدیل می شود.

اخیراً هم ترتیب حروف الفبای کاراکترها در جدول رمزگذاری و هم خوانایی با از دست دادن بیت هشتم اهمیت تعیین کننده خود را از دست داده اند. بیت هشتم در رایانه های مدرن چه در حین انتقال و چه در حین پردازش از بین نمی رود. و مرتب سازی بر اساس حروف الفبا با در نظر گرفتن رمزگذاری انجام می شود و نه مقایسه ساده کدها. (به هر حال، کدهای CP1251 کاملاً حروف الفبا نیستند - حرف Y در جای خود نیست).

با توجه به این واقعیت که دو رمزگذاری رایج وجود دارد، هنگام کار با اینترنت (ایمیل، مرور وب سایت ها)، گاهی اوقات می توانید مجموعه ای بی معنی از حروف را به جای متن روسی مشاهده کنید. به عنوان مثال، "من SBYFEMHEL هستم". این فقط عبارت "با احترام" است. اما آنها در رمزگذاری CP1251 کدگذاری شدند و کامپیوتر متن را مطابق جدول KOI-8 رمزگشایی کرد. اگر همان کلمات، برعکس، در KOI-8 رمزگذاری شده باشند، و کامپیوتر متن را مطابق جدول CP1251 رمزگشایی کند، نتیجه "U HCHBTSEOEN" خواهد بود.

گاهی اوقات اتفاق می افتد که کامپیوتر حروف روسی زبان را رمزگشایی می کند و حتی طبق جدولی که برای زبان روسی در نظر گرفته نشده است. سپس، به جای حروف روسی، مجموعه ای از کاراکترهای بی معنی ظاهر می شود (به عنوان مثال، حروف لاتین زبان های اروپای شرقی). آنها اغلب به عنوان "کروکوس" نامیده می شوند.

در بیشتر موارد، برنامه های مدرن به تنهایی قادر به تعیین رمزگذاری اسناد اینترنتی (ایمیل ها و صفحات وب) هستند. اما گاهی اوقات آنها "اشتباه" می کنند و سپس می توانید دنباله های عجیبی از حروف روسی یا "تمساح" را مشاهده کنید. به عنوان یک قاعده، برای نمایش متن واقعی در چنین شرایطی، کافی است رمزگذاری را به صورت دستی در منوی برنامه انتخاب کنید.

از اطلاعات صفحه http://open-office.edusite.ru/TextProcessor/p5aa1.html برای مقاله استفاده شد.

مطالب برگرفته از سایت:

برترین مقالات مرتبط