کد باینری جدول کاراکتر Ascii. رمزگذاری ASCII (کد استاندارد آمریکایی برای تبادل اطلاعات) - رمزگذاری متن اصلی برای لاتین

11.08.2019 بررسی ها

بیایید حقایقی را که می دانیم به خاطر بسپاریم:

به مجموعه علائمی که متن با آن نوشته می شود الفبا می گویند.

تعداد کاراکترهای الفبای اصلی آن است.

فرمول تعیین مقدار اطلاعات: N = 2 b،

که در آن N اصل الفبا (تعداد کاراکترها) است.

ب - تعداد بیت ها (وزن اطلاعاتی کاراکتر).

حروف الفبا با ظرفیت 256 کاراکتر می تواند تقریباً تمام کاراکترهای لازم را در خود جای دهد. چنین الفبای کافی نامیده می شود.

زیرا 256 = 2 8 ، سپس وزن 1 کاراکتر 8 بیت است.

واحد 8 بیتی 1 بایت نامگذاری شد:

1 بایت = 8 بیت.

کد باینری هر کاراکتر در متن کامپیوتر 1 بایت حافظه اشغال می کند.

اطلاعات متنی چگونه در حافظه کامپیوتر نمایش داده می شود؟

رمزگذاری به این معنی است که به هر کاراکتر یک کد اعشاری منحصر به فرد از 0 تا 255 یا کد باینری مربوطه از 00000000 تا 11111111 اختصاص داده می شود. بنابراین، شخص کاراکترها را با سبک آنها و رایانه را با کد آنها متمایز می کند.

راحتی رمزگذاری بایت کاراکترها واضح است، زیرا یک بایت کوچکترین بخش آدرس پذیر حافظه است و بنابراین، پردازنده می تواند به هر کاراکتر جداگانه دسترسی داشته باشد و پردازش متن را انجام دهد. از سوی دیگر، 256 کاراکتر برای نشان دادن طیف گسترده ای از اطلاعات کاراکترها، عددی کاملاً کافی است.

حال این سوال پیش می آید که چه نوع کد باینری هشت بیتی را به هر کاراکتر مرتبط کنیم.

واضح است که این یک موضوع مشروط است، شما می توانید بسیاری از روش های رمزگذاری را ارائه دهید.

جدول ASCII استاندارد بین المللی برای PC شد (بخوانید asci) (کد استاندارد آمریکایی برای تبادل اطلاعات).

استاندارد بین المللی فقط نیمه اول جدول است، یعنی. کاراکترهایی با اعداد از 0 (00000000) تا 127 (01111111).

شماره سریال		سمبل
	00000000 - 00011111	عملکرد آنها کنترل فرآیند نمایش متن روی صفحه یا چاپ، دادن سیگنال صوتی، علامت گذاری متن و غیره است.
32 - 127	00100000 - 01111111
128 - 255	10000000 - 11111111	نیمه دوم جدول کد ASCII که صفحه کد نامیده می شود (128 کد، از 10000000 شروع می شود و با 11111111 ختم می شود)، می تواند انواع مختلفی داشته باشد، هر گونه شماره خود را دارد.

توجه شما را به این نکته جلب می کنم که در جدول رمزگذاری حروف (بزرگ و کوچک) به ترتیب حروف الفبا و اعداد به ترتیب مقادیر به صورت صعودی مرتب شده اند. به این رعایت نظم واژگانی در چینش حروف، اصل رمزگذاری ترتیبی الفبا می گویند.

در حال حاضر رایج ترین رمزگذاری مایکروسافت ویندوز است که به اختصار CP1251 نامیده می شود.

از اواخر دهه 90، مشکل استانداردسازی کدنویسی کاراکتر با معرفی یک استاندارد بین المللی جدید به نام یونیکد حل شد. ... این یک رمزگذاری 16 بیتی است. برای هر کاراکتر 2 بایت حافظه اختصاص می دهد. البته این میزان حافظه استفاده شده را دو برابر می کند. اما از طرف دیگر، چنین جدول کدی امکان گنجاندن حداکثر 65536 کاراکتر را فراهم می کند. مشخصات کامل استاندارد یونیکد شامل تمام الفبای موجود، منقرض شده و مصنوعی جهان و همچنین بسیاری از نمادهای ریاضی، موسیقایی، شیمیایی و غیره است.

بیایید سعی کنیم از جدول ASCII استفاده کنیم تا تصور کنیم کلمات در حافظه کامپیوتر چگونه به نظر می رسند.

کلمات

حافظه

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

هنگامی که اطلاعات متنی در رایانه وارد می شود، کاراکترها (حروف، اعداد، علائم) با استفاده از سیستم های کدگذاری مختلف رمزگذاری می شوند که از مجموعه ای از جداول کد واقع در صفحات مربوطه استانداردهای کدگذاری اطلاعات متنی تشکیل شده است. در چنین جداول، به هر کاراکتر یک کد عددی خاص در نماد هگزادسیمال یا اعشاری اختصاص داده می‌شود، یعنی جداول کد مطابقت بین تصاویر کاراکتر و کدهای عددی را منعکس می‌کنند و برای رمزگذاری و رمزگشایی اطلاعات متنی طراحی شده‌اند. هنگام وارد کردن اطلاعات متنی با استفاده از صفحه کلید کامپیوتر، هر کاراکتر ورودی کدگذاری می شود، یعنی به یک کد عددی تبدیل می شود؛ زمانی که اطلاعات متنی به یک دستگاه خروجی کامپیوتر (نمایشگر، چاپگر یا پلاتر) خروجی می شود، تصویر آن با استفاده از کد عددی کاراکتر تخصیص یک کد عددی خاص به یک نماد نتیجه توافق بین سازمان های مربوطه در کشورهای مختلف است. در حال حاضر، هیچ جدول کد جهانی واحدی وجود ندارد که حروف الفبای ملی کشورهای مختلف را برآورده کند.

جداول کد مدرن شامل بخش های بین المللی و ملی است، یعنی شامل حروف الفبای لاتین و ملی، اعداد، علائم عملیات حسابی و نقطه گذاری، کاراکترهای ریاضی و کنترلی، نمادهای شبه گرافیکی است. بخش بین المللی جدول کد بر اساس استاندارد ASCII (کد استاندارد آمریکایی برای تبادل اطلاعات)،نیمه اول کاراکترهای جدول کد را با کدهای عددی 0 تا 7 رمزگذاری می کند F 16یا به صورت اعشاری از 0 تا 127. کدهای 0 تا 20 16 (0؟ 32 10) به کلیدهای عملکرد (F1، F2، F3، و غیره) صفحه کلید رایانه شخصی اختصاص داده می شوند. در شکل 3.1 بخش بین المللی جداول کد را بر اساس استاندارد نشان می دهد ASCII.سلول های جدول به ترتیب به صورت اعشاری و هگزادسیمال شماره گذاری می شوند.

شکل 3.1. بخش بین المللی جدول کد (استاندارد ASCII)با اعداد سلولی ارائه شده در سیستم اعداد اعشاری (a) و هگزادسیمال (ب).

قسمت ملی جداول کد حاوی کدهای الفبای ملی است که به آن جدول مجموعه کاراکتر نیز می گویند. (مجموعه شخصیت).

در حال حاضر، برای پشتیبانی از حروف الفبای روسی (سیریلیک)، چندین جدول کد (رمزگذاری) وجود دارد که توسط سیستم عامل های مختلف استفاده می شود، که یک اشکال قابل توجه است و در برخی موارد منجر به مشکلات مرتبط با عملیات رمزگشایی عددی می شود. ارزش های شخصیت ها جدول 3.1 نام صفحات کد (استانداردها) را فهرست می کند که جداول کد (رمزگذاری) الفبای سیریلیک در آنها قرار دارد.

جدول 3.1

یکی از اولین استانداردها برای رمزگذاری الفبای سیریلیک در رایانه، استاندارد KOI8-R بود. بخش ملی جدول کد این استاندارد در شکل 1 نشان داده شده است. 3.2.

برنج. 3.2. بخش ملی جدول کد استاندارد KOI8-R

در حال حاضر از جدول کدهای موجود در صفحه CP866 استاندارد کدگذاری اطلاعات متنی مورد استفاده در سیستم عامل نیز استفاده می شود. ام اس داسیا جلسه ام اس داسبرای رمزگذاری الفبای سیریلیک (شکل 3.3، آ).

برنج. 3.3. بخش ملی جدول کد، واقع در صفحه CP866 (الف) و در صفحه CP1251 (ب) استاندارد کدگذاری اطلاعات متنی

در حال حاضر پرکاربردترین جدول کد برای رمزگذاری الفبای سیریلیک در صفحه CP1251 استاندارد مربوطه قرار دارد که در سیستم عامل های خانواده مورد استفاده قرار می گیرد. پنجره هاشرکت ها مایکروسافت(شکل 3.2، ب).در تمام جداول کد ارائه شده به جز جدول استاندارد یونیکد، 8 رقم باینری (8 بیت) برای رمزگذاری یک کاراکتر اختصاص داده شده است.

در پایان قرن گذشته، یک استاندارد بین المللی جدید ظاهر شد یونیکد،که در آن یک کاراکتر با یک کد باینری دو بایتی نمایش داده می شود. استفاده از این استاندارد ادامه توسعه یک استاندارد جهانی جهانی است که اجازه می دهد تا مشکل سازگاری رمزگذاری شخصیت های ملی را حل کند. با این استاندارد می توان 2 16 = 65536 کاراکتر مختلف را کدگذاری کرد. در شکل 3.4 جدول کد 0400 (الفبای روسی) استاندارد است یونیکد.

برنج. 3.4. جدول کد 0400 استاندارد یونیکد

اجازه دهید آنچه را که در مورد رمزگذاری اطلاعات متنی گفته شد با یک مثال روشن کنیم.

مثال 3.1

کلمه "رایانه" را به عنوان دنباله ای از اعداد اعشاری و هگزادسیمال با استفاده از رمزگذاری CP1251 رمزگذاری کنید. هنگام استفاده از کد دریافتی چه کاراکترهایی در جداول کد CP866 و KOI8-R نمایش داده می شود.

دنباله کدهای هگزادسیمال و باینری کلمه "رایانه" بر اساس جدول کدگذاری CP1251 (نگاه کنید به شکل 3.3، ب)به این صورت خواهد بود:

این دنباله کد در رمزگذاری CP866 و KOI8-R منجر به نمایش کاراکترهای زیر می شود:

برای تبدیل اسناد متنی به زبان روسی از یک استاندارد رمزگذاری متن به دیگری، از برنامه های ویژه - مبدل ها استفاده می شود. مبدل ها معمولا در برنامه های دیگر ساخته می شوند. یک مثال می تواند یک برنامه مرورگر باشد - اینترنت اکسپلورر (IE)که دارای مبدل داخلی می باشد. برنامه مرورگر یک برنامه ویژه برای مشاهده محتوا است صفحات وبدر شبکه جهانی کامپیوتر اینترنت. بیایید از این برنامه برای تایید نتیجه نمایش علائم به دست آمده در مثال 3.1 استفاده کنیم. برای این کار اقدامات زیر را انجام می دهیم.

1. برنامه Notepad را اجرا کنید (نوت پد).برنامه Notepad در سیستم عامل ویندوز XPبا فرمان راه اندازی می شود: [دکمه شروع کنید- برنامه ها - استاندارد - دفترچه یادداشت]. در پنجره Notepad باز شده، کلمه "Computer" را با استفاده از نحو زبان نشانه گذاری اسناد فرامتن تایپ کنید - HTML (زبان نشانه گذاری هایپر متن).این زبان برای ایجاد اسناد در اینترنت استفاده می شود. متن باید به شکل زیر باشد:

کامپی واتر

، جایی که

و

برچسب ها (ساختارهای خاص) زبان Htmlبرای نشانه گذاری سرصفحه ها در شکل 3.5 نتیجه این اقدامات را نشان می دهد.

برنج. 3.5. نمایش متن در پنجره Notepad

بیایید این متن را با اجرای دستور: [File - Save As ...] در پوشه مربوطه کامپیوتر ذخیره کنیم، هنگام ذخیره متن، یک نام به فایل - Approx، با پسوند فایل اختصاص می دهیم. html

2. برنامه را اجرا کنید اینترنت اکسپلورر،با اجرای دستور: [دکمه شروع کنید- برنامه ها - اینترنت اکسپلورر].هنگامی که برنامه شروع می شود، پنجره نشان داده شده در شکل. 3.6

برنج. 3.6. پنجره دسترسی آفلاین

دکمه را انتخاب و فعال کنید آفلایندر این صورت کامپیوتر به اینترنت جهانی متصل نخواهد شد. پنجره اصلی برنامه ظاهر می شود مایکروسافت اینترنت اکسپلورر،نشان داده شده در شکل 3.7.

برنج. 3.7. پنجره اصلی Microsoft Internet Explorer

دستور زیر را اجرا کنید: [File - Open]، پنجره ای ظاهر می شود (شکل 3.8) که در آن باید نام فایل را مشخص کرده و کلیک کنید. خوبیا دکمه را فشار دهید بررسی اجمالی…و فایل App.html را پیدا کنید.

برنج. 3.8. باز کردن پنجره

پنجره اصلی اینترنت اکسپلورر به شکل نشان داده شده در شکل. 3.9. در پنجره، کلمه "کامپیوتر" نمایش داده می شود. علاوه بر این، با استفاده از منوی بالای برنامه اینترنت اکسپلورر،دستور زیر را اجرا کنید: [View - Encoding - Cyrillic (DOS)].پس از اجرای این دستور در پنجره برنامه اینترنت Ехplorerنمادهای نشان داده شده در شکل 3.10. هنگام اجرای دستور: [View - Encoding - Cyrillic (KOI8-R)]در پنجره برنامه اینترنت اکسپلوررنمادهای نشان داده شده در شکل 3.11.

برنج. 3.9. نویسه هایی که هنگام کدگذاری CP1251 نمایش داده می شوند

برنج. 3.10. وقتی رمزگذاری CP866 برای دنباله کد ارائه شده در رمزگذاری CP1251 فعال است، نویسه‌هایی نمایش داده می‌شوند.

برنج. 3.11. وقتی رمزگذاری KOI8-R برای دنباله کد ارائه شده در رمزگذاری CP1251 روشن می شود، نویسه هایی نمایش داده می شوند.

بنابراین، با برنامه به دست آمده است اینترنت اکسپلوررتوالی کاراکترها با توالی کاراکترهای به دست آمده با استفاده از جداول کد CP866 و KOI8-R در مثال 3.1 منطبق است.

3.2. رمزگذاری اطلاعات گرافیکی

اطلاعات گرافیکی ارائه شده در قالب نقاشی، عکس، اسلاید، تصاویر متحرک (انیمیشن، ویدئو)، نمودارها، نقشه ها را می توان با استفاده از کامپیوتر ایجاد و ویرایش کرد، در حالی که به طور مناسب کدگذاری شده است. در حال حاضر، تعداد نسبتا زیادی برنامه برای پردازش اطلاعات گرافیکی وجود دارد، اما همه آنها سه نوع گرافیک کامپیوتری را اجرا می کنند: شطرنجی، برداری و فراکتال.

اگر به تصویر گرافیکی روی صفحه مانیتور رایانه نگاه دقیق تری بیندازید، می توانید تعداد زیادی نقطه چند رنگ (پیکسل - از انگلیسی) را مشاهده کنید. پیکسل،تحصیل کرده از عنصر تصویر -عنصر تصویر)، که وقتی کنار هم قرار می گیرند، یک تصویر گرافیکی مشخص را تشکیل می دهند. از اینجا می توان نتیجه گرفت: یک تصویر گرافیکی در رایانه به روش خاصی کدگذاری می شود و باید در قالب یک فایل گرافیکی ارائه شود. فایل واحد ساختاری اصلی سازماندهی و ذخیره سازی داده ها در رایانه است و در این مورد باید حاوی اطلاعاتی در مورد نحوه نمایش این مجموعه از نقاط روی صفحه نمایشگر باشد.

فایل‌های ایجاد شده بر اساس گرافیک برداری حاوی اطلاعاتی به شکل وابستگی‌های ریاضی (توابع ریاضی که روابط خطی را توصیف می‌کنند) و داده‌های مربوطه در مورد نحوه ساخت تصویری از یک شی با استفاده از بخش‌های خط (بردار) هنگام نمایش آن بر روی مانیتور کامپیوتر است. .

فایل‌هایی که بر اساس گرافیک شطرنجی ایجاد می‌شوند، ذخیره داده‌های مربوط به هر نقطه در تصویر را فرض می‌کنند. برای نمایش گرافیک شطرنجی، نیازی به محاسبات پیچیده ریاضی نیست، فقط کافی است اطلاعات مربوط به هر نقطه از تصویر (مختصات و رنگ آن) را بدست آورید و آنها را روی صفحه کامپیوتر نمایش دهید.

در فرآیند کدگذاری یک تصویر، نمونه برداری فضایی آن انجام می شود، یعنی تصویر به نقاط مجزا تقسیم می شود و به هر نقطه کد رنگی (زرد، قرمز، آبی و ...) اختصاص می یابد. برای رمزگذاری هر نقطه از یک تصویر گرافیکی رنگی، اصل تجزیه یک رنگ دلخواه به اجزای اصلی آن اعمال می شود که سه رنگ اصلی هستند: قرمز (کلمه انگلیسی قرمز،با حرف مشخص کنید به)،سبز (سبز،با حرف مشخص کنید ز)آبی (آبی،با راش نشان داده شود V).هر رنگ نقطه ای که توسط چشم انسان درک شود را می توان با افزودن (اختلاط) افزودنی (متناسب) سه رنگ اصلی - قرمز، سبز و آبی به دست آورد. این سیستم کدگذاری سیستم رنگ نامیده می شود. RGB.فایل های گرافیکی که از سیستم رنگی استفاده می کنند RGB،هر نقطه از تصویر را به عنوان یک سه رنگ - سه مقدار عددی نشان دهید R، Gو V،متناسب با شدت رنگ های قرمز، سبز و آبی. فرآیند رمزگذاری یک تصویر گرافیکی با استفاده از ابزارهای فنی مختلف (اسکنر، دوربین دیجیتال، دوربین فیلمبرداری دیجیتال و غیره) انجام می شود. نتیجه یک بیت مپ است. هنگام بازتولید گرافیک رنگی روی یک مانیتور کامپیوتر رنگی، رنگ هر نقطه (پیکسل) چنین تصویری با ترکیب سه رنگ اصلی به دست می آید. R، Gو ب.

کیفیت یک تصویر شطرنجی توسط دو پارامتر اصلی تعیین می شود - وضوح (تعداد نقاط افقی و عمودی) و پالت رنگ استفاده شده (تعداد رنگ های مشخص شده برای هر نقطه در تصویر). وضوح با تعیین تعداد نقاط به صورت افقی و عمودی، به عنوان مثال، 800 در 600 نقطه تنظیم می شود.

بین تعداد رنگ های مشخص شده برای یک نقطه در یک تصویر شطرنجی و مقدار اطلاعاتی که باید برای ذخیره رنگ یک نقطه انتخاب شود، رابطه وجود دارد که با این رابطه تعیین می شود (فرمول R. Hartley):

جایی که من- مقدار اطلاعات؛ ن -تعداد رنگ های داده شده به نقطه

به مقدار اطلاعات مورد نیاز برای ذخیره رنگ یک نقطه، عمق رنگ یا کیفیت رنگ نیز گفته می شود.

بنابراین، اگر تعداد رنگ های مشخص شده برای نقطه تصویر باشد N = 256، سپس مقدار اطلاعات مورد نیاز برای ذخیره آن (عمق رنگ) مطابق با فرمول (3.1) برابر خواهد بود. من= 8 بیت

رایانه ها از حالت های مختلف نمایش گرافیکی برای نمایش اطلاعات گرافیکی استفاده می کنند. در اینجا لازم به ذکر است که علاوه بر حالت گرافیکی مانیتور، حالت متنی نیز وجود دارد که در آن صفحه نمایش مانیتور به طور معمول به 25 خط 80 کاراکتری در هر خط تقسیم می شود. این حالت های گرافیکی با وضوح صفحه نمایش مانیتور و کیفیت رنگ (عمق رنگ) مشخص می شوند. برای تنظیم حالت گرافیکی صفحه نمایش مانیتور در سیستم عامل MS ویندوز XPشما باید دستور را اجرا کنید: [Button شروع کنید- تنظیمات - کنترل پنل - صفحه نمایش]. در کادر محاوره ای «Properties: Display» که ظاهر می شود (شکل 3.12)، زبانه «Parameters» را انتخاب کرده و از نوار لغزنده «Resolution Screen» برای انتخاب وضوح صفحه نمایش مناسب (800 در 600 پیکسل، 1024 در 768 پیکسل و غیره) استفاده کنید. ). با استفاده از لیست کشویی «کیفیت رنگ»، می‌توانید عمق رنگ را انتخاب کنید - «بیشترین (32 بیت)»، «متوسط (16 بیت)»، و غیره، در حالی که تعداد رنگ‌های اختصاص داده شده به هر نقطه تصویر به ترتیب خواهد بود. برابر با 2 32 (4294967296)، 2 16 (65536)، و غیره.

برنج. 3.12. کادر گفتگوی ویژگی های نمایش

برای پیاده سازی هر یک از حالت های گرافیکی صفحه مانیتور، حجم اطلاعات مشخصی از حافظه ویدئویی کامپیوتر مورد نیاز است. حجم اطلاعات مورد نیاز حافظه ویدئویی (V)از رابطه مشخص می شود

جایی که به -تعداد نقاط تصویر روی صفحه نمایشگر (K = A · B)؛ آ -تعداد نقاط افقی روی صفحه مانیتور؛ V -تعداد نقاط عمودی روی صفحه مانیتور؛ من- میزان اطلاعات (عمق رنگ).

بنابراین، اگر صفحه نمایش مانیتور دارای وضوح 1024 در 768 پیکسل و یک پالت متشکل از 65536 رنگ باشد، عمق رنگ مطابق با فرمول (3.1) I = log 2 65 538 = 16 بیت، تعداد تصویر خواهد بود. امتیاز برابر خواهد بود با: K = 1024 x 768 = 786432 و حجم اطلاعات مورد نیاز حافظه ویدیویی مطابق با (3.2) برابر خواهد بود.

V = 786432 16 بیت = 12582912 بیت = 1572864 بایت = 1536 کیلوبایت = 1.5 مگابایت.

در خاتمه لازم به ذکر است که علاوه بر مشخصات ذکر شده، مهمترین ویژگی مانیتور، ابعاد هندسی صفحه نمایش و نقاط تصویر آن است. ابعاد هندسی صفحه نمایش توسط مورب مانیتور تنظیم می شود. اندازه مورب مانیتورها بر حسب اینچ تنظیم می شود (1 اینچ = 1 "= 25.4 میلی متر) و می تواند مقادیری برابر با: 14، 15 "، 17، 21" و غیره داشته باشد. فناوری های مدرن تولید مانیتور می توانند اندازه پیکسل برابر با 0.22 میلی متر.

بنابراین، برای هر مانیتور حداکثر وضوح صفحه نمایش ممکن از لحاظ فیزیکی وجود دارد که با اندازه قطر آن و اندازه نقطه تصویر تعیین می شود.

تمرین هایی برای خودشکوفایی

1. استفاده از برنامه MS Excelجداول کد ASCII، CP866، CP1251، KOI8-R را به جداول به این شکل تبدیل کنید: حروف لاتین و سیریلیک بزرگ و کوچک را به ترتیب حروف الفبا در سلول های ستون اول جداول بنویسید؛ ستون سوم - حروف مربوط به کدها در سیستم اعداد هگزادسیمال مقادیر کد باید از جداول کد مربوطه انتخاب شوند.

2. کلمات زیر را به صورت دنباله ای از اعداد به صورت اعشاری و هگزادسیمال رمزگذاری کرده و یادداشت کنید:

آ) اینترنت اکسپلورر،ب) مایکروسافت آفیس؛ v) کورل دراو.

کدگذاری را با استفاده از جدول رمزگذاری مدرن ASCII که در تمرین قبلی به دست آمد انجام دهید.

3. دنباله اعداد نوشته شده در سیستم اعداد هگزادسیمال را با استفاده از جدول کدگذاری مدرن KOI8-R رمزگشایی کنید:

الف) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

ب) EB CF CE C6 CF D2 CD C9 DA CD;

ج) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. کلمه "Cybernetics" نوشته شده در رمزگذاری CP1251 هنگام استفاده از رمزگذاری های CP866 و KOI8-R چگونه خواهد بود؟ نتایج به دست آمده را با استفاده از برنامه بررسی کنید اینترنت اکسپلورر.

5. با استفاده از جدول کد نشان داده شده در شکل. 3.1 آ،دنباله کدهای زیر را که در نماد دودویی نوشته شده اند رمزگشایی کنید:

الف) 01010111 01101111 01110010 01100100؛

ب) 01000101 01111000 01100011 01100101 01101100;

ج) 01000001 01100011 01100011 01100101 01110011 01110011.

6. حجم اطلاعاتی کلمه "Economy" را با استفاده از جداول کد CP866، CP1251، Unicode و KOI8-R رمزگذاری شده تعیین کنید.

7. حجم اطلاعات فایلی را که در نتیجه اسکن یک تصویر رنگی 12*12 سانتی متری به دست می آید را تعیین کنید وضوح اسکنر مورد استفاده برای اسکن این تصویر 600 dpi است. اسکنر عمق رنگ پیکسل تصویر را روی 16 بیت تنظیم می کند.

وضوح اسکنر 600 dpi (اینچ نقطه ای -نقطه در هر اینچ) توانایی یک اسکنر با چنین وضوحی را برای تشخیص 600 نقطه در یک بخش 1 اینچی تعیین می کند.

8. حجم اطلاعات فایل به دست آمده در نتیجه اسکن تصویر رنگی در اندازه A4 را تعیین کنید. وضوح اسکنر مورد استفاده برای اسکن این تصویر 1200 dpi است. اسکنر عمق رنگ پیکسل تصویر را روی 24 بیت تنظیم می کند.

9. تعداد رنگ های پالت را در عمق رنگ های 8، 16، 24 و 32 بیت تعیین کنید.

10. مقدار حافظه ویدئویی مورد نیاز را برای حالت های نمایش گرافیکی مانیتور 640 در 480، 800 در 600، 1024 در 768 و 1280 در 1024 پیکسل در عمق رنگ نقطه تصویر 8، 16، 24 و 32 بیت تعیین کنید. نتایج جدول بندی شده است. توسعه در MS Excelبرنامه ای برای خودکارسازی محاسبات

11. حداکثر تعداد رنگ هایی را که می توان برای ذخیره یک تصویر 32 در 32 پیکسل استفاده کرد، در صورتی که کامپیوتر 2 کیلوبایت حافظه اختصاص داده شده برای تصویر داشته باشد، تعیین کنید.

12. حداکثر وضوح ممکن صفحه نمایش مانیتور با طول مورب 15 اینچ و اندازه پیکسل 0.28 میلی متر را تعیین کنید.

13. حافظه تصویری 64 مگابایتی چه حالت های گرافیکی عملکرد مانیتور را می تواند ارائه دهد؟

سوزاندن

I. تاریخچه کدگذاری اطلاعات ………………………………… ..3

II. کدگذاری اطلاعات ……………………………………… 4

III. کدگذاری اطلاعات متنی ……………………………………………………………………

IV. انواع جداول رمزگذاری…………………………………………………………………………………………………………………………

V. محاسبه مقدار اطلاعات متنی ……………………… 14

فهرست ادبیات مورد استفاده ………………………………………………………………………………………………

من . تاریخچه رمزگذاری اطلاعات

بشریت از همان لحظه ای که اولین اطلاعات مخفی ظاهر شد، از رمزگذاری (رمزگذاری) متن استفاده می کرد. قبل از شما چندین روش برای کدگذاری متن وجود دارد که در مراحل مختلف توسعه فکر بشر ابداع شده است:

رمزنگاری یک نوشته مخفی است، سیستمی برای تغییر یک حرف با هدف غیرقابل درک کردن متن برای افراد ناآشنا.

کد مورس یا کد تلگراف نامنظم، که در آن هر حرف یا کاراکتر با ترکیب خاص خود از تراشه‌های جریان الکتریکی کوتاه (نقطه) و تراشه‌های مدت سه‌گانه (خط تیره) نشان داده می‌شود.

زبان اشاره زبان اشاره ای است که توسط افراد دارای اختلالات شنوایی استفاده می شود.

یکی از اولین روش های رمزگذاری شناخته شده به نام امپراتور روم ژولیوس سزار (قرن اول قبل از میلاد) نامگذاری شده است. این روش مبتنی بر جایگزینی هر حرف از متن رمزگذاری شده با حروف دیگری است، با جابجایی حروف الفبا از حرف اصلی توسط تعداد ثابتی از کاراکترها، و الفبا به صورت دایره ای خوانده می شود، یعنی بعد از حرف i، a است. در نظر گرفته شده. بنابراین کلمه "بایت" هنگامی که توسط دو کاراکتر به سمت راست منتقل می شود با کلمه "gvlf" رمزگذاری می شود. فرآیند معکوس رمزگشایی یک کلمه داده شده - لازم است هر حرف رمزگذاری شده را با حرف دوم در سمت چپ آن جایگزین کنید.

II. کدگذاری اطلاعات

کد مجموعه ای از قراردادها (یا سیگنال ها) برای ضبط (یا انتقال) برخی مفاهیم از پیش تعریف شده است.

کدگذاری اطلاعات فرآیند تشکیل یک نمایش خاص از اطلاعات است. در معنای محدودتر، اصطلاح "کدگذاری" اغلب به عنوان انتقال از یک شکل ارائه اطلاعات به شکل دیگر درک می شود که برای ذخیره سازی، انتقال یا پردازش راحت تر است.

معمولاً هر تصویر وقتی رمزگذاری می شود (گاهی اوقات می گویند - رمزگذاری شده) با یک علامت جداگانه نشان داده می شود.

نشانه عنصری از مجموعه محدودی از عناصر متمایز است.

در معنای محدودتر، اصطلاح "کدگذاری" اغلب به عنوان انتقال از یک شکل ارائه اطلاعات به شکل دیگر درک می شود که برای ذخیره سازی، انتقال یا پردازش راحت تر است.

کامپیوتر می تواند اطلاعات متنی را پردازش کند. هنگامی که وارد رایانه می‌شود، هر حرف با یک عدد مشخص کدگذاری می‌شود و هنگام خروجی به دستگاه‌های خارجی (صفحه نمایش یا چاپ)، تصاویر حروف برای درک انسان با استفاده از این اعداد ساخته می‌شوند. مطابقت بین مجموعه ای از حروف و اعداد را رمزگذاری کاراکتر می گویند.

به عنوان یک قاعده، تمام اعداد در یک کامپیوتر با استفاده از صفر و یک نشان داده می شوند (و نه ده رقم، همانطور که برای مردم مرسوم است). به عبارت دیگر، رایانه ها معمولاً در یک سیستم اعداد باینری کار می کنند، زیرا دستگاه های پردازش آنها بسیار ساده تر هستند. وارد کردن اعداد به رایانه و خروجی آنها برای خواندن توسط انسان می تواند به شکل اعشاری معمول انجام شود و تمام تبدیل های لازم توسط برنامه های در حال اجرا بر روی رایانه انجام می شود.

III. رمزگذاری اطلاعات متنی

همان اطلاعات را می توان به چندین شکل ارائه کرد (رمزگذاری کرد). با ظهور رایانه ها، رمزگذاری انواع اطلاعاتی که هم یک فرد و هم کل بشریت با آن سروکار دارند ضروری شد. اما بشریت مدتها قبل از ظهور کامپیوترها شروع به حل مشکل کدگذاری اطلاعات کرد. دستاوردهای عظیم بشر - نوشتن و حساب - چیزی بیش از یک سیستم برای رمزگذاری گفتار و اطلاعات عددی نیست. اطلاعات هرگز به شکل خالص خود ظاهر نمی شوند، همیشه به نحوی ارائه می شوند، به نوعی رمزگذاری می شوند.

کدگذاری باینری یکی از روش های رایج نمایش اطلاعات است. در رایانه ها، ربات ها و ماشین ابزارهای کنترل عددی، به طور معمول، تمام اطلاعاتی که دستگاه با آنها سروکار دارد به شکل کلمات در یک الفبای باینری کدگذاری می شود.

از اواخر دهه 60، رایانه ها به طور فزاینده ای برای پردازش اطلاعات متنی مورد استفاده قرار گرفته اند و در حال حاضر، اکثر رایانه های شخصی در جهان (و بیشتر اوقات) به پردازش اطلاعات متنی مشغول هستند. همه این نوع اطلاعات در یک کامپیوتر به صورت کد باینری نمایش داده می شوند، یعنی از الفبای با توان دو استفاده می شود (فقط دو کاراکتر 0 و 1). این به این دلیل است که نمایش اطلاعات در قالب دنباله ای از تکانه های الکتریکی راحت است: هیچ ضربه ای (0) وجود ندارد، یک ضربه (1) وجود دارد.

چنین کدگذاری معمولا باینری نامیده می شود و دنباله های منطقی صفر و یک خود زبان ماشین نامیده می شوند.

از دیدگاه یک کامپیوتر، متن از شخصیت های فردی تشکیل شده است. نمادها نه تنها شامل حروف (بزرگ یا کوچک، لاتین یا روسی)، بلکه اعداد، علائم نگارشی، کاراکترهای خاص مانند "="، "(، "&"، و غیره و حتی (توجه ویژه کنید!) فاصله بین کلمات

متون با استفاده از صفحه کلید وارد حافظه کامپیوتر می شوند. حروف، اعداد، علائم نگارشی و سایر علائم روی کلیدها نوشته شده است. آنها رم را به صورت کد باینری وارد می کنند. این بدان معناست که هر کاراکتر با یک کد باینری 8 بیتی نمایش داده می شود.

به طور سنتی، برای رمزگذاری یک کاراکتر، مقداری از اطلاعات برابر با 1 بایت استفاده می شود، یعنی I = 1 بایت = 8 بیت. با استفاده از فرمولی که تعداد رویدادهای احتمالی K و مقدار اطلاعات I را به هم متصل می کند، می توانید محاسبه کنید که چند نماد مختلف می توانند رمزگذاری شوند (با فرض اینکه نمادها رویدادهای ممکن هستند): K = 2 I = 2 8 = 256، یعنی ، برای نمایش اطلاعات متنی می توان از الفبای با ظرفیت 256 کاراکتر استفاده کرد.

این تعداد کاراکتر برای نمایش اطلاعات متنی از جمله حروف بزرگ و کوچک الفبای روسی و لاتین، اعداد، علائم، علائم گرافیکی و غیره کاملاً کافی است.

در فرآیند نمایش یک کاراکتر بر روی صفحه کامپیوتر، فرآیند معکوس انجام می شود - رمزگشایی، یعنی تبدیل کد کاراکتر به تصویر آن. مهم این است که انتساب یک کد خاص به یک نماد یک امر قراردادی است که در جدول کد ثابت شده است.

حال این سوال پیش می آید که چه نوع کد باینری هشت بیتی را به هر کاراکتر مرتبط کنیم. واضح است که این یک موضوع مشروط است، شما می توانید بسیاری از روش های رمزگذاری را ارائه دهید.

تمام کاراکترهای الفبای کامپیوتر از 0 تا 255 شماره گذاری می شوند. هر عدد مربوط به یک کد باینری هشت رقمی از 00000000 تا 11111111 است. این کد به سادگی عدد ترتیبی کاراکتر در سیستم باینری است.

IV ... انواع جداول رمزگذاری

جدولی که در آن به تمام کاراکترهای الفبای کامپیوتر شماره سریال اختصاص داده می شود، جدول رمزگذاری نامیده می شود.

جداول کدگذاری متفاوتی برای انواع مختلف کامپیوترها استفاده می شود.

جدول کد ASCII (کد استاندارد آمریکایی برای تبادل اطلاعات) به عنوان یک استاندارد بین المللی پذیرفته شده است که نیمه اول کاراکترها را با کدهای عددی از 0 تا 127 رمزگذاری می کند (کدهای 0 تا 32 نه به نمادها، بلکه به کلیدهای عملکرد اختصاص داده می شوند. ).

جدول ASCII به دو بخش تقسیم می شود.

استاندارد بین المللی فقط نیمه اول جدول است، یعنی. کاراکترهایی با اعداد از 0 (00000000) تا 127 (01111111).

ساختار جدول کدگذاری اسکی

شماره سریال	کد	سمبل
0 - 31	00000000 - 00011111	نمادهایی با اعداد از 0 تا 31 معمولاً کاراکترهای کنترل نامیده می شوند. عملکرد آنها کنترل فرآیند نمایش متن روی صفحه یا چاپ، دادن سیگنال صوتی، علامت گذاری متن و غیره است.
32 - 127	0100000 - 01111111	قسمت استاندارد جدول (انگلیسی). این شامل حروف کوچک و بزرگ الفبای لاتین، اعداد اعشاری، علائم نقطه گذاری، انواع براکت ها، علامت های تجاری و سایر نمادها است. کاراکتر 32 یک فضا است، یعنی. جای خالی در متن همه موارد دیگر در علائم خاصی منعکس می شوند.
128 - 255	10000000 - 11111111	قسمت جایگزین جدول (روسی). نیمه دوم جدول کد ASCII که صفحه کد نامیده می شود (128 کد، از 10000000 شروع می شود و با 11111111 ختم می شود)، می تواند انواع مختلفی داشته باشد، هر گونه شماره خود را دارد. صفحه کد در درجه اول برای قرار دادن الفبای ملی به غیر از لاتین استفاده می شود. در رمزگذاری های ملی روسیه، این قسمت از جدول حاوی نمادهای الفبای روسی است.

نیمه اول جدول ASCII

توجه به این نکته جلب می شود که در جدول رمزگذاری، حروف (بزرگ و کوچک) به ترتیب حروف الفبا و اعداد به ترتیب مقادیر به ترتیب صعودی مرتب شده اند. به این رعایت نظم واژگانی در چینش حروف، اصل رمزگذاری ترتیبی الفبا می گویند.

برای حروف الفبای روسی، اصل کدگذاری متوالی نیز رعایت می شود.

نیمه دوم جدول ASCII

متأسفانه، در حال حاضر پنج رمزگذاری سیریلیک مختلف (KOI8-R، Windows. MS-DOS، Macintosh و ISO) وجود دارد. به همین دلیل، اغلب با انتقال متن روسی از یک رایانه به رایانه دیگر، از یک سیستم نرم افزاری به سیستم دیگر، مشکلاتی ایجاد می شود.

از نظر زمانی، یکی از اولین استانداردها برای رمزگذاری حروف روسی در رایانه، KOI8 ("کد تبادل اطلاعات، 8 بیت") بود. این رمزگذاری در دهه 70 در رایانه های سری رایانه های ES مورد استفاده قرار گرفت و از اواسط دهه 80 در اولین نسخه های روسی شده سیستم عامل یونیکس استفاده شد.

از ابتدای دهه 90، زمان تسلط سیستم عامل MS DOS، رمزگذاری CP866 باقی می ماند ("CP" مخفف "Code Page" است).

کامپیوترهای اپل که سیستم عامل مک را دارند از کدگذاری مک خود استفاده می کنند.

علاوه بر این، سازمان بین المللی استاندارد (سازمان بین المللی استاندارد، ISO) کدگذاری دیگری به نام ISO 8859-5 را به عنوان استاندارد برای زبان روسی تأیید کرد.

در حال حاضر رایج ترین رمزگذاری مایکروسافت ویندوز است که به اختصار CP1251 نامیده می شود. معرفی شده توسط مایکروسافت؛ با در نظر گرفتن توزیع گسترده سیستم عامل (OS) و سایر محصولات نرم افزاری این شرکت در فدراسیون روسیه، توزیع گسترده ای پیدا کرده است.

از اواخر دهه 90، مشکل استانداردسازی کدنویسی کاراکتر با معرفی یک استاندارد بین المللی جدید به نام یونیکد حل شد.

این یک رمزگذاری 16 بیتی است. برای هر کاراکتر 2 بایت حافظه اختصاص می دهد. البته این میزان حافظه استفاده شده را دو برابر می کند. اما از طرف دیگر، چنین جدول کدی امکان گنجاندن حداکثر 65536 کاراکتر را فراهم می کند. مشخصات کامل استاندارد یونیکد شامل تمام الفبای موجود، منقرض شده و مصنوعی جهان و همچنین بسیاری از نمادهای ریاضی، موسیقایی، شیمیایی و غیره است.

نمایش داخلی کلمات در حافظه کامپیوتر

با استفاده از جدول ASCII

گاهی اوقات اتفاق می افتد که متنی متشکل از حروف الفبای روسی که از رایانه دیگری دریافت شده است، قابل خواندن نیست - نوعی "بیهوده" روی صفحه نمایش مانیتور قابل مشاهده است. این به دلیل این واقعیت است که رایانه ها از رمزگذاری متفاوتی از شخصیت های زبان روسی استفاده می کنند.

بنابراین، هر کدگذاری با جدول کد خود مشخص می شود. همانطور که از جدول می بینید، نمادهای مختلفی در کدهای مختلف به یک کد باینری اختصاص داده شده است.

به عنوان مثال، دنباله ای از کدهای عددی 221، 194، 204 در رمزگذاری CP1251 کلمه "کامپیوتر" را تشکیل می دهد، در حالی که در کدگذاری های دیگر مجموعه ای از کاراکترهای بی معنی خواهد بود.

خوشبختانه، در بیشتر موارد، کاربر نیازی به نگرانی در مورد تبدیل اسناد متنی ندارد، زیرا این کار توسط برنامه های تبدیل ویژه ساخته شده در برنامه ها انجام می شود.

V ... محاسبه مقدار اطلاعات متنی

هدف 1:با استفاده از جداول کدگذاری KOI8-R و CP1251 کلمه "Rome" را کد کنید.

راه حل:

هدف 2:با فرض اینکه هر کاراکتر در یک بایت کدگذاری شده است، حجم اطلاعات جمله زیر را تخمین بزنید:

"دایی من صادقانه ترین قوانین را دارد،

هنگام بیماری شدید،

به خودش احترام گذاشت

و نمی‌توانستم بهتر از این تصور کنم.»

راه حل:این عبارت دارای 108 کاراکتر از جمله علائم نگارشی، نقل قول و فاصله است. این عدد را در 8 بیت ضرب می کنیم. ما 108 * 8 = 864 بیت را دریافت می کنیم.

هدف 3:دو متن دارای تعداد کاراکترهای یکسانی هستند. متن اول به زبان روسی و متن دوم به زبان قبیله ناگوری نوشته شده است که الفبای آن از 16 حرف تشکیل شده است. متن چه کسی حاوی اطلاعات بیشتری است؟

راه حل:

1) I = K * a (حجم اطلاعات متن برابر است با حاصل ضرب تعداد کاراکترها با وزن اطلاعات یک کاراکتر).

2) زیرا هر دو متن تعداد کاراکترهای یکسانی دارند (K) ، تفاوت بستگی به اطلاع رسانی یک کاراکتر از الفبا (a) دارد.

3) 2 a1 = 32، یعنی. a 1 = 5 بیت، 2 a2 = 16، یعنی. a 2 = 4 بیت.

4) I 1 = K * 5 بیت، I 2 = K * 4 بیت.

5) یعنی متن نوشته شده به زبان روسی 5/4 برابر اطلاعات بیشتری دارد.

وظیفه 4:اندازه پیام حاوی 2048 کاراکتر، 1/512 مگابایت بود. اصلی بودن حروف الفبا را تعیین کنید.

راه حل:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 بیت - حجم اطلاعات پیام به بیت تبدیل شد.

2) a = I / K = 16384/1024 = 16 بیت - روی یک کاراکتر الفبا می افتد.

3) 2 * 16 * 2048 = 65536 کاراکتر - قدرت الفبای مورد استفاده.

وظیفه 5:چاپگر لیزری Canon LBP به طور متوسط 6.3 کیلوبیت بر ثانیه چاپ می کند. چه مدت طول می کشد تا یک سند 8 صفحه ای چاپ شود اگر معلوم شود که به طور متوسط 45 خط در یک صفحه، 70 کاراکتر در هر خط (1 کاراکتر - 1 بایت) وجود دارد؟

راه حل:

1) مقدار اطلاعات موجود در 1 صفحه را بیابید: 45 * 70 * 8 بیت = 25200 بیت

2) مقدار اطلاعات را در 8 صفحه بیابید: 25200 * 8 = 201600 بیت

3) به واحدهای اندازه گیری یکنواخت می رسیم. برای انجام این کار، مگابیت را به بیت ترجمه کنید: 6.3 * 1024 = 6451.2 بیت در ثانیه.

4) زمان چاپ را پیدا کنید: 201600: 6451.2 = 31 ثانیه.

کتابشناسی - فهرست کتب

1. Ageev V.M. تئوری اطلاعات و کدگذاری: گسسته سازی و کدگذاری اطلاعات اندازه گیری. - M.: MAI، 1977.

2. Kuzmin I.V., Kedrus V.A. مبانی تئوری اطلاعات و کدگذاری. - کیف، مدرسه ویشچا، 1986.

3. ساده ترین روش های رمزگذاری متن / D.М. زلاتوپولسکی - M .: Chistye Prudy، 2007 - 32 p.

4. اوگرینویچ N.D. انفورماتیک و فناوری اطلاعات. کتاب درسی کلاس های 10-11 / N.D. Ugrinovich. - M .: BINOM. آزمایشگاه دانش، 1382 .-- 512 ص.

5.http: //school497.spb.edu.ru/uchint002/les10/les.html#n

مطالب خودآموز مربوط به سخنرانی 2

رمزگذاری ASCII

جدول کد ASCII (ASCII - کد استاندارد آمریکایی برای تبادل اطلاعات - کد استاندارد آمریکایی برای تبادل اطلاعات).

در مجموع، 256 کاراکتر مختلف را می توان با استفاده از جدول کدگذاری ASCII رمزگذاری کرد (شکل 1). این جدول به دو بخش اصلی (با کدهای OOh تا 7Fh) و اضافی (از 80h تا FFh) تقسیم می شود که حرف h نشان می دهد که کد متعلق به سیستم اعداد هگزادسیمال است.

تصویر 1

برای رمزگذاری یک کاراکتر از جدول، 8 بیت (1 بایت) اختصاص داده می شود. هنگام پردازش اطلاعات متنی، یک بایت می تواند حاوی کد یک نماد خاص باشد - حروف، اعداد، علامت نقطه گذاری، علامت عمل و غیره. هر کاراکتر کد مخصوص به خود را به شکل یک عدد صحیح دارد. در این حالت تمامی کدها در جداول خاصی به نام جداول کدینگ جمع آوری می شوند. با کمک آنها، کد کاراکتر به نمایش قابل مشاهده خود در صفحه نمایش مانیتور تبدیل می شود. در نتیجه، هر متنی در حافظه رایانه به صورت دنباله ای از بایت ها با کدهای کاراکتر نمایش داده می شود.

مثلا کلمه سلام! به صورت زیر کدگذاری می شود (جدول 1).

میز 1


کد باینری
کد اعشاری

شکل 1 کاراکترهای موجود در کدگذاری استاندارد (انگلیسی) و توسعه یافته (روسی) ASCII را نشان می دهد.

نیمه اول جدول ASCII استاندارد شده است. این شامل کدهای کنترل (00h تا 20h و 77h) است. این کدها از جدول حذف شده اند، زیرا برای عناصر متن اعمال نمی شوند. علائم نگارشی و ریاضی نیز در اینجا قرار دارند: 2lh -!، 26h - &، 28h - (، 2Bh - +، ...، حروف لاتین بزرگ و کوچک: 41h - A، 61h - а.

نیمه دوم جدول شامل فونت های ملی، نمادهای شبه گرافیکی است که می توان از آنها جداول ساخت و علائم ریاضی خاص. قسمت پایین جدول رمزگذاری را می توان با استفاده از درایورهای مناسب - کنترل برنامه های کمکی جایگزین کرد. این تکنیک به شما امکان می دهد از فونت های متعدد و حروف آنها استفاده کنید.

نمایشگر هر کد کاراکتر باید تصویری از شخصیت را روی صفحه نمایش دهد - نه فقط یک کد دیجیتال، بلکه یک تصویر مربوط به آن، زیرا هر کاراکتر شکل خاص خود را دارد. شرح شکل هر نماد در یک حافظه نمایشگر مخصوص - یک تولید کننده کاراکتر - ذخیره می شود. برای مثال، برجسته کردن یک نماد بر روی صفحه نمایش رایانه شخصی IBM، با استفاده از نقاطی انجام می شود که یک ماتریس نمادین را تشکیل می دهند. هر پیکسل در چنین ماتریسی یک عنصر تصویر است و می تواند روشن یا تاریک باشد. نقطه تاریک با عدد 0، روشن (روشن) - 1 کدگذاری می شود. اگر پیکسل های تیره را با یک نقطه در میدان ماتریس علامت، و پیکسل های روشن را با یک ستاره نشان می دهید، می توانید شکل نماد را به صورت گرافیکی به تصویر بکشید. .

مردم کشورهای مختلف از نمادها برای نوشتن کلمات به زبان مادری خود استفاده می کنند. اکثر برنامه های کاربردی این روزها، از جمله سیستم های ایمیل و مرورگرهای وب، 8 بیتی خالص هستند، به این معنی که آنها فقط می توانند کاراکترهای 8 بیتی را طبق استاندارد ISO-8859-1 نمایش و تفسیر کنند.

بیش از 256 کاراکتر در جهان وجود دارد (اگر زبان های سیریلیک، عربی، چینی، ژاپنی، کره ای و تایلندی را در نظر بگیریم) و کاراکترهای بیشتری ظاهر می شوند. و این شکاف های زیر را برای بسیاری از کاربران ایجاد می کند:

استفاده از کاراکترهای مجموعه های رمزگذاری مختلف در یک سند ممکن نیست. از آنجایی که هر سند متنی از مجموعه ای از رمزگذاری های مخصوص به خود استفاده می کند، مشکلات زیادی برای تشخیص خودکار متن وجود دارد.

نمادهای جدیدی ظاهر می شوند (به عنوان مثال: یورو) که در نتیجه ISO در حال توسعه استاندارد جدید ISO-8859-15 است که بسیار شبیه به استاندارد ISO-8859-1 است. تفاوت به شرح زیر است: از جدول رمزگذاری استاندارد قدیمی ISO-8859-1، نمادهایی برای تعیین ارزهای قدیمی که در حال حاضر استفاده نمی شوند حذف شده اند تا جایی برای نمادهای تازه ظاهر شده (مانند یورو) ایجاد شود. ). در نتیجه، کاربران ممکن است اسناد مشابهی را روی دیسک های خود داشته باشند، اما در کدگذاری های متفاوت. راه حل این مشکلات، اتخاذ یک مجموعه بین المللی واحد از رمزگذاری ها به نام رمزگذاری جهانی یا یونیکد است.

رمزگذاری یونیکد

این استاندارد در سال 1991 توسط کنسرسیوم یونیکد، شرکت یونیکد، یک سازمان غیرانتفاعی پیشنهاد شد. استفاده از این استاندارد امکان رمزگذاری تعداد بسیار زیادی کاراکتر از اسکریپت های مختلف را فراهم می کند: در اسناد یونیکد، حروف چینی، کاراکترهای ریاضی، حروف الفبای یونانی، الفبای لاتین و سیریلیک می توانند همزیستی داشته باشند، بنابراین تعویض صفحات کد غیرضروری می شود.

این استاندارد از دو بخش اصلی تشکیل شده است: مجموعه کاراکترهای جهانی (UCS) و فرمت تبدیل یونیکد (UTF). مجموعه کاراکترهای جهانی مطابقت یک به یک کاراکترها با کدها را تعریف می کند - عناصر فضای کد که اعداد صحیح غیر منفی را نشان می دهند. خانواده کدگذاری ها نمایش ماشین دنباله ای از کدهای UCS را تعریف می کند.

استاندارد یونیکد با هدف ایجاد یک رمزگذاری کاراکتر یکنواخت برای همه زبان‌های نوشتاری مدرن و باستانی ایجاد شد. هر کاراکتر در این استاندارد در 16 بیت کدگذاری شده است که به آن امکان می دهد تعداد غیرقابل مقایسه ای از کاراکترها را نسبت به رمزگذاری های 8 بیتی پذیرفته شده قبلی پوشش دهد. تفاوت مهم دیگر بین یونیکد و سایر سیستم های رمزگذاری این است که نه تنها یک کد منحصر به فرد به هر کاراکتر اختصاص می دهد، بلکه ویژگی های مختلفی را برای این کاراکتر تعریف می کند، به عنوان مثال:

نوع کاراکتر (حرف بزرگ، حرف کوچک، عدد، علامت نقطه گذاری و غیره)؛

ویژگی های کاراکتر (نمایش از چپ به راست یا راست به چپ، فاصله، شکست خط و غیره)؛

حروف بزرگ یا کوچک مربوطه (به ترتیب برای حروف کوچک و بزرگ)؛

مقدار عددی مربوطه (برای کاراکترهای عددی).

کل محدوده کدها از 0 تا FFFF به چندین زیرمجموعه استاندارد تقسیم می شود که هر کدام مربوط به الفبای یک زبان خاص یا گروهی از کاراکترهای خاص است که از نظر عملکرد مشابه هستند. نمودار زیر فهرستی کلی از زیرمجموعه های Unicode 3.0 را ارائه می دهد (شکل 2).

تصویر 2

استاندارد یونیکد اساس ذخیره سازی و متن در بسیاری از سیستم های کامپیوتری مدرن است. با این حال، با اکثر پروتکل‌های اینترنتی سازگار نیست، زیرا کدهای آن می‌توانند حاوی هر مقدار بایت باشند و پروتکل‌ها معمولاً از بایت‌های 00 - 1F و FE - FF به عنوان سربار استفاده می‌کنند. برای دستیابی به قابلیت همکاری، چندین فرمت تبدیل یونیکد (UTFs، Unicode Transformation Formats) ایجاد شده است که امروزه UTF-8 رایج ترین آنهاست. این فرمت قوانین زیر را برای تبدیل هر کد یونیکد به مجموعه ای از بایت (یک تا سه) مناسب برای انتقال توسط پروتکل های اینترنتی تعریف می کند.

در اینجا x، y، z نشان‌دهنده بیت‌های کد منبعی است که باید استخراج شود، با کمترین مقدار شروع شود، و تا زمانی که تمام موقعیت‌های مشخص شده پر شود، در بایت‌های نتیجه از راست به چپ وارد شوند.

توسعه بیشتر استاندارد یونیکد با افزودن سطوح زبانی جدید همراه است. کاراکترهایی در محدوده 10000 - 1FFFF، 20000 - 2FFFF، و غیره، که در آن قرار است رمزگذاری برای اسکریپت های زبان های مرده که در جدول بالا گنجانده نشده اند را شامل شود. یک قالب جدید UTF-16 برای رمزگذاری این کاراکترهای اضافی ایجاد شد.

بنابراین، 4 روش اصلی برای رمزگذاری بایت های یونیکد وجود دارد:

UTF-8: 128 کاراکتر در یک بایت (فرمت ASCII)، 1920 کاراکتر در 2 بایت ((رومی، یونانی، سیریلیک، قبطی، ارمنی، عبری، عربی نویسه‌ها)، 63488 کاراکتر در 3 بایت (چینی) کدگذاری می‌شوند. , ژاپنی و دیگران

UCS-2: هر کاراکتر با 2 بایت نمایش داده می شود. این رمزگذاری فقط شامل 65535 کاراکتر اول از قالب یونیکد است.

UTF-16: این یک پسوند UCS-2 است و شامل 1 114 112 کاراکتر یونیکد است. 65535 کاراکتر اول با 2 بایت و بقیه با 4 بایت نمایش داده می شوند.

USC-4: هر کاراکتر در 4 بایت کدگذاری می شود.

هر کامپیوتر مجموعه ای از نمادهای خاص خود را دارد که آنها را پیاده سازی می کند. این مجموعه شامل 26 حرف بزرگ و کوچک، اعداد و کاراکترهای خاص (نقطه، فاصله و ...) می باشد. نمادهایی که به اعداد صحیح ترجمه می شوند، کد نامیده می شوند. استانداردها به گونه ای ایجاد شده اند که رایانه ها دارای مجموعه ای از کدهای یکسان باشند.

استاندارد ASCII

ASCII (کد استاندارد آمریکایی برای تبادل اطلاعات) کد استاندارد آمریکایی برای تبادل اطلاعات است. هر کاراکتر ASCII 7 بیت دارد، بنابراین حداکثر تعداد کاراکترها 128 است (جدول 1). کدهای 0 تا 1F کاراکترهای کنترلی هستند و چاپ نمی شوند. بسیاری از کاراکترهای غیر قابل چاپ ASCII برای انتقال داده ها مورد نیاز است. به عنوان مثال، یک پیام می تواند شامل کاراکتر شروع عنوان SOH، سرفصل STX و کاراکتر شروع متن، خود متن ETX و کاراکتر پایان متن و کاراکتر پایان ارسال EOT باشد. با این حال، داده ها در شبکه به صورت بسته هایی منتقل می شوند که خود مسئول شروع و پایان انتقال هستند. بنابراین کاراکترهای غیر قابل چاپ تقریباً هرگز استفاده نمی شوند.

جدول 1 - جدول کد اسکی

عدد	فرمان	معنی	عدد	فرمان	معنی
0	NUL	اشاره گر تهی	10	DLE	خروج از سیستم انتقال
1	SOH	شروع سرفصل	11	DC1	مدیریت دستگاه
2	STX	شروع متن	12	DC2	مدیریت دستگاه
3	ETX	انتهای متن	13	DC3	مدیریت دستگاه
4	EOT	پایان انتقال	14	DC4	مدیریت دستگاه
5	ACK	استعلام	15	NAK	عدم تایید پذیرش
6	BEL	تاییدیه پذیرش	16	SYN	ساده
7	لیسانس	نماد زنگ	17	ETB	پایان بلوک انتقال
8	Ht	تورفتگی عقب	18	می توان	توجه داشته باشید
9	LF	زبانه افقی	19	EM	پایان رسانه
آ	VT	ترجمه خطی	1A	زیر	اشتراک
ب	FF	زبانه عمودی	1B	خروج	خروجی
سی	CR	ترجمه صفحه	1C	FS	جداکننده فایل
دی	بنابراین	برگشت محموله	1D	جی اس	جداکننده گروه
E	SI	تغییر به ثبت اضافی	1E	روپیه	جداکننده رکورد
	SI	به ثبت استاندارد تغییر دهید	1F	ایالات متحده	جداکننده ماژول

عدد	سمبل	عدد	سمبل	عدد	سمبل	عدد	سمبل	عدد	سمبل	عدد	سمبل
20	فضا	30	0	40	@	50	پ	60	.	70	پ
21	!	31	1	41	آ	51	س	61	آ	71	q
22	‘	32	2	42	ب	52	آر	62	ب	72	r
23	#	33	3	43	سی	53	اس	63	ج	73	س
24	φ	34	4	44	دی	54	تی	64	د	74	تی
25	%	35	5	45	E	55	و	65	ه	75	و
26	&	36	6	46	اف	56	V	66	f	76	v
27	‘	37	7	47	جی	57	دبلیو	67	g	77	w
28	(	38	8	48	اچ	58	ایکس	68	ساعت	78	ایکس
29	)	39	9	49	من	59	Y	69	من	70	y
2A	‘	3A	;	4A	جی	5A	ز	6A	j	7A	z
2B	+	3B	;	4B	ک	5B	[	6B	ک	7B	{
2C	‘	3C	<	4C	L	5C	\	6C	ل	7C	\|
2 بعدی	—	سه بعدی	=	4 بعدی	م	5 بعدی	]	6 بعدی	متر	7D	}
2E		3E	>	4E	ن	5E	—	6E	n	7E	~
2F	/	3F	g	4F	O	5F	_	6F	o	7F	DEL

استاندارد یونیکد

رمزگذاری قبلی برای انگلیسی عالی است، اما برای زبان های دیگر مناسب نیست. به عنوان مثال، در آلمانی umlaut وجود دارد، و در فرانسه فوق العاده وجود دارد. برخی از زبان ها الفبای کاملاً متفاوتی دارند. اولین تلاش برای گسترش ASCII IS646 بود که کدگذاری قبلی را با 128 کاراکتر اضافی گسترش داد. حروف لاتین را با سکته مغزی و دیاکریتیک اضافه کرد و نام - لاتین 1 را دریافت کرد. تلاش بعدی IS 8859 بود - که حاوی یک صفحه کد بود. هنوز هم تلاش هایی برای الحاقات وجود داشت، اما این امر جهانی نبود. رمزگذاری یونیکد ایجاد شد (10646 است). ایده رمزگذاری این است که به هر کاراکتر یک مقدار ثابت 16 بیتی اختصاص دهیم که به آن می گویند - نشانگر کد... این در مجموع 65536 اشاره گر می دهد. برای صرفه جویی در فضا، ما از Latin-1 برای کدهای 0-255 استفاده کردیم که به راحتی ASII را به UNICODE تغییر دادیم. این استاندارد بسیاری از مشکلات را حل کرد، اما نه همه. در رابطه با ورود لغات جدید مثلا برای زبان ژاپنی باید تعداد اصطلاحات را حدود 20 هزار افزایش دهید همچنین باید خط بریل را هم وارد کنید.

[کدهای 8 بیتی: ASCII، KOI-8R و CP1251] اولین جداول مجموعه حروف ایجاد شده در ایالات متحده از بیت هشتم در یک بایت استفاده نمی کردند. متن به صورت دنباله ای از بایت ها ارائه شد، اما بیت هشتم در نظر گرفته نشد (برای اهداف خدماتی استفاده شد).

استاندارد عمومی پذیرفته شده به جدول تبدیل شده است ASCII(کد استاندارد آمریکایی برای تبادل اطلاعات). 32 کاراکتر ASCII اول (00 تا 1F) برای کاراکترهای غیر قابل چاپ استفاده شد. آنها برای کنترل دستگاه چاپ و موارد مشابه طراحی شده بودند. بقیه - از 20 تا 7F - کاراکترهای معمولی (قابل چاپ) هستند.

جدول 1 - رمزگذاری ASCII

دسامبر	هگز	اکتبر	Char	شرح
0	0	000		خالی
1	1	001		شروع سرفصل
2	2	002		شروع متن
3	3	003		انتهای متن
4	4	004		پایان انتقال
5	5	005		استعلام
6	6	006		اذعان
7	7	007		زنگ
8	8	010		بک اسپیس
9	9	011		زبانه افقی
10	آ	012		خط جدید
11	ب	013		زبانه عمودی
12	سی	014		صفحه جدید
13	دی	015		برگشت محموله
14	E	016		جابجا کردن
15	اف	017		جابجایی در
16	10	020		فرار لینک داده
17	11	021		کنترل دستگاه 1
18	12	022		کنترل دستگاه 2
19	13	023		کنترل دستگاه 3
20	14	024		کنترل دستگاه 4
21	15	025		تصدیق منفی
22	16	026		بیکار همزمان
23	17	027		پایان ترانس مسدود کردن
24	18	030		لغو
25	19	031		پایان متوسط
26	1A	032		جایگزین
27	1B	033		در رفتن
28	1C	034		جداکننده فایل
29	1D	035		جداکننده گروه
30	1E	036		جداکننده رکورد
31	1F	037		جداکننده واحد
32	20	040		فضا
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2 بعدی	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	سه بعدی	075	=
62	3E	076	>
63	3F	077	?

دسامبر	هگز	اکتبر	Char
64	40	100	@
65	41	101	آ
66	42	102	ب
67	43	103	سی
68	44	104	دی
69	45	105	E
70	46	106	اف
71	47	107	جی
72	48	110	اچ
73	49	111	من
74	4A	112	جی
75	4B	113	ک
76	4C	114	L
77	4 بعدی	115	م
78	4E	116	ن
79	4F	117	O
80	50	120	پ
81	51	121	س
82	52	122	آر
83	53	123	اس
84	54	124	تی
85	55	125	U
86	56	126	V
87	57	127	دبلیو
88	58	130	ایکس
89	59	131	Y
90	5A	132	ز
91	5B	133	[
92	5C	134	\
93	5 بعدی	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	آ
98	62	142	ب
99	63	143	ج
100	64	144	د
101	65	145	ه
102	66	146	f
103	67	147	g
104	68	150	ساعت
105	69	151	من
106	6A	152	j
107	6B	153	ک
108	6C	154	ل
109	6 بعدی	155	متر
110	6E	156	n
111	6F	157	o
112	70	160	پ
113	71	161	q
114	72	162	r
115	73	163	س
116	74	164	تی
117	75	165	تو
118	76	166	v
119	77	167	w
120	78	170	ایکس
121	79	171	y
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

همانطور که به راحتی می توانید ببینید، این رمزگذاری فقط شامل حروف لاتین و آنهایی است که در زبان انگلیسی استفاده می شود. نمادهای حسابی و دیگر خدمات نیز وجود دارد. اما هیچ حروف روسی یا حتی حروف لاتین خاص برای آلمانی یا فرانسوی وجود ندارد. توضیح این امر آسان است - رمزگذاری به طور خاص به عنوان یک استاندارد آمریکایی توسعه داده شده است. هنگامی که کامپیوترها در سراسر جهان شروع به استفاده کردند، رمزگذاری نمادهای دیگر ضروری شد.

برای این کار تصمیم گرفته شد که در هر بایت از بیت هشتم استفاده شود. بنابراین، 128 مقدار بیشتر (از 80 تا FF) در دسترس بود که می‌توان از آنها برای رمزگذاری کاراکترها استفاده کرد. اولین جدول از جدول های هشت بیتی "ASCII توسعه یافته" است ( ASCII توسعه یافته) - شامل انواع مختلفی از حروف لاتین است که در برخی از زبان های اروپای غربی استفاده می شود. همچنین حاوی نمادهای اضافی دیگری از جمله شبه گرافیک بود.

کاراکترهای شبه گرافیکی، با نمایش تنها کاراکترهای متنی، اجازه می دهند تا ظاهری از گرافیک ارائه دهند. به عنوان مثال، برنامه مدیریت فایل ها FAR Manager با کمک شبه گرافیک کار می کند.

هیچ حرف روسی در جدول Extended ASCII وجود نداشت. در روسیه (سابق اتحاد جماهیر شوروی سابق) و در سایر ایالت ها، رمزگذاری های خاص آنها ایجاد شد که امکان نمایش شخصیت های "ملی" خاص را در فایل های متنی 8 بیتی - حروف لاتین زبان های لهستانی و چکی، سیریلیک (از جمله حروف روسی) فراهم کرد. ) و الفبای دیگر.

در تمام رمزگذاری هایی که گسترده شده اند، 127 کاراکتر اول (یعنی مقادیر بایت با بیت هشتم برابر با 0) با ASCII منطبق است. بنابراین، یک فایل ASCII در هر یک از این کدگذاری ها کار می کند. حروف زبان انگلیسی نیز به همین ترتیب نمایش داده می شوند.

سازمان ISO(سازمان بین المللی استاندارد) مجموعه ای از استانداردها را پذیرفت ISO 8859... رمزگذاری های 8 بیتی را برای گروه های مختلف زبان ها تعریف می کند. بنابراین، ISO 8859-1 Extended ASCII است، جدولی برای ایالات متحده و اروپای غربی. و ISO 8859-5 جدولی برای سیریلیک (از جمله روسی) است.

با این حال، به دلایل تاریخی، کدگذاری ISO 8859-5 مورد توجه قرار نگرفته است. در واقع، رمزگذاری های زیر برای زبان روسی استفاده می شود:

کد صفحه 866 ( CP866، با نام مستعار "DOS"، با نام مستعار "رمزگذاری GOST جایگزین". تا اواسط دهه 90 به طور گسترده مورد استفاده قرار گرفت. اکنون به میزان محدودی استفاده می شود. عملاً برای توزیع متون در اینترنت استفاده نمی شود.
- KOI-8. در دهه 70 و 80 توسعه یافت. این یک استاندارد عمومی پذیرفته شده برای انتقال پیام های پستی در اینترنت روسیه است. همچنین به طور گسترده در سیستم عامل های خانواده یونیکس از جمله لینوکس استفاده می شود. نسخه KOI-8، طراحی شده برای زبان روسی، نامیده می شود KOI-8R; نسخه هایی برای سایر زبان های سیریلیک وجود دارد (به عنوان مثال، KOI8-U گزینه ای برای زبان اوکراینی است).
- کد صفحه 1251، CP1251، Windows-1251. توسط مایکروسافت برای پشتیبانی از زبان روسی در ویندوز توسعه یافته است.

مزیت اصلی CP866 حفظ کاراکترهای شبه گرافیکی در همان مکان‌هایی بود که در Extended ASCII وجود داشت. بنابراین، برنامه های متنی خارجی، به عنوان مثال، فرمانده معروف نورتون، می توانند بدون تغییر کار کنند. امروزه CP866 برای برنامه های ویندوزی که در پنجره های متنی یا حالت متنی تمام صفحه اجرا می شوند، از جمله FAR Manager استفاده می شود.

در سال های اخیر، متون در CP866 بسیار نادر هستند (اما برای رمزگذاری نام فایل های روسی در ویندوز استفاده می شود). بنابراین، ما با جزئیات بیشتری در مورد دو رمزگذاری دیگر - KOI-8R و CP1251 صحبت خواهیم کرد.

همانطور که می بینید، در جدول رمزگذاری CP1251، حروف روسی به ترتیب حروف الفبا مرتب شده اند (به جز حرف E). این ترتیب مرتب سازی بر اساس حروف الفبا را برای برنامه های کامپیوتری بسیار آسان می کند.

اما در KOI-8R ترتیب حروف روسی تصادفی به نظر می رسد. اما در واقع اینطور نیست.

بسیاری از برنامه های قدیمی بیت هشتم را هنگام پردازش یا انتقال متن از دست دادند. (اکنون چنین برنامه هایی عملا "مرده" شده اند، اما در اواخر دهه 80 - اوایل دهه 90 آنها گسترده بودند). برای به دست آوردن یک مقدار 7 بیتی از یک مقدار 8 بیتی، 8 را از مهم ترین رقم کم کنید. به عنوان مثال E1 می شود 61.

اکنون KOI-8R را با جدول ASCII مقایسه کنید (جدول 1). متوجه خواهید شد که حروف روسی به وضوح با حروف لاتین همسو هستند. اگر بیت هشتم ناپدید شود، حروف کوچک روسی به حروف لاتین بزرگ و حروف بزرگ روسی به حروف کوچک لاتین تبدیل می شوند. بنابراین، E1 در KOI-8 روسی "A" است، در حالی که 61 در ASCII لاتین "a" است.

بنابراین، KOI-8 به شما امکان می دهد تا خوانایی متن روسی را در حالی که بیت هشتم را از دست می دهید، حفظ کنید. "سلام به همه" به "pRIWET WSEM" تبدیل می شود.

اخیراً هم ترتیب حروف الفبای کاراکترها در جدول رمزگذاری و هم خوانایی با از دست دادن بیت هشتم اهمیت تعیین کننده خود را از دست داده اند. بیت هشتم در رایانه های مدرن چه در حین انتقال و چه در پردازش از بین نمی رود. مرتب سازی به ترتیب حروف الفبا بر اساس رمزگذاری است و نه فقط با مقایسه کدها. (به هر حال، کدهای CP1251 کاملاً حروف الفبا نیستند - حرف E در جای خود نیست).

با توجه به این واقعیت که دو رمزگذاری رایج وجود دارد، هنگام کار با اینترنت (ایمیل، مرور وب سایت ها)، گاهی اوقات می توانید مجموعه ای بی معنی از حروف را به جای متن روسی مشاهده کنید. به عنوان مثال، "من SBUFEMHEL هستم". اینها فقط عبارت "با احترام" هستند. اما آنها در رمزگذاری CP1251 کدگذاری شدند و کامپیوتر متن را مطابق جدول KOI-8 رمزگشایی کرد. اگر همان کلمات، برعکس، در KOI-8 کدگذاری شده باشند، و کامپیوتر متن را مطابق جدول CP1251 رمزگشایی کند، نتیجه "У ХЧБЦЕОЙЕН" خواهد بود.

گاهی اوقات اتفاق می افتد که رایانه حروف روسی را بر اساس جدولی که برای زبان روسی در نظر گرفته نشده است، رمزگشایی می کند. سپس، به جای حروف روسی، مجموعه ای از نمادها بی معنی ظاهر می شود (به عنوان مثال، حروف لاتین زبان های اروپای شرقی). آنها اغلب "crocozyabras" نامیده می شوند.

در بیشتر موارد، برنامه های مدرن به تنهایی با تعیین رمزگذاری اسناد اینترنتی (ایمیل ها و صفحات وب) مقابله می کنند. اما گاهی اوقات آنها "اشتباه" می کنند و سپس می توانید دنباله های عجیبی از حروف روسی یا "krokozyabra" را ببینید. به عنوان یک قاعده، برای نمایش متن واقعی روی صفحه، کافی است کدگذاری را به صورت دستی در منوی برنامه انتخاب کنید.

برای مقاله از اطلاعات صفحه http://open-office.edusite.ru/TextProcessor/p5aa1.html استفاده شد.

مطالب برگرفته از سایت:

همانطور که می دانید، یک کامپیوتر اطلاعات را به صورت باینری ذخیره می کند و آن را به صورت دنباله ای از یک ها و صفرها نشان می دهد. برای ترجمه اطلاعات به شکلی که برای درک انسان مناسب باشد، هر دنباله منحصر به فرد اعداد در هنگام نمایش با نماد مربوطه جایگزین می شود.

یکی از سیستم های ارتباط کدهای باینری با کاراکترهای قابل چاپ و کنترل می باشد

در سطح فعلی توسعه فناوری رایانه، کاربر نیازی به دانستن کد هر نماد خاص ندارد. با این حال، درک کلی از نحوه انجام کدنویسی بسیار مفید است و برای برخی از گروه‌های متخصص حتی ضروری است.

ایجاد ASCII

در شکل اصلی خود، رمزگذاری در سال 1963 توسعه یافت و سپس طی 25 سال دو بار به روز شد.

در نسخه اصلی، جدول کاراکترهای ASCII شامل 128 کاراکتر بود، بعداً یک نسخه توسعه یافته ظاهر شد که در آن 128 کاراکتر اول ذخیره شدند و کاراکترهایی که قبلاً وجود نداشتند به کدهایی با بیت هشتم اختصاص داده شدند.

برای چندین سال، این رمزگذاری محبوب ترین در جهان بوده است. در سال 2006، لاتین 1252 مقام اول را به خود اختصاص داد و از پایان سال 2007 تا به امروز، یونیکد به طور قاطعانه جایگاه پیشرو را در اختیار داشته است.

نمایش کامپیوتر ASCII

هر کاراکتر اسکی دارای کد 8 کاراکتری است که صفر یا یک را نشان می دهد. حداقل عدد در چنین نمایشی صفر است (هشت صفر در سیستم دودویی)، که کد اولین عنصر در جدول است.

دو کد در جدول برای جابجایی بین استاندارد US-ASCII و نسخه ملی آن رزرو شده است.

پس از اینکه ASCII شروع به گنجاندن نه 128، بلکه 256 کاراکتر کرد، یک نوع رمزگذاری گسترده شد که در آن نسخه اصلی جدول در 128 کد اول با بیت هشتم صفر ذخیره شد. نشانه های نوشته ملی در نیمه بالایی جدول (مواضع 128-255) نگهداری می شد.

کاربر نیازی به دانستن مستقیم کدهای کاراکتر ASCII ندارد. معمولاً برای یک توسعه‌دهنده نرم‌افزار کافی است که تعداد یک عنصر در جدول را بداند تا در صورت لزوم، کد آن را با استفاده از یک سیستم باینری محاسبه کند.

زبان روسی

پس از توسعه رمزگذاری برای زبان های اسکاندیناوی، چینی، کره ای، یونانی و غیره در اوایل دهه 70، اتحاد جماهیر شوروی نیز شروع به ایجاد نسخه خود کرد. به زودی نسخه ای از رمزگذاری 8 بیتی به نام KOI8 ساخته شد که اولین 128 کد کاراکتر ASCII را حفظ می کند و همان تعداد موقعیت را برای حروف الفبای ملی و کاراکترهای اضافی اختصاص می دهد.

قبل از معرفی یونیکد، KOI8 بر بخش روسی اینترنت تسلط داشت. گزینه های رمزگذاری برای هر دو الفبای روسی و اوکراینی وجود داشت.

مشکلات ASCII

از آنجایی که تعداد عناصر حتی در جدول توسعه یافته از 256 تجاوز نمی کرد، امکان قرار دادن چندین اسکریپت مختلف در یک رمزگذاری وجود نداشت. در دهه 90، مشکل "crocozyabr" در Runet ظاهر شد، زمانی که متون تایپ شده با حروف ASCII روسی به اشتباه نمایش داده شدند.

مشکل این بود که کدهای انواع مختلف ASCII با یکدیگر مطابقت نداشتند. به یاد بیاورید که موقعیت‌های 128-255 می‌توانند شامل کاراکترهای مختلفی باشند، و هنگام تغییر یک رمزگذاری سیریلیک به دیگری، تمام حروف متن با حروف دیگری که دارای یک شماره یکسان در نسخه دیگری از رمزگذاری هستند جایگزین می‌شوند.

وضعیت فعلی

با ظهور یونیکد، محبوبیت ASCII به شدت کاهش یافت.

دلیل این امر در این واقعیت نهفته است که رمزگذاری جدید امکان قرار دادن علائم تقریباً همه زبان های نوشتاری را فراهم می کند. در این مورد، 128 کاراکتر ASCII اول با همان کاراکترهای یونیکد مطابقت دارد.

در سال 2000، ASCII محبوب ترین رمزگذاری در اینترنت بود و در 60٪ از صفحات وب فهرست شده توسط گوگل استفاده می شد. تا سال 2012، سهم چنین صفحاتی به 17٪ کاهش یافت و یونیکد (UTF-8) جای محبوب ترین رمزگذاری را گرفت.

بنابراین، ASCII بخش مهمی از تاریخ فناوری اطلاعات است، اما استفاده از آن در آینده بی‌امید به نظر می‌رسد.

دسامبر	هگز	سمبل	دسامبر	هگز	سمبل
000	00	متخصص. نه	128	80	Ђ
001	01	متخصص. SOH	129	81	Ѓ
002	02	متخصص. STX	130	82	‚
003	03	متخصص. ETX	131	83	ѓ
004	04	متخصص. EOT	132	84	„
005	05	متخصص. ENQ	133	85	…
006	06	متخصص. ACK	134	86	†
007	07	متخصص. BEL	135	87	‡
008	08	متخصص. لیسانس	136	88	€
009	09	متخصص. TAB	137	89	‰
010	0A	متخصص. LF	138	8A	Љ
011	0B	متخصص. VT	139	8B	‹ ‹
012	0C	متخصص. FF	140	8C	Њ
013	0D	متخصص. CR	141	8D	Ќ
014	0E	متخصص. بنابراین	142	8E	Ћ
015	0F	متخصص. SI	143	8F	Џ
016	10	متخصص. DLE	144	90	ђ
017	11	متخصص. DC1	145	91	‘
018	12	متخصص. DC2	146	92	’
019	13	متخصص. DC3	147	93	“
020	14	متخصص. DC4	148	94	”
021	15	متخصص. NAK	149	95
022	16	متخصص. SYN	150	96	–
023	17	متخصص. ETB	151	97	—
024	18	متخصص. می توان	152	98
025	19	متخصص. EM	153	99	™
026	1A	متخصص. زیر	154	9A	љ
027	1B	متخصص. خروج	155	9B	›
028	1C	متخصص. FS	156	9 درجه سانتیگراد	њ
029	1D	متخصص. جی اس	157	9D	ќ
030	1E	متخصص. روپیه	158	9E	ћ
031	1F	متخصص. ایالات متحده	159	9F	џ
032	20	کلاچ SP (فضا)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	یو
041	29	)	169	A9	©
042	2A	*	170	AA	Є
043	2B	+	171	AB	«
044	2C	,	172	AC	¬
045	2 بعدی	-	173	آگهی
046	2E	.	174	AE	®
047	2F	/	175	AF	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	ه
057	39	9	185	B9	№
058	3A	:	186	BA	є
059	3B	;	187	BB	»
060	3C	<	188	قبل از میلاد مسیح	ј
061	سه بعدی	=	189	BD	Ѕ
062	3E	>	190	بودن	ѕ
063	3F	?	191	Bf	ї
064	40	@	192	C0	آ
065	41	آ	193	C1	ب
066	42	ب	194	C2	V
067	43	سی	195	C3	جی
068	44	دی	196	C4	دی
069	45	E	197	C5	E
070	46	اف	198	C6	اف
071	47	جی	199	C7	ز
072	48	اچ	200	C8	و
073	49	من	201	C9	Th
074	4A	جی	202	CA	به
075	4B	ک	203	CB	L
076	4C	L	204	CC	م
077	4 بعدی	م	205	سی دی	ن
078	4E	ن	206	CE	O
079	4F	O	207	CF	NS
080	50	پ	208	D0	آر
081	51	س	209	D1	با
082	52	آر	210	D2	تی
083	53	اس	211	D3	دارند
084	54	تی	212	D4	اف
085	55	U	213	D5	NS
086	56	V	214	D6	سی
087	57	دبلیو	215	D7	اچ
088	58	ایکس	216	D8	NS
089	59	Y	217	D9	SCH
090	5A	ز	218	DA	ب
091	5B	[	219	DB	NS
092	5C	\	220	دی سی	ب
093	5 بعدی	]	221	DD	NS
094	5E	^	222	DE	NS
095	5F	_	223	DF	من هستم
096	60	`	224	E0	آ
097	61	آ	225	E1	ب
098	62	ب	226	E2	v
099	63	ج	227	E3	جی
100	64	د	228	E4	د
101	65	ه	229	E5	ه
102	66	f	230	E6	f
103	67	g	231	E7	س
104	68	ساعت	232	E8	و
105	69	من	233	E9	هفتم
106	6A	j	234	EA	به
107	6B	ک	235	EB	ل
108	6C	ل	236	EC	متر
109	6 بعدی	متر	237	ED	n
110	6E	n	238	EE	O
111	6F	o	239	EF	NS
112	70	پ	240	F0	آر
113	71	q	241	F1	با
114	72	r	242	F2	تی
115	73	س	243	F3	در
116	74	تی	244	F4	f
117	75	تو	245	F5	NS
118	76	v	246	F6	ج
119	77	w	247	F7	ساعت
120	78	ایکس	248	F8	NS
121	79	y	249	F9	SCH
122	7A	z	250	FA	ب
123	7B	{	251	FB	NS
124	7C	\|	252	اف سی	ب
125	7D	}	253	FD	NS
126	7E	~	254	FE	NS
127	7F	متخصص. DEL	255	FF	من هستم

جدول کد کاراکتر اسکی ویندوز.
شرح کاراکترهای ویژه (کنترلی).

لازم به ذکر است که در ابتدا از کاراکترهای کنترل جدول ASCII برای ارائه تبادل داده از طریق تله تایپ، ورود اطلاعات از نوار پانچ و برای ساده ترین کنترل دستگاه های خارجی استفاده می شد.
در حال حاضر، اکثر کاراکترهای کنترل ASCII در جدول دیگر این بار را بر دوش نمی کشند و می توان از آنها برای مقاصد دیگر استفاده کرد.

کد	شرح
NUL، 00	پوچ، خالی
SOH، 01	شروع سرفصل، شروع سرفصل
STX، 02	شروع TeXt، ابتدای متن.
ETX، 03	پایان متن، پایان متن
EOT، 04	پایان انتقال، پایان انتقال
ENQ، 05	جویا شدن. من درخواست تایید می کنم
ACK، 06	تصدیق. من تایید میکنم
BEL, 07	زنگ، زنگ
BS, 08	Backspace، یک کاراکتر به عقب برگردید
TAB, 09	زبانه، زبانه افقی
LF، 0A	تغذیه خط، خوراک خط. اکنون در اکثر زبان های برنامه نویسی با \ n مشخص می شود
VT، 0B	زبانه عمودی، زبانه عمودی.
FF، 0C	فید فرم، فید صفحه، صفحه جدید
CR، 0D	برگشت محموله اکنون در اکثر زبان های برنامه نویسی با \ r نشان داده می شود
SO، 0E	Shift Out، رنگ نوار جوهر را در دستگاه چاپ تغییر دهید
SI، 0F	Shift In، رنگ نوار جوهر موجود در دستگاه چاپ را به عقب برگردانید
DLE، 10	Data Link Escape، کانال را به انتقال داده تغییر دهید
DC1، 11 DC2، 12 DC3، 13 DC4، 14	کنترل دستگاه، نمادهای کنترل دستگاه
NAK، 15	تصدیق منفی، تصدیق نمی کنم.
SYN، 16	هماهنگ سازی. نماد همگام سازی
ETB، 17	پایان بلوک متن، پایان بلوک متنی
CAN، 18	لغو، لغو یک مورد قبلی
EM، 19	پایان رسانه، پایان حامل داده
SUB، 1A	جایگزین به جای شخصیتی قرار می گیرد که ارزش آن در حین انتقال از بین رفته یا خراب شده است
ESC، 1B	دنباله فرار فرار
FS، 1C	جداکننده فایل، جداکننده فایل
GS، 1D	جداکننده گروه، جداکننده گروه
RS، 1E	جداکننده رکورد، جداکننده رکورد
ایالات متحده، 1F	جداکننده واحد، جداکننده واحد
DEL, 7F	حذف کنید، آخرین کاراکتر را حذف کنید.

کد باینری جدول کاراکتر Ascii. رمزگذاری ASCII (کد استاندارد آمریکایی برای تبادل اطلاعات) - رمزگذاری متن اصلی برای لاتین

کامپی واتر

و

3.2. رمزگذاری اطلاعات گرافیکی

تمرین هایی برای خودشکوفایی

استاندارد ASCII

استاندارد یونیکد

ایجاد ASCII

نمایش کامپیوتر ASCII

زبان روسی

مشکلات ASCII

وضعیت فعلی

جدول کد کاراکتر اسکی ویندوز. شرح کاراکترهای ویژه (کنترلی).

مقالات مرتبط برتر

جدول کد کاراکتر اسکی ویندوز.
شرح کاراکترهای ویژه (کنترلی).