KompüterProqramlaşdırma

UTF-8 - character encoding

Unicode faktiki olaraq bütün mövcud xarakter dəstləri dəstəkləyir. Unicode character set kodlama ən yaxşı formasıdır UTF-8 encoding edir. Bu məlumatlar, səmərəliliyi və emal rahatlığı təhrif ASCII ilə uyğunluğu, müqavimət dəstəkləyir. ilk Amma ilk şey.

kodlaşdırma forması

byte və 32-bit sözləri - Computers mücərrəd riyazi obyektlərin, eləcə də saxlama vahidlərinin birləşməsi və idarə sabit ölçülü data yalnız kimi nömrələri fəaliyyət göstərir. təqdim necə müəyyən zaman Encoding standart nəzərə almaq lazımdır simvolların sayını.

kompüter sistemləri, integers 8 bit (1 bayt), 16 və ya 32 bit yaddaş hüceyrələri saxlanılır. Hər bir forma yaddaş hüceyrələrinin sequence xüsusi simvolu uyğun bir tam bir Unicode kodlama, müəyyən edir. standart Unicode simvol 8, 16 və 32-bit blokları kodlaşdırma üç müxtəlif formaları var. Buna görə, onlar UTF-8, UTF-16 və UTF-32 kimi tanınır. Adı UTF Unicode Transformation Format üçün dayanır. kodlama vasitələrinin üç formalarının hər biri bərabər təmsil Unicode xarakter müxtəlif applications üstünlükləri var.

Data şifreleme Unicode standartında bütün simvol təmsil etmək üçün istifadə edilə bilər. Belə ki, onlar müxtəlif səbəblərə üçün həllər tam uyğun kodlaşdırma müxtəlif formalarından istifadə. Hər bir coding birmənalı məlumatların itirmədən digər iki hər hansı bir çevrilə bilər.

nenalozheniya prinsipi

formaları Unicode kodlama hər qeyri qismən üst-üstə düşür baxımından inkişaf etmişdir. Məsələn, Windows-932 kod bir və ya iki bayt simvol təşkil edir. sequence uzunluğu ilk byte asılıdır, belə ki, iki byte və tək byte aralaşdırmaq sıra aparıcı byte dəyərlər. Lakin, bir byte dəyəri və arxada byte ardıcıllığı üst-üstə bilər. Bu xarakter axtarış D (kod 44) Bu səhvən iki byte xarakter "D" ardıcıllığı ikinci hissəsi daxil (kod 84 44) tapa bilərsiniz ki, məsələn deməkdir. doğru olan ardıcıllıqla tapmaq üçün proqram əvvəlki bytes nəzərə almaq lazımdır.

vəziyyət əgər aparıcı və arxada bytes matçında mürəkkəbdir. Bu qeyri aradan qaldırılması üçün mətn və ya unikal kod ardıcıllığı əvvəlində çatmadan bir əks Sistemi olacaq deməkdir. Bu yalnız səmərəsiz, lakin tam mətni yalnız bir yanlış byte okunmaz olmaq bəri, mümkün səhvlər müdafiə deyil.

aparıcı arxada dəyəri və saxlama vahid eyni məlumat deyil, çünki Format dönüşüm Unicode bu problem qarşısını alır. Bu vaxt görə xarakter kodu müxtəlif yerlərində təsadüf etmək səhv nəticələr verən axtarış və müqayisə üçün bütün Unicode təmin edir. kodlaşdırma bu formaları prinsipi nenalozheniya müşahidə ki, digər Şərqi Asiya multi-bayt kodlamaları onları fərqləndirir.

nonintersection başqa bir aspekti Unicode kodlamaları hər bir xarakter bir aydın müəyyən sərhəd olmasıdır. Bu, əvvəlki simvollar qeyri-müəyyən sayda scan üçün ehtiyac aradan qaldırır. Bu xüsusiyyət bəzən özünü clocking encoding adlanır. code ədəd Distortion yalnız bir xarakter bir təhrif təqdim edəcək, və ətraf simvol hələ bütöv deyil. 8-bit format dönüşüm, byte (ikili kod ilə) 10xxxxxx ilə başlayan göstərici xal simvolu start bir üç əks keçid üçün tələb olunur tapmaq üçün əgər.

ardıcıllıq

Unicode Konsorsiumu tam kodlamaları bütün 3 formaları dəstəkləyir. Unicode xarakter kodlama standart təcəssümü bərabər qüvvədə formaları - Bu, bütün dönüşüm formatları kimi UTF-8 və Unicode, qarşı vacibdir.

Byte-orientation

Unicode kodu ilə üst-üstə düşür bir 32-bit kodu vahid lazımdır UTF-32 simvol təmsil etmək. UTF-16 - iki 16-bit ədəd biridir. A UTF-8 4 bayt qədər istifadə edir.

UTF-8 encoding byte yönümlü ASCII-based sistemi ilə uyğun üçün nəzərdə tutulmuşdur. bayt bir ardıcıllıqla simvol təmsil əsasında uzun müddət mövcud proqram və informasiya texnologiyaları təcrübəsi çox. Birden çox protokollar sabitlik asılıdır ASCII encoding və istifadə və ya xüsusi nəzarət simvol qarşısını alır. A sadə yolu Unicode simvol, hər hansı bir ekvivalent ASCII xarakter və ya nəzarət xarakter təmsil 8-bit kodlaşdırma istifadə edərək, hallarda Unicode bilərsiniz uyğunlaşmaq. Bu məqsədlə, və bu UTF-8 encoding edir.

dəyişən uzunluğu

UTF-8 -, dəyişən uzunluğu kodlaşdırma 8-bit storage ədəd ibarət yuxarı bit olan hər bir byte ardıcıllığı olan hissəsi məxsusdur göstərir. kodu ardıcıllıqla ilk element ayrılmış dəyərlər biri üçündür, başqa - Növbəti üçün. Bu disjointness encoding təmin edir.

ASCII

UTF-8 encoding tam dəstəklənir ASCII kodları (0x00-0x7F). Bu Unicode simvol U + 0000-U + 007F tək byte 0x00-0x7F UTF-8 çevrilir və beləliklə ASCII fərqedilməz olmaq deməkdir. Bundan başqa, qeyri qarşısını almaq üçün, dəyər Unicode simvol bir byte təmsil bir daha istifadə olunmur 0x00-0x7F. rəmzləri iki bayt bir ardıcıllıqla istifadə edərək, ASCII başqa neideograficheskih kodlar. Symbols U + 0800-U + ffff üç bytes təmsil olunur üçündür, və U + ffff daha çox əlavə kodları dörd bayt tələb edir.

tətbiqi sahəsində

UTF-8 encoding adətən HTML protokol üstünlük verilir və kimi olur.

XML UTF-8 encoding üçün tam dəstəyi ilə ilk standart oldu. Standards təşkilatlar da gəlir. konsorsium W3C və IETF mühəndislik qrup bütün kodlaşdırma barədə razılığa gələndə ASCII-simvol fərqli URL ünvanı Support problem həll edildi URL ünvanları xüsusi UTF-8.

ASCII ilə Uyumluluk yeni proqram keçid asanlaşdırır. UTF-8 jEdit, Emacs, BBEdit, Eclipse, və Windows əməliyyat sistemi "Notepad", o cümlədən ən mətn redaktorları, işləyir ilə. encoding Unicode No digər formada alət belə bir dəstək öyünə bilməz.

istifadə kodlaşdırma bu bayt ardıcıllığı ibarətdir ki. UTF-8 simli ilə C və digər proqramlaşdırma dillərində işləmək asandır. Bu kodlama yalnız formasıdır, yazıları tələb etmir üçün BOM və ya XML bir kodlama bəyannamə bayt.

özünü sinxronizasiya

digər çox byte xarakter dəstləri ilə müqayisədə emal 8-bit rəmzləri istifadə edən bir mühitdə, UTF-8 aşağıdakı üstünlüklərə malikdir:

  • ilk byte kodu ardıcıllıqla onun uzunluğu haqqında məlumat ehtiva edir. Bu birbaşa axtarış səmərəliliyini artırır.
  • başlanğıc byte dəyərlərə sabit sıra məhdud kimi rəmzi başlanğıcını tapmaq sadələşdirilmiş.
  • No kəsişmə byte dəyərlər.

faydaları müqayisə

UTF-8 encoding kompakt. Şərqi Asiya simvol encoding üçün istifadə zaman (Çin, Koreya, əlamətləri istifadə Çin yazılı) 3-byte ardıcıllığı istifadə olunur. Həmçinin UTF-8 encoding emal sürəti kodlaşdırma digər formaları aşağı edir. A ikili çeşidlənməsi xətləri Unicode çeşidlənməsi ikili eyni nəticə istehsal edir.

character encoding sxemi

character encoding sxem encoding rəmzləri forma və tək byte yeri code ədəd metodu ibarətdir. Unicode standart ilkin byte sifariş nişanı (BOM, Byte üçün mark) istifadə edir encoding sxemi müəyyən etmək.

UTF-8 xüsusiyyət tag BOM kodlaşdırma formaları istifadə yalnız istinad məhdud zaman. onun encoding vahid ölçüsü bir byte kimi endian UTF-8 müəyyən problemlər var. kodlaşdırma bu forma üçün BOM istifadə tələb, nə tövsiyə edilir. BOM UTF-8 encoding üçün byte sifariş nişanı və ya imza istifadə edərək, digər codings konvertasiya etmək üçün mətn baş verə bilər. EF BB 16 16 BF 16 3 bayt ardıcıllıqla deyil.

UTF-8 encoding təyin etmək üçün necə

kodlaşdırma HTML UTF-8 aşağıdakı kodu ilə yüklü:

baş

Meta http-equiv = "Content-Type" content = "text / html; charset = utf-8" ˃

PHP UTF-8 encoding çıxış səviyyəsi dəyəri səhv qəbulu sonra fayl əvvəlində header () funksiyası istifadə edərək müəyyən edilir:

˂? Php

error_reporting (-1);

header ( "Content-Type: text / html; charset = utf-8 ');

UTF-8 encoding müəyyən bir MySQL verilənlər bazası qoşulmaq üçün:

˂? Php

mysql_set_charset (utf8 ');

CSS-faylı kodlama aşağıdakı UTF-8 simvol ifadə edir:

@charset "utf-8"

Bütün növ faylları BOM olmadan UTF-8 encoding seçin saxladıqda başqa site işləməyəcək. UTF-8 encoding dəyişdirmək üçün DreamWeave Bunu etmək üçün menu item "Title / Kodlama - - Səhifənin Properties Modifikasiyalar" seçmək lazımdır. səhifə yeniden ardından, "Connect Unicode imza (BOM)» olan onay işareti aradan qaldırılması və dəyişikliklər tətbiq. Bir səhifə və ya bir bazasında hər hansı bir mətn kodlaşdırma digər formada təqdim olunub, bu, yenidən daxil edin və ya yenidən kodlar lazımdır. Siz normal ifadeler ilə işləmək zaman, modifiye u istifadə etmək üçün əmin edir.

Siz həmçinin Windows "Notepad" in UTF-8 kodlamasıyla fayl saxlaya bilərsiniz. menu item seçilməsi sonra "Fayl - As saxla ..." encoding zəruri forma qurmaq və UTF-8 fayl saxlamaq üçün.

menu item vasitəsilə UTF-8 başqa əgər bir mətn redaktoru Notepad ++, ildə "BOM olmadan UTF-8 Convert» xarakter dəyişdirmək və UTF-8 edin.

heç bir alternativ yoxdur

siyasi və linqvistik sərhədləri silinir qloballaşma kontekstində yerli xüsusiyyətlərə malik xarakter dəstləri, az istifadə olunur. Unicode bütün lokalizasiyalar dəstəkləyir bir character set edir. A UTF-8 - var Unicode düzgün həyata keçirilməsi, bir nümunə:

  • Bu ASCII encoding ilə uyğunluğu, o cümlədən alətləri, geniş dəstəkləyir;
  • Bu təhrif data davamlı;
  • sadə və müalicə effektiv;
  • platforma müstəqildir.

daha yaxşı encoding və ya character set hansı formada haqqında UTF-8 müzakirə Advent ilə, mənasız olur.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 az.birmiss.com. Theme powered by WordPress.