İçeriğe atla

Kod noktası

Karakter kodlaması terminolojisinde, kod noktası veya kod konumu kod uzayını oluşturan sayısal değerlerin her birine verilen isimdir.[1] Kod noktalarının karşılık geldiği karakterler genelde çizgisel karakterler olsa da zaman zaman biçimlendirme karakterleri de olabilmektedir (satır sonu karakteri gibi).

Örneğin ASCII karakter kodlama düzeni 016'dan 7F16'ya kadar olan 128 sayıyı içerir. Genişletilmiş ASCII ise 016'dan FF16'ya kadar olan 256 sayıyı içerir. Unicode ise 016 ile 10FFFF16 aralığındaki 1.114.112 kod noktasını içermektedir. Unicode kod uzayı on yedi adet düzleme (temel çokdilli düzlem ve 16 tamamlayıcı düzlem) bölünmüştür. Bu düzlemlerin her biri 65.536 (= 216) kod noktası bulundurur. Dolayısıyla Unicode kod uzayının toplam uzunluğu 17 × 65.536 = 1.114.112'dir.

Tanım

Unicode'un ortaya çıkışıyla şu iki kavramın birbirinden ayırt edilmesi ihtiyacı hissedildiğinden kod noktası kavramı kullanılmaya başlanmıştır:

  • metinlerin depolanmaya ve taşınmaya uygun bir şekilde, bir karakter kodlamasıyla bit dizileri şeklinde kodlanmış biçimleri
  • ekrana çizilen şekillerle (glif) ifade edilen karakterlerin soyut temsilcisi, bu temsilciye atanan ve karakter kodlamalarının kodlamada esas aldığı sayı.

Bunlardan ikincide belirtilen sayılar kod noktası adını almıştır. Eskiden bu iki kavram için ayrı bir ifade bulunmamaktaydı. Çünkü ASCII ve genişletilmiş ASCII kodlamalarında kodlanmış sayı ve kod noktaları aynı sayılardı. Ancak Unicode sisteminde kodlanmış sayılar kod noktalarından ayrıdır. Aynı karakterin kodlanmasıyla elde edilen sayı kullanılan kodlama biçimine göre farklı olabilecekken aynı karakterin kod noktası Unicode'da her zaman aynıdır. Yani kod noktası kodlama türünden bağımsızdır. Bu ayrım bir başka deyişle şu şekilde de ifade edilebilir: Unicode'da karakter kodlamaları kod noktalarını kodlayarak bellekte depolanabilecek veya veri olarak aktarılabilecek bit dizilerine dönüştürürler. Unicode öncesi kodlama sistemleri ise doğrudan karakterleri kodlarlar, yani karakterleri bir sayıyla eşleştirip bu sayıyı iki tabanına dönüştürüp bitlerle yazarak bilgisayar sistemlerinde temsil etmiş olurlar. Unicode'da ise karakterler için tüm kodlama biçimleri tarafından ortak olarak esas alınacak sayılar (kod noktaları) belirlenmiş ve her bir karakter bir sayıyla eşleştirilmiştir. Farklı kodlama biçimleri bu kod noktalarını farklı şekilde kodlayarak iki tabanına dönüştürebilirler. Böylelikle karakterden bit dizilerine giden süreç şu iki aşamaya bölünmüştür:

  1. Soyut karakterlerin belirlenmesi ve her birine bir kod noktası tahsis edilmesi
  2. Sabit uzunlukta bit dizileri kullanan (8-bit uzunluğundaki baytlar gibi) bilgisayar sistemlerinin kod noktalarını depolayabilmesi ve taşıyabilmesi için kod noktalarının belirli bir yöntemle ikil sayılara dönüştürülmesi.

Birinci aşamanın öngördüğü kod noktası tahsis sürecini Unicode Consortium yürütmektedir. Karakterler ve kendilerine atanan kod noktaları Unicode tarafından Code Chart adı verilen belgeler halinde tablolar halinde yayınlanmaktadır.[2] Yeni karakter eklemeleri yapıldıkça bu tablolar güncellenmektedir.

İkinci aşamada öngörülen süreç ise karakter kodlama biçimlerince gerçekleştirilmektedir. Bu aşamada farklı yöntemlerin olması ve her birinin kendine göre avantaj ve dezavantajlarının bulunması, metinsel verinin kullanıldığı sistemin teknik özelliklerine göre yapılacak değerlendirme sonucunda uygun kodlama seçilip kullanılabilmesini sağlamaktadır. Ancak günümüzde en yaygın olarak kullanılan karakter kodlaması UTF-8'dir.

Unicode'da kodlama esnasında ortaya çıkan belirli uzunluktaki bit dizilerine kod birimi denir. UCS-4 kodlamasında her kod noktası 4 baytlık ikil sayılarla kodlanırken UTF-8 kodlamasında kod noktaları birden dörde kadar değişen uzunlukta bayt dizileriyle kodlanmaktadır. Kod noktaları soyut karakterlere atanan sayılardır. Soyut karakterler grafiksel bir görüntü belirtmeyip yalnızca metinsel verinin bir birimi olarak düşünülmüştür. Yani grafiksel olarak farklı şekillerde gösterimi mümkün olan karakterler aynı soyut karakterle temsil ediliyor olabilirler ve bu durumda hepsinin kod noktası aynı olur. Kod noktalarının çoğu ileride yeni karakterlere tahsis edilmek için ayrılmıştır. Bununla beraber bazı kod noktaları doğrudan karakterlere tahsis edilmeyip başka amaçlara hizmet etmektedirler (UTF-16 kodlamasında kullanılan yedek çiftler gibi).

Kod noktalarıyla temsil ettikleri soyut karakter arasındaki ayrım Unicode'da pek dile getirilmemiştir; ancak başka karakter kodlama düzenlerinde kolayca fark edilir durumdadır. Kod sayfası olarak adlandırılan çoğu karakter kodlama düzeni aynı kod uzayını kullanmalarına rağmen bu kod uzayındaki kod noktalarını farklı karakterlere tahsis etmişlerdir. Örneğin genişletilmiş ASCII setlerinin hepsi 256 sayılık aynı kod uzayını kullanmasına rağmen bazı kod noktalarını farklı karakterlere atamış olmalarıyla değişiklik gösterirler.

Unicode'un bu diğer kodlama düzenlerinden farkı ise tüm karakterleri tek kod uzayında birleştirerek aynı kod uzayının farklı karakterler için kullanılması zorunluluğuna çözüm olmasıdır.

Ayrıca bakınız

Notlar

  1. ^ "Glossary of Unicode Terms". 26 Aralık 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 4 Temmuz 2015. 
  2. ^ "Code Charts, Unicode Consortium". 7 Temmuz 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Temmuz 2015. 

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Ogg</span>

Ogg ya da bir diğer yazılışıyla OGG, Xiph.org Vakfı tarafından geliştirilen açık ve özgür bir çokluortam dosya biçimidir. Yazılım patentlerinin tehdidi altında olmayan bu dosya biçimi, akışkan video için optimize edilmiş yüksek kalitede çokluortam gerçeklemeleri için geliştirilmiştir.

UTF-8 8-bitlik bir Unicode dönüşüm biçimidir. Unicode karakterlerini değişken sayıda 8 bitten oluşan bayt gruplarıyla kodlamakta kullanılır. Rob Pike ve Ken Thompson tarafından geliştirilmiştir.

<span class="mw-page-title-main">Unicode</span> endüstri standartı

Unicode Unicode Consortium organizasyonu tarafından geliştirilen ve her karaktere bir sayı değeri karşılığı atayan bir endüstri standardıdır. Sistemin amacı farklı karakter kodlama sistemlerinin birbiriyle tutarlı çalışmasını ve dünyadaki tüm yazım sistemlerinden metinlerin bilgisayar ortamında tek bir standart altında temsil edilebilmesini sağlamaktır. Evrensel Karakter Kümesi (UCS) olarak bilinen ISO/IEC 10646 standardı ise, her iki organizasyonun işbirliği ile aynı sayısal karşılıkları taşımaktadır. Unicode, son sürümü itibarıyla 129 farklı modern ve tarihî yazım sistemine ait 120.000'den fazla karakteri ve emoji gibi çeşitli sembol kümelerini kapsamaktadır.

<span class="mw-page-title-main">Çember</span>

Çember ya da dönge, düzlemde sabit bir noktaya eşit uzaklıkta bulunan noktaların kümesinin oluşturduğu yuvarlak, geometrik şekil. Çemberin çevrelediği 2 boyutlu alana daire denir.

JPEG, Joint Photographic Experts Group tarafından standartlaştırılmış bir sayısal görüntü kodlama biçimidir. Bu biçim, 1994 yılında ISO 10918-1 adıyla standartlaşmıştır.

Base64 ikili verilerin sadece ASCII karakterlerini kullanan ortamlarda iletilmesine ve saklanmasına olanak tanıyan bir kodlama şemasıdır.

Koordinat sistemi, geometride herhangi bir düzlemdeki (çokkatlıdaki) bir nokta veya başka bir geometrik elemanın konumunu tam olarak belirlemek için bir veya daha çok sayı ya da koordinat kullanılan bir sistemdir. Koordinatlar basit matematikteki reel sayılardan oluşur. Fakat soyut cebir gibi bazı alanlarda karmaşık sayılar veya elemanlardan oluşabilir. Koordinat sisteminin kullanılması, geometrik problemlerin sayısal problemlere ve tersine dönüştürülmesini sağlar. Bu analitik geometrinin temelidir.

Â, Türkçedeki yabancı kökenli sözcüklerin ve eklerin telaffuzunu Türkçeye uyarlamak için kullanılır. Â harfiyle başlayan kelimeler de vardır: Âkif, Âdem, âlem, âmâ gibi. Şapkalı a genellikle l, k ve g, h ünsüzlerinden sonra kullanılır. Hâlâ, dergâh, rüzgâr, dükkân, kâgir, kâğıt, kâtip, kâr, kâse, Mevlâ, hâl, mekân, mükâfat, yâr, Kâbe, Hakkâri gibi. Uzun okunması gereken diğer ünlüler için kullanılmaz. Fakat kalın okunması gereken k ve g harflerinden sonra gelen uzun a ^ imi almaz. Kasım (Bey), kanun vb. Â harfi Türkçenin her yerinde egemen olmasına rağmen, resmî alfabede yer almaz.

<span class="mw-page-title-main">H.264/MPEG-4 AVC</span>

H.264 bir görüntü sıkıştırma standardıdır ve MPEG-4 Bölüm 10 ya da MPEG-4 AVC in muadilidir. 2008 yılı itibarıyla, ITU-T, Video Coding Experts Group (VCEG), ISO/IEC içindeki Moving Picture Experts Group (MPEG) tarafından oluşturulan Birleşik Video Ekibi tarafından geliştirilen en son blok-yönelimli hareket-kompanzasyonuna dayalı çözücü standardıdır. ITU-T H.264 ve ISO/IEC MPEG-4 Bölüm 10 standartları birlikte sürdürülmektedir, dolayısıyla aynı teknik içeriğe sahiptirler. Standartın ilk nihai taslak metni Mayıs 2003'te tamamlanmıştır.

Dolby Digital, Dolby Laboratuvarları tarafından geliştirilen veri ve ses sıkıştırma teknolojilerinin ismidir. Orijinal ismi, 1994'e kadar Dolby Stereo Digital olarak kullanılmıştır.

<span class="mw-page-title-main">BCD kodu</span>

BCD kodu, bilgisayar ve elektronik sistemlerinde onluk tabandaki (decimal) sayıların ikilik tabana (binary) dönüştürülmesi için kullanılan sayısal kodlama metodudur. Bu dönüştürme işlemi yapılırken öncelikle sayının her bir basamağı tek tek ikilik tabana çevrilir ve ardından her basamağın karşılık geldiği binary değerler sırasıyla birleştirilerek sayının BCD Kodu ile gösterimi elde edilir.

<span class="mw-page-title-main">Kod çözücü</span>

Kod çözücü (decoder), temel olarak kodlanmış verinin ilk halini tekrar elde etmek için kullanılmaktadır. Sayısal elektronikte kod çözücülerin basit mantığı, kodlanmış çoklu giriş kod çözücüye verilmekte ve çıkış olarak da farklı şekilde kodlanmış çoklu çıkış alınmaktadır. Bu kod çözücülere örnek, ikili kodlu onluk kod çözücülerdir ve burada verilen n sayıdaki giriş 2n sayıda çıkışa dönüştürülmektedir. Burada kod çözücüye seçme girişleri de konularak oluşturulan çoklu çıkışlardan seçim yapılması sağlanabilir. Kod Çözücüler, durağan rastgele erişimli bellek (SRAM) bit hücrelerinden oluşan bir yazmaç öbeğinde satırın seçiminde, 7 bölütlü görüntü için veya veri çoklama gibi birçok yerde kullanılmaktadır.

Bir açık dosya biçimi, sayısal verileri saklamak için genellikle standart organizasyonları tarafından yayımlanmış ve herkesçe kullanılıp uyarlanılabilicek belirtimlerdir. Örneğin açık biçimler hem sahipli hem de ücretsiz ve özgür yazılımlarda her birinde kullanılan tipik yazılım lisanslarıyla birlikte kullanılabilir. Açık biçimlerin aksine kapalı biçimlerde ticari sırlar olduğu kabul edilir. Açık biçimler eğer telif hakkı, patent, ticari marka ve benzeri diğer kısıtlamalar içermiyor ve herkes istediği amaçla maddi bir maliyet olmaksızın kullanabiliyorsa özgür dosya biçimleri olarak anılır.

Alfanümerik, Latin alfabesindeki harfleri ve Arap rakamlarını (0-9) kullanan karakter dizisini tanımlamakta kullanılan bir sıfat. Benzer şekilde bu dizinin üyelerinden her biri de alfanümerik olarak tanımlanır. Geniş tanımıyla noktalama işaretlerini ve bazı diğer özel karakterleri de kapsar.

<span class="mw-page-title-main">Karakter kodlaması</span> yazıdaki karakterleri rakamsal değerlerle temsil etmek

Bilişimde karakter kodlaması kavramı bir çeşit kodlama sistemi kullanılarak kodlanmış karakter gruplarını temsil etmektedir. Soyutlama düzeyi ve kullanıldığı bağlama bağlı olarak karakterlere karşılık gelen kod noktaları ve bunların oluşturdukları kod alanı, bit örüntüleri, oktetler, doğal sayılar, elektrik sinyalleri vb. şeklinde algılanabilir. Metinsel verilerin işlenmesi, depolanması ve iletimi esnasında karakter kodlamaları kullanılır. Karakter seti, karakter eşlem veya kod sayfası gibi ifadeler karakter kodlaması kavramıyla eş anlamlıymış gibi kullanılsa da aralarında bazı anlam farkları bulunmaktadır.

Kelime işlemci ve dizgicilikte, ayrılmaz alan (" "), aralıksız alan, zor alan veya sabit alan, kesintisiz alan için "sabit alan" teriminin kullanımı, "sabit genişlikli alan" terimi ile karıştırılabildiği için kesinlikle önerilmez. Konumunda otomatik satır kesmesini önleyen boşluk karakteri. HTML dahil olmak üzere bazı formatlarda, ardışık boşluk karakterlerinin tek bir alana daralmasını da önler.

Programlamada, beyaz boşluk tipografide yatay veya dikey alanı temsil eden herhangi bir karakter veya karakter dizisidir. Oluşturulduğunda, bir boşluk karakteri görünür bir işarete karşılık gelmez, ancak genellikle bir sayfadaki bir alanı kaplar. Örneğin, ortak boşluk sembolü U+0020   SPACE, Batı'da kelime bölücü olarak kullanılan betik metinde boş bir noktalama işareti temsil eder.

<span class="mw-page-title-main">Kodlama teorisi</span> bilgisayar programlarındaki kodların incelendiği bilimsel alan

Kodlama teorisi, kodların özelliklerinin ve bunların belirli uygulamalar için uygunluğunun incelenmesini sağlayan bir teoridir. Kodlar, veri sıkıştırma, kriptografi, hata algılama ve düzeltme, veri iletimi ve veri depolama için kullanılabilir. Kodlar, verimli ve güvenilir veri aktarım yöntemlerinin tasarlanması amacıyla bilgi teorisi, elektrik mühendisliği, matematik, dilbilim ve bilgisayar bilimi gibi çeşitli bilimsel disiplinler tarafından incelenir. Bu genellikle fazlalığın kaldırılmasını ve iletilen verilerdeki hataların düzeltilmesini veya tespit edilmesini içerir.

Büyüktür işareti, bir matematiksel semboldür. Büyüktür işareti, bir sayının bir başka sayıdan büyük olduğunu göstermek için kullanılır. Büyüktür işareti ">" olarak yazılır. Örnekler: 8 > 3, 9 > 6, 14 > 10 ve 12 > 9

<span class="mw-page-title-main">Düz metin</span> yalnızca okunabilir materyalin biçimlendirilmemiş karakterlerinden oluşan bilgisayar verileri

Bilgi işlemde, düz metin yalnızca karakterlerden oluşan okunabilir materyali temsil eden ancak grafiksel gösterimini veya diğer nesneleri temsil etmeyen veriler için kullanılan geniş/serbest bir terimdir. Ayrıca metnin basit düzenini etkileyen boşluklar, satır sonları veya sekme karakterleri gibi sınırlı sayıda "boşluk" karakteri de içerebilir. Düz metin, stil bilgilerinin dahil edildiği biçimlendirilmiş metinden; paragraflar, bölümler ve benzerleri gibi belgenin yapısal kısımlarının tanımlandığı yapılandırılmış metinden; ve bazı kısımların ikili nesneler olarak yorumlanması gereken ikili dosyalardan farklıdır.