Data karakter disimpan di dalam komputer dalam bentuk peng-kode-an secara numerik. Generasi awal, pengkodean yang paling umum digunakan adalah 8-bit kode ASCII (American Standard Code for Information Interchange), yang menggunakan nilai antara 0 hingga 127 untuk mengkodekan 128 karakter yang berbeda. ISO 8859-1 adalah kode karakter 8-bit lainnya, tetapi memungkinkan 256 karakter yang berbeda. Bahasa pemrograman Ada 95+ menggunakan ISO 8859-1.
Karena pengaruh globalisasi dalam dunia bisnis dan juga karena kebutuhan komputer untuk saling berkomunikasi dengan komputer lain di seluruh dunia, rangkaian karakter (character set) ASCII menjadi tidak lagi memadai. Sebagai solusinya, pada tahun 1991, Unicode Consortium menerbitkan standar UCS-2, yaitu character set dengan 16-bit. Kode karakter ini sering disebut dengan Unicode. Unicode mencakup karakter-karakter dari sebagian besar bahasa alami dunia. Misalnya, Unicode menyertakan alfabet Cyrillic, seperti yang digunakan di Serbia, dan angka-angka Thailand. 128 karakter pertama dari Unicode identik dengan yang ada pada ASCII. Bahasa pemrograman Java adalah bahasa yang banyak digunakan pertama kali untuk menggunakan character set dari Unicode. Sejak itu, diikuti juga oleh bahasa-bahasa pemrograman seperti JavaScript, Python, Perl, C#, dan F#.
Setelah 1991, Unicode Consortium, bekerja sama dengan Organisasi Standar Internasional (ISO), mengembangkan kode karakter dengan 4-byte (32 bit) bernama UCS-4, atau UTF-32, yang dideskripsikan dalam standar ISO / IEC 10646, yang diterbitkan pada tahun 2000.
Untuk menyediakan sarana pemrosesan kode dari karakter-karakter tunggal, sebagian besar bahasa pemrograman menyertakan tipe data primitif untuk karakter-karakter tersebut. Namun, Python hanya mendukung karakter-karakter tunggal sebagai string-string karakter dengan panjang 1.
Comments
Post a Comment