தமிழ் எழுத்துரு நுட்பங்கள் – 1

இன்று இணையத்திற்குப் புதிதாக வரும் பெரும்பாலானோர் தமிழ் எழுத்தின் குறியாக்கம்(encoding) பற்றி கவலைப்படத் தேவையில்லை. அந்தளவிற்கு ஒருங்குறி(unicode) முறை பரவிவிட்டது. ஆனால் ஒரு காலத்தில் சுமார் பத்தாண்டுகளுக்கு முன் வரைகூட எந்தக் குறியாக்கத்தில் எழுதுவது என்றும் எந்தக் குறியாக்கத்தைப் படிப்பதென்றும் சிக்கல் நிலவியது. அப்போது எழுதப்பட்ட வலைப்பதிவு முதல் உருவாக்கப்பட்ட வலைப் பக்கங்களை இன்றும் காணலாம். அந்தத் தமிழ்ப் பக்கங்கள் விதவிதமாகக் குறியீடுகளுடன் காணப்படும். அவற்றைப் படிக்கத் தனி எழுத்துருவைத் தரவிறக்கிப் படிப்பார்கள்.

இவை ஒருங்குறி அல்லாத குறியாக்கம் என்பதால் பொதுவாகப் பலருக்குப் புரியாது, விசயம் அறிந்தவர்கள் இவற்றைப் படிக்க பொங்குதமிழ் (http://www.suratha.com/reader.htm), என்.எச்.எம்.மாற்றி (http://software.nhm.in/services/converter) வழியாக மாற்றி படித்தும் வந்தனர். உண்மையில் தனி எழுத்துரு தேவையில்லை, தனிக் குறியாக்கமே தேவை. உதாரணம் அஞ்சல் எழுத்துரு ஒருங்குறிக்கும் (unicode), டிஸ்கி (TSCII) முறைக்கும் உள்ளது. இப்படி ஒரே எழுத்துரு பல குறியாக்கத்திற்கும் தயாரிக்கப்படுவதுண்டு. எனவே நுட்பரீதியாக, குறியாக்கச் சிக்கல் என்றாலும் வழக்கில் அதை எழுத்துரு சிக்கல் என்றே அழைக்கப்படுகிறது.

முதலில் தமிழ் எழுத்துருவின் அடிப்படையைப் புரிந்து கொள்ள வேண்டும். ஒவ்வொரு எழுத்தும் பல்வேறு புள்ளிகளைக் கொண்ட ஒரு ஓவியம் கொண்டே கணினியில் காட்சிப்படுத்தப்படுகிறது. ஒவ்வொரு எழுத்தும் அடிப்படை உருவம் மாறாமல் பல்வேறு வடிவத்தில் ஓவியங்களாக இருக்கும் அதை font face என்போம். (ஆங்கிலத்தில் Arial, Georgia, calibri போல) அந்த ஓவியத்திற்கு ஒரு அடையாள இலக்கைத்தை வைத்தே அதைக் கணினி புரிந்து கொள்கிறது இதனைக் குறியாக்க முறை(encoding) என்கிறோம். ஒரு கணினியிலிருந்து மற்றொரு கணினிக்குச் செல்லும் போது அதே குறியாக்கத்திலிருந்தால் எழுத்துக்கள் சரியாகத் தெரியும் மாறாக வேறு குறியாக்கத்தில் இருந்தால் எழுத்துக்களை மாற்றிக் காட்டிவிடும். உதாரணத்திற்குச் சொல்வதென்றால் 1 என்பதை அ என்றும் 2 என்பதை ஆ என்று ஒரு கணினியில் இருகிறது. மற்றொரு கணினியில் 11 என்றால் அ என்றும் 12 என்றால் ஆ என்றும் இருந்தால் என்னவாகுமோ அதுவே பிரச்சினை.

ஆரம்பக் காலக்கட்டத்தில் ஒரு தரப்படுத்தல் இல்லாததால் ஒவ்வொரு பதிப்பு நிறுவனமும் தங்களுக்கு ஏற்ற குறியாக்கத்தைப் பயன்படுத்திவந்தனர். பாமினி, அஞ்சல், கபிலன், கணியன், மயிலை போன்ற எழுத்துருக்கள் தனித்தனி குறியாக்கத்தைக் கொண்டிருந்தன. (எழுத்துரு என்பது font, குறியாக்கம் என்பது அதன் encoding) டேம், டேப், பாமினி, அஞ்சலி, மயிலை போன்ற பல குறியாக்கங்களும் அன்று இருந்தன. ஒரே குறியாக்கத்தில் பல எழுத்துருவையும் உருவாக்கி ஒரு கணினியில் நிறுவி, பயன்படுத்திவந்தனர். ஸ்ரீலிபி என்ற எழுத்துருக்களை மாடுலர் இன்போடெக் வெளியிட்டது, இந்தோவெப் எழுத்துருக்களை லாஸ்டெக் வெளியிட்டது. 1984ல் ஆதவின் எழுத்துருவை சீனிவாசன் என்பவரும், 1985ல் மயிலை(mylai) எழுத்துருவை கு. கல்யாணசுந்தரம் என்பவரும் வெளியிட்டனர். நா.கோவிந்தசாமியின் கணியன், ஆர்.கலைமணியின் தாரகை(1994), மா.ஆண்டோபீட்டரின் சாப்ட்வியு(Softview), தியாகராசனின் வானவில், முத்துநெடுமாறனின் அஞ்சல், கேச்சி எண்டர்பிரைஸின் இணைமதி(Inaimathi-1997) எனப் பல எழுத்துருக்கள் தனிக்குறியாக்க முறையுடன் உருவாகின. சில பதிப்பகங்கள் தங்கள் அச்சுப் பணிகென்று எழுத்துருக்களைப் பிரத்யேகமாகத் தயாரிக்கப்பட்டதால் அவை பெயர்கூட அவ்வளவாக வெளியே தெரிவதில்லை. ஒவ்வொரு இயங்குதளத்திற்கும்(OS) வெவ்வேறு குறுஞ்செயலிகள் இருப்பது போல வெவ்வேறு குறியாக்கத்திற்கு வெவ்வேறு எழுத்துருக்கள் இருந்தன.

இப்படி வெவ்வேறு குறியாக்கம் இருப்பதால் ஒரு அனுகூலம் என்னவென்றால் ஒரு நிறுவனத்தில் தட்டச்சு செய்யப்பட்ட செய்தி மற்ற நிறுவனத்திற்குச் சென்றாலும் புரியாது என்பதால் தகவல் பாதுகாப்பிற்கு உதவியது. ஆனால் தொழிற்நுட்பம் வளரவளர ஒரு சிக்கல் ஏற்பட்டது, ஒரே நிறுவனத்திற்கு மட்டுமல்லாமல் வெளியே மின்னஞ்சல் இணையம் என்று தகவல் பரிமாறப்பட்ட போது இத்தகைய முறையால் எழுத்துக்கள் சீராகத் தெரியவில்லை. ஓரிடத்திலிருந்து செய்தியை அனுப்பும் போது அதனுடன் அதன் எழுத்துருவையும் இணைத்தே அனுப்ப வேண்டியிருந்தது. பின்னர் 1988 முதலே அனைவரும் பயன்படுத்தத் தக்க எழுத்துருவிற்குச் சீரான குறியாக்கத்தை உருவாக்கினார்கள். அவை TSCII (எட்டு பிட்) அடுத்து TACE (16 பிட்) ஆகும். 1983ல் ISCII என்ற தகுதரம் இந்திய மொழிகளுக்கு எல்லாம் உருவாக்கப்பட்டது. கோமதி, ஜனனி, கண்ணதாசன், பரணர், துணைவன், டைம்ஸ் என டிஸ்கி(TSCII) முறைக்கென்றே பல எழுத்துருக்கள் வெளிவந்தன. அதே போல டேம், டேப் முறைக்கும் பல எழுத்துருக்கள் எப்போது வெளிவந்தன. ஒரு எழுத்துரு எந்தக் குறியாக்கம் என்று அறியும் வகையில் TSC அல்லது TAM அல்லது TAB என்ற முன்னொட்டுக்களுடன் பெயரிடப்பட்டன. உதாரணம் TSC-Komathi, TSCJananiNormal, TSC_Kannadaasan, TSCu_Paranar, TSCuthamba.

அதற்கிணையாக உலகளவில் அனைத்து மொழிகளுக்கும் ஏற்ப ஒருங்குறி(unicode) தகுதரம் அமைக்கப்பட்டு 1991ல் தமிழ் அதில் அறிமுகமானது. இன்றும் அதைப் பின்பற்றி தமிழ் எழுத்துக்கள் சீராக அமைக்கப்படுகிறது. அதாவது ஒவ்வொரு எழுத்திற்கும் ஒரு எண் வழங்கப்பட்டது. அதன்படி அ என்றால் 2949 என்று வழங்கப்பட்டிருக்கும். எனவே எல்லாக் கணினியிலும் இப்படி ஒரே எண்களிருந்தால் எல்லா எழுத்துருவும் சீராகக் காட்சி தரும். இந்த எண்ணை அடிப்படையாகக் கொண்டே ஒருங்குறி எழுத்துருக்கள் பல அறிமுகமானது. ஒருங்குறியில் ஒவ்வொரு எழுத்திற்கும் எந்த எண், அதன் நுட்பக் குறியீடுகள், அதன் இதர குறியாக்கங்கள் பற்றி மேலும் அறிய இத்தளத்திற்குச் செல்லலாம். 2004 ல் ரெட் ஹெட் நிறுவனம் லோஹித் என்ற பெயரில் தமிழ் உட்பட சில இந்திய மொழிகளின் எழுத்துருவை வெளியிட்டது. 2005ல் மைக்ரோசாப்ட் லதா என்ற தமிழ் எழுத்துருவை அறிமுகம் செய்தது. ஒருங்குறியின் பரவலை அடுத்து தாரகை(2004), அஞ்சல் எனப் பல தனிக் குறியாக்கத்தில் இருந்த எழுத்துருக்களும் ஒருங்குறியில் வெளியிடப்பட்டன. இதுபோல உலக மொழிகள் எந்த எழுத்துருவைப் பயன்படுத்தினாலும் கணினியைப் பொருத்தமட்டில் எழுத்துக்கள் எல்லாம் எண்கள் மட்டுமேயாகும். அது எந்த எண் என்பதை அவர்கள் பயன்படுத்தும் குறியாக்க முறையே முடிவு செய்யும். இவை எல்லாம் புதிய செய்தியாகப் பலருக்கு இருக்கலாம் ஆனால் “எண்ணென்ப ஏனை எழுத்தென்ப இவ்விரண்டும் கண்ணென்ப வாழும் உயிர்க்கு” என்று வள்ளுவர் கணித்தமிழுக்கும் சேர்த்தே அன்றே சொல்லிவிட்டார்.

– நீச்சல்காரன்