Archive for கணித்தமிழ்

அ-யூனிகோடு

அண்மையில் தமிழ் நாட்டில் உள்ள கணித்தமிழ் அன்பர்கள் சென்னையில் புதிய தமிழ் 16 பிட் எழுத்துரு அமைப்பு ஒன்றை தற்போதுள்ள யூனிகோடு 16 பிட் எழுத்துருவுக்கு மாற்றாக உருவாக்கினார்கள். டேன் என்று அழைக்கப்படும் Tamil New Encoding அந்த புதிய எழுத்துரு முறை விவாதத்தை உருவாக்கியிருக்கிறது. இதென்ன புதுப்பிரச்னை, இந்த என்கோடிங் பிரச்னைக்கு முற்றுப்புள்ளியே கிடையாதா என்று அலறுபவர்கள்தான் அதிகம் என்றாலும்,கணி்த்தமிழர்கள் மீண்டும் பிளவுண்டிருக்கிறார்கள் என்பதே நிஜம்.

கடந்த ஞாயிறன்று இது குறித்து ஒரு நிகழ்வுக்கு தமிழ் இணைய பல்கலைக்கழகம் ஏற்பாடு செய்திருந்தது.

என்கோடிங், யூனிகோடு, பிட் போன்றவற்றைப் பற்றி வகுப்பெடுக்க இந்த வலைப்பதிவில் இப்போது நேரமில்லை. ஆனால், உங்களில் பலருக்கும் அது தெரி்ந்த கதையாக இருக்கும்

என்பதால் அதைப்பற்றி நேரடியாக கொஞ்சம் பார்ப்போம்.

முன்கதைச் சுருக்கம்: முன்னொரு காலத்தில் இந்திய அரசின் மின்னணுவியல் துறை இந்திய மொழிகள் அனைத்துக்கும் பொதுவாக ISCII எனப்படும் ஒரு எழுத்துரு குறியீட்டு முறையை உருவாக்கியது. பின்னொரு காலத்தில், உலகிலுள்ள அனைத்து மொழிகளுக்குமான எழுத்துக்குறியீட்டு தரப்பாடாக யூனிகோடு உருவானபோது, அந்த அமைப்பி்ன் நெறிமுறைப்படி நாடுகள் ஒவ்வொன்றும் அளித்த தரப்பாட்டின் அடிப்படையில் அது உருவானது. அங்கே தான் சிக்கல், இந்தியாவில்.

புதிய 16 பிட்காரர்களின் வாதம்:

இந்தி மொழியின் வரிவடிவமான தேவநாகரியை அடிப்படையாகக் கொண்டு அந்த இஸ்க்கீ வடிவமைக்கப்பட்டது. அந்த அமைப்பு தமிழுக்கும் வேறு சில இந்திய மொழிகளுக்கும் சரிவர பொருந்தவில்லை. எடுத்துக்காட்டாக, யூனிகோடு தமிழ் அகரமேறிய மெய்யெழுத்துகளை – க, ங, ச, – அடிப்படையாகக் கொண்டிருக்கிறது. ஆனால், முறைப்படி க், ங், ச்,.. என்றுதான் வரவேண்டும். சாதாரணமாக இது ஒரு பிரச்னை இல்லை என்று தோன்றும். புள்ளி டைப் பண்ணிகிட்டா போச்சு என்று விடமுடியாத பிரச்னை இது. ஆனால் தமிழ் இலக்கணப்படி உருவாக்கப்படும் இயல்மொழி நிகழ்முறை (natural language processing) செயல்பாடுகளின் போது இது பிரச்னை அளிக்கிறது. நாம் ஏன் தமிழின் இயல்பான இலக்கண அம்சத்தை இழக்கவேண்டும்?

எழுத்துக்களின் வரிசைப் படுத்தம் சரியில்லை. யூனிகோடு தமிழ் அட்டவணையில் ‘ச’-வுக்கு அடுத்து ஜ வருகிறது. இதுவும் தேவநாகரி வரிவடிவத்தின் வரிசையை தமிழ் மீது ஏற்றியதன் விளைவு. இது எல்லாவற்றையும் விட பிரச்னை தமிழ் ஆய்த எழுத்தை தேவநாகரி விஸர்காவுக்கு நிகராக நினைத்து சேர்க்கப்பட்டிருப்பதால் பிரச்னை எழுந்திருக்கிறது.

பிரபலமான யூனிகோடு எழுத்துருவான லதாவில் தமிழை உள்ளிடும் போது ஃ – ஐ டைப் செய்யும்போது  அதற்கு முன் புள்ளிவட்டம் வருகிறதே, பார்த்திருப்பீர்கள். அது இந்த பிரச்னைதான். வேறு ஒரு எழுத்துக்குப்பின்னால் என்றால், அந்த டாட்வட்டம் வராது.இது ஒரு எழுத்துரு வடிவமைப்பு பிரச்னைதான் என்றாலும், அந்த பிரச்னைக்கு காரணமே தேவநாகரி வரிவடிவத்தின் கீழ் இந்திய மொழிகள் அனைத்தையும் கொண்டுவந்ததுதான்.

இந்திய மொழிகளின் வரிவடிவங்களில் ஒரு பெரிய வேறுபாடு இருக்கிறது. தமிழ்,குருமுகி (பஞ்சாபி) போன்ற வரிவடிவங்களில் இந்தி, வங்காள மொழிகள் போல மெய் கூட்டெழுத்துக்களே (அதாவது, க்க, ங்க, க்‍ஷ போன்றவற்றை தமிழில் தனித்தனி எழுத்துருவாக எழுதுவோம், இந்தியில் என்றால் क्क,क्ष என பாதியெழுத்துக்கூட்டு, முற்றிலும் வேறு எழுத்து கூடடெழுத்தாக வருவதெல்லாம் உண்டு. தமிழில் அப்படி கிடையாது. பிறகு எப்படி இரு தரப்புக்கும் பொதுவான திட்டம் வகுக்கமுடியும் என்று கேள்வி எழுப்பப்படுகிறது.

இது எல்லாவற்றுக்கும் மேலாக இந்திய மொழிகள் அனைத்துக்கும் பொதுவாக தற்போதைய யூனிகோடு தரப்பாட்டில் ஒரு பிரச்னை இருக்கிறது.ரோமன், சிரிலிக் போன்ற குறைந்த எண்ணிக்கையில் எழுத்துக்களைக் கொண்ட மொழிகள் மட்டுமல்ல, சீனம், கொரியன் போன்ற ஆயிரக்கணக்கான எழுத்துக்களைக் கொண்ட மொழிகளுக்கும் கூட ஒரு எழுத்துக்கு ஒரு குறியீடு என்று நேரடியாக பொருந்துகிற வகையில் யூனிகோடில் இடம் அளிக்கப்பட்டிருக்கிறது.

ஆனால் இந்திய மொழிகளுக்கோ உயிரெழுத்து, உயிர்க்குறியீடுகள், மெய்யெழுத்து மற்றும் சிறப்புக்குறியீடுகளுக்கு மட்டுமே இடம் அளிக்கப்பட்டுள்ளன. உயிர்மெய்யெழுத்து, மெய்-மெய் கூட்டெழுத்து போன்றவற்றுக்கு யூனிகோடில் நேரடியாக இடமில்லை. உதாரணமாக, தமிழுக்கு எடுத்துக்கொண்டால், உயிர் 12, மெய் 18, இதனுடன் கிரந்த எழுத்துகள், ஆய்தம், ஸ்ரீ போன்ற சிறப்பெழுத்துகள் இடம் பெறுகின்றன. கா, கீ, கூ போன்ற உயிர்மெய் எழுத்துகளுக்கு நேரடியாக இடமில்லை. எனவே ஒவ்வொரு கணிப்பொறியிலும் அல்லது மொபைல் போன்ற சாதனங்களிலும் இந்த உயிர்மெய் எழுத்துத் தோன்ற, சிறப்பாக சில மென்பொருள்கள் சேர்க்கப்படவேண்டியிருக்கிறது. உங்கள் இணைய உலாவியில் ரெண்டரிங் எஞ்சி்ன் என்று ஒரு குட்டி மென்பொருள் இடம் பெற்றிருந்தால்தான் நீங்கள் இந்த வலைப்பதிவையே கூட சரியாக படிக்கமுடியும். இல்லையென்றால், க‍ோ, த‍‍ௌ, ப‍ு என்பது போல பார்ப்பீர்கள்.

இப்போது கணி்த்தமிழ் செயல்பாட்டாளர்கள் மேற்கண்ட காரணங்களால் தற்போதுள்ள யூனிகோடு தமிழ் அட்டவணையைத் தவிர்த்து, புதிய தமிழ் அட்டவணை ஒன்றை உருவாக்கி அதை தரப்படுத்தப்பட்ட 16 பிட் வடிவமாக ஆக்குமாறு கேட்கிறார்கள். ஒவ்வொரு தமிழ் எழுத்துருவுக்கும் நேரடியாக ஒரு குறியீடு ஒதுக்கவேண்டும். அதுதான் கோரிக்கை.

ஆனால், யூனிகோடு தரப்படுத்த அமைப்பான யூனிகோடு கன்ஸார்ஷியம் இதை ஏற்க மறுக்கிறது. இந்திய மொழிகள் அனைத்துக்கும் உயிர், மெய், உயிர்க்குறியீடு ஆகியவை மட்டுமே அடிப்படை என்றும் உயிர்மெய் எழுத்துகள் மற்றும் கூட்டெழுத்துகள் ஆகியவை டிரைவேட்டிவ்கள்தான் என்பதால் அவற்றுக்கு தனித்தனி இடம் தரவேண்டியதில்லை என்றும் கூறுகிறது.

இந்தியாவின் மற்ற மொழிகளில் அதன் கூற்று சரியாகத்தான் பொருந்துகிறது. இந்த கூட்டத்துக்கு வந்திருந்த, பிரபல இநதிய மொழிகள் எழுத்துரு நிறுவனமான மாடுலர் இன்ஃபோடெக்கின் (ஸ்ரீலிபி மென்பொருள் உருவாக்கியவர்கள்) தலைவர் எம் என் கூப்பரிடம் பேசிக்கொண்டிருந்தேன். இதெல்லாம் தமிழுக்கு பொருந்தலாம், இந்திக்கு பொருந்தாது என்றார். பெருக்கல் கணக்குப்போட்டுப்பார்த்தால் இந்தியில் 5000 கூட்டு வடிவங்கள் வருகி்ன்றனவாம். தமிழுக்கு வெறும் 300க்குள் எல்லாம் முடிந்துவிடுகிறது. எனக்குத் தெரிந்தவரை வங்க மொழியில் இந்த எண்ணிக்கை இன்னும் பல ஆயிரம் கூடும். ஜாங்கிரிஸ்கிரிப்ட் லிபிகளான தெலுங்கு, கன்னடத்திலும், தமிழுஞ்சமற்கிருதமுங்கலந்த மலையாளத்திலும் நிறைய கூட்டக்ஷரங்கள் இருக்கலாம்.

இதெல்லாம் புதியன தேடுவோர் வாதம்.

பழைய 16 பிட் யூனிகோடு ஆதரவாளர்கள் சொல்வது:

டேன்காரர்களின் வாதங்களை யூனிகோடு ஏற்காது. அடிப்படை எழுத்துக்களுக்கு உள்ள இடமே போதும். இல்லையென்றால், இந்திய மொழிகள் அனைத்திலும் இது புதிய பூகம்பமாக மாறும். அதுமட்டுமல்லமால் 2000 ஆம் ஆண்டிலிருந்து தற்போதைய யூனிகோடு அடிப்படையில் நிறைய மென்பொருள்கள் உருவாகிவிட்டன. ஆபரேட்டிங் சிஸ்டம் உதவி உருவாகியிருக்கிறது. இப்போது மீண்டும்போய் இதெல்லாம் மாற்றமுடியாது.அது மட்டுமல்லாமல், புதிய டேன் எழுத்துரு தொகுப்பை யூனிகோடின் தனியார் பிராந்தியத்தில் உருவாக்கியிருக்கிறார்கள். இது தீர்வு அல்ல. எல்லாம் சரி. தொண்ணூறுகளில் இஸ்க்கீ உருவான போதே இந்த பிரச்னைகளை இனம்கண்டு தீர்வு சண்டை போட்டிருக்கவேண்டும்.
பழைய யூனிகோடின் ஆதரவாளர்களை status quoists என்று சொல்லிவிட முடியாது. ஏனென்றால், தற்போதைய முறையில் ஏற்கனவே மைக்ரோசாஃப்ட் போன்ற நிறுவனங்கள் கோடிக்கணக்கில் செலவு செய்து மென்பொருள் தீர்வுகளை உருவாக்கியிருக்கின்றன. நோகியா செல்பேசியில் உள்ள தமிழும் யூனிகோடு அடிப்படையிலானது.

அப்புறம் இந்திய வரிவடிவங்களில் தமிழும் ஒன்று இல்லை என்பது போல பேசக்கூடாது. அது இந்திய மொழிகளுக்காக கணிப்பொறி நிறுவனங்கள் அளிக்கும் தீர்வுகளையும் தமிழுக்கு நிறைய மென்பொருள்கள் உருவாகும் வாய்ப்பையும் பறிக்கும்.

இப்போது இருப்பதில் எந்த பெரிய பிரச்னையும் இல்லை.

நம்ம கருத்து:

தமிழுக்கு நீதி கிடைப்பது X இருப்பதை அப்படியே ஏற்றுக்கொள்வது என்ற இரண்டு எதிர்வுகளில் சிக்கி்க்கொண்டிருக்கிறது இந்த பிரச்னை. தொடக்கத்திலேயே நம்மவர்கள் விழித்திருந்தால் தமிழ் வழமையான இண்டிக் ஸ்கிரி்ப்ட் இல்லை, வித்தியாசமானது என்று சொல்லி தேவையானதை வாங்கியிருக்கலாம்.

வெறும் எழுத்துரு, டிடிபி என்று பார்க்காமல், கணித்தமிழ் வளர்ச்சியின் அடுத்தடுத்த கட்டங்களில் தற்போதுள்ள யூனிகோடு பித்தளையாக இளித்துவிடும் என்கிற குற்றச்சாட்டு உண்மையாக ஆகலாம்.

உண்மையிலேயே, இது தர்மசங்கடமான நிலை. ஆனால், இந்த பிரச்னையை தற்போது ஒரு குறுகிய வட்டத்தில் மட்டும் விவாதி்த்துக்கொண்டிருக்கிறார்கள். தமிழ் இணைய மாநாடுகளும் ஏற்கனவே ரொம்ப அரசியல்மயமாகிக் கிடப்பதால், நாம் தொடர்ந்து தவறுகளை செய்துகொண்டேயிருப்போம் என்றுதான் தெரிகிறது.

வலைப்பதிவர்களே, இது குறித்து ஏதாவது செய்தாகவேண்டும். கூட வறீங்களா?

வால்: ஞாயிறன்று நடந்த இந்த கூட்டம் சுவாரசியமாகத்தான் இருந்தது. சண்டையை சீ்க்கிரம் முடித்துக்கொண்டு முடிவுக்கு வாருங்கள் என்று பேராசைப்பட்டார் மத்திய தகவல்நுட்பம் மற்றும் தொலைத்தொடர்பு அமைச்சர் தயாநிதி மாறன்.

இது போன்ற விவாதங்கள் எல்லாம் இந்தியில் நடக்கவில்லையா என்று கேட்டதற்கு,நீங்கள் எல்லாம் அதி்ர்ஷ்டசாலிகள் என்றார் மாடுலர் இன்ஃபோடெக் கூப்பர். You own your script. Nobody owns Devanagari script. Neither UPwaalaas, nor Rajasthanis, nor Biharis, nor Maharastrians, nor…

கூப்பர் ஐயா, நீங்கள்தான் அதிர்ஷ்டசாலி.

Comments (23)

Hello world – ஏழெட்டு தமிழ் மொழிபெயர்ப்புகள்

Hello world என்கிற இந்த கம்ப்யூட்டர் யுக பிள்ளையார் சுழியை எப்படி தமிழ்ப்படுத்தலாம் என்று பார்த்தால், ஹலோ உலகமே என்று ஒத்தைக்கு ஒத்தை மாற்றினால் தொடக்கமே கடுப்பாகிவிடுகிறது. ஆகையில், அக்கம் பக்கத்தில் சிலரைக் கேட்கலாம் என்று யோசிக்கிறேன். முன்னதாக சில அனுமானங்கள்.

  • அரசியல்வாதி அத்திப்பட்டியார் மொழிபெயர்த்தால் – பெரியோர்களே, தாய்மார்களே
  • பேட்டை பெரிசு மொளிபெயர்த்தது – இன்னா நைனா பூலாமா
  • என் தூரத்து தாத்தாவின் மொழியாக்கம் – திருச்சிற்றம்பலம் (எதற்கெடுத்தாலம் இவர் தொடக்கத்தில் இப்படித்தான் ஆரம்பிப்பார். இவர் அரசாங்கத்தை ஏமாற்றி 65 வயது வரை ஆசிரியர் பணியில் இருந்ததால் மக்கள் இவரை திருட்டுச்சம்பளம் என்றே கூப்பிடுவார்கள்).
  • கவிஞர் ப்ரியபாரதி324 மொழிமாற்றியது – ஹே! லோகசஹியே!
  • கவியரசர் திரைப்பாடியின் மொழிபெயர்ச்சி – அன்பே, அகிலமே (அ) உலகே உன்னை அழைககிறேன்.
  • தனித்தமிழ் மொழிபெயர்ப்பாளர் தமிழ்வளவேங்கையின் மொழிபெயர்ப்பு – ஏலா, உலகம்! (ஹலோ என்ற ஆங்கிலச்சொல் ஏலா என்ற தமிழ்ச்சொல்லின்கண் பிறந்தது. உலகம் என்ற சொல் லோகம் என்ற வடமொழியின் தமிழ் வடிவமாயினும் அஃது உலை+அகம் என்ற சொற்களின் மரூஉ ஆகும். எவ்வாறு உலையினின்று பிற பொருள்கள் தோற்றுவிக்கப்படுவோ, அது போல இஃது தொல் உலையாகும். இவ்வகத்தினின்றே பிற உயிரிகள் தோன்றின என்மனார் புலவர்).
  • கணித்தமிழ் நண்பர் கரிகாலன் மொழிமாற்றம்: ஹலோ வேர்ல்டு

இப்படித்தான் நடக்கும் என்ற அனுமானத்தில் இருக்கிறேன். உங்கள் அனுமானங்கள், எதிர்பார்ப்புகள் எல்லாம் எப்படி இருககும்?

எனது இணையாக்கம்  இது – ஹலோ, அமெரிக்கா!
 

Comments (8)