அ-யூனிகோடு

அண்மையில் தமிழ் நாட்டில் உள்ள கணித்தமிழ் அன்பர்கள் சென்னையில் புதிய தமிழ் 16 பிட் எழுத்துரு அமைப்பு ஒன்றை தற்போதுள்ள யூனிகோடு 16 பிட் எழுத்துருவுக்கு மாற்றாக உருவாக்கினார்கள். டேன் என்று அழைக்கப்படும் Tamil New Encoding அந்த புதிய எழுத்துரு முறை விவாதத்தை உருவாக்கியிருக்கிறது. இதென்ன புதுப்பிரச்னை, இந்த என்கோடிங் பிரச்னைக்கு முற்றுப்புள்ளியே கிடையாதா என்று அலறுபவர்கள்தான் அதிகம் என்றாலும்,கணி்த்தமிழர்கள் மீண்டும் பிளவுண்டிருக்கிறார்கள் என்பதே நிஜம்.

கடந்த ஞாயிறன்று இது குறித்து ஒரு நிகழ்வுக்கு தமிழ் இணைய பல்கலைக்கழகம் ஏற்பாடு செய்திருந்தது.

என்கோடிங், யூனிகோடு, பிட் போன்றவற்றைப் பற்றி வகுப்பெடுக்க இந்த வலைப்பதிவில் இப்போது நேரமில்லை. ஆனால், உங்களில் பலருக்கும் அது தெரி்ந்த கதையாக இருக்கும்

என்பதால் அதைப்பற்றி நேரடியாக கொஞ்சம் பார்ப்போம்.

முன்கதைச் சுருக்கம்: முன்னொரு காலத்தில் இந்திய அரசின் மின்னணுவியல் துறை இந்திய மொழிகள் அனைத்துக்கும் பொதுவாக ISCII எனப்படும் ஒரு எழுத்துரு குறியீட்டு முறையை உருவாக்கியது. பின்னொரு காலத்தில், உலகிலுள்ள அனைத்து மொழிகளுக்குமான எழுத்துக்குறியீட்டு தரப்பாடாக யூனிகோடு உருவானபோது, அந்த அமைப்பி்ன் நெறிமுறைப்படி நாடுகள் ஒவ்வொன்றும் அளித்த தரப்பாட்டின் அடிப்படையில் அது உருவானது. அங்கே தான் சிக்கல், இந்தியாவில்.

புதிய 16 பிட்காரர்களின் வாதம்:

இந்தி மொழியின் வரிவடிவமான தேவநாகரியை அடிப்படையாகக் கொண்டு அந்த இஸ்க்கீ வடிவமைக்கப்பட்டது. அந்த அமைப்பு தமிழுக்கும் வேறு சில இந்திய மொழிகளுக்கும் சரிவர பொருந்தவில்லை. எடுத்துக்காட்டாக, யூனிகோடு தமிழ் அகரமேறிய மெய்யெழுத்துகளை – க, ங, ச, – அடிப்படையாகக் கொண்டிருக்கிறது. ஆனால், முறைப்படி க், ங், ச்,.. என்றுதான் வரவேண்டும். சாதாரணமாக இது ஒரு பிரச்னை இல்லை என்று தோன்றும். புள்ளி டைப் பண்ணிகிட்டா போச்சு என்று விடமுடியாத பிரச்னை இது. ஆனால் தமிழ் இலக்கணப்படி உருவாக்கப்படும் இயல்மொழி நிகழ்முறை (natural language processing) செயல்பாடுகளின் போது இது பிரச்னை அளிக்கிறது. நாம் ஏன் தமிழின் இயல்பான இலக்கண அம்சத்தை இழக்கவேண்டும்?

எழுத்துக்களின் வரிசைப் படுத்தம் சரியில்லை. யூனிகோடு தமிழ் அட்டவணையில் ‘ச’-வுக்கு அடுத்து ஜ வருகிறது. இதுவும் தேவநாகரி வரிவடிவத்தின் வரிசையை தமிழ் மீது ஏற்றியதன் விளைவு. இது எல்லாவற்றையும் விட பிரச்னை தமிழ் ஆய்த எழுத்தை தேவநாகரி விஸர்காவுக்கு நிகராக நினைத்து சேர்க்கப்பட்டிருப்பதால் பிரச்னை எழுந்திருக்கிறது.

பிரபலமான யூனிகோடு எழுத்துருவான லதாவில் தமிழை உள்ளிடும் போது ஃ – ஐ டைப் செய்யும்போது  அதற்கு முன் புள்ளிவட்டம் வருகிறதே, பார்த்திருப்பீர்கள். அது இந்த பிரச்னைதான். வேறு ஒரு எழுத்துக்குப்பின்னால் என்றால், அந்த டாட்வட்டம் வராது.இது ஒரு எழுத்துரு வடிவமைப்பு பிரச்னைதான் என்றாலும், அந்த பிரச்னைக்கு காரணமே தேவநாகரி வரிவடிவத்தின் கீழ் இந்திய மொழிகள் அனைத்தையும் கொண்டுவந்ததுதான்.

இந்திய மொழிகளின் வரிவடிவங்களில் ஒரு பெரிய வேறுபாடு இருக்கிறது. தமிழ்,குருமுகி (பஞ்சாபி) போன்ற வரிவடிவங்களில் இந்தி, வங்காள மொழிகள் போல மெய் கூட்டெழுத்துக்களே (அதாவது, க்க, ங்க, க்‍ஷ போன்றவற்றை தமிழில் தனித்தனி எழுத்துருவாக எழுதுவோம், இந்தியில் என்றால் क्क,क्ष என பாதியெழுத்துக்கூட்டு, முற்றிலும் வேறு எழுத்து கூடடெழுத்தாக வருவதெல்லாம் உண்டு. தமிழில் அப்படி கிடையாது. பிறகு எப்படி இரு தரப்புக்கும் பொதுவான திட்டம் வகுக்கமுடியும் என்று கேள்வி எழுப்பப்படுகிறது.

இது எல்லாவற்றுக்கும் மேலாக இந்திய மொழிகள் அனைத்துக்கும் பொதுவாக தற்போதைய யூனிகோடு தரப்பாட்டில் ஒரு பிரச்னை இருக்கிறது.ரோமன், சிரிலிக் போன்ற குறைந்த எண்ணிக்கையில் எழுத்துக்களைக் கொண்ட மொழிகள் மட்டுமல்ல, சீனம், கொரியன் போன்ற ஆயிரக்கணக்கான எழுத்துக்களைக் கொண்ட மொழிகளுக்கும் கூட ஒரு எழுத்துக்கு ஒரு குறியீடு என்று நேரடியாக பொருந்துகிற வகையில் யூனிகோடில் இடம் அளிக்கப்பட்டிருக்கிறது.

ஆனால் இந்திய மொழிகளுக்கோ உயிரெழுத்து, உயிர்க்குறியீடுகள், மெய்யெழுத்து மற்றும் சிறப்புக்குறியீடுகளுக்கு மட்டுமே இடம் அளிக்கப்பட்டுள்ளன. உயிர்மெய்யெழுத்து, மெய்-மெய் கூட்டெழுத்து போன்றவற்றுக்கு யூனிகோடில் நேரடியாக இடமில்லை. உதாரணமாக, தமிழுக்கு எடுத்துக்கொண்டால், உயிர் 12, மெய் 18, இதனுடன் கிரந்த எழுத்துகள், ஆய்தம், ஸ்ரீ போன்ற சிறப்பெழுத்துகள் இடம் பெறுகின்றன. கா, கீ, கூ போன்ற உயிர்மெய் எழுத்துகளுக்கு நேரடியாக இடமில்லை. எனவே ஒவ்வொரு கணிப்பொறியிலும் அல்லது மொபைல் போன்ற சாதனங்களிலும் இந்த உயிர்மெய் எழுத்துத் தோன்ற, சிறப்பாக சில மென்பொருள்கள் சேர்க்கப்படவேண்டியிருக்கிறது. உங்கள் இணைய உலாவியில் ரெண்டரிங் எஞ்சி்ன் என்று ஒரு குட்டி மென்பொருள் இடம் பெற்றிருந்தால்தான் நீங்கள் இந்த வலைப்பதிவையே கூட சரியாக படிக்கமுடியும். இல்லையென்றால், க‍ோ, த‍‍ௌ, ப‍ு என்பது போல பார்ப்பீர்கள்.

இப்போது கணி்த்தமிழ் செயல்பாட்டாளர்கள் மேற்கண்ட காரணங்களால் தற்போதுள்ள யூனிகோடு தமிழ் அட்டவணையைத் தவிர்த்து, புதிய தமிழ் அட்டவணை ஒன்றை உருவாக்கி அதை தரப்படுத்தப்பட்ட 16 பிட் வடிவமாக ஆக்குமாறு கேட்கிறார்கள். ஒவ்வொரு தமிழ் எழுத்துருவுக்கும் நேரடியாக ஒரு குறியீடு ஒதுக்கவேண்டும். அதுதான் கோரிக்கை.

ஆனால், யூனிகோடு தரப்படுத்த அமைப்பான யூனிகோடு கன்ஸார்ஷியம் இதை ஏற்க மறுக்கிறது. இந்திய மொழிகள் அனைத்துக்கும் உயிர், மெய், உயிர்க்குறியீடு ஆகியவை மட்டுமே அடிப்படை என்றும் உயிர்மெய் எழுத்துகள் மற்றும் கூட்டெழுத்துகள் ஆகியவை டிரைவேட்டிவ்கள்தான் என்பதால் அவற்றுக்கு தனித்தனி இடம் தரவேண்டியதில்லை என்றும் கூறுகிறது.

இந்தியாவின் மற்ற மொழிகளில் அதன் கூற்று சரியாகத்தான் பொருந்துகிறது. இந்த கூட்டத்துக்கு வந்திருந்த, பிரபல இநதிய மொழிகள் எழுத்துரு நிறுவனமான மாடுலர் இன்ஃபோடெக்கின் (ஸ்ரீலிபி மென்பொருள் உருவாக்கியவர்கள்) தலைவர் எம் என் கூப்பரிடம் பேசிக்கொண்டிருந்தேன். இதெல்லாம் தமிழுக்கு பொருந்தலாம், இந்திக்கு பொருந்தாது என்றார். பெருக்கல் கணக்குப்போட்டுப்பார்த்தால் இந்தியில் 5000 கூட்டு வடிவங்கள் வருகி்ன்றனவாம். தமிழுக்கு வெறும் 300க்குள் எல்லாம் முடிந்துவிடுகிறது. எனக்குத் தெரிந்தவரை வங்க மொழியில் இந்த எண்ணிக்கை இன்னும் பல ஆயிரம் கூடும். ஜாங்கிரிஸ்கிரிப்ட் லிபிகளான தெலுங்கு, கன்னடத்திலும், தமிழுஞ்சமற்கிருதமுங்கலந்த மலையாளத்திலும் நிறைய கூட்டக்ஷரங்கள் இருக்கலாம்.

இதெல்லாம் புதியன தேடுவோர் வாதம்.

பழைய 16 பிட் யூனிகோடு ஆதரவாளர்கள் சொல்வது:

டேன்காரர்களின் வாதங்களை யூனிகோடு ஏற்காது. அடிப்படை எழுத்துக்களுக்கு உள்ள இடமே போதும். இல்லையென்றால், இந்திய மொழிகள் அனைத்திலும் இது புதிய பூகம்பமாக மாறும். அதுமட்டுமல்லமால் 2000 ஆம் ஆண்டிலிருந்து தற்போதைய யூனிகோடு அடிப்படையில் நிறைய மென்பொருள்கள் உருவாகிவிட்டன. ஆபரேட்டிங் சிஸ்டம் உதவி உருவாகியிருக்கிறது. இப்போது மீண்டும்போய் இதெல்லாம் மாற்றமுடியாது.அது மட்டுமல்லாமல், புதிய டேன் எழுத்துரு தொகுப்பை யூனிகோடின் தனியார் பிராந்தியத்தில் உருவாக்கியிருக்கிறார்கள். இது தீர்வு அல்ல. எல்லாம் சரி. தொண்ணூறுகளில் இஸ்க்கீ உருவான போதே இந்த பிரச்னைகளை இனம்கண்டு தீர்வு சண்டை போட்டிருக்கவேண்டும்.
பழைய யூனிகோடின் ஆதரவாளர்களை status quoists என்று சொல்லிவிட முடியாது. ஏனென்றால், தற்போதைய முறையில் ஏற்கனவே மைக்ரோசாஃப்ட் போன்ற நிறுவனங்கள் கோடிக்கணக்கில் செலவு செய்து மென்பொருள் தீர்வுகளை உருவாக்கியிருக்கின்றன. நோகியா செல்பேசியில் உள்ள தமிழும் யூனிகோடு அடிப்படையிலானது.

அப்புறம் இந்திய வரிவடிவங்களில் தமிழும் ஒன்று இல்லை என்பது போல பேசக்கூடாது. அது இந்திய மொழிகளுக்காக கணிப்பொறி நிறுவனங்கள் அளிக்கும் தீர்வுகளையும் தமிழுக்கு நிறைய மென்பொருள்கள் உருவாகும் வாய்ப்பையும் பறிக்கும்.

இப்போது இருப்பதில் எந்த பெரிய பிரச்னையும் இல்லை.

நம்ம கருத்து:

தமிழுக்கு நீதி கிடைப்பது X இருப்பதை அப்படியே ஏற்றுக்கொள்வது என்ற இரண்டு எதிர்வுகளில் சிக்கி்க்கொண்டிருக்கிறது இந்த பிரச்னை. தொடக்கத்திலேயே நம்மவர்கள் விழித்திருந்தால் தமிழ் வழமையான இண்டிக் ஸ்கிரி்ப்ட் இல்லை, வித்தியாசமானது என்று சொல்லி தேவையானதை வாங்கியிருக்கலாம்.

வெறும் எழுத்துரு, டிடிபி என்று பார்க்காமல், கணித்தமிழ் வளர்ச்சியின் அடுத்தடுத்த கட்டங்களில் தற்போதுள்ள யூனிகோடு பித்தளையாக இளித்துவிடும் என்கிற குற்றச்சாட்டு உண்மையாக ஆகலாம்.

உண்மையிலேயே, இது தர்மசங்கடமான நிலை. ஆனால், இந்த பிரச்னையை தற்போது ஒரு குறுகிய வட்டத்தில் மட்டும் விவாதி்த்துக்கொண்டிருக்கிறார்கள். தமிழ் இணைய மாநாடுகளும் ஏற்கனவே ரொம்ப அரசியல்மயமாகிக் கிடப்பதால், நாம் தொடர்ந்து தவறுகளை செய்துகொண்டேயிருப்போம் என்றுதான் தெரிகிறது.

வலைப்பதிவர்களே, இது குறித்து ஏதாவது செய்தாகவேண்டும். கூட வறீங்களா?

வால்: ஞாயிறன்று நடந்த இந்த கூட்டம் சுவாரசியமாகத்தான் இருந்தது. சண்டையை சீ்க்கிரம் முடித்துக்கொண்டு முடிவுக்கு வாருங்கள் என்று பேராசைப்பட்டார் மத்திய தகவல்நுட்பம் மற்றும் தொலைத்தொடர்பு அமைச்சர் தயாநிதி மாறன்.

இது போன்ற விவாதங்கள் எல்லாம் இந்தியில் நடக்கவில்லையா என்று கேட்டதற்கு,நீங்கள் எல்லாம் அதி்ர்ஷ்டசாலிகள் என்றார் மாடுலர் இன்ஃபோடெக் கூப்பர். You own your script. Nobody owns Devanagari script. Neither UPwaalaas, nor Rajasthanis, nor Biharis, nor Maharastrians, nor…

கூப்பர் ஐயா, நீங்கள்தான் அதிர்ஷ்டசாலி.

23 Comments »

  1. இந்த ஸோ கால்டு ரெண்டரிங் இன்ஜினிலேயே புள்ளி, முட்டை, மற்றும் பிற எக்ஸ்ட்ரா ஃபிட்டிங்குகளைக் கையாள முடியாதா?

    இந்தப் பதிவின் முகவரியை மேலே முகவரிப் பட்டையில் பாருங்கள் எப்படிக் கொத்து பராட்டா ஆக்கப்பட்டிருக்கிறது என்று. இதுவும் ரெண்டரிங் இன்ஜின் பிரச்சினைதானே?

  2. zsenthil said

    அதெல்லாம் முடியும். பிரச்னை என்னவென்றால், இப்படி ரெண்டரிங் எஞ்சின் மாதிரியான எக்ஸ்ட்ரா ஃபிட்டிங் இல்லாமல், ஒண்டிக்கு ஒண்டி என்ற அளவில் அனைத்து எழுத்துக்களுக்கும் ஒவ்வொரு இடம் கொடுக்கலாமே என்கிறார்கள் புதிய 16 பிட்டார்.

    ஆதியில் தேவநாகரியும் தமிழ் வடிவமும் ஒரே மூலத்திலிருந்து வந்திருக்கலாம், ஆனால் அவை ஒரே விதமான அம்சங்களைக் கொண்டிருக்கவில்லை. தமிழில் மெய்க்கூட்டுகள் இல்லை. நமது ஆகப்பெரிய சிம்ளிசிட்டியை வைத்துக்கொண்டு நாம் ஏன் பிரச்னையில் சிக்கிக்கொள்ளவேண்டும்.? எதற்காக தமிழின் தனித்த எழுத்தான ஆய்த எழுத்தை இந்தியின் சார்பு எழுத்தான விஸர்காவுடன் (நமஹ – இல் அஹ சப்தம்) இணைக்கவேண்டும்? இதெல்லாம் தான் கேள்வி.

    முகவரிப்பட்டையில் தமிழ் கொத்து பரோட்டா ஆகியிருப்பதற்கு காரணம் வேறு ஏதோ இருக்கலாம்.

  3. இது என்னவோ தீர்வு காணக் கூடிய பிரச்சினை மாதிரித் தெரியவில்லை. இதிவும் பழகி்ப் போய்விட்டது.

    முகவரிச் சிதைவுக்கும் இரெண்டரிங் இன்ஜின்தான் காரணம் போலிருக்கிறது. இன்ரநெற் எக்சுபுளோரரில் தமிழ்ச் சொற்களை முகவரியிற் கொண்ட வலைப்பக்கங்கள் சிலவற்றைப் பார்த்தேன். அதே பர்சன்டேஜ் இ பூஜ்யம் இத்யாதியைத்தான் பார்க்க முடிகிறது.

  4. இன்னொன்று. Process-ஐ நிகழ்முறை என்று மொழிபெயர்க்கிறீர்கள். ‘செயல்முறை’யும் சரிதானே?

  5. zsenthil said

    செயல்முறையை procedure மாதிரியான வார்த்தைக்கு அர்ப்பணித்துவிடுவோம். Processing என்பது சற்றே அர்த்தபுஷ்ட்டியான சொல். நீண்ட நாட்களாக நல்ல சொல் கிடைக்காமல் திணறிவருகிறேன். மொழிபெயர்ப்பாளர் சிங்கராயரிடமிருந்து இந்த மொழிபெயர்ப்பு அகப்பட்டது. பொருத்தமாக இருந்ததால், அதைப் பயன்படுத்தத் தொடங்கிவிட்டேன். சிங்கராயருக்கு நன்றி.

  6. zsenthil said

    இன்னொரு முக்கிய விஷயம்: இன்னும் இந்த யூனிகோடு பிரச்னையில் நான் சைடு எடுக்கவில்லை. குழம்பிப்போய்கிடக்கிறேன் என்பதை மெத்த பணிவன்புடன் கூறிக்கொள்ளவிரும்புகிறேன்.

  7. CAPitalZ said

    //முகவரிப்பட்டையில் தமிழ் கொத்து பரோட்டா ஆகியிருப்பதற்கு காரணம் வேறு ஏதோ இருக்கலாம்.//

    ரெண்டரிங் இன்ஜின் பிரச்சினைதான். இந்த மேலதிக உதவி கணினியின் சகல உபயோகங்களிலும் தேவை. வலைப்பதிவில் தமிழ் சரியாக தெரியவைக்கப்பட்டுள்ளது. ஆனால் இன்னும் வலைமுகவரியை சரியாக தெரிய வைக்க செய்யப்படவில்லை என்பது தான் காரணம். நீங்கள் கவனித்தீர்களோ தெரியாது, முன்பு browser title (top) இல் தமிழ் எழுத்துக்கள் பெட்டி பெட்டியாகத் தான் தெரிந்தன. இப்போது அதற்கும் ரெண்டரிங் இன்ஜின் உதவி கிடைத்து விட்டது.

    ISCII ஐ வந்தபோதே இதை ஏன் சரிப்படுத்தி இருக்க கூடாது என்று கேட்டிருக்கிறீர்கள். ISCII ஐ பிழை என்று தான் தமிழில் புதிதாக வேறு எழுத்துரு தகுதரம் உருவாக்கப்பட்டது. அவை தான் TSCII, TAM, TAB என்பன எல்லாம்.

    ஒருங்குறி சரியாக ஏற்றப்படாமையால், தமிழ் எவ்வளவோ பின் தங்கி இப்போது இருக்கிறது.

    எனது பதிவில் நான் நன்றாக சல்லடை போட்டு அலசிவிட்டிருக்கிறேன். ஆனால், நீங்கள் எழுதிய சுருக்கமான இடுகை நன்றாக இருக்கிறது. நான் ஒரு Power Point ஒன்று இது சம்பந்தமாக தயாரித்து முனைவர் இரா. வாசுதேவன் அவர்களிடம் கொடுத்திருக்கிறேன். முடிந்தால் அதை எனது பதிவில் போடுவேன்.

    http://1paarvai.wordpress.com/tag/tamil-unicode/

    ______
    CAPital

  8. CAPitalZ said

    தேவநாகிரி எழுத்துக்கள் வேறு மொழிகளுக்கும் பாவிக்கப்பட்டாலும், ஃகிந்தி மொழியின் எழுத்து வரிசையில் தான் ஒருங்குறியில் இடம்பெற்றுள்ளது.

  9. zsenthil said

    நமது மொழியின் மீது தாக்கத்தைச் செலுத்தக்கூடிய ஒரு விஷயத்தை அப்போது கண்டுகொள்ளாமல் விட்டுவிட்டார்கள். டேம், டேப், டிஸ்கி என்று நாம் நமக்குள் அடித்துக்கொண்டிருந்த நேரத்தில் என்னவென்னவோ நடந்திருக்கிறது போலிருக்கிறது.

  10. > யூனிகோடு தமிழ் அகரமேறிய மெய்யெழுத்துகளை
    > – க, ங, ச, – அடிப்படையாகக் கொண்டிருக்கிறது.
    > ஆனால், முறைப்படி க், ங், ச்,.. என்றுதான்
    > வரவேண்டும்.

    பெங்களூர் ந. அன்பரசன் சில ஆண்டுகளாக
    மெய்யெழுத்துக்களை யுனிகோடில் ஏற்றுதல்
    குறித்து எழுதிவருகிறார். அது நல்ல யோசனையாகத்
    தோன்றுகிறது. இந்திய மற்றும் தென்கிழக்கு ஆசிய
    மொழிஎழுத்துக்கள் ஒன்றிலும் உயிர்மெய்கள்
    யுனிகோடில் இல்லை, எனவே தமிழுக்கு மாத்திரம்
    கிடைக்குமா என்ற கேள்வி வருகிறது.

    >எழுத்துக்களின் வரிசைப் படுத்தம் சரியில்லை.
    >யூனிகோடு தமிழ் அட்டவணையில் ‘ச’-வுக்கு
    >அடுத்து ஜ வருகிறது. இதுவும் தேவநாகரி
    >வரிவடிவத்தின் வரிசையை தமிழ் மீது ஏற்றியதன்
    >விளைவு.

    உண்மை. இம்முறை சமஸ்கிருதத்தின் வரிசைமுறை.
    எனவே, தெலுங்கு, ஹிந்தி, வங்கம், மலையாளம்
    … போல எல்லா மொழிகளுக்கும் உள்ளது.
    தமிழுக்குத் தனியாக வரிசைப்படுத்தல் முறை
    இண்பிட் கொடுத்து யுனிகோட் ஏற்றுள்ளது.

    >இது எல்லாவற்றையும் விட பிரச்னை தமிழ் ஆய்த
    >எழுத்தை தேவநாகரி விஸர்காவுக்கு நிகராக
    >நினைத்து சேர்க்கப்பட்டிருப்பதால் பிரச்னை எழுந்திருக்கிறது.

    ஆய்த எழுத்தை ஆயுத எழுத்து என்று பொருள்கொள்ளமுடியாது.
    விஸர்க்கத்துக்கு இன்னொருபெயர் ஆஸ்ரிதம், இது
    ஆயுதமாக மாறியது என்று இலக்கண ஆய்வாளர் கூறுவர்.
    ஃ- ஒலி ஹ-கரமாக வரும்.

    இண்பிட் கொடுத்த புரபோசலால், ஆய்தத்தின்
    யுனிகோட்குணம் (properties) இரண்டு ஆண்டுக்கு முன்னர்
    மாறிவிட்டது. புள்ளிவட்டம் (dotted circle) இல்லாமல்
    ஆய்தம் தோன்றுகிறது = ஃ. பழைய காலத்தில்
    ஆய்தம் சொல்லுக்கு முதலில் வராது. இப்போது
    ஃபாத்திமா, ஃபையர்ஃபாக்ஸ், … என்று எழுதத் தேவைப்படுவதைக்
    காரணம் காட்டி மாற்றி 2 வருஷங்கள் ஆகிவிட்டன.

    நல்ல பதிவு.
    நன்றி,
    நா. கணேசன்

  11. இண்பிட் கொடுத்த தமிழின் ஸார்ட்டிங் ஆர்டெர்:
    http://groups.google.com/group/muththamiz/msg/2e0517076dc6b3c8
    (பிடிஎப் கோப்பு)

    நா. கணேசன்

  12. CAPitalZ said

    It is specifically noted the name of ‘ஃ’ as ‘அய்தம்’ [aytham] in Tolkappiyam.

  13. zsenthil said

    இன்ஃபிட் அளித்த மாற்றுகள் ஏற்கப்பட்டிருப்பது பற்றி சுட்டிக்காட்டியதற்கு நன்றி. ஆனால், அடிப்படையில் நான் சொல்லவந்தது, தொடக்கத்தில் எவ்வாறு இஸ்க்கீ மூலம் ஒரு முறையற்ற முறையில் இதெல்லாம் தொடங்கியது என்பதுதான். இதை ஒரு டெக்னிக்கல் பிரச்னையாக மட்டும் நான் பார்க்கவில்லை, ஒரு தரப்படுத்தல் செய்யப்படும் முறை பற்றிய விஷயமாக, ‘அரசியல்’ பிரச்னையாகவும் பார்க்கிறேன். ஏனென்றால் வெறும் டெக்னிக்கல் பிரச்னைகளைத்தான் எப்போதும் தீர்த்துவிடலாமே! இப்போதும் கூட, யூனிகோடு தமிழ் பற்றிய விவகாரங்கள் தீர்ந்துவிட்டதாகத் தெரியவில்லையே!

  14. CAPitalZ said

    //இந்திய மற்றும் தென்கிழக்கு ஆசிய
    மொழிஎழுத்துக்கள் ஒன்றிலும் உயிர்மெய்கள்
    யுனிகோடில் இல்லை, எனவே தமிழுக்கு மாத்திரம்
    கிடைக்குமா என்ற கேள்வி வருகிறது.//

    உயிர்மெய் இல்லை.
    ஆனால் தமிழுக்கு மெய்யே ஒருங்குறியில் இல்லை தானே!

  15. CAPitalZ said

    ஒருங்குறி அமைப்பிற்கு தமிழ் மொழியை ISCII அமைப்பு 1983 ம் ஆண்டு வளங்கியது. அன்றைய காலகட்டத்தில், தமிழ் நாடு, ‘உத்தமம்’ போன்ற அமைப்புக்கள் அங்கம் வகிக்கவில்லை. ISCII எந்த ஒரு தமிழ் அறிஞரையும் இது தொடர்பாக கலந்தாலோசிக்கவில்லை. ஒருமுறை ஏற்றினால், அதை மாற்ற இயலாது என்பது ஒருங்குறி அமைப்பின் விதியாகும். இதனாலேயே ஏற்றிய தமிழை இனிமேல் சரி செய்ய இயலாது என்று ஒருங்குறி அமைப்பு முடிவாக சொல்லிவிட்டது. அதனால், வேறு ஒரு இடத்தில் மீதமுள்ள தமிழ் எழுத்துக்களை ஏற்றும் முயற்சியை TUNE செய்கிறது.

    http://1paarvai.wordpress.com/tag/tamil-unicode/

  16. zsenthil said

    1983 ஆ 1993? எதுவாயினும் அப்போது உத்தமமோ கணித்தமிழ் அமைப்புகளோ கிடையாது. இஸ்க்கீயை வடிவமைத்த மத்திய அரசின் மின்னணுவியல் துறையினர் நிச்சயமாக தமிழக அரசையோ தமிழறிஞர்களையோ அழைத்து பேசியிருக்கவேண்டும்.

    யூனிகோடில் ஏறிய தமிழை மாற்றமுடியாது என்பதால்தான் அதில் உள்ள தனியிடத்தில் புதிய 16 பிட் தமிழ் எழுத்துக்குறியீ்ட்டை போட முயற்சி செய்கிறார்கள். ஆனால், ஒரே மொழிக்கான குறியீட்டை இரண்டு வெவ்வேறு பகுதிகளில் போடுவது புதிதல்ல என்பதால், எங்கேயாவது ஒரு சமரசத்தோடு இதற்கு தீர்வு காணலாம்.

    அதற்கு தடையாக இருக்கக்கூடிய இரண்டு போக்குகளை அடையாளம் காண்பது நலம்.

    1. என் மொழிக்கான தீர்வை நானே அளிப்பேன் என்கிற வாதம்
    2. உன் மொழிக்கான தீ்ர்வை நீயே அளிக்க வேண்டும் என்பதை ஏற்கமுடியாது என்கிற எதிர்வாதம்.

    வேடிக்கையாக இருக்கிறது என்று சொல்லாதீர்கள். தற்போது இப்படிப்பட்ட எதிர்நிலைகளுக்குள்தான் தமிழை சிக்கவைத்திருக்கிறார்கள் போலிருக்கிறது.

    மீண்டும் ஒரு வரலாற்றுத்தவறை செய்ய எல்லோரும் சித்தமோ?

  17. Chella said

    எழுத்து எனப்படுப
    அகரம் முதல்
    னகர இறுவாய் முப்பது – தொல்காப்பியம்

    So Tamil 30 letters are the basic. you are all worrying about the machine – language. i am wish that simplification of tamil will make more people to learn this wonderfull language contents! that is why we learn English, french, russian, german easilly than Mandarin or Japanese or even Hindi ! KISS (Keep It Simple Stupid!) is the new world order!

    Thanks for your visit and would like to read a lot on your tech posts!

    With regards
    “OSAI” Chella

  18. //செயல்முறையை procedure மாதிரியான வார்த்தைக்கு அர்ப்பணித்துவிடுவோம். Processing என்பது சற்றே அர்த்தபுஷ்ட்டியான சொல். நீண்ட நாட்களாக நல்ல சொல் கிடைக்காமல் திணறிவருகிறேன்.//

    ஐயா,

    Procedure என்பதை வழிமுறை என்றும் Process என்பதை செயல்முறை என்றும் கூறலாமே. -விஜய்

  19. zsenthil said

    ஐயா, நான் தரப்படுத்தம் ஏதும் செய்ய முனையவில்லை. நீங்கள் விரும்பியபடி நீங்கள் எழுதுங்கள்.

  20. zsenthil said

    விஜய், ஒரு விளக்கம்: Process என்ற சொல்லுக்கு செயல்முறை என்று சொல்லலாம்தான். உணவுப்பதப்படுத்தத் துறையில் அதனை பதனம் என்று கூட சொல்லலாம். ஆனால், Business Process Outsourcing, Natural Language Processing, Biological Process, Legal Process என பலவாறான தொடர்களில் முக்கியத்துவம் அந்த செயல் எவ்வாறு இயங்குகிறது என்பதற்கு கூடுதலாக இருக்கிறது. அதை வெறும் செயல்முறையாக மட்டுமே குறுக்கிவிடமுடியாது. செயல்முறையும் ஒருவகை process. அவ்வளவே.

    எனவே, இதுவரை எனது நூற்றுக்கணக்கான மொழிபெயர்ப்பு திட்டப்பணிகளில் நானும் செயல்முறை போன்ற வார்த்தைகளைப் பயன்படுத்திவந்தாலும், முழு மனதோடு அதை பயன்படுத்த முடியவில்லை.

    நிகழ்முறை என்ற சொல் – நிகழும் முறை, நிகழ்த்தும் முறை, நிகழ்த்தப்படும் முறை போன்ற பல உள்ளர்த்தங்களை அடக்கியிருந்ததால், தன்னியல்பான இயக்கத்தையும் உள் கொண்டிருந்ததால்- என்னை வெகுவாக கவர்ந்தது.

    அதாவது, process என்ற சொல்லுக்கு நிகழ்முறை நல்ல மொழியாக்கம் என்று நான் நினைப்பதற்குப் பின்னால் ஒரு பெரிய process ஏ இருக்கிறது!

  21. [...] സംഭാവനകള്‍ നല്‍കിയ സെന്തില്‍ നാഥന്‍ senthilapi.wordpress.com ബ്ലോഗില്‍ 2006 സെപ്റ്റംബര്‍ 3 ന് [...]

  22. [...] സംഭാവനകള്‍ നല്‍കിയ സെന്തില്‍ നാഥന്‍ senthilapi.wordpress.com ബ്ലോഗില്‍ 2006 സെപ്റ്റംബര്‍ 3 ന് [...]

  23. zsenthil said

    Thanks for the Malayalam translation of the post and feedbacks. Please update us if Malayalam users discussed the issue. We are all in the same boat!

RSS feed for comments on this post · TrackBack URI

Leave a Comment