Mobile version | RSS Feed |
புதியவை
Loading...
Sunday, January 3, 2016

மொழிக் கருவிகள் என்பது பொதுவாக நேரடியாகப் பயனர்களுக்குப் பயன்படாவிட்டாலும் ஆய்வாளர், எழுத்தாளர் போன்றவர்களுக்கு இது இன்றியமையாதது. இதற்குமுன் இந்திய மொழிகளின் நடுவண் நிறுவனம் ஒரு சொல்லின் மீள்பயன்பாட்டை எண்ணிக்காட்டும் ஒரு கருவியை வெளியிட்டுள்ளது http://www.ciilcorpora.net/frequency.asp ஆனால் அதைவிட எளிதாகத் தமிழுக்கு ஏற்ப கூடுதல் வசதிகளுடன் சுளகு என்ற ஒரு சிறிய தமிழ் எழுத்தாய்வுக்கருவி அறிமுகம் செய்யப்படுகிறது.

சுளகு

ஒரு பனுவலில் எத்தனைமுறை ஒரு சொல் பயன்படுத்தப் பட்டுள்ளது என்று அறியலாம். நூற்றியெட்டு முறை ஸ்ரீ ராமஜெயம் எழுதுவோர் முதல் நூற்றியெட்டு முறை துதி பாடுவோர் வரை வார்த்தைகளை எண்ணிக்கொள்ள உதவும் என்பது கூடுதல் செய்தி. எழுத்தையும் வார்த்தையையும் எண்ணிக்காட்டும். ஏதேனும் ஒரு அளவு வேண்டும் என்பதற்காக 100 வார்த்தைகளுக்கு மிகாமல் சிறுகதை எழுதுங்கள் என்று பல போட்டிகளில் அறிவிப்புகளைப் பார்த்திருப்பீர்கள். நடுவர்களே அதை எண்ணுவாரா எனத் தெரியாது ஆனால் நாம் கதை எழுதிவிட்டு அதை எண்ணிக்கொண்டிருப்பதே தனிக்கதை. இனி தமிழ் எழுத்துக்களையும் தமிழ் வார்த்தைகளையும் எண்ணிக்காட்டும் நுட்பத்தை இச்செயலி வழியாகப்பெறலாம். டிவிட்டரில் 140 எழுத்து என்ற உச்ச அளவு இருந்தாலும் தமிழில் எழுதும் போது சுமார் 90 எழுத்துமட்டுமே எழுதமுடியும்(காரணம் ஒருங்குறி முறையில் உயிர் தனியாகவும் மெய் தனியாகவும் உள்ளது) இப்படி ஆங்கிலக் கருவிகளில் தமிழ் எழுத்தாய்வு செய்யமுடியாது. அவற்றைக் கணக்கில் கொண்டு தமிழுக்கான எழுத்தையும், சொல்லையும் ஆராயும் விதத்தில் இக்கருவி உருவாக்கப்பட்டுள்ளது. மேலும் ஒவ்வொரு எழுத்தும் அல்லது வார்த்தையும் எத்தனை முறை பயன்படுத்தப்பட்டுள்ளது என்றும் கூறிவிடும்.

அகரவரிசைப்படுத்தல் என்பது எழுத்துப்பணிக்கு மிக முக்கியமானது. தற்போதைய தொழிற்நுட்பத்தில் இதனைத் தானியக்கமாகவும் செய்கிறார்கள். ஒருங்குறியில் தமிழ் எழுத்துக்கள் நுட்பக்காரணங்களுக்காக வேறுவகையில் வரிசைப்படுத்தப்பட்டுள்ளது அதனால் பொதுவாக தமிழை எளிதில் நிரலாளர்கள் sort நுட்பத்தில் அகரவரிசைப்படுத்த முடியாது அதனால் தமிழுக்காகப் பிரத்யேகமான முறைகள் கையாள வேண்டும். தற்போதைய மைக்ரோசாப்ட் ஆபிஸ் சரியாக வரிசைப்படுத்தினாலும் ஆரம்பக்காலப் பதிப்புகளில் இக்குறை இருந்தது. இதுவல்லாமல் இணையத்தில் எழுதுபவர்கள் குறிப்பாக வலைப்பதிவு, விக்கிப்பீடியா போன்றவற்றில் அகரவரிசைப்படுத்தலுக்கான தேவையுள்ளது. அதற்காக இவ்வசதியும் சுளகில் உள்ளது. வரிக்கு ஒரு தொடராகக் கொடுத்தால் அதனை அகரவரிசைப்படுத்தித் தரும். தமிழில் சொல்லடைவுகள் உருவாக்க பெரிதும் உதவும்.

ஒரு முறை நண்பரொருவருடன் உரையாடும் போது கம்பராமாயணத்தில் அதிகம் பயன்படுத்தப்பட்ட சொல் எது என்று ஆய்வு செய்வதாகக் கூறினார். மற்றொரு சந்தர்ப்பத்தில் டிவிட்டரில் திருக்குறளில் அதிகம் பயன்படுத்தப்பட்ட எழுத்து எது என்று விவாதம் வந்தது. இப்படி பல மொழி சார்ந்த எழுத்தாய்வுகள் ஆங்காங்கே நடக்கின்றன ஆனால் பெரும்பாலும் மொழி ஆய்வுகளுக்குத் தொழிற்நுட்பத்தைப் பயன்படுத்துவதில்லை. மேற்கூறிய ஆய்வுகளைத் தொழிற்நுட்பத்தால் ஒரு நொடியில் பகுத்துக்காட்டும் செயலியாக இக்கருவி திகழும். திருக்குறளில் அதிகம் பயன்பட்ட சொல் எது என்றால் "என்னும்" என்ற சொல் 67 முறை வள்ளுவர் பயன்படுத்தியுள்ளார். அதற்கடுத்து 56 முறை பயன்படுத்தப்பட்டதாக "எல்லாம்" என்ற சொல்லே காணக்கிடைக்கிறது. இப்படிச் சொல்லடைவைகூட உருவாக்கமுடியும். சரி எழுத்தென்று பார்த்தால் "ன்" 2101 முறையும், "ம்" 1949 முறையும், "ல்" 1474 முறையும் பயன்படுத்தியுள்ளார். மேற்கண்ட ஆய்வுகள் பதம் பிரிக்காத குறள் வடிவத்தில் செய்யப்பட்டது. மேலும் பதம் பிரிக்கும் போது எழுத்துக்கள் மாறலாம் என்பதையும் மறுக்கமுடியாது. எத்தனை எழுத்தைப் பயன்படுத்தவில்லை என்றும் கண்டுபிடிக்கலாம்.

மு.வ. எழுதிய திருக்குறள் உரையில் அதிகம் பயன்படுத்திய சொல் "என்று" என்பதாகும் அதற்கு அடுத்தே "வேண்டும்" என்ற சொல்லைப் பயன்படுத்துகிறார். கலைஞர் கருணாநிதி எழுதிய உரையில் "வேண்டும்" என்ற சொல்தான் அதிகமாகப் பயன்படுத்தப் பட்டுள்ளது. இப்படி ஆய்வுகள் பல செய்யலாம் நீங்களும் பயன்படுத்திப் பாருங்கள். ஆலோசனைகளையும் குறைகளையும் அறியத் தாருங்கள்.

6 comments:

டி.என்.முரளிதரன் -மூங்கில் காற்று said...

பயனுள்ள கருவி. இதை உருவாக்கியது நீங்கள்தான் என நினைக்கிறேன்.
வாழ்த்துக்கள் தொடரட்டும் உங்கள் சேவை

டி.என்.முரளிதரன் -மூங்கில் காற்று said...

இது போன்ற மென்பொருட்களை உருவாக்க அடிப்படையாக என்னென்னன தெரிந்திருக்க வேண்டும்?

நீச்சல் காரன் said...

இணையத்தில் உருவாக்க வேண்டுமென்றால் HTML கூடுதலாகத் தெரிந்திருக்க வேண்டும். JavaScript, asp, jsp, PHP, python உட்பட எந்த கணினி மொழியின் வழியாகவும் தமிழ் மென்பொருளை உருவாக்கலாம். இது ஜாவாஸ்கிரிப்ட் வழியாக உருவாக்கப்பட்டது.

இ.பு.ஞானப்பிரகாசன் said...

ஐயா! பயன்படுத்திப் பார்த்தேன். மிக அருமையான செயலி! நொடியில் விடைகள் வந்து விடுகின்றன. ஆனால், கடைசியாக இருக்கும் 'அகரவரிசை' எனும் பொத்தானை அழுத்தினால் மட்டும் சுழன்று கொண்டே இருக்கிறதே தவிர, ஏதும் வரவில்லை. ஒருவேளை இணைப்பில் கோளாறு போன்ற காரணங்கள் ஏதாவது இருக்கலாம். நாளை மீண்டும் பயன்படுத்திப் பார்க்கிறேன்.

எழுத்தாளர்களுக்குச் சொல்வளம் மிகவும் முதன்மையானது. ஆனால், இற்றை நாளில் பெரும்பாலோர் மிகச் சில சொற்களையே மறுபடியும் மறுபடியும் பயன்படுத்தி ஒப்பேற்றி வருகிறோம் என்பது தமிழறிஞர்களின் கருத்தாக உள்ளது. தங்களுடைய இந்தப் புதுப்புனைவு அந்தக் குறையை நீக்கிச் சொல்வளத் திறனை வளர்த்துக் கொள்ளப் பலருக்கும் உதவும் என நம்புகிறேன்.

எங்களைப் போன்றவர்கள் "தமிழ்... தமிழ்..." என்று வெறுமே பேசியும் எழுதியும் உணர்ச்சியை மட்டுமே தூண்டிக் கொண்டிருக்கும் நிலையில் தமிழை வாழ்விப்பதற்கான ஆக்கம்சார் முயற்சிகளை நீங்கள் தொடர்ந்து செய்து வருகிறீர்கள். இது தமிழுக்கு அளப்பரிய தொண்டு! மிக்க நன்றி! வணக்கம்!

அ. முஹம்மது நிஜாமுத்தீன் said...

வித்தியாசமான செயலி!
பயனுள்ளது!!

Subramanian Ramanathan said...

இனிய நண்பருக்கு

தங்கள் தளத்தில் உள்ள செயலிகள் அனைத்தும் அருமையாக உள்ளன. என் போன்ற முழுநேர எழுத்தாளர்களுக்கு மிகவும் பயன்படுகின்றன.

நண்பரே ஒரு சந்தேகம்

நான் எழுதிய புத்தகங்களை மிகமிகக் குறைந்த விலையில் (ஒரு புத்தகம் ஒரு ரூபாய்) பி.டி.எப். பைல்களாக விற்பனை செய்ய எண்ணியுள்ளேன். ஆனால் அவற்றை காப்பி செய்யாமல் தடுப்பது எப்படி? தனித்தனி பைலாகவோ அல்லது முழுமையாக டி.வி.டி.யையோ காப்பி செய்யாமல் தடுக்க ஏதேனும் மென்பொருள் உள்ளதா?

தகவல் தந்தால் உதவியாக இருக்கும்.

மிக்க நன்றி