Mobile version | RSS Feed |
புதியவை
Loading...



Wednesday, October 28, 2020

Info Post

2011 காலக்கட்டத்தில் தமிழ் பிழைதிருத்திக்கான ஆய்வுகளில் ஈடுபடும் போது, கணினி நுட்பங்கள் படிக்க வாய்ப்புகள் இருந்தாலும் தமிழ் மொழி இலக்கணம் படிக்க இணையத்தில் பெரும் வாய்ப்புகளில்லை. பொதுவாகப் பள்ளிப் பாடத்திட்டத்தில் உள்ள இலக்கணம் மட்டும் ஒரு படைப்பிலக்கியத்திற்குப் பயன்படுவதில்லை. வாசிப்பும் பயிற்சியுமே மொழிக்கான இலக்கணத்தை நமக்குக் கற்றுத்தந்து தமிழில் பிழையின்றி எழுதவைக்கும் திறனைக் கொடுக்கும். அந்நிலையில் தமிழில் மொழிக்கருவிகள் உருவாக்குவதில் பெரிய இடராகவிருந்தது. கணினிநுட்பமும் மொழி இலக்கணமும் அனைவரிடமும் போய்ச் சேரும் போதுதான் தொழில்நுட்பத்தின் ஆற்றலை மொழி வளர்ச்சிக்கும் பயன்படுத்த முடியும்.  அதன் பொருட்டும் தமிழ் சார்ந்த இணைய வளங்களை அதிகரிக்கும் பொருட்டும் Error Annotated Corpus எனப்படும் பிழைகளின் தரவுத் தொகுப்பு வெளியிடப்படுகிறது.

இன்று பல்வேறு இலக்கண நூல்கள் இணையத்தில் கிடைக்கின்றன. சந்தி இலக்கணத்திற்கு வழிகாட்டி மரம், தமிழ்ச் சொல்வங்கிகள் என்று சிலவற்றை இதற்கு முன்னரே அறிமுகமானவை. ஆங்காங்கே மொழி சார்ந்த இணையவழிப் பயிற்சிகளும் நடைபெறுகின்றன. பல இயல்மொழிப் பகுப்பாய்வுக் கருவிகளும் இணையத்தில் வெளிவந்துள்ளன. மொழி குறித்து விவாதிக்கும் இணையக் குழுக்களும் பல உள்ளன. அதில் நோக்கர் என்ற பேஸ்புக் குழுவில் தற்காலத் தமிழ்ப் பயன்பாட்டில் உள்ள பிழைகளைச் சுட்டிக் காட்டிவருகிறோம். முனைவர் அண்ணாகண்ணன் தொடங்கிய இக்குழுவில் தற்போது  மூவாயிரத்திற்கும் மேற்பட்ட பயனர்கள் இணைந்துள்ளனர். 


இங்கு #nokkarfront , #nokkar20 என்ற இரு கொத்துக் குறிச்சொற்கள் மூலம் ஊடகங்களில் காணப்படும் முக்கியப் பிழைகள் சுட்டிக்காட்டப்படுகின்றன. ஏறக்குறைய அனைத்துத் தமிழ் ஊடகங்களின் மொழிப்பயன்பாடுகள் பற்றியும் இங்கே அலசப்பட்டுள்ளன. குற்றம் சொல்வது எளிதுதான் என்றாலும் விழிப்புணர்வாகவும் ஆக்கப்பூர்வமாகவும் இங்கே ஊடகத்தமிழில் உள்ள பிழைகள் பகிரப்படுகின்றன. நோக்கர் குழுவிற்காக வாணி API மூலம் இயங்கும் பிழை அறிக்கை வழங்கும் ஒரு செயலி பயன்பாட்டிலுள்ளது. இது முழுமையான பிழை காட்டியில்லை என்றாலும் சொல்லிலக்கண அளவில் செயல்படும் செயலி இது. (பொருளளவில் செயல்படும் இலக்கணப் பிழை காட்டிகள் எதிர்காலத்தில் உருவாக்கப்படும்.) 

https://www.kaggle.com/neechalkaran/error-annotated-tamil-corpus

இது ஒரு முக்கிய தகவல் வங்கியாக இத்தரவுகள் உள்ளன. தொழில்நுட்பரீதியாக எந்திரவழிக் கற்றலுக்கோ, ஆய்வுகளுக்கோ இவை பெரிதும் பயன்படும். கடந்த இரண்டாண்டுகளாக வாணி கருவிவழியாகத் திரட்டிய பிழைகளில் போலிகள் நீக்கி, வகைப்படுத்தி, (Error Annotated Corpus for Tamil) தரவுத் தொகுப்பு இங்கே வெளியிடப்படுகிறது. மேலும் ஊடகங்கள் மட்டுமல்லாமல் சில மின்னூல்களும் ஆய்வுக்குட்படுத்தி, கணிசமாகக் காணப்படும் பிழைகளைக் கொண்டு இந்த தரவுத்தொகுப்பு (dataset) உருவாகியுள்ளது. செந்தரப்படுத்தப்பட்ட வகைப்பாடுகள் இல்லை என்பதால் இரண்டாம் வேற்றுமை, நான்காம் வேற்றுமை, வினையெச்சம், பெயரெச்சம், மகர ஈற்று, விகுதிகளான ஆக/ஆன போன்றவை, பேச்சு வழக்கு, தட்டுப்பிழைகள் மற்றவவை 'சந்தி' என்றும் இலக்கண அடிப்படையில் வகைப்படுத்தப்பட்டுள்ளன. புதிய பிழைதிருத்திகள் உருவாகும் போதோ, மொழிக்கருவிகள் உருவாகும் போதோ இதனைக் கொண்டு test case உருவாக்கிக்கொள்ளலாம்.

இலக்கண ஆலோசனை வழங்கும் செங்கைப் பொதுவன், வகைப்படுத்த உதவிய சே. கார்த்திகா மற்றும் நோக்கர் குழு உறுப்பினர்கள் அனைவருக்கும் நன்றி.



12 comments:

முனைவர் அ.கோவிந்தராஜூ said...

அருமையான பணி.
பாராட்டுகள்.

டி.என்.முரளிதரன் -மூங்கில் காற்று said...

போற்றத்தக்க சிறப்பான பணி வாழ்த்தும் பாராட்டுகளும்

திண்டுக்கல் தனபாலன் said...

பலவற்றை புதிதாக முயல்வதில் நிபுணரே... மென்மேலும் சிறக்க வாழ்த்துகள்... நன்றி...

மேமன்கவி பக்கம் said...

உங்கள் பணிக்கு பாராட்டுகள்

நா.முத்துநிலவன், புதுக்கோட்டை said...

இணையத் தமிழர்க்கு, இலக்கணம் கற்றுத் தருவது மிகப்பெரிய பணி! தொடர வாழ்த்துகள். இந்தக் கட்டுரையிலும் கூட தட்டுப்பிழை, தொடர்ப்பிழை வந்திருக்கிறது திருத்திவிட வேண்டுகிறேன்

mammathu said...

வாழ்த்துக்கள்.
சீரிய பணி.
தாங்கள் யாவரும் பெருமை கொள்ளவேண்டிய பணியே..நம் மொழிக்கு ஆக்கப்பூர்வமான பணிகளை இன்றைக்கு இளைஞர்கள் ஆற்றுவது மிக்க மகிழ்ச்சியைத் தருகின்றது. வாழ்க வாழ்க வாழ்கவே நீவிர் யாவரும்.
நா.மம்மது
தமிழ் இசை ஆய்வாளர்
மதுரை
94429 84589

Agri Dhanasekaran said...

மகத்தான பணி தமிழ் கூறும் நல்லுலகம் வரவேற்கிறது.

மணிவானதி said...

மிகச்சிறந்த பணி. வாழ்த்துகள் நீச்சல்காரன்

தமிழ் இலக்கிய வரலாறு வினா விடை said...

இந்த செயலியை அறிமுகப்படுத்தியமைக்கு நன்றி.மேலும் பயன்படுத்துவது எப்படி ?

கிரி said...

உங்கள் முயற்சிக்கு வாழ்த்துகள்.

தேமொழி said...

மிக நல்ல ஆய்வு, பாராட்டுகள்

Neechalkaran said...

@azhagulakshmi s மன்னிக்கவும் இது செயலி அல்ல. செயலி மூலம் திரட்டிய தரவுகளை வகைப்படுத்தி ஆய்வுகளுக்காகப் பொதுவெளியில் வெளியிடப்படுகிறது