Mobile version | RSS Feed |
புதியவை
Loading...



Wednesday, October 28, 2020

Info Post

2011 காலக்கட்டத்தில் தமிழ் பிழைதிருத்திக்கான ஆய்வுகளில் ஈடுபடும் போது, கணினி நுட்பங்கள் படிக்க வாய்ப்புகள் இருந்தாலும் தமிழ் மொழி இலக்கணம் படிக்க இணையத்தில் பெரும் வாய்ப்புகளில்லை. பொதுவாகப் பள்ளிப் பாடத்திட்டத்தில் உள்ள இலக்கணம் மட்டும் ஒரு படைப்பிலக்கியத்திற்குப் பயன்படுவதில்லை. வாசிப்பும் பயிற்சியுமே மொழிக்கான இலக்கணத்தை நமக்குக் கற்றுத்தந்து தமிழில் பிழையின்றி எழுதவைக்கும் திறனைக் கொடுக்கும். அந்நிலையில் தமிழில் மொழிக்கருவிகள் உருவாக்குவதில் பெரிய இடராகவிருந்தது. கணினிநுட்பமும் மொழி இலக்கணமும் அனைவரிடமும் போய்ச் சேரும் போதுதான் தொழில்நுட்பத்தின் ஆற்றலை மொழி வளர்ச்சிக்கும் பயன்படுத்த முடியும்.  அதன் பொருட்டும் தமிழ் சார்ந்த இணைய வளங்களை அதிகரிக்கும் பொருட்டும் Error Annotated Corpus எனப்படும் பிழைகளின் தரவுத் தொகுப்பு வெளியிடப்படுகிறது.

இன்று பல்வேறு இலக்கண நூல்கள் இணையத்தில் கிடைக்கின்றன. சந்தி இலக்கணத்திற்கு வழிகாட்டி மரம், தமிழ்ச் சொல்வங்கிகள் என்று சிலவற்றை இதற்கு முன்னரே அறிமுகமானவை. ஆங்காங்கே மொழி சார்ந்த இணையவழிப் பயிற்சிகளும் நடைபெறுகின்றன. பல இயல்மொழிப் பகுப்பாய்வுக் கருவிகளும் இணையத்தில் வெளிவந்துள்ளன. மொழி குறித்து விவாதிக்கும் இணையக் குழுக்களும் பல உள்ளன. அதில் நோக்கர் என்ற பேஸ்புக் குழுவில் தற்காலத் தமிழ்ப் பயன்பாட்டில் உள்ள பிழைகளைச் சுட்டிக் காட்டிவருகிறோம். முனைவர் அண்ணாகண்ணன் தொடங்கிய இக்குழுவில் தற்போது  மூவாயிரத்திற்கும் மேற்பட்ட பயனர்கள் இணைந்துள்ளனர். 


இங்கு #nokkarfront , #nokkar20 என்ற இரு கொத்துக் குறிச்சொற்கள் மூலம் ஊடகங்களில் காணப்படும் முக்கியப் பிழைகள் சுட்டிக்காட்டப்படுகின்றன. ஏறக்குறைய அனைத்துத் தமிழ் ஊடகங்களின் மொழிப்பயன்பாடுகள் பற்றியும் இங்கே அலசப்பட்டுள்ளன. குற்றம் சொல்வது எளிதுதான் என்றாலும் விழிப்புணர்வாகவும் ஆக்கப்பூர்வமாகவும் இங்கே ஊடகத்தமிழில் உள்ள பிழைகள் பகிரப்படுகின்றன. நோக்கர் குழுவிற்காக வாணி API மூலம் இயங்கும் பிழை அறிக்கை வழங்கும் ஒரு செயலி பயன்பாட்டிலுள்ளது. இது முழுமையான பிழை காட்டியில்லை என்றாலும் சொல்லிலக்கண அளவில் செயல்படும் செயலி இது. (பொருளளவில் செயல்படும் இலக்கணப் பிழை காட்டிகள் எதிர்காலத்தில் உருவாக்கப்படும்.) 

https://www.kaggle.com/neechalkaran/error-annotated-tamil-corpus

இது ஒரு முக்கிய தகவல் வங்கியாக இத்தரவுகள் உள்ளன. தொழில்நுட்பரீதியாக எந்திரவழிக் கற்றலுக்கோ, ஆய்வுகளுக்கோ இவை பெரிதும் பயன்படும். கடந்த இரண்டாண்டுகளாக வாணி கருவிவழியாகத் திரட்டிய பிழைகளில் போலிகள் நீக்கி, வகைப்படுத்தி, (Error Annotated Corpus for Tamil) தரவுத் தொகுப்பு இங்கே வெளியிடப்படுகிறது. மேலும் ஊடகங்கள் மட்டுமல்லாமல் சில மின்னூல்களும் ஆய்வுக்குட்படுத்தி, கணிசமாகக் காணப்படும் பிழைகளைக் கொண்டு இந்த தரவுத்தொகுப்பு (dataset) உருவாகியுள்ளது. செந்தரப்படுத்தப்பட்ட வகைப்பாடுகள் இல்லை என்பதால் இரண்டாம் வேற்றுமை, நான்காம் வேற்றுமை, வினையெச்சம், பெயரெச்சம், மகர ஈற்று, விகுதிகளான ஆக/ஆன போன்றவை, பேச்சு வழக்கு, தட்டுப்பிழைகள் மற்றவவை 'சந்தி' என்றும் இலக்கண அடிப்படையில் வகைப்படுத்தப்பட்டுள்ளன. புதிய பிழைதிருத்திகள் உருவாகும் போதோ, மொழிக்கருவிகள் உருவாகும் போதோ இதனைக் கொண்டு test case உருவாக்கிக்கொள்ளலாம்.

இலக்கண ஆலோசனை வழங்கும் செங்கைப் பொதுவன், வகைப்படுத்த உதவிய சே. கார்த்திகா மற்றும் நோக்கர் குழு உறுப்பினர்கள் அனைவருக்கும் நன்றி.



Next
This is the most recent post.
Older Post

12 comments:

Govindaraju Aruna said...

அருமையான பணி.
பாராட்டுகள்.

டி.என்.முரளிதரன் -மூங்கில் காற்று said...

போற்றத்தக்க சிறப்பான பணி வாழ்த்தும் பாராட்டுகளும்

திண்டுக்கல் தனபாலன் said...

பலவற்றை புதிதாக முயல்வதில் நிபுணரே... மென்மேலும் சிறக்க வாழ்த்துகள்... நன்றி...

மேமன்கவி பக்கம் said...

உங்கள் பணிக்கு பாராட்டுகள்

வளரும்கவிதை / valarumkavithai said...

இணையத் தமிழர்க்கு, இலக்கணம் கற்றுத் தருவது மிகப்பெரிய பணி! தொடர வாழ்த்துகள். இந்தக் கட்டுரையிலும் கூட தட்டுப்பிழை, தொடர்ப்பிழை வந்திருக்கிறது திருத்திவிட வேண்டுகிறேன்

mammathu said...

வாழ்த்துக்கள்.
சீரிய பணி.
தாங்கள் யாவரும் பெருமை கொள்ளவேண்டிய பணியே..நம் மொழிக்கு ஆக்கப்பூர்வமான பணிகளை இன்றைக்கு இளைஞர்கள் ஆற்றுவது மிக்க மகிழ்ச்சியைத் தருகின்றது. வாழ்க வாழ்க வாழ்கவே நீவிர் யாவரும்.
நா.மம்மது
தமிழ் இசை ஆய்வாளர்
மதுரை
94429 84589

Unknown said...

மகத்தான பணி தமிழ் கூறும் நல்லுலகம் வரவேற்கிறது.

மணிவானதி said...

மிகச்சிறந்த பணி. வாழ்த்துகள் நீச்சல்காரன்

azhagulakshmi s said...

இந்த செயலியை அறிமுகப்படுத்தியமைக்கு நன்றி.மேலும் பயன்படுத்துவது எப்படி ?

கிரி said...

உங்கள் முயற்சிக்கு வாழ்த்துகள்.

தேமொழி said...

மிக நல்ல ஆய்வு, பாராட்டுகள்

Neechalkaran said...

@azhagulakshmi s மன்னிக்கவும் இது செயலி அல்ல. செயலி மூலம் திரட்டிய தரவுகளை வகைப்படுத்தி ஆய்வுகளுக்காகப் பொதுவெளியில் வெளியிடப்படுகிறது