Pages - Menu

Wednesday, October 28, 2020

எழுத்துப் பிழைகளுக்கான தரவுத்தொகுப்பு

2011 காலக்கட்டத்தில் தமிழ் பிழைதிருத்திக்கான ஆய்வுகளில் ஈடுபடும் போது, கணினி நுட்பங்கள் படிக்க வாய்ப்புகள் இருந்தாலும் தமிழ் மொழி இலக்கணம் படிக்க இணையத்தில் பெரும் வாய்ப்புகளில்லை. பொதுவாகப் பள்ளிப் பாடத்திட்டத்தில் உள்ள இலக்கணம் மட்டும் ஒரு படைப்பிலக்கியத்திற்குப் பயன்படுவதில்லை. வாசிப்பும் பயிற்சியுமே மொழிக்கான இலக்கணத்தை நமக்குக் கற்றுத்தந்து தமிழில் பிழையின்றி எழுதவைக்கும் திறனைக் கொடுக்கும். அந்நிலையில் தமிழில் மொழிக்கருவிகள் உருவாக்குவதில் பெரிய இடராகவிருந்தது. கணினிநுட்பமும் மொழி இலக்கணமும் அனைவரிடமும் போய்ச் சேரும் போதுதான் தொழில்நுட்பத்தின் ஆற்றலை மொழி வளர்ச்சிக்கும் பயன்படுத்த முடியும்.  அதன் பொருட்டும் தமிழ் சார்ந்த இணைய வளங்களை அதிகரிக்கும் பொருட்டும் Error Annotated Corpus எனப்படும் பிழைகளின் தரவுத் தொகுப்பு வெளியிடப்படுகிறது.

இன்று பல்வேறு இலக்கண நூல்கள் இணையத்தில் கிடைக்கின்றன. சந்தி இலக்கணத்திற்கு வழிகாட்டி மரம், தமிழ்ச் சொல்வங்கிகள் என்று சிலவற்றை இதற்கு முன்னரே அறிமுகமானவை. ஆங்காங்கே மொழி சார்ந்த இணையவழிப் பயிற்சிகளும் நடைபெறுகின்றன. பல இயல்மொழிப் பகுப்பாய்வுக் கருவிகளும் இணையத்தில் வெளிவந்துள்ளன. மொழி குறித்து விவாதிக்கும் இணையக் குழுக்களும் பல உள்ளன. அதில் நோக்கர் என்ற பேஸ்புக் குழுவில் தற்காலத் தமிழ்ப் பயன்பாட்டில் உள்ள பிழைகளைச் சுட்டிக் காட்டிவருகிறோம். முனைவர் அண்ணாகண்ணன் தொடங்கிய இக்குழுவில் தற்போது  மூவாயிரத்திற்கும் மேற்பட்ட பயனர்கள் இணைந்துள்ளனர். 


இங்கு #nokkarfront , #nokkar20 என்ற இரு கொத்துக் குறிச்சொற்கள் மூலம் ஊடகங்களில் காணப்படும் முக்கியப் பிழைகள் சுட்டிக்காட்டப்படுகின்றன. ஏறக்குறைய அனைத்துத் தமிழ் ஊடகங்களின் மொழிப்பயன்பாடுகள் பற்றியும் இங்கே அலசப்பட்டுள்ளன. குற்றம் சொல்வது எளிதுதான் என்றாலும் விழிப்புணர்வாகவும் ஆக்கப்பூர்வமாகவும் இங்கே ஊடகத்தமிழில் உள்ள பிழைகள் பகிரப்படுகின்றன. நோக்கர் குழுவிற்காக வாணி API மூலம் இயங்கும் பிழை அறிக்கை வழங்கும் ஒரு செயலி பயன்பாட்டிலுள்ளது. இது முழுமையான பிழை காட்டியில்லை என்றாலும் சொல்லிலக்கண அளவில் செயல்படும் செயலி இது. (பொருளளவில் செயல்படும் இலக்கணப் பிழை காட்டிகள் எதிர்காலத்தில் உருவாக்கப்படும்.) 

https://www.kaggle.com/neechalkaran/error-annotated-tamil-corpus

இது ஒரு முக்கிய தகவல் வங்கியாக இத்தரவுகள் உள்ளன. தொழில்நுட்பரீதியாக எந்திரவழிக் கற்றலுக்கோ, ஆய்வுகளுக்கோ இவை பெரிதும் பயன்படும். கடந்த இரண்டாண்டுகளாக வாணி கருவிவழியாகத் திரட்டிய பிழைகளில் போலிகள் நீக்கி, வகைப்படுத்தி, (Error Annotated Corpus for Tamil) தரவுத் தொகுப்பு இங்கே வெளியிடப்படுகிறது. மேலும் ஊடகங்கள் மட்டுமல்லாமல் சில மின்னூல்களும் ஆய்வுக்குட்படுத்தி, கணிசமாகக் காணப்படும் பிழைகளைக் கொண்டு இந்த தரவுத்தொகுப்பு (dataset) உருவாகியுள்ளது. செந்தரப்படுத்தப்பட்ட வகைப்பாடுகள் இல்லை என்பதால் இரண்டாம் வேற்றுமை, நான்காம் வேற்றுமை, வினையெச்சம், பெயரெச்சம், மகர ஈற்று, விகுதிகளான ஆக/ஆன போன்றவை, பேச்சு வழக்கு, தட்டுப்பிழைகள் மற்றவவை 'சந்தி' என்றும் இலக்கண அடிப்படையில் வகைப்படுத்தப்பட்டுள்ளன. புதிய பிழைதிருத்திகள் உருவாகும் போதோ, மொழிக்கருவிகள் உருவாகும் போதோ இதனைக் கொண்டு test case உருவாக்கிக்கொள்ளலாம்.

இலக்கண ஆலோசனை வழங்கும் செங்கைப் பொதுவன், வகைப்படுத்த உதவிய சே. கார்த்திகா மற்றும் நோக்கர் குழு உறுப்பினர்கள் அனைவருக்கும் நன்றி.



12 comments:

  1. அருமையான பணி.
    பாராட்டுகள்.

    ReplyDelete
  2. போற்றத்தக்க சிறப்பான பணி வாழ்த்தும் பாராட்டுகளும்

    ReplyDelete
  3. பலவற்றை புதிதாக முயல்வதில் நிபுணரே... மென்மேலும் சிறக்க வாழ்த்துகள்... நன்றி...

    ReplyDelete
  4. உங்கள் பணிக்கு பாராட்டுகள்

    ReplyDelete
  5. இணையத் தமிழர்க்கு, இலக்கணம் கற்றுத் தருவது மிகப்பெரிய பணி! தொடர வாழ்த்துகள். இந்தக் கட்டுரையிலும் கூட தட்டுப்பிழை, தொடர்ப்பிழை வந்திருக்கிறது திருத்திவிட வேண்டுகிறேன்

    ReplyDelete
  6. வாழ்த்துக்கள்.
    சீரிய பணி.
    தாங்கள் யாவரும் பெருமை கொள்ளவேண்டிய பணியே..நம் மொழிக்கு ஆக்கப்பூர்வமான பணிகளை இன்றைக்கு இளைஞர்கள் ஆற்றுவது மிக்க மகிழ்ச்சியைத் தருகின்றது. வாழ்க வாழ்க வாழ்கவே நீவிர் யாவரும்.
    நா.மம்மது
    தமிழ் இசை ஆய்வாளர்
    மதுரை
    94429 84589

    ReplyDelete
  7. மகத்தான பணி தமிழ் கூறும் நல்லுலகம் வரவேற்கிறது.

    ReplyDelete
  8. மிகச்சிறந்த பணி. வாழ்த்துகள் நீச்சல்காரன்

    ReplyDelete
  9. இந்த செயலியை அறிமுகப்படுத்தியமைக்கு நன்றி.மேலும் பயன்படுத்துவது எப்படி ?

    ReplyDelete
  10. உங்கள் முயற்சிக்கு வாழ்த்துகள்.

    ReplyDelete
  11. மிக நல்ல ஆய்வு, பாராட்டுகள்

    ReplyDelete
  12. @azhagulakshmi s மன்னிக்கவும் இது செயலி அல்ல. செயலி மூலம் திரட்டிய தரவுகளை வகைப்படுத்தி ஆய்வுகளுக்காகப் பொதுவெளியில் வெளியிடப்படுகிறது

    ReplyDelete

"கற்றது கையளவு கல்லாதது உலகளவு"
உங்கள் ஊக்கத்துடன், உங்களுக்குத் தெரிந்த இடுகை சார்ந்த விசயத்தையும் பகிர்ந்துகொள்ளுங்கள்.
இந்தத் தளத்தில் NCcode நீட்சி பொருத்தப்பட்டுள்ளது