Pages - Menu

Tuesday, February 8, 2022

புதிய தமிழ் உரையாடி சோதனையோட்டம்

சேட்பாட் எனப்படும் உரையாடி என்பது மனிதர்களுடன் எழுத்துவடிவில் ஊடாடும் செயலியாகும். தமிழில் ஏற்கனவே ஆயிதழ் அவினி, அணில்பாட் போன்று சில உள்ளன. இந்த உரையாடிகள் தானியங்கியாக மனிதர்களுடன் ஊடாடி வேண்டிய பணிகளைச் செய்யும். குறிப்பாக வங்கித் துறை, சேவைத் துறைகளில் ஆங்கில உரையாடிகள் தங்களது வாடிக்கையாளர்களுக்குத் தேவையான தகவல்களைக் கொடுத்து உதவும். தமிழில் இல்லை காரணம் தமிழில் தட்டச்சு செய்தால் அதனைப் புரிந்துகொண்டு விடையை அளிக்கும் வகையில் மேம்படுத்த இயல்மொழி பகுப்பாய்வு நுட்பம் தமிழில் வளர வேண்டும். அந்த அடிப்படையில் கணினி மொழியியல்(Computational Linguistics) துறைக்குக் கிடைத்துள்ள புது வரவு விக்கித்தரவு(wikidata) என்று ஐந்தாண்டுகளுக்கு முன்னர் ஓர் ஆய்வுக்கட்டுரை இதே தளத்தில் வெளிவந்தது. அந்த அனுமானம் இன்று wikidata மற்றும் VaaniNLP உதவியுடன் நிரூபிக்கப்பட்டுள்ளது. http://apps.neechalkaran.com/chatbot


விக்கித்தரவை அடிப்படையாகக் கொண்டே இந்தத் தமிழ் உரையாடி உருவாக்கப்பட்டுள்ளது. ஏதேனும் சிறிய கேள்வியினைக் கேட்டால் அது விக்கித்தரவிற்கேற்ப அடிச்சொல்லைப் புரிந்து கொண்டு  வினாவல் செய்து விடையைத் தமிழில் அளிக்கிறது.

உதாரணக் கேள்விகள்:

சிலப்பதிகாரத்தின் நூலாசிரியர் யார்?

இந்தியாவின் தலைநகரம் எது?

இந்தியாவின் பரப்பளவு எவ்வளவு?

மு. க. ஸ்டாலினின் பிறந்த நாள் எது?

மு. கருணாநிதியின் தாய் யார்?

ஜெயலலிதாவின் பிறந்த நாள் என்று?

நரேந்திர மோடியின் பிறந்த நாள் என்று?

மதுரையின் மக்கள் தொகை எத்தனை?

இப்படி விக்கித்தரவில் தமிழில் பெயர் கொண்ட எந்த ஒரு தரவையும் இயல்பான தமிழில் கேள்வியாகக் கேட்கமுடியும். விக்கித்தரவில் தமிழில் இல்லாத போதோ, தமிழ் இயல்மொழிப் பகுப்பாய்வில் புரிந்து கொள்ள முடியாதபோதோ பதிலளிக்காது. 


கொடுக்கப்பட்ட கேள்வியின் எழுவாய் மற்றும் செய்பாடுபொருளைப் புரிந்து கொண்டு அவற்றை விக்கித்தரவில் தேடி சரியான விடையைக் கண்டுபிடிக்கும். முதல் நிலையில் கொடுக்கப்பட்ட சொற்களின் அடிச்சொல்லைப் பிரித்துக் கொள்ளும் அதாவது விகுதிகளை நீக்கி அகராதிச் சொல்லை எடுத்துக் கொள்ளும். பின்னர் ஒரு பொருளைப் பலவாறு எழுதும் போது அவற்றை இயல்பாக்க(Normalization) நுட்பத்தில் சீர் செய்யவேண்டும். அல்லது விக்கித்தரவில் alias என்ற வகையிலாவது குறிப்பை உள்ளிட்டிருக்க வேண்டும். இதன் மூலம் "தமிழகம்" என்றாலோ "தமிழ் நாடு" என்றாலோ புரிந்து கொள்ளும். அதன் பிறகு தகவல்களை உரிய உருப்படி எண் மற்றும் பண்பு எண் கொண்டு விக்கித்தரவில் தேடித் தரும். எல்லாம் விக்கித்தரவிலிருந்து எடுப்பதால் அங்கே அத்தகவல் இருந்தால் மட்டுமே கிடைக்கும். சென்னையின் மக்கள் தொகையைக் கேட்டால் கிடைக்கும் ஆனால் சென்னை மாநகரட்சியின் மக்கள் தொகையைக் கேட்டால் கிடைக்காது. காரணம் அத்தகவல் அங்கே இல்லை. யாராவது சேர்த்த பிறகு அவற்றை இவ்வுரையாடி எடுத்துத் தரும். சில இடங்களில் பிழையான தகவலிருந்தால் அவற்றையும் தவிர்க்க இயலாது. யாரேனும் விக்கித்தரவில் திருத்தினால் இதுவும் சரியாக செயல்படும். இம்மாதிரி உலக அறிவைச் சேர்க்கும் பணியில் நீங்களும் விக்கித்தரவில் ஈடுபடலாம். 

எதிர்காலத்தில் பேச்சு நுட்பத்தையும் இதில் இணைக்கலாம், சிறிய கேள்விகளை மட்டுமல்லாமல் Discourse processing திறனை அதிகரித்து பெரிய கேள்விகளையும் புரிந்து கொள்ளும் திறனை வளர்க்கலாம், கல்வித்துறையில் போட்டித் தேர்வுகளுக்கு உதவும் வகையில் மேம்படுத்தலாம். தற்போதைக்கு வெறும் தேடலை மட்டுமே செய்கிறது.  எதிர்காலத்தில் புரிந்துகொண்ட பகுத்தறிந்து விடையளிக்கவும் விவரிப்பு விடைகளையும் கொடுக்க வைக்க முடியும். ஆர்வமுள்ளவர்கள் இந்த APIஐப் பயன்படுத்தி முயலாம். https://chatwiki.toolforge.org/


சிறிய விளக்கக் காணொளியும் உள்ளது.  விக்கித்தரவில் தமிழ்ப் பெயர்களும் மேம்பட்ட தமிழ் இயல்மொழிப் பகுப்பாய்வுப் பொதியும் உருவாகும் நாளில் உலகில் மிகப் பெரிய தமிழறிவுச் சுரங்கம் கிடைக்கும்.

1 comment:

"கற்றது கையளவு கல்லாதது உலகளவு"
உங்கள் ஊக்கத்துடன், உங்களுக்குத் தெரிந்த இடுகை சார்ந்த விசயத்தையும் பகிர்ந்துகொள்ளுங்கள்.
இந்தத் தளத்தில் NCcode நீட்சி பொருத்தப்பட்டுள்ளது