Mobile version | RSS Feed |
புதியவை
Loading...



Tuesday, February 8, 2022

சேட்பாட் எனப்படும் உரையாடி என்பது மனிதர்களுடன் எழுத்துவடிவில் ஊடாடும் செயலியாகும். தமிழில் ஏற்கனவே ஆயிதழ் அவினி, அணில்பாட் போன்று சில உள்ளன. இந்த உரையாடிகள் தானியங்கியாக மனிதர்களுடன் ஊடாடி வேண்டிய பணிகளைச் செய்யும். குறிப்பாக வங்கித் துறை, சேவைத் துறைகளில் ஆங்கில உரையாடிகள் தங்களது வாடிக்கையாளர்களுக்குத் தேவையான தகவல்களைக் கொடுத்து உதவும். தமிழில் இல்லை காரணம் தமிழில் தட்டச்சு செய்தால் அதனைப் புரிந்துகொண்டு விடையை அளிக்கும் வகையில் மேம்படுத்த இயல்மொழி பகுப்பாய்வு நுட்பம் தமிழில் வளர வேண்டும். அந்த அடிப்படையில் கணினி மொழியியல்(Computational Linguistics) துறைக்குக் கிடைத்துள்ள புது வரவு விக்கித்தரவு(wikidata) என்று ஐந்தாண்டுகளுக்கு முன்னர் ஓர் ஆய்வுக்கட்டுரை இதே தளத்தில் வெளிவந்தது. அந்த அனுமானம் இன்று wikidata மற்றும் VaaniNLP உதவியுடன் நிரூபிக்கப்பட்டுள்ளது. http://apps.neechalkaran.com/chatbot


விக்கித்தரவை அடிப்படையாகக் கொண்டே இந்தத் தமிழ் உரையாடி உருவாக்கப்பட்டுள்ளது. ஏதேனும் சிறிய கேள்வியினைக் கேட்டால் அது விக்கித்தரவிற்கேற்ப அடிச்சொல்லைப் புரிந்து கொண்டு  வினாவல் செய்து விடையைத் தமிழில் அளிக்கிறது.

உதாரணக் கேள்விகள்:

சிலப்பதிகாரத்தின் நூலாசிரியர் யார்?

இந்தியாவின் தலைநகரம் எது?

இந்தியாவின் பரப்பளவு எவ்வளவு?

மு. க. ஸ்டாலினின் பிறந்த நாள் எது?

மு. கருணாநிதியின் தாய் யார்?

ஜெயலலிதாவின் பிறந்த நாள் என்று?

நரேந்திர மோடியின் பிறந்த நாள் என்று?

மதுரையின் மக்கள் தொகை எத்தனை?

இப்படி விக்கித்தரவில் தமிழில் பெயர் கொண்ட எந்த ஒரு தரவையும் இயல்பான தமிழில் கேள்வியாகக் கேட்கமுடியும். விக்கித்தரவில் தமிழில் இல்லாத போதோ, தமிழ் இயல்மொழிப் பகுப்பாய்வில் புரிந்து கொள்ள முடியாதபோதோ பதிலளிக்காது. 


கொடுக்கப்பட்ட கேள்வியின் எழுவாய் மற்றும் செய்பாடுபொருளைப் புரிந்து கொண்டு அவற்றை விக்கித்தரவில் தேடி சரியான விடையைக் கண்டுபிடிக்கும். முதல் நிலையில் கொடுக்கப்பட்ட சொற்களின் அடிச்சொல்லைப் பிரித்துக் கொள்ளும் அதாவது விகுதிகளை நீக்கி அகராதிச் சொல்லை எடுத்துக் கொள்ளும். பின்னர் ஒரு பொருளைப் பலவாறு எழுதும் போது அவற்றை இயல்பாக்க(Normalization) நுட்பத்தில் சீர் செய்யவேண்டும். அல்லது விக்கித்தரவில் alias என்ற வகையிலாவது குறிப்பை உள்ளிட்டிருக்க வேண்டும். இதன் மூலம் "தமிழகம்" என்றாலோ "தமிழ் நாடு" என்றாலோ புரிந்து கொள்ளும். அதன் பிறகு தகவல்களை உரிய உருப்படி எண் மற்றும் பண்பு எண் கொண்டு விக்கித்தரவில் தேடித் தரும். எல்லாம் விக்கித்தரவிலிருந்து எடுப்பதால் அங்கே அத்தகவல் இருந்தால் மட்டுமே கிடைக்கும். சென்னையின் மக்கள் தொகையைக் கேட்டால் கிடைக்கும் ஆனால் சென்னை மாநகரட்சியின் மக்கள் தொகையைக் கேட்டால் கிடைக்காது. காரணம் அத்தகவல் அங்கே இல்லை. யாராவது சேர்த்த பிறகு அவற்றை இவ்வுரையாடி எடுத்துத் தரும். சில இடங்களில் பிழையான தகவலிருந்தால் அவற்றையும் தவிர்க்க இயலாது. யாரேனும் விக்கித்தரவில் திருத்தினால் இதுவும் சரியாக செயல்படும். இம்மாதிரி உலக அறிவைச் சேர்க்கும் பணியில் நீங்களும் விக்கித்தரவில் ஈடுபடலாம். 

எதிர்காலத்தில் பேச்சு நுட்பத்தையும் இதில் இணைக்கலாம், சிறிய கேள்விகளை மட்டுமல்லாமல் Discourse processing திறனை அதிகரித்து பெரிய கேள்விகளையும் புரிந்து கொள்ளும் திறனை வளர்க்கலாம், கல்வித்துறையில் போட்டித் தேர்வுகளுக்கு உதவும் வகையில் மேம்படுத்தலாம். தற்போதைக்கு வெறும் தேடலை மட்டுமே செய்கிறது.  எதிர்காலத்தில் புரிந்துகொண்ட பகுத்தறிந்து விடையளிக்கவும் விவரிப்பு விடைகளையும் கொடுக்க வைக்க முடியும். ஆர்வமுள்ளவர்கள் இந்த APIஐப் பயன்படுத்தி முயலாம். https://chatwiki.toolforge.org/


சிறிய விளக்கக் காணொளியும் உள்ளது.  விக்கித்தரவில் தமிழ்ப் பெயர்களும் மேம்பட்ட தமிழ் இயல்மொழிப் பகுப்பாய்வுப் பொதியும் உருவாகும் நாளில் உலகில் மிகப் பெரிய தமிழறிவுச் சுரங்கம் கிடைக்கும்.

1 comments:

திண்டுக்கல் தனபாலன் said...

சிறப்பு... வாழ்த்துகள்...