Pages - Menu

Friday, November 18, 2022

வெண்முரசு - சொல்லடைவு

 ஒரு மொழி வளர அம்மொழியில் இலக்கியங்கள் வளர வேண்டும். அந்தவகையில் வெண்முரசு சமகால இலக்கியத்தில் முக்கியப் புதினமாகும். புதினம் முழுக்க பல புதிய சொற்கள் கையாளப்பட்டுள்ளன. புதியவர்களுக்கு வாசிக்க கடுமையானதாக இருந்தாலும், வாசிக்கக் கூடியவர்களுக்கு மொழியின் இனிமையையும் உணர்த்துகிறது. சொல்லாய்வு செய்யவும் மீளாய்வு செய்யவும் இச்சொற்கள் பயன்படும். ஆனால் அறிவியல்பூர்வமாக எத்தனைப் புதிய சொற்கள் உள்ளன எனக் கண்டுபிடிக்க ஒரு முயற்சி எடுக்கப்பட்டது.

நன்றி jeyamohan.in


சுளகு கருவி வழியாக சில கதைகளுக்கு முன்னரே சொல்லடைவுகள் உருவாக்கப்பட்டாலும், முதல் முறையாக ஒரு புதினத்திற்கான சொல்லடைவு மொழிநுட்பம் கொண்டு உருவாக்கப்பட்டுள்ளது. இப்புதினத்தின் 26 நூல்களில் 1932 அத்தியாயங்களில் சுமார் 1.38 கோடி சொற்களைக் கணினிவழி அலசி இந்த சொல்லடைவு உருவாக்கப்பட்டுள்ளது. அதில் 90% சொற்களின் அடிச்சொல் கணிக்கப்பட்டும் இதர சொற்கள் உள்ளவாறே பட்டியலாகியுள்ளன. கணினியால் கணிக்க முடியாதவை என்றால் புதிய சொல் என்று எடுத்துக் கொள்ள முடியாது ஆனால் நடைமுறையில் அதிகம் புழங்காத சொற்கள் என்று சொல்லமுடியும். நாளை கணினியின் திறன் கூடும் போது இந்த எண்ணிக்கையில் மாற்றங்கள் நிகழும் என்பதையும் கருத்தில் கொள்ளலாம்.


நூல்மொத்தச் சொற்கள்வாணியால் பகுக்க முடியாதவை
முதற்கனல்845437718
மழைப்பாடல்17373315391
வண்ணக்கடல்14150913881
நீலம்564638567
பிரயாகை1539569996
வெண்முகில்நகரம்34368929066
இந்திரநீலம்52580747110
காண்டீபம்67838158313
வெய்யோன்15906215516
பன்னிரு படைக்களம்33109133345
சொல்வளர்காடு45271745029
கிராதம்15962016135
மாமலர்34774132027
நீர்க்கோலம்19510818865
எழுதழல்34876035363
குருதிச்சாரல்50530452012
இமைக்கணம்59806161434
செந்நா வேங்கை75329877181
திசைதேர் வெள்ளம்90253193482
கார்கடல்1070304109038
இருட்கனி1195815119636
தீயின் எடை1301463128115
நீர்ச்சுடர்1416884137438
களிற்றியானை நிரை1568449150526
கல்பொருசிறுநுரை15743511071
முதலாவிண்18354813618
மொத்தம்138052721339873

வெண்முரசு புதினத்தின் சொல்லடைவு இங்கே வெளியிடப்பட்டுள்ளது.
https://www.kaggle.com/datasets/neechalkaran/venmurasu நீங்கள் உங்கள் ஆய்வுக்குப் பயன்படுத்திக் கொள்ளலாம். அடிச்சொல் அடிப்படையில் "stem" என்று குறிக்கப்பட்டுள்ளது. மற்றவை "nonstem" என்று குறிக்கப்பட்டுள்ளது. கணினியால் பகுக்கமுடியாத சொற்கள் மட்டும் 9% உள்ளன. இவ்வகையில் மொத்தம் 1,34,934 தனித்த சொற்கள்(unique words) பயன்படுத்தப் பட்டுள்ளன. மொத்தமாக 21,764 அடிச்சொற்கள் தான் மீதி 1.24 கோடி சொற்களாகப் பயன்பட்டுள்ளன. இயந்திரவழிக் கற்றல் முதல் மொழியியல் ஆய்வுகளுக்குப் பயன்படுத்திக் கொள்ளலாம். புதிய புதிய சொல்லாடல்கள் புதிய புதிய வெளிச்சங்கள் கிடைக்கின்றன.


எத்தனையோ பர்னிச்சர்களை உடைத்த சமூகத்தளத்தில் இப்போது furniture ஏ உடைத்துக் கொண்டிருக்கிறோம். அறைகலன் என்ற சொல்லை யார் அறிமுகம் செய்து, யார் பயன்பாட்டிற்குக் கொண்டு வந்தார் என்று விவாதங்கள் நடந்து வருகின்றன. வெண்முரசிற்கு முன்னரே விக்சனரியில் 2006 இல் வாக்கில் இச்சொல் வந்தது என்று நேற்றே சுட்டிக்காட்டப்பட்டது. ஆனால் இன்றைய ஆய்வின்படி பார்த்தால் அறைகலன் அல்லது அறைக்கலன் என்ற எந்த சொல்லும் வெண்முரசு நாவலில் எங்கும் கிடைக்க வில்லை என்றும் தெரிகிறது.


எது எப்படியோ இரு நாட்களாக சொல் தொடர்பான விவாதம் கிளம்பியிருப்பது வரவேற்கப்படவேண்டிய ஒன்று.


2 comments:

"கற்றது கையளவு கல்லாதது உலகளவு"
உங்கள் ஊக்கத்துடன், உங்களுக்குத் தெரிந்த இடுகை சார்ந்த விசயத்தையும் பகிர்ந்துகொள்ளுங்கள்.
இந்தத் தளத்தில் NCcode நீட்சி பொருத்தப்பட்டுள்ளது