ஒரு மொழி வளர அம்மொழியில் இலக்கியங்கள் வளர வேண்டும். அந்தவகையில் வெண்முரசு சமகால இலக்கியத்தில் முக்கியப் புதினமாகும். புதினம் முழுக்க பல புதிய சொற்கள் கையாளப்பட்டுள்ளன. புதியவர்களுக்கு வாசிக்க கடுமையானதாக இருந்தாலும், வாசிக்கக் கூடியவர்களுக்கு மொழியின் இனிமையையும் உணர்த்துகிறது. சொல்லாய்வு செய்யவும் மீளாய்வு செய்யவும் இச்சொற்கள் பயன்படும். ஆனால் அறிவியல்பூர்வமாக எத்தனைப் புதிய சொற்கள் உள்ளன எனக் கண்டுபிடிக்க ஒரு முயற்சி எடுக்கப்பட்டது.
நன்றி jeyamohan.in
சுளகு கருவி வழியாக சில கதைகளுக்கு முன்னரே சொல்லடைவுகள் உருவாக்கப்பட்டாலும், முதல் முறையாக ஒரு புதினத்திற்கான சொல்லடைவு மொழிநுட்பம் கொண்டு உருவாக்கப்பட்டுள்ளது. இப்புதினத்தின் 26 நூல்களில் 1932 அத்தியாயங்களில் சுமார் 1.38 கோடி சொற்களைக் கணினிவழி அலசி இந்த சொல்லடைவு உருவாக்கப்பட்டுள்ளது. அதில் 90% சொற்களின் அடிச்சொல் கணிக்கப்பட்டும் இதர சொற்கள் உள்ளவாறே பட்டியலாகியுள்ளன. கணினியால் கணிக்க முடியாதவை என்றால் புதிய சொல் என்று எடுத்துக் கொள்ள முடியாது ஆனால் நடைமுறையில் அதிகம் புழங்காத சொற்கள் என்று சொல்லமுடியும். நாளை கணினியின் திறன் கூடும் போது இந்த எண்ணிக்கையில் மாற்றங்கள் நிகழும் என்பதையும் கருத்தில் கொள்ளலாம்.
நூல் | மொத்தச் சொற்கள் | வாணியால் பகுக்க முடியாதவை |
முதற்கனல் | 84543 | 7718 |
மழைப்பாடல் | 173733 | 15391 |
வண்ணக்கடல் | 141509 | 13881 |
நீலம் | 56463 | 8567 |
பிரயாகை | 153956 | 9996 |
வெண்முகில்நகரம் | 343689 | 29066 |
இந்திரநீலம் | 525807 | 47110 |
காண்டீபம் | 678381 | 58313 |
வெய்யோன் | 159062 | 15516 |
பன்னிரு படைக்களம் | 331091 | 33345 |
சொல்வளர்காடு | 452717 | 45029 |
கிராதம் | 159620 | 16135 |
மாமலர் | 347741 | 32027 |
நீர்க்கோலம் | 195108 | 18865 |
எழுதழல் | 348760 | 35363 |
குருதிச்சாரல் | 505304 | 52012 |
இமைக்கணம் | 598061 | 61434 |
செந்நா வேங்கை | 753298 | 77181 |
திசைதேர் வெள்ளம் | 902531 | 93482 |
கார்கடல் | 1070304 | 109038 |
இருட்கனி | 1195815 | 119636 |
தீயின் எடை | 1301463 | 128115 |
நீர்ச்சுடர் | 1416884 | 137438 |
களிற்றியானை நிரை | 1568449 | 150526 |
கல்பொருசிறுநுரை | 157435 | 11071 |
முதலாவிண் | 183548 | 13618 |
மொத்தம் | 13805272 | 1339873 |
வெண்முரசு புதினத்தின் சொல்லடைவு இங்கே வெளியிடப்பட்டுள்ளது.
https://www.kaggle.com/datasets/neechalkaran/venmurasu நீங்கள் உங்கள் ஆய்வுக்குப் பயன்படுத்திக் கொள்ளலாம். அடிச்சொல் அடிப்படையில் "stem" என்று குறிக்கப்பட்டுள்ளது. மற்றவை "nonstem" என்று குறிக்கப்பட்டுள்ளது. கணினியால் பகுக்கமுடியாத சொற்கள் மட்டும் 9% உள்ளன. இவ்வகையில் மொத்தம் 1,34,934 தனித்த சொற்கள்(unique words) பயன்படுத்தப் பட்டுள்ளன. மொத்தமாக 21,764 அடிச்சொற்கள் தான் மீதி 1.24 கோடி சொற்களாகப் பயன்பட்டுள்ளன. இயந்திரவழிக் கற்றல் முதல் மொழியியல் ஆய்வுகளுக்குப் பயன்படுத்திக் கொள்ளலாம். புதிய புதிய சொல்லாடல்கள் புதிய புதிய வெளிச்சங்கள் கிடைக்கின்றன.
எத்தனையோ பர்னிச்சர்களை உடைத்த சமூகத்தளத்தில் இப்போது furniture ஏ உடைத்துக் கொண்டிருக்கிறோம். அறைகலன் என்ற சொல்லை யார் அறிமுகம் செய்து, யார் பயன்பாட்டிற்குக் கொண்டு வந்தார் என்று விவாதங்கள் நடந்து வருகின்றன. வெண்முரசிற்கு முன்னரே விக்சனரியில் 2006 இல் வாக்கில் இச்சொல் வந்தது என்று நேற்றே
சுட்டிக்காட்டப்பட்டது. ஆனால் இன்றைய ஆய்வின்படி பார்த்தால் அறைகலன் அல்லது அறைக்கலன் என்ற எந்த சொல்லும் வெண்முரசு நாவலில் எங்கும் கிடைக்க வில்லை என்றும் தெரிகிறது.
எது எப்படியோ இரு நாட்களாக சொல் தொடர்பான விவாதம் கிளம்பியிருப்பது வரவேற்கப்படவேண்டிய ஒன்று.
அருமை அருமை நீச்சல்காரன்! வாழிய வாழிய!
ReplyDeleteஅருமை...
ReplyDelete