இது தரவு உலகம். அதில் கைப்பேசி உறங்கும் வரை இணையத்தில் உலாவுபவர்களே அதிகம். இணையத்தில் எல்லாம் கிடைக்கும் தான் ஆனால் எல்லாம் கலந்துதான் கிடைக்கும். அதில் தேவையானதைப் பிரித்தெடுப்பதே இன்றைய காலத்தில் ஒருவரின் அதிகபட்ச மெனக்கெடலாகும். வலைப்பதிவாக இருந்தாலும், காணொளி அலைவரிசையாக இருந்தாலும், சமூகத்தளமாக இருந்தாலும் தொழில்நுட்பம் வேண்டிய ஓடைகளை பின்பற்ற வாய்ப்புகளை அளிக்கிறது. ஆனால் அனைத்தையும் தொகுத்துப் பார்க்கும் வசதி இல்லை. அந்த இலக்கில், குவிந்து கிடக்கும் வலைப்பதிவுகளைத் திரட்ட தமிழ் இயற்கை மொழிப் பகுப்பாய்வுத் திறனுடன் தமிழ்ச்சரம் சில ஆண்டுகளுக்கு முன்னர் உதயமானது. அதுபோல செய்தித் தளங்களைத் திரட்ட கடந்த தமிழ்ப் புத்தாண்டில் திரள் தளம் உதயமானது. (நண்பர் செல்வமுரளியுடன் சேர்ந்து வெளியிட்டப்பட்டது) இது கூகிள் நியூஸ் போல இணையச் செய்திகளைத் திரட்டித் தரும் ஒரு சேவை. பெரிய ஊடகச் செய்திகளைத் தவிர்த்து இதர செய்தித் தளங்களின் தரவுகளைப் பகுப்பாய்வு செய்து வகைப்படுத்தி வாசகருக்கு அளிக்கிறது.
பொதுவாகச் செய்திகளைத் தானியக்கத்தில் வகைப்படுத்தல் என்பது தமிழில் சவாலானது. ஆங்கிலம் போல குறிச்சொற்கள் தனியாக இருப்பதில்லை, தமிழில் ஒரு சொல்லானது வெவ்வேறு வடிவங்களை ஏற்கும். உதாரணத்திற்கு வேற்றுமை உருபு, பன்மை விகுதி, திணை விகுதி என்று ஏற்று மாறிவரும். எனவே அடிப்படையில் உருபனியல்(morphology) பகுப்பி(analyser), உருவாக்கி(generator) முதல் கட்டமாகத் தேவை. அடுத்த நிலையில் பெயர் பொருள் சுட்டி(Named Entity Recognition) மற்றும் குறிச்சொல் கொத்தாக்கம் (keyword clustering) நுட்பங்களும் தேவை. இதன் சோதனை முயற்சியாக இந்த நுட்பங்கள் எல்லாம் திரள் தளத்தில் பயன்படுத்தப்பட்டுள்ளன. அதிகம் பேசப்படும் தலைப்புகளை எந்திரவழிக் கற்றல் கொண்டு வகைப்படுத்தி எளிய பயனருக்கும் பயன்தரும் வகையில் காட்டுகிறது. செயற்கை நுண்ணறிவுடன் வெளி வந்த முதல் செய்தித் திரட்டியாக இருக்கலாம்.
3 comments:
அருமையான பதிவு
தங்கள் பணி தொடர வாழ்த்துகள்
அருமை...
நன்றி...
வாழ்த்துக்கள் சார்.வாழ்கவளமுடன் வேலன்.
Post a Comment