Mobile version | RSS Feed |
புதியவை
Loading...
Friday, September 30, 2016

கணினி மொழியியல்(Computational Linguistics) துறைக்குக் கிடைத்துள்ள புது வரவு விக்கித்தரவு(wikidata). இது விக்கிமீடியா அறக்கட்டளையின் கட்டற்ற திட்டமாகும். இதுவரை கட்டுரைகளையும், தகவல்களையும் தொகுத்து வைத்த நிலையில் இருந்து தரவுகளாக மாற்றி ஒன்றோடு ஒன்று எவ்வகையான தொடர்பு என்பதுடன் தொகுத்து, கணினியுடன் ஒத்திசையும் ஒரு தகவல் தளமாக உள்ளது. இதனால் ஒருமொழிக்கும் அடுத்த மொழிக்குமான இடைவெளி சுருக்கப்படும் எளிதில் மொழிபெயர்ப்பியல் முதல் எந்திரனியல் வரை பயன்படும். 2012ல் அறிமுகமான விக்கித்தரவு படிப்படியாக வளர்ந்து ஒரு குறிப்பிடத்தக்க நிலையை இன்று எட்டியுள்ளது. விக்கிமீடியாவின் பிற திட்டங்கள் போல யாவரும் தொகுக்கக் கூடியதால் இது பலமடங்கு எதிர்காலத்தில் வளரக் கூடியது.

இதர திட்டங்கள்
மொழிபெயர்ப்புகளை ஒருங்கிணைக்க உருவாக்கப்பட்ட translatewiki.net என்ற திட்டமுள்ளது. இதில் இயல் மொழியை எப்படி மொழிபெயர்க்கலாம் என்று மட்டுமே தரவுகள் இருக்கும். ஒரு கணினி தானாகப் பகுத்துப் பார்க்கத் தக்க தர்க்கங்கள் இல்லை. கூகிளின் நாலேஜ் கிராப் கருவிக்குப் பயன்பட்ட Freebase என்ற திட்டமும் ஏறக்குறைய விக்கித்தரவை ஒத்தது ஆனால் பெரிதாக வளர்க்க முடியாமல் கூகிள் அதை நிறுத்திவிட்டு, விக்கித்தரவைப் பயன்படுத்த முடிவு செய்துள்ளது. SNPedia, DBpedia போன்ற பல திட்டங்கள் இதற்கு முன் இருந்தாலும் அவை தரவுத்தளம் அளவிலேயே நின்று விட்டன, ஒரு மொழியியல் பயன்பாடு இல்லாமல் இருந்தன. SIMILE, Stumpedia போன்ற திட்டங்கள் எந்திர ஒத்திசைவோடு (machine readable) இருந்தாலும் தமிழுக்கான வாய்ப்புகள் இல்லை. அவ்வகையில் தமிழுக்கும் உதவக் கூடிய ஒரு அறிவுத் தளம் விக்கித்தரவு.

விக்கித்தரவு என்றால் என்ன?
விக்கித்தரவு என்பது மனிதர்களும், கணிப்பொறிகளும் படித்துப் புரிந்து கொள்ளக் கூடிய ஒரு அறிவுத் தளமாகும். இதுவொரு செறிவாகக் கட்டமைக்கப்பட்ட ஒரு கட்டற்ற தரவுத் தளம். அனைத்துத் தகவல்களும் ஒன்றோடு ஒன்று எவ்வாறு தொடர்புடையது என்று குறிக்கப்படும். "தமிழ்நாடு" என்ற சொல்லை ஒரு "மாநிலம்" என்ற பண்பால் குறிக்கப்பட்டிருக்கும். அதன் இருப்பிடப் பண்புகளாக நாடு என்பதில் இந்தியாவும், கண்டம் என்பதில் ஆசியாவும் குறிக்கப்பட்டிருக்கும். எனவே ஒரு கணினி இத்தரவை அணுகும் போது அந்தப் பண்புகளின் அடிப்படையில் தமிழ்நாடு என்ற சொல்லை அதனால் உணர்ந்து கொள்ள முடியும். பொதுவாக ஒரு கணினிக்குப் புரியும் விதத்தில் தரவுகளை உள்ளீடு செய் வேண்டினால் ஒவ்வொரு கூறையும் கணினிக்கு விளக்கவேண்டும். ஆனால் விக்கித்தரவு கொண்டு முயன்றால் கணினியே எளிதில் புரிந்துகொள்ளும்.


விக்கித்தரவின் அமைப்பு:
பண்பானது(Property) P என்ற குறிச்சொல்லுடனும், உருப்படிகள்(Items) Q என்ற குறிச்சொல்லுடனும் குறிக்கப்படும். இவ்வாறே அனைத்துத் தரவும் wikidata.org என்ற தளத்தில் உள்ளிடப்படும். ஒரு உருப்படிக்கும் மற்றொரு உருப்படிக்கும் இணைப்பை இந்தப் பண்பு குறிக்கிறது. உதாரணம் தந்தை என்ற பண்பானது Property:P22 என்ற உருபொருளாக (entity) விக்கித்தரவில் இருக்கும். மகாத்மா காந்தியின் தந்தை என்பதைக் குறிக்க, காந்தியின் உருப்படி எண்ணில் (Q1001) P22 என்ற பண்பில் கரம்சந்த் காந்தியின் உருப்படி எண்(Q11735530) குறிக்கப்பட்டிருக்கும். இவ்வாறு தரவுகள் ஒன்றோடு ஒன்று இணைந்திருக்கும். எண்களாகக் குறிக்கப்பட்டிருந்தாலும் மனிதர்கள் புரிந்து கொள்ள ஏதுவாகப் பெயர்களும் கண்ணுக்குத் தெரியும். மேலும் ஒவ்வொரு பண்பிலும் வரம்புகளும் (Qualifier) அமைக்கலாம். உதாரணம் தமிழக முதல்வர் என்பதில் காமராஜர் என்ற தரவைக் கொடுத்து அவர் பதவி வகித்த காலத்தை வரம்பாகக் கொடுக்கலாம். இதன் மூலம் அந்தந்தக் காலத்தில் முதல்வராக இருந்தவர்கள் பற்றிய தொகுப்பும் கிடைக்கும்.

பயன்பாடு
உலகமெல்லாம் இருக்கும் அறிவுச் செல்வங்களை ஒரே இடத்தில் தொகுப்பதனாலும் இதுவொரு கூட்டு முயற்சியென்பதாலும் மீளுருவாக்கம் தவிர்க்கப்படும். உதாரணமாக ஒரு தமிழ்ப் புத்தகத்தைப் பற்றி அனைத்துத் தகவல்களையும் தக்கப் பண்புகளுடன் தமிழில் உள்ளீடு செய்தாலே உலகமொழிகளில் எல்லாம் இத்தகவல் கிடைக்கப் பெற்றுவிடும். மீண்டும் அம்மொழியினர் அப்புத்தகம் பற்றி உள்ளீடு செய்யத்தேவையில்லை. அதைப்போலவே அந்நாட்டுக் கலைச்செல்வங்களுக்கும் அது பொருந்தும். ஒரு பெயர்ச்சொல்லின் பண்புகள் என்ன என்று கணினிக்கு நாம் தனியாக அறிமுகம் செய்துதான் இயல் மொழிப்பகுப்பாய்வில் பயன்படுத்துகிறோம். ஆனால் விக்கித்தரவின் வழியாகச் செய்தால் ஏற்கனவே எந்த மொழியில் யார் அறிமுகம் செய்திருந்தாலும் அதனை அப்படியே பயன்படுத்திக் கொள்ளமுடியும்.

ஊடாடல்:
மைக்ரோசாப்டின் கார்டனா, ஆப்பிள் நிறுவனத்தின் சிரி, கூகிள் நவ், அலெக்சா போன்ற மெய்நிகர் உதவியாளர்கள் பிற மொழிகளில் வந்துவிட்டன. கேட்கும் கேள்விக்குப் பதிலளிக்கும், பணிகளைச் செய்யும், நினைவூட்டும் என ஒரு உதவியாளரைப் போல இந்த மென்பொருட்கள் செயல்படுகின்றன. அவ்வகையில் தமிழில் ஊடாடக்கூடிய மென்பொருட்கள் வரவேண்டும் என்றால் உலக அறிவு ஒரு செறிவான வகையில் தமிழில் கட்டமைக்கப் பட்டிருக்கவேண்டும். அந்த வகையில் விக்கித்தரவு நமக்கான ஒரு நல்வாய்ப்பு. அதன் மூலம் கணினியால் தேவையான தரவுகளை எடுத்துப் பகுத்து உணர முடியும்.

"தமிழ்நாட்டில் நெல்லின் விலை என்ன?" என்று ஒரு உதாரணக் கேள்வியை எடுத்துக் கொள்வோம். கணினியானது தற்போதைய பகுப்புத் திறனால் "தமிழ்நாடு" என்ற வேர்ச் சொல்லைப் புரிந்து கொள்ளும் அதைப்போல "நெல்" என்பதையும் அறிந்துகொள்ளும். அதன் பின்னர் இவ்விரண்டிற்குமான தொடர்பை உணர்ந்திருக்காது. அதை விக்கித்தரவு உணர்த்துகிறது. தமிழ்நாடு என்பது ஒரு நிர்வாகப் பகுதி என்றும், நெல் என்பது ஒரு பண்டம் என்றும் அறியலாம். அதன் விலை என்ற பண்பில் அதன் மதிப்புகளை அறியலாம் கூடுதலாக அதே நிர்வாகப் பகுதியில் உள்ள விலை என்று வினாவினால் நமக்குத் தேவையான விலை கிடைத்துவிடும். இதே போல "பாலூட்டிகளில் பெரிய விலங்கு எது?" என்று கேட்டாலும் அதைப் போல ஒவ்வொரு பண்பாகப் பிரித்து நமக்கான விடையை ஒரு கணினி வழங்குவதற்கான செயல்முறையைக் கற்றுத் தரமுடியும்.

மொழிபெயர்ப்பு:
பல்மொழியில் ஒரு சொல்லுக்கான பெயர்கள் அனைத்தும் தொகுக்கப்படுவதால் இதை ஒரு சொல்வங்கியாகப் பாவிக்கலாம். புதிய சொற்களுக்கு நிகரான பிறமொழிச் சொற்களை இங்கிருந்து எடுக்கலாம். இதை விக்சனரியும் செய்தாலும் விக்கித்தரவில் அந்தச் சொல்லின் வேர்ச் சொல், பயன்பாட்டுக் காலம், இணையான இதர தரவு என்று கணினிக்கு என்றவகையில் கட்டமைத்துக் கொள்ளமுடியும். இயல்பாகவே ஒவ்வொரு விக்கிப்பீடியா பக்கத்தின் பிற மொழி பக்கத்தின் இணைப்புகளை விக்கித்தரவின் வாயிலாகவே அந்நிறுவனம் செய்கிறது.

உரை ஒலி மாற்றி
ஒவ்வொரு சொல்லுக்கும் விக்கித்தரவில் அதற்கான ஒலிக்கோப்புகளை வெவ்வேறு வழக்குமொழியில் அமைக்கலாம். அவ்வாறு அமைக்கப்படும் போது உரை ஒலி மாற்றிகளில் தனிப்பயனாக்கம்(customization) செய்யமுடியும். அந்தப் பகுதி சார்ந்த ஒலிக்கோப்புகளைக் கொண்டு ஒலிக்கச் செய்யலாம். ஆண் குரல் அல்லது பெண்குரல் என்று பயனரின் விருப்பத்திற்குகேற்ப பயன்படுத்தலாம்.

நிரலாக்கம்:
ஒரு தானியங்கியாலோ, வேறு வினாவாலாலோ தகவலை எப்படிப் பெறலாம் என்பதை இங்கே பார்ப்போம். விக்கித்தரவின் API மீடியாவிக்கி மென்பொருள் என்பதால் அங்கிருந்து அடிப்படையான பல்வேறு செயல்பாடுகளைப் பெறலாம். அதன் ஆவணங்களை இங்கே காணலாம். https://www.wikidata.org/api/ மேலும் அதிநவீன வினாவாலுக்கு விக்கிமீடியாலேப்ஸ் கருவிகளும் உள்ளன.http://wdq.wmflabs.org/ நேரடியாக வினாவல்களை எழுதி சோதித்துப் பார்க்கவோ இயக்கிப் பார்க்கவோ https://query.wikidata.org/ என்ற SPARQL மொழி வசதியும் உள்ளது. https://github.com/Wikidata/StrepHit போலத் தனிநபர் சிலரும் இவ்வகையான மொழியியல் பயன்பாட்டிற்கு விக்கித்தரவைப் பயன்படுத்த முயல்கின்றனர். அப்துல் கலாமின் நூல்களை எல்லாம் எடுக்க வேண்டுமென்றால் நூல்களுக்கான பண்பு எண் 50, கலாமின் எண் 9513 என்பதை இவ்வாறு வினாவால் செய்து தரவைப் பெறலாம். http://wdq.wmflabs.org/api?q=CLAIM[50:9513]


சவால்:
விக்கித்தரவு என்பது வளர்ந்த திட்டமல்ல எனவே அனைத்துத் தரவுகளும் தற்போதைக்குக் கிடைக்காமல் போகலாம். ஆனால் எதிர்காலத்தில் தரவுகளின் கருவூலமாக மாற்றியிருக்கும்.
விக்கித்தரவை யாரும் தொகுக்கலாம் என்பதால் தகவலின் நம்பகத்தன்மை குறித்து கேள்வி எழலாம். முடிந்தளவிற்கு விக்கித்தரவில் உள்ள தன்னார்வலர்கள் தரவுகளின் நம்பகத்தன்மையை உறுதி செய்கிறார்கள்.
விக்கிமீடியாவின் சட்டதிட்டங்களுக்கு உட்பட்டே தரவுகள் அனுமதிக்கப்படுவதால் நமக்கு வேண்டிய அனைத்தும் கிடைக்காது.


விக்கித்தரவு ஒரு தொடக்கநிலை திட்டம் ஆகையால் முழுமையான தரவுகள் இல்லாமல் போகலாம் ஆனால் எதிர்காலத்தில் கணினி மொழியியலுக்கு விக்கித்தரவின்றி வேறு பெரிய வளங்களே இல்லாமலும் போகலாம். தமிழ், தமிழர் சார்ந்த தரவுகளை விக்கித்தரவில் அதிகளவில் ஏற்ற வேண்டும். இதனால் பிறமொழியினர் உட்படத் தமிழர் தொடர்பான ஆய்வுகளுக்கு அது பயன்படும். விக்கித்தரவின் வழியாகக் கணினியின் பகுப்பாய்வு திறனை மேம்படுத்திக் கொண்டு தமிழ்க் கருவிகளை உருவாக்க வேண்டும்.

கணினி மொழியியல்(Computational Linguistics) துறைக்குக் கிடைத்துள்ள புது வரவு விக்கித்தரவு(wikidata). இது விக்கிமீடியா அறக்கட்டளையின் கட்டற்ற திட்டமாகும். இதுவரை கட்டுரைகளையும், தகவல்களையும் தொகுத்து வைத்த நிலையில் இருந்து தரவுகளாக மாற்றி ஒன்றோடு ஒன்று எவ்வகையான தொடர்பு என்பதுடன் தொகுத்து, கணினியுடன் ஒத்திசையும் ஒரு தகவல் தளமாக உள்ளது. இதனால் ஒருமொழிக்கும் அடுத்த மொழிக்குமான இடைவெளி சுருக்கப்படும் எளிதில் மொழிபெயர்ப்பியல் முதல் எந்திரனியல் வரை பயன்படும். 2012ல் அறிமுகமான விக்கித்தரவு படிப்படியாக வளர்ந்து ஒரு குறிப்பிடத்தக்க நிலையை இன்று எட்டியுள்ளது. விக்கிமீடியாவின் பிற திட்டங்கள் போல யாவரும் தொகுக்கக் கூடியதால் இது பலமடங்கு எதிர்காலத்தில் வளரக் கூடியது.

இதர திட்டங்கள்
மொழிபெயர்ப்புகளை ஒருங்கிணைக்க உருவாக்கப்பட்ட translatewiki.net என்ற திட்டமுள்ளது. இதில் இயல் மொழியை எப்படி மொழிபெயர்க்கலாம் என்று மட்டுமே தரவுகள் இருக்கும். ஒரு கணினி தானாகப் பகுத்துப் பார்க்கத் தக்க தர்க்கங்கள் இல்லை. கூகிளின் நாலேஜ் கிராப் கருவிக்குப் பயன்பட்ட Freebase என்ற திட்டமும் ஏறக்குறைய விக்கித்தரவை ஒத்தது ஆனால் பெரிதாக வளர்க்க முடியாமல் கூகிள் அதை நிறுத்திவிட்டு, விக்கித்தரவைப் பயன்படுத்த முடிவு செய்துள்ளது. SNPedia, DBpedia போன்ற பல திட்டங்கள் இதற்கு முன் இருந்தாலும் அவை தரவுத்தளம் அளவிலேயே நின்று விட்டன, ஒரு மொழியியல் பயன்பாடு இல்லாமல் இருந்தன. SIMILE, Stumpedia போன்ற திட்டங்கள் எந்திர ஒத்திசைவோடு (machine readable) இருந்தாலும் தமிழுக்கான வாய்ப்புகள் இல்லை. அவ்வகையில் தமிழுக்கும் உதவக் கூடிய ஒரு அறிவுத் தளம் விக்கித்தரவு.

விக்கித்தரவு என்றால் என்ன?
விக்கித்தரவு என்பது மனிதர்களும், கணிப்பொறிகளும் படித்துப் புரிந்து கொள்ளக் கூடிய ஒரு அறிவுத் தளமாகும். இதுவொரு செறிவாகக் கட்டமைக்கப்பட்ட ஒரு கட்டற்ற தரவுத் தளம். அனைத்துத் தகவல்களும் ஒன்றோடு ஒன்று எவ்வாறு தொடர்புடையது என்று குறிக்கப்படும். "தமிழ்நாடு" என்ற சொல்லை ஒரு "மாநிலம்" என்ற பண்பால் குறிக்கப்பட்டிருக்கும். அதன் இருப்பிடப் பண்புகளாக நாடு என்பதில் இந்தியாவும், கண்டம் என்பதில் ஆசியாவும் குறிக்கப்பட்டிருக்கும். எனவே ஒரு கணினி இத்தரவை அணுகும் போது அந்தப் பண்புகளின் அடிப்படையில் தமிழ்நாடு என்ற சொல்லை அதனால் உணர்ந்து கொள்ள முடியும். பொதுவாக ஒரு கணினிக்குப் புரியும் விதத்தில் தரவுகளை உள்ளீடு செய் வேண்டினால் ஒவ்வொரு கூறையும் கணினிக்கு விளக்கவேண்டும். ஆனால் விக்கித்தரவு கொண்டு முயன்றால் கணினியே எளிதில் புரிந்துகொள்ளும்.


விக்கித்தரவின் அமைப்பு:
பண்பானது(Property) P என்ற குறிச்சொல்லுடனும், உருப்படிகள்(Items) Q என்ற குறிச்சொல்லுடனும் குறிக்கப்படும். இவ்வாறே அனைத்துத் தரவும் wikidata.org என்ற தளத்தில் உள்ளிடப்படும். ஒரு உருப்படிக்கும் மற்றொரு உருப்படிக்கும் இணைப்பை இந்தப் பண்பு குறிக்கிறது. உதாரணம் தந்தை என்ற பண்பானது Property:P22 என்ற உருபொருளாக (entity) விக்கித்தரவில் இருக்கும். மகாத்மா காந்தியின் தந்தை என்பதைக் குறிக்க, காந்தியின் உருப்படி எண்ணில் (Q1001) P22 என்ற பண்பில் கரம்சந்த் காந்தியின் உருப்படி எண்(Q11735530) குறிக்கப்பட்டிருக்கும். இவ்வாறு தரவுகள் ஒன்றோடு ஒன்று இணைந்திருக்கும். எண்களாகக் குறிக்கப்பட்டிருந்தாலும் மனிதர்கள் புரிந்து கொள்ள ஏதுவாகப் பெயர்களும் கண்ணுக்குத் தெரியும். மேலும் ஒவ்வொரு பண்பிலும் வரம்புகளும் (Qualifier) அமைக்கலாம். உதாரணம் தமிழக முதல்வர் என்பதில் காமராஜர் என்ற தரவைக் கொடுத்து அவர் பதவி வகித்த காலத்தை வரம்பாகக் கொடுக்கலாம். இதன் மூலம் அந்தந்தக் காலத்தில் முதல்வராக இருந்தவர்கள் பற்றிய தொகுப்பும் கிடைக்கும்.

பயன்பாடு
உலகமெல்லாம் இருக்கும் அறிவுச் செல்வங்களை ஒரே இடத்தில் தொகுப்பதனாலும் இதுவொரு கூட்டு முயற்சியென்பதாலும் மீளுருவாக்கம் தவிர்க்கப்படும். உதாரணமாக ஒரு தமிழ்ப் புத்தகத்தைப் பற்றி அனைத்துத் தகவல்களையும் தக்கப் பண்புகளுடன் தமிழில் உள்ளீடு செய்தாலே உலகமொழிகளில் எல்லாம் இத்தகவல் கிடைக்கப் பெற்றுவிடும். மீண்டும் அம்மொழியினர் அப்புத்தகம் பற்றி உள்ளீடு செய்யத்தேவையில்லை. அதைப்போலவே அந்நாட்டுக் கலைச்செல்வங்களுக்கும் அது பொருந்தும். ஒரு பெயர்ச்சொல்லின் பண்புகள் என்ன என்று கணினிக்கு நாம் தனியாக அறிமுகம் செய்துதான் இயல் மொழிப்பகுப்பாய்வில் பயன்படுத்துகிறோம். ஆனால் விக்கித்தரவின் வழியாகச் செய்தால் ஏற்கனவே எந்த மொழியில் யார் அறிமுகம் செய்திருந்தாலும் அதனை அப்படியே பயன்படுத்திக் கொள்ளமுடியும்.

ஊடாடல்:
மைக்ரோசாப்டின் கார்டனா, ஆப்பிள் நிறுவனத்தின் சிரி, கூகிள் நவ், அலெக்சா போன்ற மெய்நிகர் உதவியாளர்கள் பிற மொழிகளில் வந்துவிட்டன. கேட்கும் கேள்விக்குப் பதிலளிக்கும், பணிகளைச் செய்யும், நினைவூட்டும் என ஒரு உதவியாளரைப் போல இந்த மென்பொருட்கள் செயல்படுகின்றன. அவ்வகையில் தமிழில் ஊடாடக்கூடிய மென்பொருட்கள் வரவேண்டும் என்றால் உலக அறிவு ஒரு செறிவான வகையில் தமிழில் கட்டமைக்கப் பட்டிருக்கவேண்டும். அந்த வகையில் விக்கித்தரவு நமக்கான ஒரு நல்வாய்ப்பு. அதன் மூலம் கணினியால் தேவையான தரவுகளை எடுத்துப் பகுத்து உணர முடியும்.

"தமிழ்நாட்டில் நெல்லின் விலை என்ன?" என்று ஒரு உதாரணக் கேள்வியை எடுத்துக் கொள்வோம். கணினியானது தற்போதைய பகுப்புத் திறனால் "தமிழ்நாடு" என்ற வேர்ச் சொல்லைப் புரிந்து கொள்ளும் அதைப்போல "நெல்" என்பதையும் அறிந்துகொள்ளும். அதன் பின்னர் இவ்விரண்டிற்குமான தொடர்பை உணர்ந்திருக்காது. அதை விக்கித்தரவு உணர்த்துகிறது. தமிழ்நாடு என்பது ஒரு நிர்வாகப் பகுதி என்றும், நெல் என்பது ஒரு பண்டம் என்றும் அறியலாம். அதன் விலை என்ற பண்பில் அதன் மதிப்புகளை அறியலாம் கூடுதலாக அதே நிர்வாகப் பகுதியில் உள்ள விலை என்று வினாவினால் நமக்குத் தேவையான விலை கிடைத்துவிடும். இதே போல "பாலூட்டிகளில் பெரிய விலங்கு எது?" என்று கேட்டாலும் அதைப் போல ஒவ்வொரு பண்பாகப் பிரித்து நமக்கான விடையை ஒரு கணினி வழங்குவதற்கான செயல்முறையைக் கற்றுத் தரமுடியும்.

மொழிபெயர்ப்பு:
பல்மொழியில் ஒரு சொல்லுக்கான பெயர்கள் அனைத்தும் தொகுக்கப்படுவதால் இதை ஒரு சொல்வங்கியாகப் பாவிக்கலாம். புதிய சொற்களுக்கு நிகரான பிறமொழிச் சொற்களை இங்கிருந்து எடுக்கலாம். இதை விக்சனரியும் செய்தாலும் விக்கித்தரவில் அந்தச் சொல்லின் வேர்ச் சொல், பயன்பாட்டுக் காலம், இணையான இதர தரவு என்று கணினிக்கு என்றவகையில் கட்டமைத்துக் கொள்ளமுடியும். இயல்பாகவே ஒவ்வொரு விக்கிப்பீடியா பக்கத்தின் பிற மொழி பக்கத்தின் இணைப்புகளை விக்கித்தரவின் வாயிலாகவே அந்நிறுவனம் செய்கிறது.

உரை ஒலி மாற்றி
ஒவ்வொரு சொல்லுக்கும் விக்கித்தரவில் அதற்கான ஒலிக்கோப்புகளை வெவ்வேறு வழக்குமொழியில் அமைக்கலாம். அவ்வாறு அமைக்கப்படும் போது உரை ஒலி மாற்றிகளில் தனிப்பயனாக்கம்(customization) செய்யமுடியும். அந்தப் பகுதி சார்ந்த ஒலிக்கோப்புகளைக் கொண்டு ஒலிக்கச் செய்யலாம். ஆண் குரல் அல்லது பெண்குரல் என்று பயனரின் விருப்பத்திற்குகேற்ப பயன்படுத்தலாம்.

நிரலாக்கம்:
ஒரு தானியங்கியாலோ, வேறு வினாவாலாலோ தகவலை எப்படிப் பெறலாம் என்பதை இங்கே பார்ப்போம். விக்கித்தரவின் API மீடியாவிக்கி மென்பொருள் என்பதால் அங்கிருந்து அடிப்படையான பல்வேறு செயல்பாடுகளைப் பெறலாம். அதன் ஆவணங்களை இங்கே காணலாம். https://www.wikidata.org/api/ மேலும் அதிநவீன வினாவாலுக்கு விக்கிமீடியாலேப்ஸ் கருவிகளும் உள்ளன.http://wdq.wmflabs.org/ நேரடியாக வினாவல்களை எழுதி சோதித்துப் பார்க்கவோ இயக்கிப் பார்க்கவோ https://query.wikidata.org/ என்ற SPARQL மொழி வசதியும் உள்ளது. https://github.com/Wikidata/StrepHit போலத் தனிநபர் சிலரும் இவ்வகையான மொழியியல் பயன்பாட்டிற்கு விக்கித்தரவைப் பயன்படுத்த முயல்கின்றனர். அப்துல் கலாமின் நூல்களை எல்லாம் எடுக்க வேண்டுமென்றால் நூல்களுக்கான பண்பு எண் 50, கலாமின் எண் 9513 என்பதை இவ்வாறு வினாவால் செய்து தரவைப் பெறலாம். http://wdq.wmflabs.org/api?q=CLAIM[50:9513]


சவால்:
விக்கித்தரவு என்பது வளர்ந்த திட்டமல்ல எனவே அனைத்துத் தரவுகளும் தற்போதைக்குக் கிடைக்காமல் போகலாம். ஆனால் எதிர்காலத்தில் தரவுகளின் கருவூலமாக மாற்றியிருக்கும்.
விக்கித்தரவை யாரும் தொகுக்கலாம் என்பதால் தகவலின் நம்பகத்தன்மை குறித்து கேள்வி எழலாம். முடிந்தளவிற்கு விக்கித்தரவில் உள்ள தன்னார்வலர்கள் தரவுகளின் நம்பகத்தன்மையை உறுதி செய்கிறார்கள்.
விக்கிமீடியாவின் சட்டதிட்டங்களுக்கு உட்பட்டே தரவுகள் அனுமதிக்கப்படுவதால் நமக்கு வேண்டிய அனைத்தும் கிடைக்காது.

முடிவுரை:
விக்கித்தரவு ஒரு தொடக்கநிலை திட்டம் ஆகையால் முழுமையான தரவுகள் இல்லாமல் போகலாம் ஆனால் எதிர்காலத்தில் கணினி மொழியியலுக்கு விக்கித்தரவின்றி வேறு பெரிய வளங்களே இல்லாமலும் போகலாம். தமிழ், தமிழர் சார்ந்த தரவுகளை விக்கித்தரவில் அதிகளவில் ஏற்ற வேண்டும். இதனால் பிறமொழியினர் உட்படத் தமிழர் தொடர்பான ஆய்வுகளுக்கு அது பயன்படும். விக்கித்தரவின் வழியாகக் கணினியின் பகுப்பாய்வு திறனை மேம்படுத்திக் கொண்டு தமிழ்க் கருவிகளை உருவாக்க வேண்டும்.

-செப் 16-30 2016 தமிழ் கம்ப்யூட்டர் இதழுக்கு எழுதியது
Next
This is the most recent post.
Older Post

2 comments:

Jeevalingam Yarlpavanan Kasirajalingam said...

அருமையான தகவல்

Rajkumar Ravi said...

தெளிவான கட்டுரை