கணினி மொழியியல்(Computational Linguistics) துறைக்குக் கிடைத்துள்ள புது வரவு விக்கித்தரவு(wikidata). இது விக்கிமீடியா அறக்கட்டளையின் கட்டற்ற திட்டமாகும். இதுவரை கட்டுரைகளையும், தகவல்களையும் தொகுத்து வைத்த நிலையில் இருந்து தரவுகளாக மாற்றி ஒன்றோடு ஒன்று எவ்வகையான தொடர்பு என்பதுடன் தொகுத்து, கணினியுடன் ஒத்திசையும் ஒரு தகவல் தளமாக உள்ளது. இதனால் ஒருமொழிக்கும் அடுத்த மொழிக்குமான இடைவெளி சுருக்கப்படும் எளிதில் மொழிபெயர்ப்பியல் முதல் எந்திரனியல் வரை பயன்படும். 2012ல் அறிமுகமான விக்கித்தரவு படிப்படியாக வளர்ந்து ஒரு குறிப்பிடத்தக்க நிலையை இன்று எட்டியுள்ளது. விக்கிமீடியாவின் பிற திட்டங்கள் போல யாவரும் தொகுக்கக் கூடியதால் இது பலமடங்கு எதிர்காலத்தில் வளரக் கூடியது.
இதர திட்டங்கள்
மொழிபெயர்ப்புகளை ஒருங்கிணைக்க உருவாக்கப்பட்ட translatewiki.net என்ற திட்டமுள்ளது. இதில் இயல் மொழியை எப்படி மொழிபெயர்க்கலாம் என்று மட்டுமே தரவுகள் இருக்கும். ஒரு கணினி தானாகப் பகுத்துப் பார்க்கத் தக்க தர்க்கங்கள் இல்லை. கூகிளின் நாலேஜ் கிராப் கருவிக்குப் பயன்பட்ட Freebase என்ற திட்டமும் ஏறக்குறைய விக்கித்தரவை ஒத்தது ஆனால் பெரிதாக வளர்க்க முடியாமல் கூகிள் அதை நிறுத்திவிட்டு, விக்கித்தரவைப் பயன்படுத்த முடிவு செய்துள்ளது. SNPedia, DBpedia போன்ற பல திட்டங்கள் இதற்கு முன் இருந்தாலும் அவை தரவுத்தளம் அளவிலேயே நின்று விட்டன, ஒரு மொழியியல் பயன்பாடு இல்லாமல் இருந்தன. SIMILE, Stumpedia போன்ற திட்டங்கள் எந்திர ஒத்திசைவோடு (machine readable) இருந்தாலும் தமிழுக்கான வாய்ப்புகள் இல்லை. அவ்வகையில் தமிழுக்கும் உதவக் கூடிய ஒரு அறிவுத் தளம் விக்கித்தரவு.
விக்கித்தரவு என்றால் என்ன?
விக்கித்தரவு என்பது மனிதர்களும், கணிப்பொறிகளும் படித்துப் புரிந்து கொள்ளக் கூடிய ஒரு அறிவுத் தளமாகும். இதுவொரு செறிவாகக் கட்டமைக்கப்பட்ட ஒரு கட்டற்ற தரவுத் தளம். அனைத்துத் தகவல்களும் ஒன்றோடு ஒன்று எவ்வாறு தொடர்புடையது என்று குறிக்கப்படும். "தமிழ்நாடு" என்ற சொல்லை ஒரு "மாநிலம்" என்ற பண்பால் குறிக்கப்பட்டிருக்கும். அதன் இருப்பிடப் பண்புகளாக நாடு என்பதில் இந்தியாவும், கண்டம் என்பதில் ஆசியாவும் குறிக்கப்பட்டிருக்கும். எனவே ஒரு கணினி இத்தரவை அணுகும் போது அந்தப் பண்புகளின் அடிப்படையில் தமிழ்நாடு என்ற சொல்லை அதனால் உணர்ந்து கொள்ள முடியும். பொதுவாக ஒரு கணினிக்குப் புரியும் விதத்தில் தரவுகளை உள்ளீடு செய் வேண்டினால் ஒவ்வொரு கூறையும் கணினிக்கு விளக்கவேண்டும். ஆனால் விக்கித்தரவு கொண்டு முயன்றால் கணினியே எளிதில் புரிந்துகொள்ளும்.
விக்கித்தரவின் அமைப்பு:
பண்பானது(Property) P என்ற குறிச்சொல்லுடனும், உருப்படிகள்(Items) Q என்ற குறிச்சொல்லுடனும் குறிக்கப்படும். இவ்வாறே அனைத்துத் தரவும் wikidata.org என்ற தளத்தில் உள்ளிடப்படும். ஒரு உருப்படிக்கும் மற்றொரு உருப்படிக்கும் இணைப்பை இந்தப் பண்பு குறிக்கிறது. உதாரணம் தந்தை என்ற பண்பானது Property:P22 என்ற உருபொருளாக (entity) விக்கித்தரவில் இருக்கும். மகாத்மா காந்தியின் தந்தை என்பதைக் குறிக்க, காந்தியின் உருப்படி எண்ணில் (Q1001) P22 என்ற பண்பில் கரம்சந்த் காந்தியின் உருப்படி எண்(Q11735530) குறிக்கப்பட்டிருக்கும். இவ்வாறு தரவுகள் ஒன்றோடு ஒன்று இணைந்திருக்கும். எண்களாகக் குறிக்கப்பட்டிருந்தாலும் மனிதர்கள் புரிந்து கொள்ள ஏதுவாகப் பெயர்களும் கண்ணுக்குத் தெரியும். மேலும் ஒவ்வொரு பண்பிலும் வரம்புகளும் (Qualifier) அமைக்கலாம். உதாரணம் தமிழக முதல்வர் என்பதில் காமராஜர் என்ற தரவைக் கொடுத்து அவர் பதவி வகித்த காலத்தை வரம்பாகக் கொடுக்கலாம். இதன் மூலம் அந்தந்தக் காலத்தில் முதல்வராக இருந்தவர்கள் பற்றிய தொகுப்பும் கிடைக்கும்.
பயன்பாடு
உலகமெல்லாம் இருக்கும் அறிவுச் செல்வங்களை ஒரே இடத்தில் தொகுப்பதனாலும் இதுவொரு கூட்டு முயற்சியென்பதாலும் மீளுருவாக்கம் தவிர்க்கப்படும். உதாரணமாக ஒரு தமிழ்ப் புத்தகத்தைப் பற்றி அனைத்துத் தகவல்களையும் தக்கப் பண்புகளுடன் தமிழில் உள்ளீடு செய்தாலே உலகமொழிகளில் எல்லாம் இத்தகவல் கிடைக்கப் பெற்றுவிடும். மீண்டும் அம்மொழியினர் அப்புத்தகம் பற்றி உள்ளீடு செய்யத்தேவையில்லை. அதைப்போலவே அந்நாட்டுக் கலைச்செல்வங்களுக்கும் அது பொருந்தும். ஒரு பெயர்ச்சொல்லின் பண்புகள் என்ன என்று கணினிக்கு நாம் தனியாக அறிமுகம் செய்துதான் இயல் மொழிப்பகுப்பாய்வில் பயன்படுத்துகிறோம். ஆனால் விக்கித்தரவின் வழியாகச் செய்தால் ஏற்கனவே எந்த மொழியில் யார் அறிமுகம் செய்திருந்தாலும் அதனை அப்படியே பயன்படுத்திக் கொள்ளமுடியும்.
ஊடாடல்:
மைக்ரோசாப்டின் கார்டனா, ஆப்பிள் நிறுவனத்தின் சிரி, கூகிள் நவ், அலெக்சா போன்ற மெய்நிகர் உதவியாளர்கள் பிற மொழிகளில் வந்துவிட்டன. கேட்கும் கேள்விக்குப் பதிலளிக்கும், பணிகளைச் செய்யும், நினைவூட்டும் என ஒரு உதவியாளரைப் போல இந்த மென்பொருட்கள் செயல்படுகின்றன. அவ்வகையில் தமிழில் ஊடாடக்கூடிய மென்பொருட்கள் வரவேண்டும் என்றால் உலக அறிவு ஒரு செறிவான வகையில் தமிழில் கட்டமைக்கப் பட்டிருக்கவேண்டும். அந்த வகையில் விக்கித்தரவு நமக்கான ஒரு நல்வாய்ப்பு. அதன் மூலம் கணினியால் தேவையான தரவுகளை எடுத்துப் பகுத்து உணர முடியும்.
"தமிழ்நாட்டில் நெல்லின் விலை என்ன?" என்று ஒரு உதாரணக் கேள்வியை எடுத்துக் கொள்வோம். கணினியானது தற்போதைய பகுப்புத் திறனால் "தமிழ்நாடு" என்ற வேர்ச் சொல்லைப் புரிந்து கொள்ளும் அதைப்போல "நெல்" என்பதையும் அறிந்துகொள்ளும். அதன் பின்னர் இவ்விரண்டிற்குமான தொடர்பை உணர்ந்திருக்காது. அதை விக்கித்தரவு உணர்த்துகிறது. தமிழ்நாடு என்பது ஒரு நிர்வாகப் பகுதி என்றும், நெல் என்பது ஒரு பண்டம் என்றும் அறியலாம். அதன் விலை என்ற பண்பில் அதன் மதிப்புகளை அறியலாம் கூடுதலாக அதே நிர்வாகப் பகுதியில் உள்ள விலை என்று வினாவினால் நமக்குத் தேவையான விலை கிடைத்துவிடும். இதே போல "பாலூட்டிகளில் பெரிய விலங்கு எது?" என்று கேட்டாலும் அதைப் போல ஒவ்வொரு பண்பாகப் பிரித்து நமக்கான விடையை ஒரு கணினி வழங்குவதற்கான செயல்முறையைக் கற்றுத் தரமுடியும்.
மொழிபெயர்ப்பு:
பல்மொழியில் ஒரு சொல்லுக்கான பெயர்கள் அனைத்தும் தொகுக்கப்படுவதால் இதை ஒரு சொல்வங்கியாகப் பாவிக்கலாம். புதிய சொற்களுக்கு நிகரான பிறமொழிச் சொற்களை இங்கிருந்து எடுக்கலாம். இதை விக்சனரியும் செய்தாலும் விக்கித்தரவில் அந்தச் சொல்லின் வேர்ச் சொல், பயன்பாட்டுக் காலம், இணையான இதர தரவு என்று கணினிக்கு என்றவகையில் கட்டமைத்துக் கொள்ளமுடியும். இயல்பாகவே ஒவ்வொரு விக்கிப்பீடியா பக்கத்தின் பிற மொழி பக்கத்தின் இணைப்புகளை விக்கித்தரவின் வாயிலாகவே அந்நிறுவனம் செய்கிறது.
உரை ஒலி மாற்றி
ஒவ்வொரு சொல்லுக்கும் விக்கித்தரவில் அதற்கான ஒலிக்கோப்புகளை வெவ்வேறு வழக்குமொழியில் அமைக்கலாம். அவ்வாறு அமைக்கப்படும் போது உரை ஒலி மாற்றிகளில் தனிப்பயனாக்கம்(customization) செய்யமுடியும். அந்தப் பகுதி சார்ந்த ஒலிக்கோப்புகளைக் கொண்டு ஒலிக்கச் செய்யலாம். ஆண் குரல் அல்லது பெண்குரல் என்று பயனரின் விருப்பத்திற்குகேற்ப பயன்படுத்தலாம்.
நிரலாக்கம்:
ஒரு தானியங்கியாலோ, வேறு வினாவாலாலோ தகவலை எப்படிப் பெறலாம் என்பதை இங்கே பார்ப்போம். விக்கித்தரவின் API மீடியாவிக்கி மென்பொருள் என்பதால் அங்கிருந்து அடிப்படையான பல்வேறு செயல்பாடுகளைப் பெறலாம். அதன் ஆவணங்களை இங்கே காணலாம். https://www.wikidata.org/api/ மேலும் அதிநவீன வினாவாலுக்கு விக்கிமீடியாலேப்ஸ் கருவிகளும் உள்ளன.http://wdq.wmflabs.org/ நேரடியாக வினாவல்களை எழுதி சோதித்துப் பார்க்கவோ இயக்கிப் பார்க்கவோ https://query.wikidata.org/ என்ற SPARQL மொழி வசதியும் உள்ளது. https://github.com/Wikidata/StrepHit போலத் தனிநபர் சிலரும் இவ்வகையான மொழியியல் பயன்பாட்டிற்கு விக்கித்தரவைப் பயன்படுத்த முயல்கின்றனர். அப்துல் கலாமின் நூல்களை எல்லாம் எடுக்க வேண்டுமென்றால் நூல்களுக்கான பண்பு எண் 50, கலாமின் எண் 9513 என்பதை இவ்வாறு வினாவால் செய்து தரவைப் பெறலாம். http://wdq.wmflabs.org/api?q=CLAIM[50:9513]
சவால்:
விக்கித்தரவு என்பது வளர்ந்த திட்டமல்ல எனவே அனைத்துத் தரவுகளும் தற்போதைக்குக் கிடைக்காமல் போகலாம். ஆனால் எதிர்காலத்தில் தரவுகளின் கருவூலமாக மாற்றியிருக்கும்.
விக்கித்தரவை யாரும் தொகுக்கலாம் என்பதால் தகவலின் நம்பகத்தன்மை குறித்து கேள்வி எழலாம். முடிந்தளவிற்கு விக்கித்தரவில் உள்ள தன்னார்வலர்கள் தரவுகளின் நம்பகத்தன்மையை உறுதி செய்கிறார்கள்.
விக்கிமீடியாவின் சட்டதிட்டங்களுக்கு உட்பட்டே தரவுகள் அனுமதிக்கப்படுவதால் நமக்கு வேண்டிய அனைத்தும் கிடைக்காது.
விக்கித்தரவு ஒரு தொடக்கநிலை திட்டம் ஆகையால் முழுமையான தரவுகள் இல்லாமல் போகலாம் ஆனால் எதிர்காலத்தில் கணினி மொழியியலுக்கு விக்கித்தரவின்றி வேறு பெரிய வளங்களே இல்லாமலும் போகலாம். தமிழ், தமிழர் சார்ந்த தரவுகளை விக்கித்தரவில் அதிகளவில் ஏற்ற வேண்டும். இதனால் பிறமொழியினர் உட்படத் தமிழர் தொடர்பான ஆய்வுகளுக்கு அது பயன்படும். விக்கித்தரவின் வழியாகக் கணினியின் பகுப்பாய்வு திறனை மேம்படுத்திக் கொண்டு தமிழ்க் கருவிகளை உருவாக்க வேண்டும்.
கணினி மொழியியல்(Computational Linguistics) துறைக்குக் கிடைத்துள்ள புது வரவு விக்கித்தரவு(wikidata). இது விக்கிமீடியா அறக்கட்டளையின் கட்டற்ற திட்டமாகும். இதுவரை கட்டுரைகளையும், தகவல்களையும் தொகுத்து வைத்த நிலையில் இருந்து தரவுகளாக மாற்றி ஒன்றோடு ஒன்று எவ்வகையான தொடர்பு என்பதுடன் தொகுத்து, கணினியுடன் ஒத்திசையும் ஒரு தகவல் தளமாக உள்ளது. இதனால் ஒருமொழிக்கும் அடுத்த மொழிக்குமான இடைவெளி சுருக்கப்படும் எளிதில் மொழிபெயர்ப்பியல் முதல் எந்திரனியல் வரை பயன்படும். 2012ல் அறிமுகமான விக்கித்தரவு படிப்படியாக வளர்ந்து ஒரு குறிப்பிடத்தக்க நிலையை இன்று எட்டியுள்ளது. விக்கிமீடியாவின் பிற திட்டங்கள் போல யாவரும் தொகுக்கக் கூடியதால் இது பலமடங்கு எதிர்காலத்தில் வளரக் கூடியது.
இதர திட்டங்கள்
மொழிபெயர்ப்புகளை ஒருங்கிணைக்க உருவாக்கப்பட்ட translatewiki.net என்ற திட்டமுள்ளது. இதில் இயல் மொழியை எப்படி மொழிபெயர்க்கலாம் என்று மட்டுமே தரவுகள் இருக்கும். ஒரு கணினி தானாகப் பகுத்துப் பார்க்கத் தக்க தர்க்கங்கள் இல்லை. கூகிளின் நாலேஜ் கிராப் கருவிக்குப் பயன்பட்ட Freebase என்ற திட்டமும் ஏறக்குறைய விக்கித்தரவை ஒத்தது ஆனால் பெரிதாக வளர்க்க முடியாமல் கூகிள் அதை நிறுத்திவிட்டு, விக்கித்தரவைப் பயன்படுத்த முடிவு செய்துள்ளது. SNPedia, DBpedia போன்ற பல திட்டங்கள் இதற்கு முன் இருந்தாலும் அவை தரவுத்தளம் அளவிலேயே நின்று விட்டன, ஒரு மொழியியல் பயன்பாடு இல்லாமல் இருந்தன. SIMILE, Stumpedia போன்ற திட்டங்கள் எந்திர ஒத்திசைவோடு (machine readable) இருந்தாலும் தமிழுக்கான வாய்ப்புகள் இல்லை. அவ்வகையில் தமிழுக்கும் உதவக் கூடிய ஒரு அறிவுத் தளம் விக்கித்தரவு.
விக்கித்தரவு என்றால் என்ன?
விக்கித்தரவு என்பது மனிதர்களும், கணிப்பொறிகளும் படித்துப் புரிந்து கொள்ளக் கூடிய ஒரு அறிவுத் தளமாகும். இதுவொரு செறிவாகக் கட்டமைக்கப்பட்ட ஒரு கட்டற்ற தரவுத் தளம். அனைத்துத் தகவல்களும் ஒன்றோடு ஒன்று எவ்வாறு தொடர்புடையது என்று குறிக்கப்படும். "தமிழ்நாடு" என்ற சொல்லை ஒரு "மாநிலம்" என்ற பண்பால் குறிக்கப்பட்டிருக்கும். அதன் இருப்பிடப் பண்புகளாக நாடு என்பதில் இந்தியாவும், கண்டம் என்பதில் ஆசியாவும் குறிக்கப்பட்டிருக்கும். எனவே ஒரு கணினி இத்தரவை அணுகும் போது அந்தப் பண்புகளின் அடிப்படையில் தமிழ்நாடு என்ற சொல்லை அதனால் உணர்ந்து கொள்ள முடியும். பொதுவாக ஒரு கணினிக்குப் புரியும் விதத்தில் தரவுகளை உள்ளீடு செய் வேண்டினால் ஒவ்வொரு கூறையும் கணினிக்கு விளக்கவேண்டும். ஆனால் விக்கித்தரவு கொண்டு முயன்றால் கணினியே எளிதில் புரிந்துகொள்ளும்.
விக்கித்தரவின் அமைப்பு:
பண்பானது(Property) P என்ற குறிச்சொல்லுடனும், உருப்படிகள்(Items) Q என்ற குறிச்சொல்லுடனும் குறிக்கப்படும். இவ்வாறே அனைத்துத் தரவும் wikidata.org என்ற தளத்தில் உள்ளிடப்படும். ஒரு உருப்படிக்கும் மற்றொரு உருப்படிக்கும் இணைப்பை இந்தப் பண்பு குறிக்கிறது. உதாரணம் தந்தை என்ற பண்பானது Property:P22 என்ற உருபொருளாக (entity) விக்கித்தரவில் இருக்கும். மகாத்மா காந்தியின் தந்தை என்பதைக் குறிக்க, காந்தியின் உருப்படி எண்ணில் (Q1001) P22 என்ற பண்பில் கரம்சந்த் காந்தியின் உருப்படி எண்(Q11735530) குறிக்கப்பட்டிருக்கும். இவ்வாறு தரவுகள் ஒன்றோடு ஒன்று இணைந்திருக்கும். எண்களாகக் குறிக்கப்பட்டிருந்தாலும் மனிதர்கள் புரிந்து கொள்ள ஏதுவாகப் பெயர்களும் கண்ணுக்குத் தெரியும். மேலும் ஒவ்வொரு பண்பிலும் வரம்புகளும் (Qualifier) அமைக்கலாம். உதாரணம் தமிழக முதல்வர் என்பதில் காமராஜர் என்ற தரவைக் கொடுத்து அவர் பதவி வகித்த காலத்தை வரம்பாகக் கொடுக்கலாம். இதன் மூலம் அந்தந்தக் காலத்தில் முதல்வராக இருந்தவர்கள் பற்றிய தொகுப்பும் கிடைக்கும்.
பயன்பாடு
உலகமெல்லாம் இருக்கும் அறிவுச் செல்வங்களை ஒரே இடத்தில் தொகுப்பதனாலும் இதுவொரு கூட்டு முயற்சியென்பதாலும் மீளுருவாக்கம் தவிர்க்கப்படும். உதாரணமாக ஒரு தமிழ்ப் புத்தகத்தைப் பற்றி அனைத்துத் தகவல்களையும் தக்கப் பண்புகளுடன் தமிழில் உள்ளீடு செய்தாலே உலகமொழிகளில் எல்லாம் இத்தகவல் கிடைக்கப் பெற்றுவிடும். மீண்டும் அம்மொழியினர் அப்புத்தகம் பற்றி உள்ளீடு செய்யத்தேவையில்லை. அதைப்போலவே அந்நாட்டுக் கலைச்செல்வங்களுக்கும் அது பொருந்தும். ஒரு பெயர்ச்சொல்லின் பண்புகள் என்ன என்று கணினிக்கு நாம் தனியாக அறிமுகம் செய்துதான் இயல் மொழிப்பகுப்பாய்வில் பயன்படுத்துகிறோம். ஆனால் விக்கித்தரவின் வழியாகச் செய்தால் ஏற்கனவே எந்த மொழியில் யார் அறிமுகம் செய்திருந்தாலும் அதனை அப்படியே பயன்படுத்திக் கொள்ளமுடியும்.
ஊடாடல்:
மைக்ரோசாப்டின் கார்டனா, ஆப்பிள் நிறுவனத்தின் சிரி, கூகிள் நவ், அலெக்சா போன்ற மெய்நிகர் உதவியாளர்கள் பிற மொழிகளில் வந்துவிட்டன. கேட்கும் கேள்விக்குப் பதிலளிக்கும், பணிகளைச் செய்யும், நினைவூட்டும் என ஒரு உதவியாளரைப் போல இந்த மென்பொருட்கள் செயல்படுகின்றன. அவ்வகையில் தமிழில் ஊடாடக்கூடிய மென்பொருட்கள் வரவேண்டும் என்றால் உலக அறிவு ஒரு செறிவான வகையில் தமிழில் கட்டமைக்கப் பட்டிருக்கவேண்டும். அந்த வகையில் விக்கித்தரவு நமக்கான ஒரு நல்வாய்ப்பு. அதன் மூலம் கணினியால் தேவையான தரவுகளை எடுத்துப் பகுத்து உணர முடியும்.
"தமிழ்நாட்டில் நெல்லின் விலை என்ன?" என்று ஒரு உதாரணக் கேள்வியை எடுத்துக் கொள்வோம். கணினியானது தற்போதைய பகுப்புத் திறனால் "தமிழ்நாடு" என்ற வேர்ச் சொல்லைப் புரிந்து கொள்ளும் அதைப்போல "நெல்" என்பதையும் அறிந்துகொள்ளும். அதன் பின்னர் இவ்விரண்டிற்குமான தொடர்பை உணர்ந்திருக்காது. அதை விக்கித்தரவு உணர்த்துகிறது. தமிழ்நாடு என்பது ஒரு நிர்வாகப் பகுதி என்றும், நெல் என்பது ஒரு பண்டம் என்றும் அறியலாம். அதன் விலை என்ற பண்பில் அதன் மதிப்புகளை அறியலாம் கூடுதலாக அதே நிர்வாகப் பகுதியில் உள்ள விலை என்று வினாவினால் நமக்குத் தேவையான விலை கிடைத்துவிடும். இதே போல "பாலூட்டிகளில் பெரிய விலங்கு எது?" என்று கேட்டாலும் அதைப் போல ஒவ்வொரு பண்பாகப் பிரித்து நமக்கான விடையை ஒரு கணினி வழங்குவதற்கான செயல்முறையைக் கற்றுத் தரமுடியும்.
மொழிபெயர்ப்பு:
பல்மொழியில் ஒரு சொல்லுக்கான பெயர்கள் அனைத்தும் தொகுக்கப்படுவதால் இதை ஒரு சொல்வங்கியாகப் பாவிக்கலாம். புதிய சொற்களுக்கு நிகரான பிறமொழிச் சொற்களை இங்கிருந்து எடுக்கலாம். இதை விக்சனரியும் செய்தாலும் விக்கித்தரவில் அந்தச் சொல்லின் வேர்ச் சொல், பயன்பாட்டுக் காலம், இணையான இதர தரவு என்று கணினிக்கு என்றவகையில் கட்டமைத்துக் கொள்ளமுடியும். இயல்பாகவே ஒவ்வொரு விக்கிப்பீடியா பக்கத்தின் பிற மொழி பக்கத்தின் இணைப்புகளை விக்கித்தரவின் வாயிலாகவே அந்நிறுவனம் செய்கிறது.
உரை ஒலி மாற்றி
ஒவ்வொரு சொல்லுக்கும் விக்கித்தரவில் அதற்கான ஒலிக்கோப்புகளை வெவ்வேறு வழக்குமொழியில் அமைக்கலாம். அவ்வாறு அமைக்கப்படும் போது உரை ஒலி மாற்றிகளில் தனிப்பயனாக்கம்(customization) செய்யமுடியும். அந்தப் பகுதி சார்ந்த ஒலிக்கோப்புகளைக் கொண்டு ஒலிக்கச் செய்யலாம். ஆண் குரல் அல்லது பெண்குரல் என்று பயனரின் விருப்பத்திற்குகேற்ப பயன்படுத்தலாம்.
நிரலாக்கம்:
ஒரு தானியங்கியாலோ, வேறு வினாவாலாலோ தகவலை எப்படிப் பெறலாம் என்பதை இங்கே பார்ப்போம். விக்கித்தரவின் API மீடியாவிக்கி மென்பொருள் என்பதால் அங்கிருந்து அடிப்படையான பல்வேறு செயல்பாடுகளைப் பெறலாம். அதன் ஆவணங்களை இங்கே காணலாம். https://www.wikidata.org/api/ மேலும் அதிநவீன வினாவாலுக்கு விக்கிமீடியாலேப்ஸ் கருவிகளும் உள்ளன.http://wdq.wmflabs.org/ நேரடியாக வினாவல்களை எழுதி சோதித்துப் பார்க்கவோ இயக்கிப் பார்க்கவோ https://query.wikidata.org/ என்ற SPARQL மொழி வசதியும் உள்ளது. https://github.com/Wikidata/StrepHit போலத் தனிநபர் சிலரும் இவ்வகையான மொழியியல் பயன்பாட்டிற்கு விக்கித்தரவைப் பயன்படுத்த முயல்கின்றனர். அப்துல் கலாமின் நூல்களை எல்லாம் எடுக்க வேண்டுமென்றால் நூல்களுக்கான பண்பு எண் 50, கலாமின் எண் 9513 என்பதை இவ்வாறு வினாவால் செய்து தரவைப் பெறலாம். http://wdq.wmflabs.org/api?q=CLAIM[50:9513]
சவால்:
விக்கித்தரவு என்பது வளர்ந்த திட்டமல்ல எனவே அனைத்துத் தரவுகளும் தற்போதைக்குக் கிடைக்காமல் போகலாம். ஆனால் எதிர்காலத்தில் தரவுகளின் கருவூலமாக மாற்றியிருக்கும்.
விக்கித்தரவை யாரும் தொகுக்கலாம் என்பதால் தகவலின் நம்பகத்தன்மை குறித்து கேள்வி எழலாம். முடிந்தளவிற்கு விக்கித்தரவில் உள்ள தன்னார்வலர்கள் தரவுகளின் நம்பகத்தன்மையை உறுதி செய்கிறார்கள்.
விக்கிமீடியாவின் சட்டதிட்டங்களுக்கு உட்பட்டே தரவுகள் அனுமதிக்கப்படுவதால் நமக்கு வேண்டிய அனைத்தும் கிடைக்காது.
முடிவுரை:
விக்கித்தரவு ஒரு தொடக்கநிலை திட்டம் ஆகையால் முழுமையான தரவுகள் இல்லாமல் போகலாம் ஆனால் எதிர்காலத்தில் கணினி மொழியியலுக்கு விக்கித்தரவின்றி வேறு பெரிய வளங்களே இல்லாமலும் போகலாம். தமிழ், தமிழர் சார்ந்த தரவுகளை விக்கித்தரவில் அதிகளவில் ஏற்ற வேண்டும். இதனால் பிறமொழியினர் உட்படத் தமிழர் தொடர்பான ஆய்வுகளுக்கு அது பயன்படும். விக்கித்தரவின் வழியாகக் கணினியின் பகுப்பாய்வு திறனை மேம்படுத்திக் கொண்டு தமிழ்க் கருவிகளை உருவாக்க வேண்டும்.
-செப் 16-30 2016 தமிழ் கம்ப்யூட்டர் இதழுக்கு எழுதியது
இதர திட்டங்கள்
மொழிபெயர்ப்புகளை ஒருங்கிணைக்க உருவாக்கப்பட்ட translatewiki.net என்ற திட்டமுள்ளது. இதில் இயல் மொழியை எப்படி மொழிபெயர்க்கலாம் என்று மட்டுமே தரவுகள் இருக்கும். ஒரு கணினி தானாகப் பகுத்துப் பார்க்கத் தக்க தர்க்கங்கள் இல்லை. கூகிளின் நாலேஜ் கிராப் கருவிக்குப் பயன்பட்ட Freebase என்ற திட்டமும் ஏறக்குறைய விக்கித்தரவை ஒத்தது ஆனால் பெரிதாக வளர்க்க முடியாமல் கூகிள் அதை நிறுத்திவிட்டு, விக்கித்தரவைப் பயன்படுத்த முடிவு செய்துள்ளது. SNPedia, DBpedia போன்ற பல திட்டங்கள் இதற்கு முன் இருந்தாலும் அவை தரவுத்தளம் அளவிலேயே நின்று விட்டன, ஒரு மொழியியல் பயன்பாடு இல்லாமல் இருந்தன. SIMILE, Stumpedia போன்ற திட்டங்கள் எந்திர ஒத்திசைவோடு (machine readable) இருந்தாலும் தமிழுக்கான வாய்ப்புகள் இல்லை. அவ்வகையில் தமிழுக்கும் உதவக் கூடிய ஒரு அறிவுத் தளம் விக்கித்தரவு.
விக்கித்தரவு என்றால் என்ன?
விக்கித்தரவு என்பது மனிதர்களும், கணிப்பொறிகளும் படித்துப் புரிந்து கொள்ளக் கூடிய ஒரு அறிவுத் தளமாகும். இதுவொரு செறிவாகக் கட்டமைக்கப்பட்ட ஒரு கட்டற்ற தரவுத் தளம். அனைத்துத் தகவல்களும் ஒன்றோடு ஒன்று எவ்வாறு தொடர்புடையது என்று குறிக்கப்படும். "தமிழ்நாடு" என்ற சொல்லை ஒரு "மாநிலம்" என்ற பண்பால் குறிக்கப்பட்டிருக்கும். அதன் இருப்பிடப் பண்புகளாக நாடு என்பதில் இந்தியாவும், கண்டம் என்பதில் ஆசியாவும் குறிக்கப்பட்டிருக்கும். எனவே ஒரு கணினி இத்தரவை அணுகும் போது அந்தப் பண்புகளின் அடிப்படையில் தமிழ்நாடு என்ற சொல்லை அதனால் உணர்ந்து கொள்ள முடியும். பொதுவாக ஒரு கணினிக்குப் புரியும் விதத்தில் தரவுகளை உள்ளீடு செய் வேண்டினால் ஒவ்வொரு கூறையும் கணினிக்கு விளக்கவேண்டும். ஆனால் விக்கித்தரவு கொண்டு முயன்றால் கணினியே எளிதில் புரிந்துகொள்ளும்.
விக்கித்தரவின் அமைப்பு:
பண்பானது(Property) P என்ற குறிச்சொல்லுடனும், உருப்படிகள்(Items) Q என்ற குறிச்சொல்லுடனும் குறிக்கப்படும். இவ்வாறே அனைத்துத் தரவும் wikidata.org என்ற தளத்தில் உள்ளிடப்படும். ஒரு உருப்படிக்கும் மற்றொரு உருப்படிக்கும் இணைப்பை இந்தப் பண்பு குறிக்கிறது. உதாரணம் தந்தை என்ற பண்பானது Property:P22 என்ற உருபொருளாக (entity) விக்கித்தரவில் இருக்கும். மகாத்மா காந்தியின் தந்தை என்பதைக் குறிக்க, காந்தியின் உருப்படி எண்ணில் (Q1001) P22 என்ற பண்பில் கரம்சந்த் காந்தியின் உருப்படி எண்(Q11735530) குறிக்கப்பட்டிருக்கும். இவ்வாறு தரவுகள் ஒன்றோடு ஒன்று இணைந்திருக்கும். எண்களாகக் குறிக்கப்பட்டிருந்தாலும் மனிதர்கள் புரிந்து கொள்ள ஏதுவாகப் பெயர்களும் கண்ணுக்குத் தெரியும். மேலும் ஒவ்வொரு பண்பிலும் வரம்புகளும் (Qualifier) அமைக்கலாம். உதாரணம் தமிழக முதல்வர் என்பதில் காமராஜர் என்ற தரவைக் கொடுத்து அவர் பதவி வகித்த காலத்தை வரம்பாகக் கொடுக்கலாம். இதன் மூலம் அந்தந்தக் காலத்தில் முதல்வராக இருந்தவர்கள் பற்றிய தொகுப்பும் கிடைக்கும்.
பயன்பாடு
உலகமெல்லாம் இருக்கும் அறிவுச் செல்வங்களை ஒரே இடத்தில் தொகுப்பதனாலும் இதுவொரு கூட்டு முயற்சியென்பதாலும் மீளுருவாக்கம் தவிர்க்கப்படும். உதாரணமாக ஒரு தமிழ்ப் புத்தகத்தைப் பற்றி அனைத்துத் தகவல்களையும் தக்கப் பண்புகளுடன் தமிழில் உள்ளீடு செய்தாலே உலகமொழிகளில் எல்லாம் இத்தகவல் கிடைக்கப் பெற்றுவிடும். மீண்டும் அம்மொழியினர் அப்புத்தகம் பற்றி உள்ளீடு செய்யத்தேவையில்லை. அதைப்போலவே அந்நாட்டுக் கலைச்செல்வங்களுக்கும் அது பொருந்தும். ஒரு பெயர்ச்சொல்லின் பண்புகள் என்ன என்று கணினிக்கு நாம் தனியாக அறிமுகம் செய்துதான் இயல் மொழிப்பகுப்பாய்வில் பயன்படுத்துகிறோம். ஆனால் விக்கித்தரவின் வழியாகச் செய்தால் ஏற்கனவே எந்த மொழியில் யார் அறிமுகம் செய்திருந்தாலும் அதனை அப்படியே பயன்படுத்திக் கொள்ளமுடியும்.
ஊடாடல்:
மைக்ரோசாப்டின் கார்டனா, ஆப்பிள் நிறுவனத்தின் சிரி, கூகிள் நவ், அலெக்சா போன்ற மெய்நிகர் உதவியாளர்கள் பிற மொழிகளில் வந்துவிட்டன. கேட்கும் கேள்விக்குப் பதிலளிக்கும், பணிகளைச் செய்யும், நினைவூட்டும் என ஒரு உதவியாளரைப் போல இந்த மென்பொருட்கள் செயல்படுகின்றன. அவ்வகையில் தமிழில் ஊடாடக்கூடிய மென்பொருட்கள் வரவேண்டும் என்றால் உலக அறிவு ஒரு செறிவான வகையில் தமிழில் கட்டமைக்கப் பட்டிருக்கவேண்டும். அந்த வகையில் விக்கித்தரவு நமக்கான ஒரு நல்வாய்ப்பு. அதன் மூலம் கணினியால் தேவையான தரவுகளை எடுத்துப் பகுத்து உணர முடியும்.
"தமிழ்நாட்டில் நெல்லின் விலை என்ன?" என்று ஒரு உதாரணக் கேள்வியை எடுத்துக் கொள்வோம். கணினியானது தற்போதைய பகுப்புத் திறனால் "தமிழ்நாடு" என்ற வேர்ச் சொல்லைப் புரிந்து கொள்ளும் அதைப்போல "நெல்" என்பதையும் அறிந்துகொள்ளும். அதன் பின்னர் இவ்விரண்டிற்குமான தொடர்பை உணர்ந்திருக்காது. அதை விக்கித்தரவு உணர்த்துகிறது. தமிழ்நாடு என்பது ஒரு நிர்வாகப் பகுதி என்றும், நெல் என்பது ஒரு பண்டம் என்றும் அறியலாம். அதன் விலை என்ற பண்பில் அதன் மதிப்புகளை அறியலாம் கூடுதலாக அதே நிர்வாகப் பகுதியில் உள்ள விலை என்று வினாவினால் நமக்குத் தேவையான விலை கிடைத்துவிடும். இதே போல "பாலூட்டிகளில் பெரிய விலங்கு எது?" என்று கேட்டாலும் அதைப் போல ஒவ்வொரு பண்பாகப் பிரித்து நமக்கான விடையை ஒரு கணினி வழங்குவதற்கான செயல்முறையைக் கற்றுத் தரமுடியும்.
மொழிபெயர்ப்பு:
பல்மொழியில் ஒரு சொல்லுக்கான பெயர்கள் அனைத்தும் தொகுக்கப்படுவதால் இதை ஒரு சொல்வங்கியாகப் பாவிக்கலாம். புதிய சொற்களுக்கு நிகரான பிறமொழிச் சொற்களை இங்கிருந்து எடுக்கலாம். இதை விக்சனரியும் செய்தாலும் விக்கித்தரவில் அந்தச் சொல்லின் வேர்ச் சொல், பயன்பாட்டுக் காலம், இணையான இதர தரவு என்று கணினிக்கு என்றவகையில் கட்டமைத்துக் கொள்ளமுடியும். இயல்பாகவே ஒவ்வொரு விக்கிப்பீடியா பக்கத்தின் பிற மொழி பக்கத்தின் இணைப்புகளை விக்கித்தரவின் வாயிலாகவே அந்நிறுவனம் செய்கிறது.
உரை ஒலி மாற்றி
ஒவ்வொரு சொல்லுக்கும் விக்கித்தரவில் அதற்கான ஒலிக்கோப்புகளை வெவ்வேறு வழக்குமொழியில் அமைக்கலாம். அவ்வாறு அமைக்கப்படும் போது உரை ஒலி மாற்றிகளில் தனிப்பயனாக்கம்(customization) செய்யமுடியும். அந்தப் பகுதி சார்ந்த ஒலிக்கோப்புகளைக் கொண்டு ஒலிக்கச் செய்யலாம். ஆண் குரல் அல்லது பெண்குரல் என்று பயனரின் விருப்பத்திற்குகேற்ப பயன்படுத்தலாம்.
நிரலாக்கம்:
ஒரு தானியங்கியாலோ, வேறு வினாவாலாலோ தகவலை எப்படிப் பெறலாம் என்பதை இங்கே பார்ப்போம். விக்கித்தரவின் API மீடியாவிக்கி மென்பொருள் என்பதால் அங்கிருந்து அடிப்படையான பல்வேறு செயல்பாடுகளைப் பெறலாம். அதன் ஆவணங்களை இங்கே காணலாம். https://www.wikidata.org/api/ மேலும் அதிநவீன வினாவாலுக்கு விக்கிமீடியாலேப்ஸ் கருவிகளும் உள்ளன.http://wdq.wmflabs.org/ நேரடியாக வினாவல்களை எழுதி சோதித்துப் பார்க்கவோ இயக்கிப் பார்க்கவோ https://query.wikidata.org/ என்ற SPARQL மொழி வசதியும் உள்ளது. https://github.com/Wikidata/StrepHit போலத் தனிநபர் சிலரும் இவ்வகையான மொழியியல் பயன்பாட்டிற்கு விக்கித்தரவைப் பயன்படுத்த முயல்கின்றனர். அப்துல் கலாமின் நூல்களை எல்லாம் எடுக்க வேண்டுமென்றால் நூல்களுக்கான பண்பு எண் 50, கலாமின் எண் 9513 என்பதை இவ்வாறு வினாவால் செய்து தரவைப் பெறலாம். http://wdq.wmflabs.org/api?q=CLAIM[50:9513]
சவால்:
விக்கித்தரவு என்பது வளர்ந்த திட்டமல்ல எனவே அனைத்துத் தரவுகளும் தற்போதைக்குக் கிடைக்காமல் போகலாம். ஆனால் எதிர்காலத்தில் தரவுகளின் கருவூலமாக மாற்றியிருக்கும்.
விக்கித்தரவை யாரும் தொகுக்கலாம் என்பதால் தகவலின் நம்பகத்தன்மை குறித்து கேள்வி எழலாம். முடிந்தளவிற்கு விக்கித்தரவில் உள்ள தன்னார்வலர்கள் தரவுகளின் நம்பகத்தன்மையை உறுதி செய்கிறார்கள்.
விக்கிமீடியாவின் சட்டதிட்டங்களுக்கு உட்பட்டே தரவுகள் அனுமதிக்கப்படுவதால் நமக்கு வேண்டிய அனைத்தும் கிடைக்காது.
விக்கித்தரவு ஒரு தொடக்கநிலை திட்டம் ஆகையால் முழுமையான தரவுகள் இல்லாமல் போகலாம் ஆனால் எதிர்காலத்தில் கணினி மொழியியலுக்கு விக்கித்தரவின்றி வேறு பெரிய வளங்களே இல்லாமலும் போகலாம். தமிழ், தமிழர் சார்ந்த தரவுகளை விக்கித்தரவில் அதிகளவில் ஏற்ற வேண்டும். இதனால் பிறமொழியினர் உட்படத் தமிழர் தொடர்பான ஆய்வுகளுக்கு அது பயன்படும். விக்கித்தரவின் வழியாகக் கணினியின் பகுப்பாய்வு திறனை மேம்படுத்திக் கொண்டு தமிழ்க் கருவிகளை உருவாக்க வேண்டும்.
கணினி மொழியியல்(Computational Linguistics) துறைக்குக் கிடைத்துள்ள புது வரவு விக்கித்தரவு(wikidata). இது விக்கிமீடியா அறக்கட்டளையின் கட்டற்ற திட்டமாகும். இதுவரை கட்டுரைகளையும், தகவல்களையும் தொகுத்து வைத்த நிலையில் இருந்து தரவுகளாக மாற்றி ஒன்றோடு ஒன்று எவ்வகையான தொடர்பு என்பதுடன் தொகுத்து, கணினியுடன் ஒத்திசையும் ஒரு தகவல் தளமாக உள்ளது. இதனால் ஒருமொழிக்கும் அடுத்த மொழிக்குமான இடைவெளி சுருக்கப்படும் எளிதில் மொழிபெயர்ப்பியல் முதல் எந்திரனியல் வரை பயன்படும். 2012ல் அறிமுகமான விக்கித்தரவு படிப்படியாக வளர்ந்து ஒரு குறிப்பிடத்தக்க நிலையை இன்று எட்டியுள்ளது. விக்கிமீடியாவின் பிற திட்டங்கள் போல யாவரும் தொகுக்கக் கூடியதால் இது பலமடங்கு எதிர்காலத்தில் வளரக் கூடியது.
இதர திட்டங்கள்
மொழிபெயர்ப்புகளை ஒருங்கிணைக்க உருவாக்கப்பட்ட translatewiki.net என்ற திட்டமுள்ளது. இதில் இயல் மொழியை எப்படி மொழிபெயர்க்கலாம் என்று மட்டுமே தரவுகள் இருக்கும். ஒரு கணினி தானாகப் பகுத்துப் பார்க்கத் தக்க தர்க்கங்கள் இல்லை. கூகிளின் நாலேஜ் கிராப் கருவிக்குப் பயன்பட்ட Freebase என்ற திட்டமும் ஏறக்குறைய விக்கித்தரவை ஒத்தது ஆனால் பெரிதாக வளர்க்க முடியாமல் கூகிள் அதை நிறுத்திவிட்டு, விக்கித்தரவைப் பயன்படுத்த முடிவு செய்துள்ளது. SNPedia, DBpedia போன்ற பல திட்டங்கள் இதற்கு முன் இருந்தாலும் அவை தரவுத்தளம் அளவிலேயே நின்று விட்டன, ஒரு மொழியியல் பயன்பாடு இல்லாமல் இருந்தன. SIMILE, Stumpedia போன்ற திட்டங்கள் எந்திர ஒத்திசைவோடு (machine readable) இருந்தாலும் தமிழுக்கான வாய்ப்புகள் இல்லை. அவ்வகையில் தமிழுக்கும் உதவக் கூடிய ஒரு அறிவுத் தளம் விக்கித்தரவு.
விக்கித்தரவு என்றால் என்ன?
விக்கித்தரவு என்பது மனிதர்களும், கணிப்பொறிகளும் படித்துப் புரிந்து கொள்ளக் கூடிய ஒரு அறிவுத் தளமாகும். இதுவொரு செறிவாகக் கட்டமைக்கப்பட்ட ஒரு கட்டற்ற தரவுத் தளம். அனைத்துத் தகவல்களும் ஒன்றோடு ஒன்று எவ்வாறு தொடர்புடையது என்று குறிக்கப்படும். "தமிழ்நாடு" என்ற சொல்லை ஒரு "மாநிலம்" என்ற பண்பால் குறிக்கப்பட்டிருக்கும். அதன் இருப்பிடப் பண்புகளாக நாடு என்பதில் இந்தியாவும், கண்டம் என்பதில் ஆசியாவும் குறிக்கப்பட்டிருக்கும். எனவே ஒரு கணினி இத்தரவை அணுகும் போது அந்தப் பண்புகளின் அடிப்படையில் தமிழ்நாடு என்ற சொல்லை அதனால் உணர்ந்து கொள்ள முடியும். பொதுவாக ஒரு கணினிக்குப் புரியும் விதத்தில் தரவுகளை உள்ளீடு செய் வேண்டினால் ஒவ்வொரு கூறையும் கணினிக்கு விளக்கவேண்டும். ஆனால் விக்கித்தரவு கொண்டு முயன்றால் கணினியே எளிதில் புரிந்துகொள்ளும்.
விக்கித்தரவின் அமைப்பு:
பண்பானது(Property) P என்ற குறிச்சொல்லுடனும், உருப்படிகள்(Items) Q என்ற குறிச்சொல்லுடனும் குறிக்கப்படும். இவ்வாறே அனைத்துத் தரவும் wikidata.org என்ற தளத்தில் உள்ளிடப்படும். ஒரு உருப்படிக்கும் மற்றொரு உருப்படிக்கும் இணைப்பை இந்தப் பண்பு குறிக்கிறது. உதாரணம் தந்தை என்ற பண்பானது Property:P22 என்ற உருபொருளாக (entity) விக்கித்தரவில் இருக்கும். மகாத்மா காந்தியின் தந்தை என்பதைக் குறிக்க, காந்தியின் உருப்படி எண்ணில் (Q1001) P22 என்ற பண்பில் கரம்சந்த் காந்தியின் உருப்படி எண்(Q11735530) குறிக்கப்பட்டிருக்கும். இவ்வாறு தரவுகள் ஒன்றோடு ஒன்று இணைந்திருக்கும். எண்களாகக் குறிக்கப்பட்டிருந்தாலும் மனிதர்கள் புரிந்து கொள்ள ஏதுவாகப் பெயர்களும் கண்ணுக்குத் தெரியும். மேலும் ஒவ்வொரு பண்பிலும் வரம்புகளும் (Qualifier) அமைக்கலாம். உதாரணம் தமிழக முதல்வர் என்பதில் காமராஜர் என்ற தரவைக் கொடுத்து அவர் பதவி வகித்த காலத்தை வரம்பாகக் கொடுக்கலாம். இதன் மூலம் அந்தந்தக் காலத்தில் முதல்வராக இருந்தவர்கள் பற்றிய தொகுப்பும் கிடைக்கும்.
பயன்பாடு
உலகமெல்லாம் இருக்கும் அறிவுச் செல்வங்களை ஒரே இடத்தில் தொகுப்பதனாலும் இதுவொரு கூட்டு முயற்சியென்பதாலும் மீளுருவாக்கம் தவிர்க்கப்படும். உதாரணமாக ஒரு தமிழ்ப் புத்தகத்தைப் பற்றி அனைத்துத் தகவல்களையும் தக்கப் பண்புகளுடன் தமிழில் உள்ளீடு செய்தாலே உலகமொழிகளில் எல்லாம் இத்தகவல் கிடைக்கப் பெற்றுவிடும். மீண்டும் அம்மொழியினர் அப்புத்தகம் பற்றி உள்ளீடு செய்யத்தேவையில்லை. அதைப்போலவே அந்நாட்டுக் கலைச்செல்வங்களுக்கும் அது பொருந்தும். ஒரு பெயர்ச்சொல்லின் பண்புகள் என்ன என்று கணினிக்கு நாம் தனியாக அறிமுகம் செய்துதான் இயல் மொழிப்பகுப்பாய்வில் பயன்படுத்துகிறோம். ஆனால் விக்கித்தரவின் வழியாகச் செய்தால் ஏற்கனவே எந்த மொழியில் யார் அறிமுகம் செய்திருந்தாலும் அதனை அப்படியே பயன்படுத்திக் கொள்ளமுடியும்.
ஊடாடல்:
மைக்ரோசாப்டின் கார்டனா, ஆப்பிள் நிறுவனத்தின் சிரி, கூகிள் நவ், அலெக்சா போன்ற மெய்நிகர் உதவியாளர்கள் பிற மொழிகளில் வந்துவிட்டன. கேட்கும் கேள்விக்குப் பதிலளிக்கும், பணிகளைச் செய்யும், நினைவூட்டும் என ஒரு உதவியாளரைப் போல இந்த மென்பொருட்கள் செயல்படுகின்றன. அவ்வகையில் தமிழில் ஊடாடக்கூடிய மென்பொருட்கள் வரவேண்டும் என்றால் உலக அறிவு ஒரு செறிவான வகையில் தமிழில் கட்டமைக்கப் பட்டிருக்கவேண்டும். அந்த வகையில் விக்கித்தரவு நமக்கான ஒரு நல்வாய்ப்பு. அதன் மூலம் கணினியால் தேவையான தரவுகளை எடுத்துப் பகுத்து உணர முடியும்.
"தமிழ்நாட்டில் நெல்லின் விலை என்ன?" என்று ஒரு உதாரணக் கேள்வியை எடுத்துக் கொள்வோம். கணினியானது தற்போதைய பகுப்புத் திறனால் "தமிழ்நாடு" என்ற வேர்ச் சொல்லைப் புரிந்து கொள்ளும் அதைப்போல "நெல்" என்பதையும் அறிந்துகொள்ளும். அதன் பின்னர் இவ்விரண்டிற்குமான தொடர்பை உணர்ந்திருக்காது. அதை விக்கித்தரவு உணர்த்துகிறது. தமிழ்நாடு என்பது ஒரு நிர்வாகப் பகுதி என்றும், நெல் என்பது ஒரு பண்டம் என்றும் அறியலாம். அதன் விலை என்ற பண்பில் அதன் மதிப்புகளை அறியலாம் கூடுதலாக அதே நிர்வாகப் பகுதியில் உள்ள விலை என்று வினாவினால் நமக்குத் தேவையான விலை கிடைத்துவிடும். இதே போல "பாலூட்டிகளில் பெரிய விலங்கு எது?" என்று கேட்டாலும் அதைப் போல ஒவ்வொரு பண்பாகப் பிரித்து நமக்கான விடையை ஒரு கணினி வழங்குவதற்கான செயல்முறையைக் கற்றுத் தரமுடியும்.
மொழிபெயர்ப்பு:
பல்மொழியில் ஒரு சொல்லுக்கான பெயர்கள் அனைத்தும் தொகுக்கப்படுவதால் இதை ஒரு சொல்வங்கியாகப் பாவிக்கலாம். புதிய சொற்களுக்கு நிகரான பிறமொழிச் சொற்களை இங்கிருந்து எடுக்கலாம். இதை விக்சனரியும் செய்தாலும் விக்கித்தரவில் அந்தச் சொல்லின் வேர்ச் சொல், பயன்பாட்டுக் காலம், இணையான இதர தரவு என்று கணினிக்கு என்றவகையில் கட்டமைத்துக் கொள்ளமுடியும். இயல்பாகவே ஒவ்வொரு விக்கிப்பீடியா பக்கத்தின் பிற மொழி பக்கத்தின் இணைப்புகளை விக்கித்தரவின் வாயிலாகவே அந்நிறுவனம் செய்கிறது.
உரை ஒலி மாற்றி
ஒவ்வொரு சொல்லுக்கும் விக்கித்தரவில் அதற்கான ஒலிக்கோப்புகளை வெவ்வேறு வழக்குமொழியில் அமைக்கலாம். அவ்வாறு அமைக்கப்படும் போது உரை ஒலி மாற்றிகளில் தனிப்பயனாக்கம்(customization) செய்யமுடியும். அந்தப் பகுதி சார்ந்த ஒலிக்கோப்புகளைக் கொண்டு ஒலிக்கச் செய்யலாம். ஆண் குரல் அல்லது பெண்குரல் என்று பயனரின் விருப்பத்திற்குகேற்ப பயன்படுத்தலாம்.
நிரலாக்கம்:
ஒரு தானியங்கியாலோ, வேறு வினாவாலாலோ தகவலை எப்படிப் பெறலாம் என்பதை இங்கே பார்ப்போம். விக்கித்தரவின் API மீடியாவிக்கி மென்பொருள் என்பதால் அங்கிருந்து அடிப்படையான பல்வேறு செயல்பாடுகளைப் பெறலாம். அதன் ஆவணங்களை இங்கே காணலாம். https://www.wikidata.org/api/ மேலும் அதிநவீன வினாவாலுக்கு விக்கிமீடியாலேப்ஸ் கருவிகளும் உள்ளன.http://wdq.wmflabs.org/ நேரடியாக வினாவல்களை எழுதி சோதித்துப் பார்க்கவோ இயக்கிப் பார்க்கவோ https://query.wikidata.org/ என்ற SPARQL மொழி வசதியும் உள்ளது. https://github.com/Wikidata/StrepHit போலத் தனிநபர் சிலரும் இவ்வகையான மொழியியல் பயன்பாட்டிற்கு விக்கித்தரவைப் பயன்படுத்த முயல்கின்றனர். அப்துல் கலாமின் நூல்களை எல்லாம் எடுக்க வேண்டுமென்றால் நூல்களுக்கான பண்பு எண் 50, கலாமின் எண் 9513 என்பதை இவ்வாறு வினாவால் செய்து தரவைப் பெறலாம். http://wdq.wmflabs.org/api?q=CLAIM[50:9513]
சவால்:
விக்கித்தரவு என்பது வளர்ந்த திட்டமல்ல எனவே அனைத்துத் தரவுகளும் தற்போதைக்குக் கிடைக்காமல் போகலாம். ஆனால் எதிர்காலத்தில் தரவுகளின் கருவூலமாக மாற்றியிருக்கும்.
விக்கித்தரவை யாரும் தொகுக்கலாம் என்பதால் தகவலின் நம்பகத்தன்மை குறித்து கேள்வி எழலாம். முடிந்தளவிற்கு விக்கித்தரவில் உள்ள தன்னார்வலர்கள் தரவுகளின் நம்பகத்தன்மையை உறுதி செய்கிறார்கள்.
விக்கிமீடியாவின் சட்டதிட்டங்களுக்கு உட்பட்டே தரவுகள் அனுமதிக்கப்படுவதால் நமக்கு வேண்டிய அனைத்தும் கிடைக்காது.
முடிவுரை:
விக்கித்தரவு ஒரு தொடக்கநிலை திட்டம் ஆகையால் முழுமையான தரவுகள் இல்லாமல் போகலாம் ஆனால் எதிர்காலத்தில் கணினி மொழியியலுக்கு விக்கித்தரவின்றி வேறு பெரிய வளங்களே இல்லாமலும் போகலாம். தமிழ், தமிழர் சார்ந்த தரவுகளை விக்கித்தரவில் அதிகளவில் ஏற்ற வேண்டும். இதனால் பிறமொழியினர் உட்படத் தமிழர் தொடர்பான ஆய்வுகளுக்கு அது பயன்படும். விக்கித்தரவின் வழியாகக் கணினியின் பகுப்பாய்வு திறனை மேம்படுத்திக் கொண்டு தமிழ்க் கருவிகளை உருவாக்க வேண்டும்.
-செப் 16-30 2016 தமிழ் கம்ப்யூட்டர் இதழுக்கு எழுதியது
2 comments:
அருமையான தகவல்
தெளிவான கட்டுரை
Post a Comment