Saturday, August 20, 2011

தமிழில் திறந்த தரவுகள் ஏன், எப்படி

இணையம் மிக வேகமாக மாறி வருகிறது. இணையம் உலகளாவிய வலையாகவும், பின்னர் வலை 2.0 ஆகவும், இப்போது பொருளுணர் வலையாக (semantic web) உருவாகி வருகிறது. பிற ஊடகங்கள், அல்லது துறைகள் போல் அல்லாமல் தமிழ் இணையத்தில் அதன் மைய வேகத்துக்கு ஈடுகொடுத்து முன்னேறி வந்துருக்கிறது. அந்த வகையில் இந்தப் பொருளுணர் வலைக்கு எப்படித் தமிழ் வளர்ச்சி பெறவேண்டும் என்று தமிழ் ஆர்வலர்கள் சிந்திக்கத் தொடங்க வேண்டும். அந்த நோக்கத்துடன், மிக மேலோட்டமான அலசலாக இந்தப் பதிவு அமையும்.

உலகளாவிய வலையின் முதல் கட்டத்தில் நாம் வ்லைப்பக்கங்கள் சென்று செய்திகளைப் படித்தோம். மின்னஞ்சல்களை பயன்படுத்தத் தொடங்கினோம். தமிழ் படிக்க வேண்டும் என்றால் தமிழ் எழுத்துக்களை தரவிறக்கல், நிறுவுதல் என்று சிக்கல்கள் இருந்தன. அந்தச் சிக்கல்களுக்கு எல்லாம் ஒருங்குறி ஓரளவு தீர்வாக அமைந்தது. வலை 2.0 இற்கு தமிழ் வேகமாகவே வந்தது. வலைப்பதிவுகள், விக்கி, டிவிட்டர், முகநூல் என எல்லா வலை 2.0 தொழில்நுட்பங்களும் தமிழில் பயன்படுத்த முடியும். நகர்பேசித் தொழில்நுட்பங்களில் சில தடைகள் இருந்தாலும், தமிழில் சமாளித்துக் கொள்ளலாம். இதுவெல்லாம், ஒட்டு மொத்தமாக தமிழ் ஆர்வலர்களால் சாத்தியமானவையே. (இன்றுவரைக்கு தமிழக அரசால் இவற்றுக்கு துளிப் பங்களிப்பும் கிடையாது. தமது கட்சி வலைத்தளங்களில் இருந்து, பல்கலைக்கழகங்கள், அரச திணைக்களங்கள் என எல்லாம் பெரும்பாலும் ஆங்கிலத்தில் மட்டுமே வலைத்தளங்களை வைத்திருகின்றன என்பது மட்டுமே தமிழக அரசின் கொள்கை நிலைப்பாட்டையும், செயற்திறனையும் சுட்டிநிற்கின்றன. கனடாவில் பிரெஞ்சு மாநிலத்தில் (கியூபெக்) போல், எல்லாக் கணினிகளிலும் (வணிக நிறுவனங்கள் உட்பட) பிரெஞ்சு நிறுவப்படவேண்டும் என்ற கொள்கையை தமிழகத்தில் எதிர்பார்க்க முடியாது.)

பொருளுனர் வலை (semantic web) இணையத்தில் அல்லது உலகளாவிய வலையின் அடுத்த கட்டமாக கூறப்படுகிறது. அடிப்படையில் பொருளுணர் வலை என்றால், வலையில் கிடைக்கும் தரவுகள் அல்லது தகவல்களை கணினிகள் பொருள் புரிந்துகொள்ளத்தக்கவாறு ஒழுங்குபடுத்தும் நுட்பம் ஆகும். தற்போது ஒரு வலைப்பக்கத்தில் உள்ள தரவுகள் அல்லது தகவல்கள் எந்த வகையான சீர்தரப்பட்ட கட்டமைப்புக்குள் இருப்பதில்லை. இதனால் இந்த தரவுகள் மீது கணித்தல் செய்வது சிரமானது. இந்தத் தகவல்கள் முறையான ஒரு கட்டமைப்புக்குள் வந்தால், பல்வேறு வகையான தேவைகளுக்கு, கணித்தலுக்கு அவற்றைப் பயன்படுத்த முடியும். அத்தகைய முறைமைகளையே பொருளுணர் வலை சுட்டுகிறது. உலகளாவிய வலையின் முதல் இரு கட்டங்கள் தகவலால் முதன்மை பெற்றது என்றால், அதன் அடுத்த கட்டம் தரவுகளால், அவற்றின் மீதான கணித்தலால் முதன்மை பெறும்.

சரி அவைதான் என்ன தரவுகள், அவை ஏன் முக்கியம். ஒரு நகரத்தின் பல்வேறு கூறுகள் அல்லது தொழில்பாடுகள் பற்றிய தரவுகளை எடுத்துக் கொள்வோம். நகரத்தின் நிலவரைபடம். போக்குவரத்துச் சாலைகள். பொதுப் போக்குவரத்து வசதிகள். நகரத்தில் வாழும் மக்கள்வகைப்பாடு. மிகவும் ஏழையான மக்கள் எங்கு வாழ்கிறார்கள். அவர்கள் வாழும் இடங்களில் உள்ள பாடசாலைகளின் தரம் என்ன? அரச திட்டங்கள் எங்கு, யாரால், எப்போது, எப்படி நிறைவேற்றப்படுகின்றன. எங்கு குற்றங்கள் அதிகம் நடைபெற்றுகின்றன. எங்கு ஊழல் அதிகமாக இருக்கிறது. இப்படிப் பட்ட தகவல்கள் பொதுமக்களுக்கு கிடைக்குமாயின் அவர்களின் முடிவொடுக்கும் ஆற்றலை, அல்லது அவர்கள் முடிவுகளின் தரத்தை பல மடங்கு அதிகரிக்கும். ஐக்கிய அமெரிக்கா, கனடா, ஐரோப்பா போன்ற நாடுகளில் இந்தத் தரவுகள் பொதுவில், திறந்த முறையில் தற்போது கிடைக்கத் தொடங்கி இருக்கின்றன. அந்த நாட்டு அரசுகளின் கொள்கையாக இது நடக்கிறது. எ.கா toronto.ca/open, toronto.ca/wellbeing/. நகரங்கள் மட்டும் அல்ல, ஊர்களுக்கு இதே தேவை இருக்கிறது.

மாணவர்களுக்கு தரவுகளும், கணிக்கும் கருவிகளும் முக்கியம் ஆகும். எ.கா www.wolframalpha.com என்ற தேடல் அல்லது கணித்தல் கருவி பல்வேறு கேள்விகளுக்கு பதில் சொல்லும் திறமை கொண்டது. www.gapminder.org, google.com/publicdata, linkeddata.org எனப் பலரும் தரவுகளை ஆழத் தோண்டத் தொடங்கி இருக்கிறார்கள். தரவுகளைக் கணித்தலும் காட்சிப்படுத்தலும் நாமும், நமது கணினிகளும் தொழிற்படும் முறையை புரட்சிகரமாக மாற்றிவருகின்றன.

நாம் தரவுகள் என்ற அடுத்த கட்டத்தை நோக்கும் முன், தற்போது இணையத்தில் தமிழ் உள்ளடக்கம் என்பது இன்னும் பல போதாமைகளைக் கொண்டது என்பதை ஏற்றுக் கொள்ள வேண்டும். மதுரைத் திட்டம், நூலகத் திட்டம், விக்கியூடகத் திட்டங்கள், தமிழ் இணையக் கல்விக்கழகம் போன்று சில நல்ல திட்டங்கள் இருந்தாலும் இவை சிறு துளியே. தமிழின் அறிவியல், வாழ்வியல், மருத்துவ மற்றும் பிற கலைக்களஞ்சியங்கள் இணையத்துக்கு வரவேண்டும். நாட்டுடமை நூல்கள் இணையத்துக்கு வர வேண்டும். எமது கலைகள், தொழில்கள், வாய்மொழி அறிவு பல்லூடக முறையில் ஆவணப்படுத்தப் பட வேண்டும். இவற்றை நாம் விரைந்து செய்தல் மூலமே மிக வேகமாக உருவாகி வரும் அறிவுச் சமூகத்தில் பங்கு கொள்ள முடியும்.

தரவு என்பது எண்தானே, அதில் எப்படி தமிழ் வர முடியும் என்று எண்ணக் கூடும். ஆனால் நாடுகள் பெயர்கள், அளவீடுகள் பெயர்கள் போன்றவை தமிழில் அமைவதில்லை. அவற்றைத் தமிழ்ப் படுத்த வேண்டும். (கூகிள் தனது மொழிபெயர்ப்புக் கருவியில் தமிழ் விக்கிப்பீடியாவில் இருந்து எடுத்த தரவுகளின் ஒரு பகுதி இந்த வகையானவை.) இது ஒரு வகை தன்மொழியாக்கமே. அடுத்தது தரவுகளைக் கையாளும் முக்கிய கருவிகளில் தமிழ் இடைமுகங்களை உருவாக்க வேண்டும். இது தமிழில் தரவுகளை உருவாக்க ஒரு வழி.

அடுத்தது தமிழ், தமிழர் பற்றிய தரவுகளை நாமே உருவாக்க அல்லது தொகுக்க வேண்டி இருக்கிறது. தரவுகள் பற்றி தமிழ் ஆர்வ அமைப்புகள் ஒரு பொது உடன்பாட்டுக்கு வரவேண்டிய தேவை இருக்கிறது. தமிழ் நூல்கள், தமிழ்த் திரைப்படங்கள், தமிழ் இதழ்கள், தமிழ்க் கலைகள், தமிழ் மக்கள்வகைப்பாடு, ஊடகங்கள், அமைப்புகள் ஆகியவற்றைப் பற்றிய தரவுகளை எந்த முறைமையின் கீழ் சேர்க்கப் போகிறோம். எப்படிப் கூட்டாக உருவாக்கிப் பகிரப் போகிறோம் என்பது எமக்கு முன் உள்ள ஒரு முக்கிய பணி ஆகும்.

ஈழம், தமிழகம், மலேசியா எங்கும் ஆங்கிலம் திறமையாகத் தெரிந்த அந்த 20-40% விட்டுவிடுவோம். மற்றவர்களுக்காக, எமது தற்சார்பு மிக்க அறிவுக்காக, எமது சமூக உரையாடல்களுக்காக தமிழில் தரவுகளை உருவாக்குவது எமது பணியாகிறது.

2 comments:

Rathnavel Natarajan said...

நல்ல பதிவு.
எனது முகநூல் பக்கத்தில் பகிர்ந்திருக்கிறேன்.
http://rathnavel-natarajan.blogspot.com/2011/08/blog-post_16.htm

மணிவானதி said...

எமக்கும் நீங்கள் கூறியிருப்பதில் உடன்பாடு உள்ளது. அதனை என்போன்றவர்கள் எப்படி உருவாக்குவது என்பதுதான் தெரியவில்லை.ஆனால் நல்ல சிந்தனை.
அன்புடன்
முனைவர் துரை.மணிகண்டன்

Post a Comment