Saturday, August 20, 2011

தமிழில் திறந்த தரவுகள் ஏன், எப்படி

இணையம் மிக வேகமாக மாறி வருகிறது. இணையம் உலகளாவிய வலையாகவும், பின்னர் வலை 2.0 ஆகவும், இப்போது பொருளுணர் வலையாக (semantic web) உருவாகி வருகிறது. பிற ஊடகங்கள், அல்லது துறைகள் போல் அல்லாமல் தமிழ் இணையத்தில் அதன் மைய வேகத்துக்கு ஈடுகொடுத்து முன்னேறி வந்துருக்கிறது. அந்த வகையில் இந்தப் பொருளுணர் வலைக்கு எப்படித் தமிழ் வளர்ச்சி பெறவேண்டும் என்று தமிழ் ஆர்வலர்கள் சிந்திக்கத் தொடங்க வேண்டும். அந்த நோக்கத்துடன், மிக மேலோட்டமான அலசலாக இந்தப் பதிவு அமையும்.

உலகளாவிய வலையின் முதல் கட்டத்தில் நாம் வ்லைப்பக்கங்கள் சென்று செய்திகளைப் படித்தோம். மின்னஞ்சல்களை பயன்படுத்தத் தொடங்கினோம். தமிழ் படிக்க வேண்டும் என்றால் தமிழ் எழுத்துக்களை தரவிறக்கல், நிறுவுதல் என்று சிக்கல்கள் இருந்தன. அந்தச் சிக்கல்களுக்கு எல்லாம் ஒருங்குறி ஓரளவு தீர்வாக அமைந்தது. வலை 2.0 இற்கு தமிழ் வேகமாகவே வந்தது. வலைப்பதிவுகள், விக்கி, டிவிட்டர், முகநூல் என எல்லா வலை 2.0 தொழில்நுட்பங்களும் தமிழில் பயன்படுத்த முடியும். நகர்பேசித் தொழில்நுட்பங்களில் சில தடைகள் இருந்தாலும், தமிழில் சமாளித்துக் கொள்ளலாம். இதுவெல்லாம், ஒட்டு மொத்தமாக தமிழ் ஆர்வலர்களால் சாத்தியமானவையே. (இன்றுவரைக்கு தமிழக அரசால் இவற்றுக்கு துளிப் பங்களிப்பும் கிடையாது. தமது கட்சி வலைத்தளங்களில் இருந்து, பல்கலைக்கழகங்கள், அரச திணைக்களங்கள் என எல்லாம் பெரும்பாலும் ஆங்கிலத்தில் மட்டுமே வலைத்தளங்களை வைத்திருகின்றன என்பது மட்டுமே தமிழக அரசின் கொள்கை நிலைப்பாட்டையும், செயற்திறனையும் சுட்டிநிற்கின்றன. கனடாவில் பிரெஞ்சு மாநிலத்தில் (கியூபெக்) போல், எல்லாக் கணினிகளிலும் (வணிக நிறுவனங்கள் உட்பட) பிரெஞ்சு நிறுவப்படவேண்டும் என்ற கொள்கையை தமிழகத்தில் எதிர்பார்க்க முடியாது.)

பொருளுனர் வலை (semantic web) இணையத்தில் அல்லது உலகளாவிய வலையின் அடுத்த கட்டமாக கூறப்படுகிறது. அடிப்படையில் பொருளுணர் வலை என்றால், வலையில் கிடைக்கும் தரவுகள் அல்லது தகவல்களை கணினிகள் பொருள் புரிந்துகொள்ளத்தக்கவாறு ஒழுங்குபடுத்தும் நுட்பம் ஆகும். தற்போது ஒரு வலைப்பக்கத்தில் உள்ள தரவுகள் அல்லது தகவல்கள் எந்த வகையான சீர்தரப்பட்ட கட்டமைப்புக்குள் இருப்பதில்லை. இதனால் இந்த தரவுகள் மீது கணித்தல் செய்வது சிரமானது. இந்தத் தகவல்கள் முறையான ஒரு கட்டமைப்புக்குள் வந்தால், பல்வேறு வகையான தேவைகளுக்கு, கணித்தலுக்கு அவற்றைப் பயன்படுத்த முடியும். அத்தகைய முறைமைகளையே பொருளுணர் வலை சுட்டுகிறது. உலகளாவிய வலையின் முதல் இரு கட்டங்கள் தகவலால் முதன்மை பெற்றது என்றால், அதன் அடுத்த கட்டம் தரவுகளால், அவற்றின் மீதான கணித்தலால் முதன்மை பெறும்.

சரி அவைதான் என்ன தரவுகள், அவை ஏன் முக்கியம். ஒரு நகரத்தின் பல்வேறு கூறுகள் அல்லது தொழில்பாடுகள் பற்றிய தரவுகளை எடுத்துக் கொள்வோம். நகரத்தின் நிலவரைபடம். போக்குவரத்துச் சாலைகள். பொதுப் போக்குவரத்து வசதிகள். நகரத்தில் வாழும் மக்கள்வகைப்பாடு. மிகவும் ஏழையான மக்கள் எங்கு வாழ்கிறார்கள். அவர்கள் வாழும் இடங்களில் உள்ள பாடசாலைகளின் தரம் என்ன? அரச திட்டங்கள் எங்கு, யாரால், எப்போது, எப்படி நிறைவேற்றப்படுகின்றன. எங்கு குற்றங்கள் அதிகம் நடைபெற்றுகின்றன. எங்கு ஊழல் அதிகமாக இருக்கிறது. இப்படிப் பட்ட தகவல்கள் பொதுமக்களுக்கு கிடைக்குமாயின் அவர்களின் முடிவொடுக்கும் ஆற்றலை, அல்லது அவர்கள் முடிவுகளின் தரத்தை பல மடங்கு அதிகரிக்கும். ஐக்கிய அமெரிக்கா, கனடா, ஐரோப்பா போன்ற நாடுகளில் இந்தத் தரவுகள் பொதுவில், திறந்த முறையில் தற்போது கிடைக்கத் தொடங்கி இருக்கின்றன. அந்த நாட்டு அரசுகளின் கொள்கையாக இது நடக்கிறது. எ.கா toronto.ca/open, toronto.ca/wellbeing/. நகரங்கள் மட்டும் அல்ல, ஊர்களுக்கு இதே தேவை இருக்கிறது.

மாணவர்களுக்கு தரவுகளும், கணிக்கும் கருவிகளும் முக்கியம் ஆகும். எ.கா www.wolframalpha.com என்ற தேடல் அல்லது கணித்தல் கருவி பல்வேறு கேள்விகளுக்கு பதில் சொல்லும் திறமை கொண்டது. www.gapminder.org, google.com/publicdata, linkeddata.org எனப் பலரும் தரவுகளை ஆழத் தோண்டத் தொடங்கி இருக்கிறார்கள். தரவுகளைக் கணித்தலும் காட்சிப்படுத்தலும் நாமும், நமது கணினிகளும் தொழிற்படும் முறையை புரட்சிகரமாக மாற்றிவருகின்றன.

நாம் தரவுகள் என்ற அடுத்த கட்டத்தை நோக்கும் முன், தற்போது இணையத்தில் தமிழ் உள்ளடக்கம் என்பது இன்னும் பல போதாமைகளைக் கொண்டது என்பதை ஏற்றுக் கொள்ள வேண்டும். மதுரைத் திட்டம், நூலகத் திட்டம், விக்கியூடகத் திட்டங்கள், தமிழ் இணையக் கல்விக்கழகம் போன்று சில நல்ல திட்டங்கள் இருந்தாலும் இவை சிறு துளியே. தமிழின் அறிவியல், வாழ்வியல், மருத்துவ மற்றும் பிற கலைக்களஞ்சியங்கள் இணையத்துக்கு வரவேண்டும். நாட்டுடமை நூல்கள் இணையத்துக்கு வர வேண்டும். எமது கலைகள், தொழில்கள், வாய்மொழி அறிவு பல்லூடக முறையில் ஆவணப்படுத்தப் பட வேண்டும். இவற்றை நாம் விரைந்து செய்தல் மூலமே மிக வேகமாக உருவாகி வரும் அறிவுச் சமூகத்தில் பங்கு கொள்ள முடியும்.

தரவு என்பது எண்தானே, அதில் எப்படி தமிழ் வர முடியும் என்று எண்ணக் கூடும். ஆனால் நாடுகள் பெயர்கள், அளவீடுகள் பெயர்கள் போன்றவை தமிழில் அமைவதில்லை. அவற்றைத் தமிழ்ப் படுத்த வேண்டும். (கூகிள் தனது மொழிபெயர்ப்புக் கருவியில் தமிழ் விக்கிப்பீடியாவில் இருந்து எடுத்த தரவுகளின் ஒரு பகுதி இந்த வகையானவை.) இது ஒரு வகை தன்மொழியாக்கமே. அடுத்தது தரவுகளைக் கையாளும் முக்கிய கருவிகளில் தமிழ் இடைமுகங்களை உருவாக்க வேண்டும். இது தமிழில் தரவுகளை உருவாக்க ஒரு வழி.

அடுத்தது தமிழ், தமிழர் பற்றிய தரவுகளை நாமே உருவாக்க அல்லது தொகுக்க வேண்டி இருக்கிறது. தரவுகள் பற்றி தமிழ் ஆர்வ அமைப்புகள் ஒரு பொது உடன்பாட்டுக்கு வரவேண்டிய தேவை இருக்கிறது. தமிழ் நூல்கள், தமிழ்த் திரைப்படங்கள், தமிழ் இதழ்கள், தமிழ்க் கலைகள், தமிழ் மக்கள்வகைப்பாடு, ஊடகங்கள், அமைப்புகள் ஆகியவற்றைப் பற்றிய தரவுகளை எந்த முறைமையின் கீழ் சேர்க்கப் போகிறோம். எப்படிப் கூட்டாக உருவாக்கிப் பகிரப் போகிறோம் என்பது எமக்கு முன் உள்ள ஒரு முக்கிய பணி ஆகும்.

ஈழம், தமிழகம், மலேசியா எங்கும் ஆங்கிலம் திறமையாகத் தெரிந்த அந்த 20-40% விட்டுவிடுவோம். மற்றவர்களுக்காக, எமது தற்சார்பு மிக்க அறிவுக்காக, எமது சமூக உரையாடல்களுக்காக தமிழில் தரவுகளை உருவாக்குவது எமது பணியாகிறது.

2 comments:

  1. நல்ல பதிவு.
    எனது முகநூல் பக்கத்தில் பகிர்ந்திருக்கிறேன்.
    http://rathnavel-natarajan.blogspot.com/2011/08/blog-post_16.htm

    ReplyDelete
  2. எமக்கும் நீங்கள் கூறியிருப்பதில் உடன்பாடு உள்ளது. அதனை என்போன்றவர்கள் எப்படி உருவாக்குவது என்பதுதான் தெரியவில்லை.ஆனால் நல்ல சிந்தனை.
    அன்புடன்
    முனைவர் துரை.மணிகண்டன்

    ReplyDelete