Home

Advertisement

GNOME 2.22 Released

Mar. 14th, 2008 | 09:07 pm

Gnome released its 2.22 version . The GNOME desktop and platform received many improvements and new features.
It has official support for 46 languages. Malayalam, Marathi, Tamil, Gujarati and Punjabi completed more than 80% of translations and present in the supported languages.


Read the release notes to know the new features
Tags: ,

Link | Leave a comment | Add to Memories | Tell a Friend

Sulekha: Transliteration Based Indic Texteditor

Nov. 19th, 2007 | 09:47 pm

Learning how to type in our own Mother tongue is always a problem for newbies. Usually we will just use English as "yeh kya hey" while chatting/mailing. It is because of this reason the transliteration based input methods are more popular than the Inscript in some languages. Google recently released their Indic transliterate service, a web based text editor which will take English words and convert to Indic languages with the help of some machine learning.
But as far as a normal user is concerned there are many things missing there. It works only if you are online, the suggestions it is listing for English words are often wrong words with spelling mistakes, not a free software etc..
It is in this context, I tried to develop a Desktop application which will act as transliteration based text editor with almost all features of Google transliterate and with some extra features. The project is called as 'Sulekha", meaning "one who writes well"
What is Sulekha
Sulekha is a GTK based text editor. It transliterated the English words to Malayalam (It is not only designed for Malayalam. but I started it for Malayalam) when user types space/newline. If the transliterated word is an actual Malayalam word , Sulekha will replace the English word with the Malayalam word. Other wise we will try to get an exact match from the dictionary we have. If there are multiple words which matches the transliterated word, we will show it as an option list, just like a spell checker. If there is no suggestions, there is a onscreen keyboard, using that user can type using mouse and we will add that new word to the dictionary. Thereby Sulekha learns new words.

If one experienced user wants to use type some words using any input methods, we can disable the sulekha algorithm as well. Then it works as a normal text editor. Sulekha uses Aspell for word learning and suggestions. There is a transliteration engine which transliterated the word to a particular language.
So it is possible to extend Sulekha to any language having Aspell word list. Just need to write one transliteration engine which it language specific. Sulekha editor is a hack on the gtkspell library code which works as a basis for GEDIT text editor. If possible, we can think about a web based sync of word lists also.

The project is not complete, but the code is available in the GIT repository of Swathanthra Malayalam Computing at Savannah
To build the code;
./configure
make

To run:
For editor :
sulekha
For commandline transliterator
sulekha englishword_to_transliterate


This is the TODO list of Sulekha as of now
1. Onscreen keyboard- Coding and Integration
2. Session dictionary/System dictionary Handling
3. Fixing some bugs in Transliteration system, especially the letters after Chillu.- need a small correction in the algorithm
4. Implementing the Editor Menu functions, File Handling
5. Tuning Aspell configuration for the Edit distance optimization for the best suggestions, Currently the suggestion list is too big and suggestion words include words with more than 2 edit distance.
6. Handling the edit inside the word
7. Web Integration

If you are interested in this project/adding new language support please contact santhosh00 at gmail.com

Happy Hacking!!!

Link | Leave a comment | Add to Memories | Tell a Friend

ഇതാ വരുന്നൂ, സുലേഖ

Nov. 14th, 2007 | 09:41 pm

ഗൂഗിള്‍ ഈയിടെ പുറത്തിറക്കിയ ഗൂഗിള്‍ ട്രാന്‍സ്ലിറ്ററേറ്റ് എന്ന സേവനത്തില്‍ നിന്ന് പ്രചോദനമുള്‍‌ക്കൊണ്ട് സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് അവതരിപ്പിയ്ക്കുന്നു, പുതിയ സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ സംരംഭം: "സുലേഖ "

എന്താണ് സുലേഖ?

സുലേഖ gtk യില്‍ തീര്‍ത്ത ഒരു GUI ടെക്സ്റ്റ് എഡിറ്ററാണ്. വരമൊഴി, സ്വനലേഖ തുടങ്ങിയവ ഓരോ അക്ഷരത്തിനെയും ലിപ്യന്തരണം ചെയ്യുമ്പോള്‍ പദാനുപദ ലിപ്യന്തരണമാണ് സുലേഖ ചെയ്യുന്നത്. ഓരോ വാക്കും കഴിഞ്ഞ് സ്പേസ് അടിയ്ക്കുമ്പോള്‍ തൊട്ടുമുമ്പ് ടൈപ്പ് ചെയ്ത മംഗ്ലീഷ് മലയാളമായി മാറുന്നു. എഴുതിയ മംഗ്ലീഷ് ആശയക്കുഴപ്പമില്ലാതെ ഒരു മലയാളം വാക്കിന് തത്തുല്യമാണെങ്കില്‍ ആ മലയാളം വാക്ക് വരുന്നു. അല്ലെങ്കില്‍ മംഗ്ലീഷിന്റെ ഏകദേശ ലിപ്യന്തരണം നടത്തി, ആ വാക്ക് ഒരു ചുവപ്പ് അടിവരയോടു കൂടി കാണിയ്ക്കുന്നു. റൈറ്റ് ക്ലിക്ക് ചെയ്യുമ്പോള്‍ ഏറ്റവും യോജിച്ച മലയാളം വാക്കുകള്‍ മെനുവില്‍ കാണിയ്ക്കുന്നു. എന്നിട്ടും ഉദ്ദേശിച്ച വാക്ക് വന്നില്ലെങ്കില്‍ ഒരു ഓണ്‍സ്ക്രീന്‍ കീബോര്‍ഡിന്റെ സഹായത്തോടെ മൗസ് ഉപയോഗിച്ച് വാക്ക് ടൈപ്പ് ചെയ്യാം. ഇങ്ങനെ ചേര്‍ക്കുന്ന പുതിയ വാക്കുകള്‍ സുലേഖ പഠിയ്ക്കുന്നു.

ഉപയോക്താവിന് വേണമെങ്കില്‍ സുലേഖ എഡിറ്ററിനെ ഒരു സാദാ ടെക്സ്റ്റ് എഡിറ്ററായും ഉപയോഗിയ്ക്കാം. സുലേഖ അല്‍ഗോരിതം ഉപയോഗിയ്ക്കാതെ ഇന്‍സ്ക്രിപ്റ്റ്, സ്വനലേഖ, മൊഴി, ലളിത എന്നിവ ഏതെങ്കിലും ഉപയോഗിച്ച് ടൈപ്പ് ചെയ്യാം
സ്ക്രീന്‍ഷോട്ട് കാണുക

മലയാളത്തിന് വേണ്ടി മാത്രമല്ല ഇത് രൂപകല്പന ചെയ്തിരിയ്ക്കുന്നത്. ഏകദേശം അറുപതോളം ഭാഷകള്‍ (അതായത് ഗ്നു ആസ്പെല്‍ പദാവലി ലഭ്യമായ ഏതൊരു ഭാഷയും)സുലേഖയില്‍ ചേര്‍ക്കാവുന്നതാണ്. സുലേഖയില്‍ ചേര്‍ക്കുന്ന ഓരോ വാക്കും സത്യത്തില്‍ പഠിയ്ക്കുന്നത് ആസ്പെല്‍ ആണ്. ആസ്പെല്‍ പദാവലികള്‍ (പുതിയ വാക്കുകള്‍ ഹോം ഫോള്‍ഡറില്‍ ഒരു .dot file ആയി‌ ശേഖരിയ്ക്കപ്പെടും)പരസ്പരം പങ്ക് വെയ്ക്കുകയാണെങ്കില്‍, ഒരാളുടെ കമ്പ്യൂട്ടറില്‍ പഠിച്ച് വാക്കുകള്‍ മറ്റൊരാള്‍ക്ക് അയാളുടെ കമ്പ്യൂട്ടറില്‍ ഉപയോഗിയ്ക്കാം. ഒരു വെബ് ഇന്റര്‍ഫേസ് വഴി ഈ പദസഞ്ചയങ്ങളെ സിങ്ക് ചെയ്താല്‍ നമ്മുടെ കോര്‍പ്പസ് പ്രൊജക്റ്റിന് അതൊരു മുതല്‍ക്കൂട്ടാകും. അറിയാതെ ഏതെങ്കിലും തെറ്റിപഠിപ്പിച്ചാല്‍ ഒരു manual edit ലൂടെ പരിഹരിയ്ക്കാവുന്നതുമാണ്.

പാംഗോ, ജിടികെ, ആസ്പെല്‍ എന്നി സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ ലൈബ്രറികളാണ് സുലേഖയുടെ അടിത്തറ. ആസ്പെല്‍ സ്പെല്ലിങ്ങ് തിരുത്തലിനും നിര്‍ദ്ദേശങ്ങള്‍ക്കും, പദപഠനത്തിനും ഉപയോഗിയ്ക്കുമ്പോള്‍, പാംഗോ, വാക്കുകള്‍ കൈകാര്യം ചെയ്യാന്‍ ഉപയോഗിയ്ക്കുന്നു. ജിടികെ UI യ്ക്കും. ഇതിനു പുറമേ ഇന്റലിജന്റ് ട്രാന്‍സ്ലിറ്ററേഷന് വേണ്ടി C യില്‍ സ്വന്തമായി വികസിപ്പിച്ചെടുത്ത ഒരു മലയാളം word level transliteration engine ഉം
ഉണ്ട്. അത് ഒരു സ്വതന്ത്ര API ആക്കി മാറ്റുവാന്‍ ശ്രദ്ധിയ്ക്കുന്നുണ്ട്. പ്രശസ്ത ടെക്സ്റ്റ് എഡിറ്ററായ gedit ന്റെ കോഡിലെ ചില ഭാഗങ്ങള്‍ ഹാക്ക് ചെയ്താണ് എഡിറ്ററിന്റെ അടിത്തറ ഇട്ടിരിയ്ക്കുന്നത്. അതുകൊണ്ട് തന്നെ gedit നെ സുലേഖ കോഡ് ഉപയോഗിച്ച് കമ്പൈല്‍ ചെയ്ത് പൂര്‍ണ്ണമായും ഉപയോഗപ്പെടുത്തുകയും ആവാം എന്നൊരു സ്വപ്നവും ഉണ്ട്.

വികസന പ്രക്രിയയുടെ പകുതിയോളം പൂര്‍ത്തിയായ സുലേഖയുടെ കോഡ് സ്വ.മ.കയുടെ സാവന്നയിലെ ജിറ്റില്‍ (GIT : Source Code Control System)നിന്നെടുത്ത് പരിശോധിയ്ക്കാവുന്നതാണ്. പൂര്‍ണ്ണമായും ഉപയോഗയോഗ്യമാവണമെങ്കില്‍ കുറച്ചു കൂടി കാത്തിരിയ്ക്കേണ്ടി വരും.


Project Idea, Design : Praveen A (Inspired by Google Transliterate)
Design, Algorithm, Development: Santhosh Thottingal
License: GPL v3 or later version

നിര്‍ദ്ദേശങ്ങളും അഭിപ്രായങ്ങളും അറിയിക്കുക. പെട്ടെന്ന് സംരംഭം പൂര്‍ത്തിയാക്കാന്‍ ഇതിന്റെ വികസനപ്രക്രിയയില്‍ പങ്കെടുക്കാന്‍ താത്പര്യമുള്ള ഡെവലപ്പേഴ്സിനെ സ്വാഗതം ചെയ്യുന്നു.

സുലേഖയില്‍ ഇനി ചെയ്യാനുള്ളത്:
1. ഓണ്‍സ്ക്രീന്‍ കീബോര്‍ഡ്- Coding and Integration
2. Session dictionary/System dictionary Handling
3. Fixing some bugs in Transliteration system, especially the letters after Chillu.- need a small correction in the algorithm
4. Implementing the Editor Menu functions, File Handling
5. Tuning Aspell configuration for the Edit distance optimization for the best suggestions, Currently the suggestion list is too big and suggestion words include words with more than 2 edit distance. I think using the Ultra Mode of Aspell will solve this problem
6. Handling the edit inside the word
7. Web Integration

To build the code;
./configure
make

To run:
For editor :
sulekha
For standalone transliterator
sulekha manglishword

എന്റെ കമ്പ്യൂട്ടറിന് എന്റെ ഭാഷ - ഒരു സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് സംരംഭം
Tags: ,

Link | Leave a comment {5} Comments | Add to Memories | Tell a Friend

സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ്, GSOC Mentor Summit ല്‍ പങ്കെടുക്കുന്നു.

Oct. 2nd, 2007 | 02:57 pm

2007 ലെ ഗൂഗിള്‍ സമ്മര്‍ ഓഫ് കോഡ് പരിപാടിയുടെ ഭാഗമായി കാലിഫോര്‍ണിയയില്‍ ഒക്ടോബര്‍ ആറിന് ഗൂഗിള്‍ ഹെഡ് ക്വാര്‍ട്ടേഴ്സില്‍ നടക്കുന്ന Google summer of code Mentors Summit പരിപാടിയില്‍ SMC യുടെ പ്രതിനിധിയായി പ്രവീണ്‍ പങ്കെടുക്കുന്നു. GSOC 2007 ല്‍ പങ്കെടുത്ത മെന്റര്‍മാരുടെ സമ്മേളനമാണിത്. ഈ വര്‍ഷം ഇന്ത്യയില്‍ നിന്ന് ഈ പരിപാടിക്ക് തെരഞ്ഞെടുക്കപ്പെട്ട ഏക സ്വതന്ത്ര കൂട്ടായ്മ SMC ആയതു കൊണ്ട് SMC ഇന്ത്യയെക്കൂടി ഈ പരിപാടിയില്‍ പ്രതിനിധാനം ചെയ്യുന്നു.

പ്രവീണിന് യാത്രാമംഗളങ്ങള്‍ നേരുന്നു.

വിദ്യാര്‍ത്ഥികളെ സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ വികസനരീതികള്‍ പരിചയപ്പെടുത്തുന്നതിനും അവരുടെ സര്‍ഗ്ഗാത്മകമായ സോഫ്റ്റ്‌‌വെയര്‍ സംരംഭ ആശയങ്ങളെ പ്രോത്സാഹിപ്പിക്കുന്നതിനും വേണ്ടി എല്ലാ വര്‍ഷവും ഗൂഗിള്‍ ലോകമെങ്ങും നടത്തുന്ന പരിപാടിയാണ് ഗൂഗിള്‍ സമ്മര്‍ ഓഫ് കോഡ്. സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ മേഖലയില്‍ പ്രവര്‍ത്തിക്കുന്ന കൂട്ടായ്മകളുടെ കീഴിലാണ് വിദ്യാര്‍ത്ഥികള്‍ സോഫ്റ്റ്‌വെയറുകള്‍ വികസിപ്പിക്കേണ്ടത്. ഓരോ വിദ്യാര്‍ത്ഥിക്കും ഒരു മാര്‍ഗ്ഗദര്‍ശിയെ ഈ സംഘടനയില്‍ നിന്ന് തിരഞ്ഞെടുക്കുന്നു. തെരഞ്ഞെടുക്കുന്ന സോഫ്റ്റ്‌വെയര്‍ സംരംഭ ആശയങ്ങള്‍ക്ക് ഗൂഗിള്‍ 4500 ഡോളര്‍ (ഏകദേശം 2 ലക്ഷം രൂപ) വീതം നല്‍കുന്നു. 4 മാസത്തെ സമയമാണ് അനുവദിക്കുക. ഇതിനിടയില്‍ 2 തവണ മൂല്യനിര്‍ണ്ണയം ഉണ്ട്. ഒന്നാം ഘട്ട മൂല്യ നിര്‍ണ്ണയം വിജയകരമായി പൂര്‍ത്തീകരിച്ചാല്‍ 1 ലക്ഷം രൂപ ലഭിക്കും, ബാക്കി അവസാന മൂല്യ നിര്‍ണ്ണയം പൂര്‍ത്തീകരിച്ചാലും. വികസിപ്പിച്ചെടുത്ത സോഫ്റ്റ്‌വെയറുകള്‍ സ്വതന്ത്ര സോഫ്റ്റ്‌വെയറുകളാവണമെന്ന നിര്‍ബന്ധമുണ്ട്. സംരംഭ ആശയങ്ങള്‍ സംഘടകള്‍ക്കും വിദ്യാര്‍ത്ഥികള്‍ക്കും ചേര്‍ന്ന് തീരുമാനിക്കാം.

ഈ വര്‍ഷത്തെ ഗൂഗിള്‍ സമ്മര്‍ ഓഫ് കോഡിന്റെ ഔദ്യോഗിക പ്രഖ്യാപനം വന്നത് മാര്‍ച്ച് മാസത്തിലായിരുന്നു. സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങും പങ്കെടുക്കാനായുള്ള താത്പര്യം ഗൂഗിളിനെ അറിയിച്ചു. അവസാനം തെരഞ്ഞെടുക്കപ്പെട്ട സംഘടനകളില്‍ ഏക ഇന്ത്യന്‍ കൂട്ടായ്മ സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് ആയിരുന്നു. തുടര്‍ന്ന് സംരംഭ ആശയങ്ങള്‍ വിദ്യാര്‍ത്ഥികളില്‍ നിന്ന് ക്ഷണിച്ചു. 30 ഓളം ആശയങ്ങളില്‍ നിന്ന് 7 എണ്ണം ഗൂഗിളിനു സമര്‍പ്പിച്ചു. 5 സംരംഭങ്ങള്‍ ഗൂഗിള്‍ അംഗീകരിച്ചു.
അവ ഇവയായിരുന്നു:(http://code.google.com/soc/smc/about.html)
1. ശാരിക മലയാളം സ്വരസംവേദിനി (Malayalam speech recognition system): Shyam Karanatt, MES Engg College Kutippuram (Mentor: Santhosh Thottingal)
2. മലയാളം OCR : Antony FM : MES engg College Kuttippuram (Mentor: Anivar Aravind)
3. മലയാളം ടൈപ്പിങ്ങ് ട്യൂട്ടര്‍ : Mobin Mohan and friends , Thrissur Govt Engg College(Mentor: Praveen A)
4. മലയാളം നിവേശന രീതികള്‍ : Jinesh K, MES engg College kuttippuram(Mentor: Suresh P)
5. ആര്‍ദ്രം മലയാളം യുണിക്കോഡ് കാലിഗ്രാഫി ഫോണ്ട്: ഹിരണ്‍ വേണുഗോപാല്‍ , VAST, Thrissur (Mentor: Hussain K H)

ഇതടക്കം മൊത്തം 8 വിദ്യാര്‍ത്ഥികള്‍ ആണ് കേരളത്തില്‍ നിന്ന് തെരഞ്ഞെടുക്കപ്പെട്ടത്..

SMC യുടെ കൂടെ ഈ സംരംഭത്തില്‍ പങ്കെടുത്തത് പ്രശസ്ത സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ കൂട്ടായ്മകളായ ഡെബിയന്‍, ഗ്നോം, മീഡിയവിക്കി, അപാഷെ, എക്ലിപ്സ് , സോപ്, തുടങ്ങിയവയാണ്.

മെയ് മാസത്തില്‍ ഇവയുടെ വികസന പ്രവര്‍ത്തനങ്ങള്‍ ആരംഭിച്ചു. ജൂലായില്‍ നടന്ന ഒന്നാം വട്ട മൂല്യ നിര്‍ണ്ണയത്തില്‍ മലയാളം OCR സംരംഭം വേണ്ടത്ര പുരോഗതി കാണിക്കാത്തതുകൊണ്ട് പുറത്താക്കപ്പെട്ടു. ആഗസ്റ്റ് അവസാനം നടന്ന അവസാനവട്ട മൂല്യനിര്‍ണ്ണയത്തില്‍ എല്ലാ സംരംഭങ്ങളും നേരത്തേ നിശ്ചയിച്ചിരുന്ന ലക്ഷ്യങ്ങള്‍ പൂര്‍ത്തീകരിച്ചതു കൊണ്ട് വിജയിച്ചു.

ശാരിക, ആര്‍ദ്രം എന്നിവ പൂ‌ര്‍ണ്ണ ലക്ഷ്യം നേടുന്നതിനായുള്ള വികസന പ്രവര്‍ത്തനങ്ങള്‍ തുടര്‍ന്നു കൊണ്ടിരിക്കുന്നു..

ഈ വര്‍ഷത്തെ GSOC യില്‍ ഏകദേശം 900 ത്തോളം സംരംഭങ്ങള്‍ നടക്കുന്നുണ്ട്.

നേരത്തെതന്നെ SMC ക്ക് പരിപാടിയില്‍ പങ്കെടുക്കുന്നതിനുള്ള ക്ഷണം ലഭിച്ചെങ്കിലും വിസയില്ലാത്തതും യാത്രാ ചെലവ് ഭീമമായതിനാലും ആരെങ്കിലും പങ്കെടുക്കുന്ന കാര്യം സംശയമായിരുന്നു. 1200 ഡോളര്‍ ഗൂഗിള്‍ യാത്രാ ചെലവിലേക്ക് തരാമെന്ന് ഏറ്റിരുന്നെങ്കിലും അതുകൊണ്ട് വിമാന ടിക്കറ്റ് കിട്ടില്ലായിരുന്നു. ഒരു സംഘടനയില്‍ നിന്ന് 3 പേര്‍ക്ക് പങ്കെടുക്കാം. ഭക്ഷണം, താമസം എന്നീ ചെലവുകള്‍ ഗൂഗിള്‍ വഹിക്കും. അവസാനം ഒരു പ്രതിനിധിയുടെ മുഴുവന്‍ വിമാന ടിക്കറ്റും ഗൂഗിള്‍ തരാമെന്നേറ്റതോടെയാണ് പ്രവീണിന് പോകാനവസരം ലഭിച്ചത്. ഗൂഗിളിന് നന്ദി!!!.

വിദ്യാര്‍ത്ഥികളോട്,
മലയാളം കമ്പ്യൂട്ടിങ്ങിന്റെ പുരോഗതിക്ക് ഉതകുന്ന ഏതെങ്കിലും ആശയങ്ങള്‍ നിങ്ങളുടെ മനസ്സിലുണ്ടോ? പഠനത്തോടൊപ്പം ഒരു സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ വികസിപ്പിക്കുകയും 2 ലക്ഷത്തോളം രൂപ നേടുകയും ചെയ്യാം.. ഒരു കോളേജ് പ്രൊജക്ടിന് 2 ലക്ഷം രൂപ പ്രതിഫലം കിട്ടിയാല്‍ എങ്ങനെയിരിക്കും..ചിന്തിക്കൂ....പ്രൊജക്ട് ആശയങ്ങള്‍ മെനയൂ... SMC നിങ്ങള്‍ക്കൊപ്പം. അടുത്ത മാര്‍ച്ചില്‍ GSOC 2008 വരുമ്പോള്‍ പങ്കെടുക്കൂ...
ഇത്രയേ ഉള്ളൂ നിര്‍ബന്ധം: 1. നിങ്ങള്‍ ഒരു വിദ്യാര്‍ത്ഥിയായിരിക്കണം.(എന്‍ജിനീയറിങ്ങ് വിദ്യാര്‍ത്ഥിയാവണമെന്ന് നിര്‍ബന്ധമില്ല.) 2. മലയാളം കമ്പ്യൂട്ടിങ്ങിനെ അടിസ്ഥാനമാക്കിയാവണം ആശയം. 3. സ്വതന്ത്ര സോഫ്റ്റ്‌വെയര്‍ ആയിരിക്കണം.

ഇതു കാണൂ ....
Tags: , ,

Link | Leave a comment {1} Comments | Add to Memories | Tell a Friend

Aspell Malayalam Spelling checker Version 0.01-1 Released

Aug. 27th, 2007 | 11:32 am

മലയാളത്തിന് സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങിന്റെ തിരുവോണ സമ്മാനം: ആസ്പെല്‍ മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍(version 0.01-1)

1,37,348 മലയാളം വാക്കുകളടങ്ങിയ മലയാളം സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ ആദ്യ ലക്കം മലയാളത്തിന് സമര്‍പ്പിക്കുന്നു. സ്വതന്ത്ര ഡെസ്ക്ടോപ്പുകളായ ഗ്നോം, കെഡിഇ എന്നിവയില്‍ ഉപയോഗിക്കാവുന്ന ഈ സ്പെല്ലിങ്ങ് ചെക്കര്‍ ഗ്നു ആസ്പെല്‍ എന്ന പ്രശസ്ത സോഫ്റ്റ്‌വെയര്‍ അടിസ്ഥാനമാക്കിയാണ് വികസിപ്പിച്ചിരിക്കുന്നത്.
1,37,348 മലയാളം വാക്കുകളും സ്വയം അക്ഷരത്തെറ്റു പരിശോധിച്ചതാണ്. സമയക്കുറവ്, ശ്രദ്ധക്കുറവ്, വിവരക്കുറവ് എന്നീ കാരണങ്ങളാല്‍ ചില പിഴവുകള്‍ ഇതിലുണ്ടാവാം. ഈ സോഫ്റ്റ്‌വെയര്‍ ഉപയോഗിക്കുമ്പോള്‍ അത്തരം തെറ്റുകള്‍ കാണുകയാണെങ്കില്‍ ദയവായി എന്നെ അറിയിക്കുക.

ഇത് ഇന്‍സ്റ്റാള്‍ ചെയ്യാന്‍ https://savannah.nongnu.org/task/download.php?file_id=13811 എന്നിടത്തു നിന്ന് ഡൗണ്‍ലോഡ് ചെയ്ത് extract ചെയ്യുക. അതിനു ശേഷം README ഫയലില്‍ വിവരിച്ചിരിക്കുന്ന പോലെ ചെയ്യുക.

മലയാളത്തിന്റെ പ്രത്യേകതയായ,ഒന്നിലധികം വാക്കുകള്‍ കൂടിച്ചേര്‍ന്ന് പുതിയ വാക്കുകളുണ്ടാകുന്ന സവിശേഷത കൂടി കൈകാര്യം ചെയ്താല്‍ മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കര്‍ പൂര്‍ണ്ണമാവുകയുള്ളൂ. അല്ലെങ്കില്‍ പദസഞ്ചയത്തിന്റെ വലിപ്പം വളരെയധികമായിരിക്കും(ഇപ്പോള്‍ തന്നെ ഇന്ത്യയിലെ ഏറ്റവും വലിയ സ്പെല്ലിങ്ങ് ചെക്കര്‍ പദസഞ്ചയമാണിത്.). സന്ധി സമാസം നിയമങ്ങള്‍ ഈ ലക്കത്തില്‍ ഉള്‍ക്കൊള്ളിച്ചില്ലാത്തതിനാല്‍ മേല്‍പ്പറഞ്ഞ തരത്തിലുള്ള വാക്കുകള്‍പരിശോധിക്കാന്‍ ഈ സോഫ്റ്റ്‌വെയറിന് കഴിയില്ല. അതായത് മഴക്കാലം, മേഘങ്ങള്‍, എല്ലാം, ഇരുണ്ട്, കൂടി എന്നിവയെല്ലാം പരിശോധിക്കാമെങ്കിലും "മഴക്കാലമേഘങ്ങളെല്ലാമിരുണ്ടുകൂടി" എന്ന വാക്ക് പരിശോധിക്കാന്‍ ഇതിന് കഴിഞ്ഞെന്നു വരില്ല. ഇത് അടുത്ത ലക്കത്തില്‍ ഉള്‍പ്പെടുത്താന്‍ ശ്രമിക്കുന്നുണ്ട്.

ഇത്രയും വലിയ പദസഞ്ചയം ശേഖരിക്കാന്‍ എന്നെ സഹായിച്ച ഹുസ്സൈന്‍ സാറിനോട് കടപ്പാട് അറിയിച്ചുകൊള്ളുന്നു. മലയാളം വിക്കിപീഡിയ, വിവിധ ബ്ലോഗുകള്‍ എന്നിവയില്‍ നിന്നും വാക്കുകള്‍ ശേഖരിച്ചിട്ടുണ്ട്. സാങ്കേതിക സഹായങ്ങള്‍ക്ക് കെവിന്‍ അറ്റ്കിന്‍സണ്‍(ആസ്പെല്‍ രചയിതാവ്), ഗോര മൊഹന്തി(ആസ്പെല്‍ ഹിന്ദി,ഒറിയ സ്പെല്‍ ചെക്കര്‍) എന്നിവരോട് നന്ദി രേഖപ്പെടുത്തുന്നു.

ഈ പദസഞ്ചയത്തിലില്ലാത്ത വാക്കുകള്‍ പരിശോധിക്കുമ്പോള്‍, നിങ്ങള്‍ക്കത് പദസഞ്ചയത്തിലേയ്ക്ക് കൂട്ടിച്ചേര്‍ക്കാം. ഇങ്ങനെ നിങ്ങള്‍ ചേര്‍ക്കുന്ന വാക്കുകള്‍ നിങ്ങളുടെ ഹോം ഡയറക്ടറിയില്‍ .aspell.ml.pws എന്ന hidden ഫയലില്‍ ശേഖരിക്കപ്പെടും. നിങ്ങള്‍ ചേര്‍ത്ത പുതിയ വാക്കുകള്‍ മറ്റുള്ളവര്‍ക്കും ഉപകാരപ്പെടണമെന്നാഗ്രഹമുണ്ടെങ്കില്‍ ആ ഫയല്‍ എനിക്കയച്ചു തരിക. പുതിയ ലക്കങ്ങളില്‍ ആ വാക്കുകള്‍ പ്രധാന പദസഞ്ചയത്തില്‍ ചേര്‍ക്കാം.

സഹായങ്ങള്‍ക്കോ സംശയങ്ങള്‍ക്കോ ഈ മെയിലിങ്ങ് ലിസ്റ്റിലേക്കെഴുതുക.
ഈ സോഫ്റ്റ്‌വെയറിനു വേണ്ടി ഉപയോഗിച്ച പദസഞ്ചയം മറ്റു ഭാഷാഗവേഷണങ്ങള്‍ക്കുമുപയോഗിക്കാവുന്നതാണ്. ആവശ്യമുള്ളവര്‍ ബന്ധപ്പെടുക.

Link | Leave a comment {4} Comments | Add to Memories | Tell a Friend

Matrix Digital Rain Screensaver In Malayalam!!!

Jul. 23rd, 2007 | 08:40 am

മലയാള നാട്ടില്‍ മഴ തിമര്‍ത്തു പെയ്യുകയാണ്. കഴിഞ്ഞയാഴ്ച ഞാനൊരു മഴയുണ്ടാക്കാനുള്ള ശ്രമത്തിലായിരുന്നു. സാധാരണ മഴയല്ല. ഡിജിറ്റല്‍ മഴ!!!. അക്കഥയിങ്ങനെ:
1999 ല്‍ പുറത്തിറങ്ങിയ ഹോളിവുഡ് സൂപ്പര്‍ഹിറ്റ് ചലച്ചിത്രമായ മെട്രിക്സില്‍ അവതരിപ്പിക്കപ്പെട്ട കമ്പ്യൂട്ടര്‍ കോഡിന്റെ മായിക ദൃശ്യാവിഷ്കാരം - കറുത്ത സ്ക്രീനില്‍ ഉതിര്‍ന്നു വീഴുന്ന പച്ച അക്ഷരങ്ങള്‍, വളരെയേറെ ശ്രദ്ധപിടിച്ചു പറ്റുകയുണ്ടായി. മെട്രിക്സ് പരമ്പരയിലെ ചലച്ചിത്രങ്ങളില്‍ അവതരിപ്പിക്കപ്പെട്ട ഈ ഡിജിറ്റല്‍ മഴയുടെ അനുകരണമായി ധാരാളം സ്ക്രീന്‍ സേവറുകള്‍ പുറത്തിറങ്ങുകയുണ്ടായി. മിക്കതും കമ്പ്യൂട്ടര്‍ പ്രേമികളുടെ ഇഷ്ടപ്പെട്ട സ്ക്രീന്‍ സേവറുകളായി. ഗ്നു ലിനക്സിലും xscreensaver എന്ന സ്ക്രീന്‍സേവര്‍ പാക്കേജിന്റെ കൂടെ glmatrix എന്ന പേരില്‍ ഒരു കിടിലന്‍ സ്ക്രീന്‍സേവറുണ്ട്. എനിക്കേറെ ഇഷ്ടപ്പെട്ട ഒരു സ്ക്രീന്‍സേവറാണത്.
മെട്രിക്സ് സ്ക്രീന്‍സേവറില്‍ കാണിക്കുന്ന അക്ഷരങ്ങള്‍ റോമന്‍ , കാടകാന, അറബിക് എന്നിവയാണ്. ഈ അക്ഷരങ്ങള്‍ക്ക് പകരം നമ്മുടെ സ്വന്തം മലയാളം അക്ഷരങ്ങള്‍ ഉതിര്‍ന്നു വീണാലെങ്ങനെയുണ്ടാവും? ഇങ്ങനെയൊരു ആശയവുമായി ഞാന്‍ glmatrix ന്റെ കോഡ് ഡാണ്‍ലോഡ് ചെയ്തു വായിച്ചു നോക്കി.
എന്നിട്ട് ഞാനതങ്ങ് മലയാളത്തിലാക്കി . താഴെ കൊടുത്തിരിക്കുന്ന പടങ്ങള്‍ കണ്ടോ? എങ്ങനെയുണ്ട്?





ഈ സ്ക്രീന്സേവര്‍ ഇന്സ്റ്റാള്‍ ചെയ്യാന്‍ വേണ്ടി:
Gnome 2.14 version(Debian Etch,Ubuntu 6.06) ;
https://savannah.nongnu.org/task/download.php?file_id=13434
Gnome 2.18 version(Ubuntu 7.04) ;
https://savannah.nongnu.org/task/download.php?file_id=13435

Above given versions will add the screensaver to gnome-screensaver group of screensavers.
If you want to add the screensaver to xscreensaver, after installing any of the package,
Add the following line to the .xscreensaver file in your home directory. Refer the glmatrix entry in that file for reference
- GL: mlmatrix -root \n\


Other gnu/Linux distros:
Download https://savannah.nongnu.org/task/download.php?file_id=13436
Extract it, copy the mlmatrix to /usr/lib/xscreensaver, copy mlmatrix.xml to /usr/share/xscreensaver/config folder
Add the following line to the .xscreensaver file in your home directory. Refer the glmatrix entry in that file for reference
- GL: mlmatrix -root \n\

For the technical details of this application, pls contact me at santhosh00 at gmail.com

Link | Leave a comment {3} Comments | Add to Memories | Tell a Friend

മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ പണിപ്പുരയില്‍

Jul. 16th, 2007 | 09:16 am

zwj,zwnj പ്രശ്നങ്ങള്‍ കെവിന്റെയും ഗോരയുടെയും സഹായത്തോടെ പരിഹരിച്ചു തീര്‍ന്നപ്പോള്‍ Aspell മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ വികസനപ്രവര്‍ത്തങ്ങള്‍ വീണ്ടും സജീവമായി.
വിവിധ ബ്ളോഗുകളില്‍ നിന്നും wikipedia യില്‍ നിന്നും ശേഖരിച്ച 25000 വാക്കുകളുടെ പരിശോധന നടത്തിക്കൊണ്ടിരിക്കുകയാണ് ഇപ്പോള്‍. ഇതുവരെ 15000 വാക്കുകള്‍ അക്ഷരത്തെറ്റു പരിശോധന കഴിഞ്ഞു. ആദ്യവട്ട ടെസ്റ്റിങ്ങ് കഴിഞ്ഞപ്പോള്‍ ഒരു കാര്യം ബോധ്യമായി. 25000 വാക്കുകളെന്നത് മലയാളത്തെ സംബന്ധിച്ചിടത്തോളം ഒന്നുമല്ല. തിരഞ്ഞെടുത്ത ഒരു പാരഗ്രാഫ് പരിശോധിക്കാന്‍ കൊടുത്തപ്പോള്‍ 25% വാക്കുകള്‍ മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ പക്കലുണ്ടായിരുന്നുള്ള. ഒരു ലക്ഷം വാക്കുകള്‍ എങ്കിലും ഉണ്ടെങ്കിലേ നല്ല പ്രവര്‍ത്തനക്ഷമത കൈവരിക്കാന്‍ കഴിയൂ. യുണിക്കോഡ് ഫോര്‍മാറ്റിലുള്ള ഒരു പുസ്തകത്തിന്റെ പകര്‍പ്പ് കിട്ടാന്‍ ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. അതുകിട്ടിയാല്‍ കുറേകൂടി വാക്കുകള്‍ ചേര്‍ക്കുവാന്‍ കഴിഞ്ഞേക്കും.
മൂലപദങ്ങളോടു ഒന്നോ അതിലധികമോ വാക്കുകള്‍ ചേര്‍ത്ത് വേറൊരു വാക്കുകളുണ്ടാക്കുന്ന മലയാളത്തിന്റെ സവിശേഷത(Agglutination) സ്പെല്ലിങ്ങ് ചെക്കറിനൊരു വന്‍വെല്ലുവിളിയാണ്. 10 വാക്കുകള്‍ വരെ കൂട്ടിച്ചേര്‍ത്ത് ഒരൊറ്റ വാക്കുണ്ടാക്കാം. ഇതു പരിഹരിക്കാന്‍ 2 വഴികളാണുള്ളത്. ഇങ്ങനെയുള്ള മിക്കവാറും എല്ലാ വാക്കുകളും ഉള്‍ക്കൊള്ളുന്ന ഒരു വലിയ worlist ഉണ്ടാക്കുകയാണ് ഒന്നാമത്തെ പരിഹാരം. മലയാളത്തിന്റെ സന്ധി-സമാസം നിയമങ്ങളെ കമ്പ്യൂട്ടറിന്റെ ലോജിക്കിലേക്കു മാറ്റുക എന്ന ഭഗീരഥയത്നമാണ് സ്ഥിരമായ പരിഹാരം. ഇതെത്ര മാത്രം പ്രായോഗികമാണെന്നു എനിക്കറിയില്ല. ഒരു subset ചെയ്യാന്‍ പറ്റിയാലും തെറ്റില്ല. നിയമങ്ങളിലെ അപവാദങ്ങള്‍ അപ്പോള്‍ പ്രശ്നമുണ്ടാക്കും. കേരളപാണിനീയം പഠിക്കുക എന്നൊരു കടമ്പ അതിനു മുമ്പു കടക്കേണ്ടതുണ്ട്.
എന്തായാലും ആദ്യത്തെ പടിയായി കഴിയുന്ന രീതിയില്‍ ഏറ്റവും വലിയ ഒരു wordlist ഉണ്ടാക്കാന്‍ തീരുമാനിച്ചു. സന്ധി സമാസം പിന്നത്തേക്കു നീട്ടി വക്കാം.

Link | Leave a comment {6} Comments | Add to Memories | Tell a Friend

Scim malayalam phonetic input method With Lookup table!!!

Jun. 18th, 2007 | 08:54 am
location: Chennai
mood: creative

Added a new feature to SCIM malayalam phonetic input method. It can give spelling suggestions while typing!!!. Cool right?
See the below screenshot from my system. I am editing some text in GEDIT. For typing വിള, I have to type viLa according to the IM Scheme. But as every body does, I typed vila. Now hint menu comes with two suggestions. ള and ല. I press arrow keys and it becomes വിള.

An extract from the documentation:
മലയാളം ശബ്ദാത്മക നിവേശകരീതിക്ക് ഉപയോക്താവ് എഴുതിക്കൊണ്ടിരിക്കുമ്പോള്‍ സൂചനകള്‍ കൊടുക്കാന്‍ കഴിയും. ഇത് മലയാളം വളരെപ്പെട്ടെന്ന് തെറ്റ് കൂടാതെ എഴുതാന്‍ സഹായിക്കുന്നു. ചില്ല​ക്ഷരങ്ങള്‍, കൂട്ടക്ഷരങ്ങള്‍ എന്നിവ എഴുതുമ്പോള്‍ ഇത് വളരെ ഫലപ്രദമാണ്. മലയാളികളുടെ സവിശേഷമായ മംഗ്ളീഷ് ഉപയോഗത്തിന്റെ അടിസ്ഥാനത്തിലാണ് ഇതു രൂപകല്പനചെയ്തിരിക്കുന്നത്.

ഉദാഹരണത്തിന് അടിപൊളി എന്നെഴുതാന്‍ പലപ്പോഴും നാം ഉപയോഗിക്കുന്നത് adipoli എന്നാണ്. പക്ഷെ മലയാളം ശബ്ദാത്മക നിവേശകരീതിയിലതെഴുതുന്നത് atipoLi എന്നാണല്ലൊ?. ചിലര്‍​ക്കെങ്കിലുമുണ്ടാകുന്ന ഈ തടസ്സം ഒഴിവാക്കുന്നതിന് സൂചനാപ്പട്ടിക ഉപകരിക്കും. adipoli എന്നെഴുതിക്കൊണ്ടിരിക്കുമ്പോള്‍ di എന്നെഴുതുമ്പോള്‍ സൂചനാപ്പട്ടിക ദി എന്നും ടി എന്നും 2 സൂചനകള്‍ നല്‍കുന്നു. അതുപോലെ ളി എന്നതിനുവേണ്ടി Li ക്കുപകരം li എന്നെഴുതുമ്പോള്‍ പട്ടിക ലി എന്നും ളി എന്നും 2 സൂചനകള്‍ നല്കുന്നു.

ഇതിന്റെ വേറൊരു ഉപയോഗം പേരുകളുടെ കൂടെയുള്ള initials എഴുതുമ്പോള്‍ ആണ്. ഉദാഹരണത്തിന് ലീല പി കെ എന്നെഴുതാന്‍ ശരിക്കും ഉപയോഗിക്കേണ്ടത് leela pi ke എന്നാണ്. പക്ഷെ നാം leela p k എന്നു തന്നെ എഴുതാന്‍ ഇഷ്ടപ്പെടുന്നു. നാം P അല്ലെങ്കില്‍ p എന്നെഴുതുമ്പോള്‍ സൂചനാപ്പട്ടിക പി എന്നൊരു സൂചനകൂടി തരും!.

കെ എസ് ആര്‍ ടി സി എന്നെഴുതാന്‍ K S R T C തന്നെ ഉപയോഗിക്കണമെന്നുണ്ടോ? സൂചനാപ്പട്ടികയുടെ സഹായത്തോടെ നിങ്ങള്ക്ക് K S R T C എന്നു തന്നെ എഴുതാം.

"അടിപൊളി അല്ലേ?!!!"
Now look at this

Note: I decided not to use mozhi scheme as such for the better usability.But I tried to give some compatibility to that scheme by giving alternative patterns in some places.

Link | Leave a comment {5} Comments | Add to Memories | Tell a Friend

Scim malayalam phonetic input method : Key mapping

Jun. 4th, 2007 | 10:50 am

This is the key mapping for scim malayalam phonetic keyboard
സ്വരങ്ങള്‍
a aa A i ii I ee u uu U oo RR
ി
അം അഃ
e E ai ei o O au ou a~ aM ~ aH
വ്യഞ്ജനങ്ങള്‍
ങ്ക ന്റെ
k kh K g gh G ng nk nte
റ്റ ക്ഷ
ch Ch j jh J nj TT x
ക്യു വൈ
t T D Dh N q Y
ക്യൂ ഞ്ച
th thh d dh n Q nch
p f ph b bh B m
y r l v w S z sh s h
L zh R
ചില്ലുകള്‍
ന്‍ ല്‍ ള്‍ ര്‍
n~ l~ L~ r~ R~
ഉദാഹരണങ്ങള്‍
മലയാളം malayaaLaM malayAla~
സരിഗമപധനി sarigamapadhani
പൊന്പീലി ponpiili
മങ്ക manka
കുടുംബം kutu~ba~ kutu~baM
അവന്‍ avan~
ചക്ഷുശ്രവണഗളസ്ഥമാം chaxuSravanagalasThamaa~ chaxuSravanagalasThamaa~ chakshuSravanagalasThamaa~
പ്രകൃതി prakRthi
കൃഷ്ണന്‍ kRshNan~
പാലക്കാട് paalakkaat pAlakkAt
അക്ഷരം axaraM
Please post your comments in smc-discuss@googlegroups.com

Link | Leave a comment {7} Comments | Add to Memories | Tell a Friend

Spell checker and Late night coding..

May. 21st, 2007 | 10:03 am
mood: geeky

It was a wonderful week end. Myself and Benzi were working on the spell checker for Malayalam. In April we had done lot of research on this. We did the coding for the dictionary representation in the Binary Retrieval tree (TRIE). Saturday night we did the candidate list generation coding. It is a wonderful experience to code in the late night - one laptop and two persons to code!!!. Every thing worked fine. When we finished the coding, we realized that the application can be tuned to a universal(?) spell checker. So sunday we tested it using a 3 lakh english words.. Worked fine!!. We compared the spelling options generated with aspell. Ours was giving more options since our dictionary is bigger than aspell's.
We want it to be called as bspell :-). But qns....
Why bspell? what is the extra/less features that bspell has compared to aspell
how to make it language independent?
How to rank the spelling suggestions?
How to make it work with Office suits/Editors?
...
Answer is "study Aspell"

Link | Leave a comment | Add to Memories | Tell a Friend