Aspell Malayalam Spelling checker Version 0.01-1 Released
Aug. 27th, 2007 | 11:32 am
മലയാളത്തിന് സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങിന്റെ തിരുവോണ സമ്മാനം: ആസ്പെല് മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്(version 0.01-1)
1,37,348 മലയാളം വാക്കുകളടങ്ങിയ മലയാളം സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ ആദ്യ ലക്കം മലയാളത്തിന് സമര്പ്പിക്കുന്നു. സ്വതന്ത്ര ഡെസ്ക്ടോപ്പുകളായ ഗ്നോം, കെഡിഇ എന്നിവയില് ഉപയോഗിക്കാവുന്ന ഈ സ്പെല്ലിങ്ങ് ചെക്കര് ഗ്നു ആസ്പെല് എന്ന പ്രശസ്ത സോഫ്റ്റ്വെയര് അടിസ്ഥാനമാക്കിയാണ് വികസിപ്പിച്ചിരിക്കുന്നത്.
1,37,348 മലയാളം വാക്കുകളും സ്വയം അക്ഷരത്തെറ്റു പരിശോധിച്ചതാണ്. സമയക്കുറവ്, ശ്രദ്ധക്കുറവ്, വിവരക്കുറവ് എന്നീ കാരണങ്ങളാല് ചില പിഴവുകള് ഇതിലുണ്ടാവാം. ഈ സോഫ്റ്റ്വെയര് ഉപയോഗിക്കുമ്പോള് അത്തരം തെറ്റുകള് കാണുകയാണെങ്കില് ദയവായി എന്നെ അറിയിക്കുക.
ഇത് ഇന്സ്റ്റാള് ചെയ്യാന് https://savannah.nongnu.org/task/downlo ad.php?file_id=13811 എന്നിടത്തു നിന്ന് ഡൗണ്ലോഡ് ചെയ്ത് extract ചെയ്യുക. അതിനു ശേഷം README ഫയലില് വിവരിച്ചിരിക്കുന്ന പോലെ ചെയ്യുക.
മലയാളത്തിന്റെ പ്രത്യേകതയായ,ഒന്നിലധികം വാക്കുകള് കൂടിച്ചേര്ന്ന് പുതിയ വാക്കുകളുണ്ടാകുന്ന സവിശേഷത കൂടി കൈകാര്യം ചെയ്താല് മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കര് പൂര്ണ്ണമാവുകയുള്ളൂ. അല്ലെങ്കില് പദസഞ്ചയത്തിന്റെ വലിപ്പം വളരെയധികമായിരിക്കും(ഇപ്പോള് തന്നെ ഇന്ത്യയിലെ ഏറ്റവും വലിയ സ്പെല്ലിങ്ങ് ചെക്കര് പദസഞ്ചയമാണിത്.). സന്ധി സമാസം നിയമങ്ങള് ഈ ലക്കത്തില് ഉള്ക്കൊള്ളിച്ചില്ലാത്തതിനാല് മേല്പ്പറഞ്ഞ തരത്തിലുള്ള വാക്കുകള്പരിശോധിക്കാന് ഈ സോഫ്റ്റ്വെയറിന് കഴിയില്ല. അതായത് മഴക്കാലം, മേഘങ്ങള്, എല്ലാം, ഇരുണ്ട്, കൂടി എന്നിവയെല്ലാം പരിശോധിക്കാമെങ്കിലും "മഴക്കാലമേഘങ്ങളെല്ലാമിരുണ്ടുകൂടി" എന്ന വാക്ക് പരിശോധിക്കാന് ഇതിന് കഴിഞ്ഞെന്നു വരില്ല. ഇത് അടുത്ത ലക്കത്തില് ഉള്പ്പെടുത്താന് ശ്രമിക്കുന്നുണ്ട്.
ഇത്രയും വലിയ പദസഞ്ചയം ശേഖരിക്കാന് എന്നെ സഹായിച്ച ഹുസ്സൈന് സാറിനോട് കടപ്പാട് അറിയിച്ചുകൊള്ളുന്നു. മലയാളം വിക്കിപീഡിയ, വിവിധ ബ്ലോഗുകള് എന്നിവയില് നിന്നും വാക്കുകള് ശേഖരിച്ചിട്ടുണ്ട്. സാങ്കേതിക സഹായങ്ങള്ക്ക് കെവിന് അറ്റ്കിന്സണ്(ആസ്പെല് രചയിതാവ്), ഗോര മൊഹന്തി(ആസ്പെല് ഹിന്ദി,ഒറിയ സ്പെല് ചെക്കര്) എന്നിവരോട് നന്ദി രേഖപ്പെടുത്തുന്നു.
ഈ പദസഞ്ചയത്തിലില്ലാത്ത വാക്കുകള് പരിശോധിക്കുമ്പോള്, നിങ്ങള്ക്കത് പദസഞ്ചയത്തിലേയ്ക്ക് കൂട്ടിച്ചേര്ക്കാം. ഇങ്ങനെ നിങ്ങള് ചേര്ക്കുന്ന വാക്കുകള് നിങ്ങളുടെ ഹോം ഡയറക്ടറിയില് .aspell.ml.pws എന്ന hidden ഫയലില് ശേഖരിക്കപ്പെടും. നിങ്ങള് ചേര്ത്ത പുതിയ വാക്കുകള് മറ്റുള്ളവര്ക്കും ഉപകാരപ്പെടണമെന്നാഗ്രഹമുണ്ടെങ്കില് ആ ഫയല് എനിക്കയച്ചു തരിക. പുതിയ ലക്കങ്ങളില് ആ വാക്കുകള് പ്രധാന പദസഞ്ചയത്തില് ചേര്ക്കാം.
സഹായങ്ങള്ക്കോ സംശയങ്ങള്ക്കോ ഈ മെയിലിങ്ങ് ലിസ്റ്റിലേക്കെഴുതുക.
ഈ സോഫ്റ്റ്വെയറിനു വേണ്ടി ഉപയോഗിച്ച പദസഞ്ചയം മറ്റു ഭാഷാഗവേഷണങ്ങള്ക്കുമുപയോഗിക്കാവുന്നതാണ്. ആവശ്യമുള്ളവര് ബന്ധപ്പെടുക.
1,37,348 മലയാളം വാക്കുകളടങ്ങിയ മലയാളം സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ ആദ്യ ലക്കം മലയാളത്തിന് സമര്പ്പിക്കുന്നു. സ്വതന്ത്ര ഡെസ്ക്ടോപ്പുകളായ ഗ്നോം, കെഡിഇ എന്നിവയില് ഉപയോഗിക്കാവുന്ന ഈ സ്പെല്ലിങ്ങ് ചെക്കര് ഗ്നു ആസ്പെല് എന്ന പ്രശസ്ത സോഫ്റ്റ്വെയര് അടിസ്ഥാനമാക്കിയാണ് വികസിപ്പിച്ചിരിക്കുന്നത്.
1,37,348 മലയാളം വാക്കുകളും സ്വയം അക്ഷരത്തെറ്റു പരിശോധിച്ചതാണ്. സമയക്കുറവ്, ശ്രദ്ധക്കുറവ്, വിവരക്കുറവ് എന്നീ കാരണങ്ങളാല് ചില പിഴവുകള് ഇതിലുണ്ടാവാം. ഈ സോഫ്റ്റ്വെയര് ഉപയോഗിക്കുമ്പോള് അത്തരം തെറ്റുകള് കാണുകയാണെങ്കില് ദയവായി എന്നെ അറിയിക്കുക.
ഇത് ഇന്സ്റ്റാള് ചെയ്യാന് https://savannah.nongnu.org/task/downlo
മലയാളത്തിന്റെ പ്രത്യേകതയായ,ഒന്നിലധികം വാക്കുകള് കൂടിച്ചേര്ന്ന് പുതിയ വാക്കുകളുണ്ടാകുന്ന സവിശേഷത കൂടി കൈകാര്യം ചെയ്താല് മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കര് പൂര്ണ്ണമാവുകയുള്ളൂ. അല്ലെങ്കില് പദസഞ്ചയത്തിന്റെ വലിപ്പം വളരെയധികമായിരിക്കും(ഇപ്പോള് തന്നെ ഇന്ത്യയിലെ ഏറ്റവും വലിയ സ്പെല്ലിങ്ങ് ചെക്കര് പദസഞ്ചയമാണിത്.). സന്ധി സമാസം നിയമങ്ങള് ഈ ലക്കത്തില് ഉള്ക്കൊള്ളിച്ചില്ലാത്തതിനാല് മേല്പ്പറഞ്ഞ തരത്തിലുള്ള വാക്കുകള്പരിശോധിക്കാന് ഈ സോഫ്റ്റ്വെയറിന് കഴിയില്ല. അതായത് മഴക്കാലം, മേഘങ്ങള്, എല്ലാം, ഇരുണ്ട്, കൂടി എന്നിവയെല്ലാം പരിശോധിക്കാമെങ്കിലും "മഴക്കാലമേഘങ്ങളെല്ലാമിരുണ്ടുകൂടി" എന്ന വാക്ക് പരിശോധിക്കാന് ഇതിന് കഴിഞ്ഞെന്നു വരില്ല. ഇത് അടുത്ത ലക്കത്തില് ഉള്പ്പെടുത്താന് ശ്രമിക്കുന്നുണ്ട്.
ഇത്രയും വലിയ പദസഞ്ചയം ശേഖരിക്കാന് എന്നെ സഹായിച്ച ഹുസ്സൈന് സാറിനോട് കടപ്പാട് അറിയിച്ചുകൊള്ളുന്നു. മലയാളം വിക്കിപീഡിയ, വിവിധ ബ്ലോഗുകള് എന്നിവയില് നിന്നും വാക്കുകള് ശേഖരിച്ചിട്ടുണ്ട്. സാങ്കേതിക സഹായങ്ങള്ക്ക് കെവിന് അറ്റ്കിന്സണ്(ആസ്പെല് രചയിതാവ്), ഗോര മൊഹന്തി(ആസ്പെല് ഹിന്ദി,ഒറിയ സ്പെല് ചെക്കര്) എന്നിവരോട് നന്ദി രേഖപ്പെടുത്തുന്നു.
ഈ പദസഞ്ചയത്തിലില്ലാത്ത വാക്കുകള് പരിശോധിക്കുമ്പോള്, നിങ്ങള്ക്കത് പദസഞ്ചയത്തിലേയ്ക്ക് കൂട്ടിച്ചേര്ക്കാം. ഇങ്ങനെ നിങ്ങള് ചേര്ക്കുന്ന വാക്കുകള് നിങ്ങളുടെ ഹോം ഡയറക്ടറിയില് .aspell.ml.pws എന്ന hidden ഫയലില് ശേഖരിക്കപ്പെടും. നിങ്ങള് ചേര്ത്ത പുതിയ വാക്കുകള് മറ്റുള്ളവര്ക്കും ഉപകാരപ്പെടണമെന്നാഗ്രഹമുണ്ടെങ്കില് ആ ഫയല് എനിക്കയച്ചു തരിക. പുതിയ ലക്കങ്ങളില് ആ വാക്കുകള് പ്രധാന പദസഞ്ചയത്തില് ചേര്ക്കാം.
സഹായങ്ങള്ക്കോ സംശയങ്ങള്ക്കോ ഈ മെയിലിങ്ങ് ലിസ്റ്റിലേക്കെഴുതുക.
ഈ സോഫ്റ്റ്വെയറിനു വേണ്ടി ഉപയോഗിച്ച പദസഞ്ചയം മറ്റു ഭാഷാഗവേഷണങ്ങള്ക്കുമുപയോഗിക്കാവുന്നതാണ്.
Link | Leave a comment {4} Comments | Add to Memories | Tell a Friend
മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര് പണിപ്പുരയില്
Jul. 16th, 2007 | 09:16 am
zwj,zwnj പ്രശ്നങ്ങള് കെവിന്റെയും ഗോരയുടെയും സഹായത്തോടെ പരിഹരിച്ചു തീര്ന്നപ്പോള് Aspell മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര് വികസനപ്രവര്ത്തങ്ങള് വീണ്ടും സജീവമായി.
വിവിധ ബ്ളോഗുകളില് നിന്നും wikipedia യില് നിന്നും ശേഖരിച്ച 25000 വാക്കുകളുടെ പരിശോധന നടത്തിക്കൊണ്ടിരിക്കുകയാണ് ഇപ്പോള്. ഇതുവരെ 15000 വാക്കുകള് അക്ഷരത്തെറ്റു പരിശോധന കഴിഞ്ഞു. ആദ്യവട്ട ടെസ്റ്റിങ്ങ് കഴിഞ്ഞപ്പോള് ഒരു കാര്യം ബോധ്യമായി. 25000 വാക്കുകളെന്നത് മലയാളത്തെ സംബന്ധിച്ചിടത്തോളം ഒന്നുമല്ല. തിരഞ്ഞെടുത്ത ഒരു പാരഗ്രാഫ് പരിശോധിക്കാന് കൊടുത്തപ്പോള് 25% വാക്കുകള് മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ പക്കലുണ്ടായിരുന്നുള്ള. ഒരു ലക്ഷം വാക്കുകള് എങ്കിലും ഉണ്ടെങ്കിലേ നല്ല പ്രവര്ത്തനക്ഷമത കൈവരിക്കാന് കഴിയൂ. യുണിക്കോഡ് ഫോര്മാറ്റിലുള്ള ഒരു പുസ്തകത്തിന്റെ പകര്പ്പ് കിട്ടാന് ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. അതുകിട്ടിയാല് കുറേകൂടി വാക്കുകള് ചേര്ക്കുവാന് കഴിഞ്ഞേക്കും.
മൂലപദങ്ങളോടു ഒന്നോ അതിലധികമോ വാക്കുകള് ചേര്ത്ത് വേറൊരു വാക്കുകളുണ്ടാക്കുന്ന മലയാളത്തിന്റെ സവിശേഷത(Agglutination) സ്പെല്ലിങ്ങ് ചെക്കറിനൊരു വന്വെല്ലുവിളിയാണ്. 10 വാക്കുകള് വരെ കൂട്ടിച്ചേര്ത്ത് ഒരൊറ്റ വാക്കുണ്ടാക്കാം. ഇതു പരിഹരിക്കാന് 2 വഴികളാണുള്ളത്. ഇങ്ങനെയുള്ള മിക്കവാറും എല്ലാ വാക്കുകളും ഉള്ക്കൊള്ളുന്ന ഒരു വലിയ worlist ഉണ്ടാക്കുകയാണ് ഒന്നാമത്തെ പരിഹാരം. മലയാളത്തിന്റെ സന്ധി-സമാസം നിയമങ്ങളെ കമ്പ്യൂട്ടറിന്റെ ലോജിക്കിലേക്കു മാറ്റുക എന്ന ഭഗീരഥയത്നമാണ് സ്ഥിരമായ പരിഹാരം. ഇതെത്ര മാത്രം പ്രായോഗികമാണെന്നു എനിക്കറിയില്ല. ഒരു subset ചെയ്യാന് പറ്റിയാലും തെറ്റില്ല. നിയമങ്ങളിലെ അപവാദങ്ങള് അപ്പോള് പ്രശ്നമുണ്ടാക്കും. കേരളപാണിനീയം പഠിക്കുക എന്നൊരു കടമ്പ അതിനു മുമ്പു കടക്കേണ്ടതുണ്ട്.
എന്തായാലും ആദ്യത്തെ പടിയായി കഴിയുന്ന രീതിയില് ഏറ്റവും വലിയ ഒരു wordlist ഉണ്ടാക്കാന് തീരുമാനിച്ചു. സന്ധി സമാസം പിന്നത്തേക്കു നീട്ടി വക്കാം.
വിവിധ ബ്ളോഗുകളില് നിന്നും wikipedia യില് നിന്നും ശേഖരിച്ച 25000 വാക്കുകളുടെ പരിശോധന നടത്തിക്കൊണ്ടിരിക്കുകയാണ് ഇപ്പോള്. ഇതുവരെ 15000 വാക്കുകള് അക്ഷരത്തെറ്റു പരിശോധന കഴിഞ്ഞു. ആദ്യവട്ട ടെസ്റ്റിങ്ങ് കഴിഞ്ഞപ്പോള് ഒരു കാര്യം ബോധ്യമായി. 25000 വാക്കുകളെന്നത് മലയാളത്തെ സംബന്ധിച്ചിടത്തോളം ഒന്നുമല്ല. തിരഞ്ഞെടുത്ത ഒരു പാരഗ്രാഫ് പരിശോധിക്കാന് കൊടുത്തപ്പോള് 25% വാക്കുകള് മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ പക്കലുണ്ടായിരുന്നുള്ള. ഒരു ലക്ഷം വാക്കുകള് എങ്കിലും ഉണ്ടെങ്കിലേ നല്ല പ്രവര്ത്തനക്ഷമത കൈവരിക്കാന് കഴിയൂ. യുണിക്കോഡ് ഫോര്മാറ്റിലുള്ള ഒരു പുസ്തകത്തിന്റെ പകര്പ്പ് കിട്ടാന് ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. അതുകിട്ടിയാല് കുറേകൂടി വാക്കുകള് ചേര്ക്കുവാന് കഴിഞ്ഞേക്കും.
മൂലപദങ്ങളോടു ഒന്നോ അതിലധികമോ വാക്കുകള് ചേര്ത്ത് വേറൊരു വാക്കുകളുണ്ടാക്കുന്ന മലയാളത്തിന്റെ സവിശേഷത(Agglutination) സ്പെല്ലിങ്ങ് ചെക്കറിനൊരു വന്വെല്ലുവിളിയാണ്. 10 വാക്കുകള് വരെ കൂട്ടിച്ചേര്ത്ത് ഒരൊറ്റ വാക്കുണ്ടാക്കാം. ഇതു പരിഹരിക്കാന് 2 വഴികളാണുള്ളത്. ഇങ്ങനെയുള്ള മിക്കവാറും എല്ലാ വാക്കുകളും ഉള്ക്കൊള്ളുന്ന ഒരു വലിയ worlist ഉണ്ടാക്കുകയാണ് ഒന്നാമത്തെ പരിഹാരം. മലയാളത്തിന്റെ സന്ധി-സമാസം നിയമങ്ങളെ കമ്പ്യൂട്ടറിന്റെ ലോജിക്കിലേക്കു മാറ്റുക എന്ന ഭഗീരഥയത്നമാണ് സ്ഥിരമായ പരിഹാരം. ഇതെത്ര മാത്രം പ്രായോഗികമാണെന്നു എനിക്കറിയില്ല. ഒരു subset ചെയ്യാന് പറ്റിയാലും തെറ്റില്ല. നിയമങ്ങളിലെ അപവാദങ്ങള് അപ്പോള് പ്രശ്നമുണ്ടാക്കും. കേരളപാണിനീയം പഠിക്കുക എന്നൊരു കടമ്പ അതിനു മുമ്പു കടക്കേണ്ടതുണ്ട്.
എന്തായാലും ആദ്യത്തെ പടിയായി കഴിയുന്ന രീതിയില് ഏറ്റവും വലിയ ഒരു wordlist ഉണ്ടാക്കാന് തീരുമാനിച്ചു. സന്ധി സമാസം പിന്നത്തേക്കു നീട്ടി വക്കാം.
Link | Leave a comment {6} Comments | Add to Memories | Tell a Friend
Malayalam Spellchecker
May. 28th, 2007 | 05:13 pm
mood: geeky
See the Aspell Malayalam spelling checker working on Gedit.This development version is having only 4500 Malayalam words in the dictionary. It is not at all sufficient for Malayalam.

Compound word handling and soundslike features are yet to be developed. Snapshot from Anivar's machine
Compound word handling and soundslike features are yet to be developed. Snapshot from Anivar's machine
Link | Leave a comment | Add to Memories | Tell a Friend
Only Aspell, no space for others...
May. 22nd, 2007 | 09:57 am
mood: creative
It seems that our work on our own spell checker doesnot have any importance other than learning. Aspell is light years ahead of us.There are ispell, myspell also. But we learned a lot about the approximate string comparison, fast search on a big wordlist, candidate list generation etc.. Gora Mohanty gave valuable insights to me on Aspell and how to create the Aspell word list for Malayalam.But still problems on compound words of malayalam.. "Sandhi & Samasam" and the infinite number of words that can be created by that in malayalam is a big hurdle for us..
Can we create a dictionary with all those words?
Can we code that large set of rules?!!
Wait and See ;-)
Can we create a dictionary with all those words?
Can we code that large set of rules?!!
Wait and See ;-)
