Aspell Malayalam Spelling checker Version 0.01-1 Released
Aug. 27th, 2007 | 11:32 am
മലയാളത്തിന് സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങിന്റെ തിരുവോണ സമ്മാനം: ആസ്പെല് മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്(version 0.01-1)
1,37,348 മലയാളം വാക്കുകളടങ്ങിയ മലയാളം സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ ആദ്യ ലക്കം മലയാളത്തിന് സമര്പ്പിക്കുന്നു. സ്വതന്ത്ര ഡെസ്ക്ടോപ്പുകളായ ഗ്നോം, കെഡിഇ എന്നിവയില് ഉപയോഗിക്കാവുന്ന ഈ സ്പെല്ലിങ്ങ് ചെക്കര് ഗ്നു ആസ്പെല് എന്ന പ്രശസ്ത സോഫ്റ്റ്വെയര് അടിസ്ഥാനമാക്കിയാണ് വികസിപ്പിച്ചിരിക്കുന്നത്.
1,37,348 മലയാളം വാക്കുകളും സ്വയം അക്ഷരത്തെറ്റു പരിശോധിച്ചതാണ്. സമയക്കുറവ്, ശ്രദ്ധക്കുറവ്, വിവരക്കുറവ് എന്നീ കാരണങ്ങളാല് ചില പിഴവുകള് ഇതിലുണ്ടാവാം. ഈ സോഫ്റ്റ്വെയര് ഉപയോഗിക്കുമ്പോള് അത്തരം തെറ്റുകള് കാണുകയാണെങ്കില് ദയവായി എന്നെ അറിയിക്കുക.
ഇത് ഇന്സ്റ്റാള് ചെയ്യാന് https://savannah.nongnu.org/task/downlo ad.php?file_id=13811 എന്നിടത്തു നിന്ന് ഡൗണ്ലോഡ് ചെയ്ത് extract ചെയ്യുക. അതിനു ശേഷം README ഫയലില് വിവരിച്ചിരിക്കുന്ന പോലെ ചെയ്യുക.
മലയാളത്തിന്റെ പ്രത്യേകതയായ,ഒന്നിലധികം വാക്കുകള് കൂടിച്ചേര്ന്ന് പുതിയ വാക്കുകളുണ്ടാകുന്ന സവിശേഷത കൂടി കൈകാര്യം ചെയ്താല് മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കര് പൂര്ണ്ണമാവുകയുള്ളൂ. അല്ലെങ്കില് പദസഞ്ചയത്തിന്റെ വലിപ്പം വളരെയധികമായിരിക്കും(ഇപ്പോള് തന്നെ ഇന്ത്യയിലെ ഏറ്റവും വലിയ സ്പെല്ലിങ്ങ് ചെക്കര് പദസഞ്ചയമാണിത്.). സന്ധി സമാസം നിയമങ്ങള് ഈ ലക്കത്തില് ഉള്ക്കൊള്ളിച്ചില്ലാത്തതിനാല് മേല്പ്പറഞ്ഞ തരത്തിലുള്ള വാക്കുകള്പരിശോധിക്കാന് ഈ സോഫ്റ്റ്വെയറിന് കഴിയില്ല. അതായത് മഴക്കാലം, മേഘങ്ങള്, എല്ലാം, ഇരുണ്ട്, കൂടി എന്നിവയെല്ലാം പരിശോധിക്കാമെങ്കിലും "മഴക്കാലമേഘങ്ങളെല്ലാമിരുണ്ടുകൂടി" എന്ന വാക്ക് പരിശോധിക്കാന് ഇതിന് കഴിഞ്ഞെന്നു വരില്ല. ഇത് അടുത്ത ലക്കത്തില് ഉള്പ്പെടുത്താന് ശ്രമിക്കുന്നുണ്ട്.
ഇത്രയും വലിയ പദസഞ്ചയം ശേഖരിക്കാന് എന്നെ സഹായിച്ച ഹുസ്സൈന് സാറിനോട് കടപ്പാട് അറിയിച്ചുകൊള്ളുന്നു. മലയാളം വിക്കിപീഡിയ, വിവിധ ബ്ലോഗുകള് എന്നിവയില് നിന്നും വാക്കുകള് ശേഖരിച്ചിട്ടുണ്ട്. സാങ്കേതിക സഹായങ്ങള്ക്ക് കെവിന് അറ്റ്കിന്സണ്(ആസ്പെല് രചയിതാവ്), ഗോര മൊഹന്തി(ആസ്പെല് ഹിന്ദി,ഒറിയ സ്പെല് ചെക്കര്) എന്നിവരോട് നന്ദി രേഖപ്പെടുത്തുന്നു.
ഈ പദസഞ്ചയത്തിലില്ലാത്ത വാക്കുകള് പരിശോധിക്കുമ്പോള്, നിങ്ങള്ക്കത് പദസഞ്ചയത്തിലേയ്ക്ക് കൂട്ടിച്ചേര്ക്കാം. ഇങ്ങനെ നിങ്ങള് ചേര്ക്കുന്ന വാക്കുകള് നിങ്ങളുടെ ഹോം ഡയറക്ടറിയില് .aspell.ml.pws എന്ന hidden ഫയലില് ശേഖരിക്കപ്പെടും. നിങ്ങള് ചേര്ത്ത പുതിയ വാക്കുകള് മറ്റുള്ളവര്ക്കും ഉപകാരപ്പെടണമെന്നാഗ്രഹമുണ്ടെങ്കില് ആ ഫയല് എനിക്കയച്ചു തരിക. പുതിയ ലക്കങ്ങളില് ആ വാക്കുകള് പ്രധാന പദസഞ്ചയത്തില് ചേര്ക്കാം.
സഹായങ്ങള്ക്കോ സംശയങ്ങള്ക്കോ ഈ മെയിലിങ്ങ് ലിസ്റ്റിലേക്കെഴുതുക.
ഈ സോഫ്റ്റ്വെയറിനു വേണ്ടി ഉപയോഗിച്ച പദസഞ്ചയം മറ്റു ഭാഷാഗവേഷണങ്ങള്ക്കുമുപയോഗിക്കാവുന്നതാണ്. ആവശ്യമുള്ളവര് ബന്ധപ്പെടുക.
1,37,348 മലയാളം വാക്കുകളടങ്ങിയ മലയാളം സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ ആദ്യ ലക്കം മലയാളത്തിന് സമര്പ്പിക്കുന്നു. സ്വതന്ത്ര ഡെസ്ക്ടോപ്പുകളായ ഗ്നോം, കെഡിഇ എന്നിവയില് ഉപയോഗിക്കാവുന്ന ഈ സ്പെല്ലിങ്ങ് ചെക്കര് ഗ്നു ആസ്പെല് എന്ന പ്രശസ്ത സോഫ്റ്റ്വെയര് അടിസ്ഥാനമാക്കിയാണ് വികസിപ്പിച്ചിരിക്കുന്നത്.
1,37,348 മലയാളം വാക്കുകളും സ്വയം അക്ഷരത്തെറ്റു പരിശോധിച്ചതാണ്. സമയക്കുറവ്, ശ്രദ്ധക്കുറവ്, വിവരക്കുറവ് എന്നീ കാരണങ്ങളാല് ചില പിഴവുകള് ഇതിലുണ്ടാവാം. ഈ സോഫ്റ്റ്വെയര് ഉപയോഗിക്കുമ്പോള് അത്തരം തെറ്റുകള് കാണുകയാണെങ്കില് ദയവായി എന്നെ അറിയിക്കുക.
ഇത് ഇന്സ്റ്റാള് ചെയ്യാന് https://savannah.nongnu.org/task/downlo
മലയാളത്തിന്റെ പ്രത്യേകതയായ,ഒന്നിലധികം വാക്കുകള് കൂടിച്ചേര്ന്ന് പുതിയ വാക്കുകളുണ്ടാകുന്ന സവിശേഷത കൂടി കൈകാര്യം ചെയ്താല് മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കര് പൂര്ണ്ണമാവുകയുള്ളൂ. അല്ലെങ്കില് പദസഞ്ചയത്തിന്റെ വലിപ്പം വളരെയധികമായിരിക്കും(ഇപ്പോള് തന്നെ ഇന്ത്യയിലെ ഏറ്റവും വലിയ സ്പെല്ലിങ്ങ് ചെക്കര് പദസഞ്ചയമാണിത്.). സന്ധി സമാസം നിയമങ്ങള് ഈ ലക്കത്തില് ഉള്ക്കൊള്ളിച്ചില്ലാത്തതിനാല് മേല്പ്പറഞ്ഞ തരത്തിലുള്ള വാക്കുകള്പരിശോധിക്കാന് ഈ സോഫ്റ്റ്വെയറിന് കഴിയില്ല. അതായത് മഴക്കാലം, മേഘങ്ങള്, എല്ലാം, ഇരുണ്ട്, കൂടി എന്നിവയെല്ലാം പരിശോധിക്കാമെങ്കിലും "മഴക്കാലമേഘങ്ങളെല്ലാമിരുണ്ടുകൂടി" എന്ന വാക്ക് പരിശോധിക്കാന് ഇതിന് കഴിഞ്ഞെന്നു വരില്ല. ഇത് അടുത്ത ലക്കത്തില് ഉള്പ്പെടുത്താന് ശ്രമിക്കുന്നുണ്ട്.
ഇത്രയും വലിയ പദസഞ്ചയം ശേഖരിക്കാന് എന്നെ സഹായിച്ച ഹുസ്സൈന് സാറിനോട് കടപ്പാട് അറിയിച്ചുകൊള്ളുന്നു. മലയാളം വിക്കിപീഡിയ, വിവിധ ബ്ലോഗുകള് എന്നിവയില് നിന്നും വാക്കുകള് ശേഖരിച്ചിട്ടുണ്ട്. സാങ്കേതിക സഹായങ്ങള്ക്ക് കെവിന് അറ്റ്കിന്സണ്(ആസ്പെല് രചയിതാവ്), ഗോര മൊഹന്തി(ആസ്പെല് ഹിന്ദി,ഒറിയ സ്പെല് ചെക്കര്) എന്നിവരോട് നന്ദി രേഖപ്പെടുത്തുന്നു.
ഈ പദസഞ്ചയത്തിലില്ലാത്ത വാക്കുകള് പരിശോധിക്കുമ്പോള്, നിങ്ങള്ക്കത് പദസഞ്ചയത്തിലേയ്ക്ക് കൂട്ടിച്ചേര്ക്കാം. ഇങ്ങനെ നിങ്ങള് ചേര്ക്കുന്ന വാക്കുകള് നിങ്ങളുടെ ഹോം ഡയറക്ടറിയില് .aspell.ml.pws എന്ന hidden ഫയലില് ശേഖരിക്കപ്പെടും. നിങ്ങള് ചേര്ത്ത പുതിയ വാക്കുകള് മറ്റുള്ളവര്ക്കും ഉപകാരപ്പെടണമെന്നാഗ്രഹമുണ്ടെങ്കില് ആ ഫയല് എനിക്കയച്ചു തരിക. പുതിയ ലക്കങ്ങളില് ആ വാക്കുകള് പ്രധാന പദസഞ്ചയത്തില് ചേര്ക്കാം.
സഹായങ്ങള്ക്കോ സംശയങ്ങള്ക്കോ ഈ മെയിലിങ്ങ് ലിസ്റ്റിലേക്കെഴുതുക.
ഈ സോഫ്റ്റ്വെയറിനു വേണ്ടി ഉപയോഗിച്ച പദസഞ്ചയം മറ്റു ഭാഷാഗവേഷണങ്ങള്ക്കുമുപയോഗിക്കാവുന്നതാണ്.
Link | Leave a comment {4} Comments | Add to Memories | Tell a Friend
മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര് പണിപ്പുരയില്
Jul. 16th, 2007 | 09:16 am
zwj,zwnj പ്രശ്നങ്ങള് കെവിന്റെയും ഗോരയുടെയും സഹായത്തോടെ പരിഹരിച്ചു തീര്ന്നപ്പോള് Aspell മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര് വികസനപ്രവര്ത്തങ്ങള് വീണ്ടും സജീവമായി.
വിവിധ ബ്ളോഗുകളില് നിന്നും wikipedia യില് നിന്നും ശേഖരിച്ച 25000 വാക്കുകളുടെ പരിശോധന നടത്തിക്കൊണ്ടിരിക്കുകയാണ് ഇപ്പോള്. ഇതുവരെ 15000 വാക്കുകള് അക്ഷരത്തെറ്റു പരിശോധന കഴിഞ്ഞു. ആദ്യവട്ട ടെസ്റ്റിങ്ങ് കഴിഞ്ഞപ്പോള് ഒരു കാര്യം ബോധ്യമായി. 25000 വാക്കുകളെന്നത് മലയാളത്തെ സംബന്ധിച്ചിടത്തോളം ഒന്നുമല്ല. തിരഞ്ഞെടുത്ത ഒരു പാരഗ്രാഫ് പരിശോധിക്കാന് കൊടുത്തപ്പോള് 25% വാക്കുകള് മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ പക്കലുണ്ടായിരുന്നുള്ള. ഒരു ലക്ഷം വാക്കുകള് എങ്കിലും ഉണ്ടെങ്കിലേ നല്ല പ്രവര്ത്തനക്ഷമത കൈവരിക്കാന് കഴിയൂ. യുണിക്കോഡ് ഫോര്മാറ്റിലുള്ള ഒരു പുസ്തകത്തിന്റെ പകര്പ്പ് കിട്ടാന് ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. അതുകിട്ടിയാല് കുറേകൂടി വാക്കുകള് ചേര്ക്കുവാന് കഴിഞ്ഞേക്കും.
മൂലപദങ്ങളോടു ഒന്നോ അതിലധികമോ വാക്കുകള് ചേര്ത്ത് വേറൊരു വാക്കുകളുണ്ടാക്കുന്ന മലയാളത്തിന്റെ സവിശേഷത(Agglutination) സ്പെല്ലിങ്ങ് ചെക്കറിനൊരു വന്വെല്ലുവിളിയാണ്. 10 വാക്കുകള് വരെ കൂട്ടിച്ചേര്ത്ത് ഒരൊറ്റ വാക്കുണ്ടാക്കാം. ഇതു പരിഹരിക്കാന് 2 വഴികളാണുള്ളത്. ഇങ്ങനെയുള്ള മിക്കവാറും എല്ലാ വാക്കുകളും ഉള്ക്കൊള്ളുന്ന ഒരു വലിയ worlist ഉണ്ടാക്കുകയാണ് ഒന്നാമത്തെ പരിഹാരം. മലയാളത്തിന്റെ സന്ധി-സമാസം നിയമങ്ങളെ കമ്പ്യൂട്ടറിന്റെ ലോജിക്കിലേക്കു മാറ്റുക എന്ന ഭഗീരഥയത്നമാണ് സ്ഥിരമായ പരിഹാരം. ഇതെത്ര മാത്രം പ്രായോഗികമാണെന്നു എനിക്കറിയില്ല. ഒരു subset ചെയ്യാന് പറ്റിയാലും തെറ്റില്ല. നിയമങ്ങളിലെ അപവാദങ്ങള് അപ്പോള് പ്രശ്നമുണ്ടാക്കും. കേരളപാണിനീയം പഠിക്കുക എന്നൊരു കടമ്പ അതിനു മുമ്പു കടക്കേണ്ടതുണ്ട്.
എന്തായാലും ആദ്യത്തെ പടിയായി കഴിയുന്ന രീതിയില് ഏറ്റവും വലിയ ഒരു wordlist ഉണ്ടാക്കാന് തീരുമാനിച്ചു. സന്ധി സമാസം പിന്നത്തേക്കു നീട്ടി വക്കാം.
വിവിധ ബ്ളോഗുകളില് നിന്നും wikipedia യില് നിന്നും ശേഖരിച്ച 25000 വാക്കുകളുടെ പരിശോധന നടത്തിക്കൊണ്ടിരിക്കുകയാണ് ഇപ്പോള്. ഇതുവരെ 15000 വാക്കുകള് അക്ഷരത്തെറ്റു പരിശോധന കഴിഞ്ഞു. ആദ്യവട്ട ടെസ്റ്റിങ്ങ് കഴിഞ്ഞപ്പോള് ഒരു കാര്യം ബോധ്യമായി. 25000 വാക്കുകളെന്നത് മലയാളത്തെ സംബന്ധിച്ചിടത്തോളം ഒന്നുമല്ല. തിരഞ്ഞെടുത്ത ഒരു പാരഗ്രാഫ് പരിശോധിക്കാന് കൊടുത്തപ്പോള് 25% വാക്കുകള് മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ പക്കലുണ്ടായിരുന്നുള്ള. ഒരു ലക്ഷം വാക്കുകള് എങ്കിലും ഉണ്ടെങ്കിലേ നല്ല പ്രവര്ത്തനക്ഷമത കൈവരിക്കാന് കഴിയൂ. യുണിക്കോഡ് ഫോര്മാറ്റിലുള്ള ഒരു പുസ്തകത്തിന്റെ പകര്പ്പ് കിട്ടാന് ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. അതുകിട്ടിയാല് കുറേകൂടി വാക്കുകള് ചേര്ക്കുവാന് കഴിഞ്ഞേക്കും.
മൂലപദങ്ങളോടു ഒന്നോ അതിലധികമോ വാക്കുകള് ചേര്ത്ത് വേറൊരു വാക്കുകളുണ്ടാക്കുന്ന മലയാളത്തിന്റെ സവിശേഷത(Agglutination) സ്പെല്ലിങ്ങ് ചെക്കറിനൊരു വന്വെല്ലുവിളിയാണ്. 10 വാക്കുകള് വരെ കൂട്ടിച്ചേര്ത്ത് ഒരൊറ്റ വാക്കുണ്ടാക്കാം. ഇതു പരിഹരിക്കാന് 2 വഴികളാണുള്ളത്. ഇങ്ങനെയുള്ള മിക്കവാറും എല്ലാ വാക്കുകളും ഉള്ക്കൊള്ളുന്ന ഒരു വലിയ worlist ഉണ്ടാക്കുകയാണ് ഒന്നാമത്തെ പരിഹാരം. മലയാളത്തിന്റെ സന്ധി-സമാസം നിയമങ്ങളെ കമ്പ്യൂട്ടറിന്റെ ലോജിക്കിലേക്കു മാറ്റുക എന്ന ഭഗീരഥയത്നമാണ് സ്ഥിരമായ പരിഹാരം. ഇതെത്ര മാത്രം പ്രായോഗികമാണെന്നു എനിക്കറിയില്ല. ഒരു subset ചെയ്യാന് പറ്റിയാലും തെറ്റില്ല. നിയമങ്ങളിലെ അപവാദങ്ങള് അപ്പോള് പ്രശ്നമുണ്ടാക്കും. കേരളപാണിനീയം പഠിക്കുക എന്നൊരു കടമ്പ അതിനു മുമ്പു കടക്കേണ്ടതുണ്ട്.
എന്തായാലും ആദ്യത്തെ പടിയായി കഴിയുന്ന രീതിയില് ഏറ്റവും വലിയ ഒരു wordlist ഉണ്ടാക്കാന് തീരുമാനിച്ചു. സന്ധി സമാസം പിന്നത്തേക്കു നീട്ടി വക്കാം.
