മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര് പണിപ്പുരയില്
« previous entry | next entry »
Jul. 16th, 2007 | 09:16 am
zwj,zwnj പ്രശ്നങ്ങള് കെവിന്റെയും ഗോരയുടെയും സഹായത്തോടെ പരിഹരിച്ചു തീര്ന്നപ്പോള് Aspell മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര് വികസനപ്രവര്ത്തങ്ങള് വീണ്ടും സജീവമായി.
വിവിധ ബ്ളോഗുകളില് നിന്നും wikipedia യില് നിന്നും ശേഖരിച്ച 25000 വാക്കുകളുടെ പരിശോധന നടത്തിക്കൊണ്ടിരിക്കുകയാണ് ഇപ്പോള്. ഇതുവരെ 15000 വാക്കുകള് അക്ഷരത്തെറ്റു പരിശോധന കഴിഞ്ഞു. ആദ്യവട്ട ടെസ്റ്റിങ്ങ് കഴിഞ്ഞപ്പോള് ഒരു കാര്യം ബോധ്യമായി. 25000 വാക്കുകളെന്നത് മലയാളത്തെ സംബന്ധിച്ചിടത്തോളം ഒന്നുമല്ല. തിരഞ്ഞെടുത്ത ഒരു പാരഗ്രാഫ് പരിശോധിക്കാന് കൊടുത്തപ്പോള് 25% വാക്കുകള് മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ പക്കലുണ്ടായിരുന്നുള്ള. ഒരു ലക്ഷം വാക്കുകള് എങ്കിലും ഉണ്ടെങ്കിലേ നല്ല പ്രവര്ത്തനക്ഷമത കൈവരിക്കാന് കഴിയൂ. യുണിക്കോഡ് ഫോര്മാറ്റിലുള്ള ഒരു പുസ്തകത്തിന്റെ പകര്പ്പ് കിട്ടാന് ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. അതുകിട്ടിയാല് കുറേകൂടി വാക്കുകള് ചേര്ക്കുവാന് കഴിഞ്ഞേക്കും.
മൂലപദങ്ങളോടു ഒന്നോ അതിലധികമോ വാക്കുകള് ചേര്ത്ത് വേറൊരു വാക്കുകളുണ്ടാക്കുന്ന മലയാളത്തിന്റെ സവിശേഷത(Agglutination) സ്പെല്ലിങ്ങ് ചെക്കറിനൊരു വന്വെല്ലുവിളിയാണ്. 10 വാക്കുകള് വരെ കൂട്ടിച്ചേര്ത്ത് ഒരൊറ്റ വാക്കുണ്ടാക്കാം. ഇതു പരിഹരിക്കാന് 2 വഴികളാണുള്ളത്. ഇങ്ങനെയുള്ള മിക്കവാറും എല്ലാ വാക്കുകളും ഉള്ക്കൊള്ളുന്ന ഒരു വലിയ worlist ഉണ്ടാക്കുകയാണ് ഒന്നാമത്തെ പരിഹാരം. മലയാളത്തിന്റെ സന്ധി-സമാസം നിയമങ്ങളെ കമ്പ്യൂട്ടറിന്റെ ലോജിക്കിലേക്കു മാറ്റുക എന്ന ഭഗീരഥയത്നമാണ് സ്ഥിരമായ പരിഹാരം. ഇതെത്ര മാത്രം പ്രായോഗികമാണെന്നു എനിക്കറിയില്ല. ഒരു subset ചെയ്യാന് പറ്റിയാലും തെറ്റില്ല. നിയമങ്ങളിലെ അപവാദങ്ങള് അപ്പോള് പ്രശ്നമുണ്ടാക്കും. കേരളപാണിനീയം പഠിക്കുക എന്നൊരു കടമ്പ അതിനു മുമ്പു കടക്കേണ്ടതുണ്ട്.
എന്തായാലും ആദ്യത്തെ പടിയായി കഴിയുന്ന രീതിയില് ഏറ്റവും വലിയ ഒരു wordlist ഉണ്ടാക്കാന് തീരുമാനിച്ചു. സന്ധി സമാസം പിന്നത്തേക്കു നീട്ടി വക്കാം.
വിവിധ ബ്ളോഗുകളില് നിന്നും wikipedia യില് നിന്നും ശേഖരിച്ച 25000 വാക്കുകളുടെ പരിശോധന നടത്തിക്കൊണ്ടിരിക്കുകയാണ് ഇപ്പോള്. ഇതുവരെ 15000 വാക്കുകള് അക്ഷരത്തെറ്റു പരിശോധന കഴിഞ്ഞു. ആദ്യവട്ട ടെസ്റ്റിങ്ങ് കഴിഞ്ഞപ്പോള് ഒരു കാര്യം ബോധ്യമായി. 25000 വാക്കുകളെന്നത് മലയാളത്തെ സംബന്ധിച്ചിടത്തോളം ഒന്നുമല്ല. തിരഞ്ഞെടുത്ത ഒരു പാരഗ്രാഫ് പരിശോധിക്കാന് കൊടുത്തപ്പോള് 25% വാക്കുകള് മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ പക്കലുണ്ടായിരുന്നുള്ള. ഒരു ലക്ഷം വാക്കുകള് എങ്കിലും ഉണ്ടെങ്കിലേ നല്ല പ്രവര്ത്തനക്ഷമത കൈവരിക്കാന് കഴിയൂ. യുണിക്കോഡ് ഫോര്മാറ്റിലുള്ള ഒരു പുസ്തകത്തിന്റെ പകര്പ്പ് കിട്ടാന് ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. അതുകിട്ടിയാല് കുറേകൂടി വാക്കുകള് ചേര്ക്കുവാന് കഴിഞ്ഞേക്കും.
മൂലപദങ്ങളോടു ഒന്നോ അതിലധികമോ വാക്കുകള് ചേര്ത്ത് വേറൊരു വാക്കുകളുണ്ടാക്കുന്ന മലയാളത്തിന്റെ സവിശേഷത(Agglutination) സ്പെല്ലിങ്ങ് ചെക്കറിനൊരു വന്വെല്ലുവിളിയാണ്. 10 വാക്കുകള് വരെ കൂട്ടിച്ചേര്ത്ത് ഒരൊറ്റ വാക്കുണ്ടാക്കാം. ഇതു പരിഹരിക്കാന് 2 വഴികളാണുള്ളത്. ഇങ്ങനെയുള്ള മിക്കവാറും എല്ലാ വാക്കുകളും ഉള്ക്കൊള്ളുന്ന ഒരു വലിയ worlist ഉണ്ടാക്കുകയാണ് ഒന്നാമത്തെ പരിഹാരം. മലയാളത്തിന്റെ സന്ധി-സമാസം നിയമങ്ങളെ കമ്പ്യൂട്ടറിന്റെ ലോജിക്കിലേക്കു മാറ്റുക എന്ന ഭഗീരഥയത്നമാണ് സ്ഥിരമായ പരിഹാരം. ഇതെത്ര മാത്രം പ്രായോഗികമാണെന്നു എനിക്കറിയില്ല. ഒരു subset ചെയ്യാന് പറ്റിയാലും തെറ്റില്ല. നിയമങ്ങളിലെ അപവാദങ്ങള് അപ്പോള് പ്രശ്നമുണ്ടാക്കും. കേരളപാണിനീയം പഠിക്കുക എന്നൊരു കടമ്പ അതിനു മുമ്പു കടക്കേണ്ടതുണ്ട്.
എന്തായാലും ആദ്യത്തെ പടിയായി കഴിയുന്ന രീതിയില് ഏറ്റവും വലിയ ഒരു wordlist ഉണ്ടാക്കാന് തീരുമാനിച്ചു. സന്ധി സമാസം പിന്നത്തേക്കു നീട്ടി വക്കാം.

(no subject)
from: anonymous
date: Jul. 16th, 2007 02:58 pm (UTC)
Link
Anivar
Reply | Thread
(no subject)
from:
santhoshtr
date: Jul. 17th, 2007 02:51 am (UTC)
Link
Reply | Parent | Thread
ടെക്സ്റ്റ് വേണോ സ്പെല് ചെക്കിനായി?
from: anonymous
date: Jul. 16th, 2007 04:14 pm (UTC)
Link
ആശംസകള്..! നടക്കട്ടെ..!
ഇതിനായി 800MB യോളം [യൂണീകോഡ് മലയാളം] ടെക്സ്റ്റ് വേണമെങ്കില് അറിയിക്കുക, തരുന്നതില് സന്തോഷമേയുള്ളൂ. ഈയടുത്തിടെ മാത്രം പ്രവര്ത്തന രഹിതമായ ഈ [http://malayalam.homelinux.net/malayala
ഇതു പോലെ തന്നെ സ്പെല് ചെക്കിനു പറ്റിയ മറ്റൊരു ശേഖരം: http://groups.google.com/group/blog4comm
ഈ-മെയിലില് സദയം അറിയിക്കുമല്ലോ?
Reply | Thread
Re: ടെക്സ്റ്റ് വേണോ സ്പെല് ചെക്കിനായി?
from:
santhoshtr
date: Jul. 17th, 2007 03:00 am (UTC)
Link
പക്ഷേ ഇതാരാണെന്നറിയാതെ എങ്ങനെ മെയിലയക്കും ? ഇ-മെയില് വിലാസം തരാമോ?
യൂണീകോഡ് മലയാളം ധാരാളമായി ആവശ്യമുണ്ട്. പക്ഷെ പ്രശ്നമതല്ല. ഈ വാക്കുകളൊക്കെ കുത്തിയിരുന്ന് അക്ഷരത്തെറ്റു പരിശോധിക്കണം. ആര്ക്കെങ്കിലും എന്നെ സഹായിക്കാമോ. ഇപ്പോള് ഹുസൈന് സാര് മാത്രമേ ഇതില് എന്നെ സഹായിക്കാനായി ഉള്ളൂ.
ടെക്സ്റ്റ് അയക്കുമ്പോള് അതിലെ അക്ഷരത്തെറ്റുകള് തിരുത്തി അയച്ചാല് ഇമ്മിണി വലിയ സന്തോഷം.
സ്പെല്ലിങ്ങ് ചെക്കറിന് മാത്രമല്ല, മിക്ക language computing related ഗവേഷണ പ്രവര്ത്തനങ്ങള്ക്കും ഇങ്ങനത്തെ ഒരു വന്ശേഖരം അത്യാവശ്യമാണ്.
Reply | Parent | Thread
Re: ടെക്സ്റ്റ് വേണോ സ്പെല് ചെക്കിനായി?
from: anonymous
date: Jul. 17th, 2007 03:05 am (UTC)
Link
Reply | Parent | Thread
a little help
from: anonymous
date: Jul. 17th, 2007 11:16 am (UTC)
Link
if you want i could spare 1 hour a day for assisting you to complete this...............for our great Malayalam
mail me at antonyboban@gmail.com
Reply | Thread