Home

Advertisement

മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ പണിപ്പുരയില്‍

« previous entry | next entry »
Jul. 16th, 2007 | 09:16 am

zwj,zwnj പ്രശ്നങ്ങള്‍ കെവിന്റെയും ഗോരയുടെയും സഹായത്തോടെ പരിഹരിച്ചു തീര്‍ന്നപ്പോള്‍ Aspell മലയാളം സ്പെല്ലിങ്ങ് ചെക്കര്‍ വികസനപ്രവര്‍ത്തങ്ങള്‍ വീണ്ടും സജീവമായി.
വിവിധ ബ്ളോഗുകളില്‍ നിന്നും wikipedia യില്‍ നിന്നും ശേഖരിച്ച 25000 വാക്കുകളുടെ പരിശോധന നടത്തിക്കൊണ്ടിരിക്കുകയാണ് ഇപ്പോള്‍. ഇതുവരെ 15000 വാക്കുകള്‍ അക്ഷരത്തെറ്റു പരിശോധന കഴിഞ്ഞു. ആദ്യവട്ട ടെസ്റ്റിങ്ങ് കഴിഞ്ഞപ്പോള്‍ ഒരു കാര്യം ബോധ്യമായി. 25000 വാക്കുകളെന്നത് മലയാളത്തെ സംബന്ധിച്ചിടത്തോളം ഒന്നുമല്ല. തിരഞ്ഞെടുത്ത ഒരു പാരഗ്രാഫ് പരിശോധിക്കാന്‍ കൊടുത്തപ്പോള്‍ 25% വാക്കുകള്‍ മാത്രമേ സ്പെല്ലിങ്ങ് ചെക്കറിന്റെ പക്കലുണ്ടായിരുന്നുള്ള. ഒരു ലക്ഷം വാക്കുകള്‍ എങ്കിലും ഉണ്ടെങ്കിലേ നല്ല പ്രവര്‍ത്തനക്ഷമത കൈവരിക്കാന്‍ കഴിയൂ. യുണിക്കോഡ് ഫോര്‍മാറ്റിലുള്ള ഒരു പുസ്തകത്തിന്റെ പകര്‍പ്പ് കിട്ടാന്‍ ശ്രമിച്ചുകൊണ്ടിരിക്കുകയാണ്. അതുകിട്ടിയാല്‍ കുറേകൂടി വാക്കുകള്‍ ചേര്‍ക്കുവാന്‍ കഴിഞ്ഞേക്കും.
മൂലപദങ്ങളോടു ഒന്നോ അതിലധികമോ വാക്കുകള്‍ ചേര്‍ത്ത് വേറൊരു വാക്കുകളുണ്ടാക്കുന്ന മലയാളത്തിന്റെ സവിശേഷത(Agglutination) സ്പെല്ലിങ്ങ് ചെക്കറിനൊരു വന്‍വെല്ലുവിളിയാണ്. 10 വാക്കുകള്‍ വരെ കൂട്ടിച്ചേര്‍ത്ത് ഒരൊറ്റ വാക്കുണ്ടാക്കാം. ഇതു പരിഹരിക്കാന്‍ 2 വഴികളാണുള്ളത്. ഇങ്ങനെയുള്ള മിക്കവാറും എല്ലാ വാക്കുകളും ഉള്‍ക്കൊള്ളുന്ന ഒരു വലിയ worlist ഉണ്ടാക്കുകയാണ് ഒന്നാമത്തെ പരിഹാരം. മലയാളത്തിന്റെ സന്ധി-സമാസം നിയമങ്ങളെ കമ്പ്യൂട്ടറിന്റെ ലോജിക്കിലേക്കു മാറ്റുക എന്ന ഭഗീരഥയത്നമാണ് സ്ഥിരമായ പരിഹാരം. ഇതെത്ര മാത്രം പ്രായോഗികമാണെന്നു എനിക്കറിയില്ല. ഒരു subset ചെയ്യാന്‍ പറ്റിയാലും തെറ്റില്ല. നിയമങ്ങളിലെ അപവാദങ്ങള്‍ അപ്പോള്‍ പ്രശ്നമുണ്ടാക്കും. കേരളപാണിനീയം പഠിക്കുക എന്നൊരു കടമ്പ അതിനു മുമ്പു കടക്കേണ്ടതുണ്ട്.
എന്തായാലും ആദ്യത്തെ പടിയായി കഴിയുന്ന രീതിയില്‍ ഏറ്റവും വലിയ ഒരു wordlist ഉണ്ടാക്കാന്‍ തീരുമാനിച്ചു. സന്ധി സമാസം പിന്നത്തേക്കു നീട്ടി വക്കാം.

Link | Leave a comment | Add to Memories | Tell a Friend

Comments {6}

(no subject)

from: anonymous
date: Jul. 16th, 2007 02:58 pm (UTC)
Link

ഈ കെവിന്‍ kevin Anderson എന്ന സായിപ്പാണെന്ന് പ്രത്യേകം പറയണേ.

Anivar

Reply | Thread

Santhosh Thottingal

(no subject)

from: [info]santhoshtr
date: Jul. 17th, 2007 02:51 am (UTC)
Link

It is not Kevin Anderson,It is Kevin Atkinson, Author of GNU Aspell

Reply | Parent | Thread

ടെക്സ്റ്റ് വേണോ സ്പെല്‍ ചെക്കിനായി?

from: anonymous
date: Jul. 16th, 2007 04:14 pm (UTC)
Link

സന്തോഷേ,

ആശംസകള്‍..! നടക്കട്ടെ..!

ഇതിനായി 800MB യോളം [യൂണീകോഡ് മലയാളം] ടെക്സ്റ്റ് വേണമെങ്കില്‍ അറിയിക്കുക, തരുന്നതില്‍ സന്തോഷമേയുള്ളൂ. ഈയടുത്തിടെ മാത്രം പ്രവര്‍ത്തന രഹിതമായ ഈ [http://malayalam.homelinux.net/malayalam/comments/index.shtml] സൂചിക മൊത്തം ഒരു ടാര്‍ ഫയലായോ മറ്റോ അയച്ചു തരാം.

ഇതു പോലെ തന്നെ സ്പെല്‍ ചെക്കിനു പറ്റിയ മറ്റൊരു ശേഖരം: http://groups.google.com/group/blog4comments

ഈ-മെയിലില്‍ സദയം അറിയിക്കുമല്ലോ?

Reply | Thread

Santhosh Thottingal

Re: ടെക്സ്റ്റ് വേണോ സ്പെല് ചെക്കിനായി?

from: [info]santhoshtr
date: Jul. 17th, 2007 03:00 am (UTC)
Link

സന്തോഷം.
പക്ഷേ ഇതാരാണെന്നറിയാതെ എങ്ങനെ മെയിലയക്കും ? ഇ-മെയില്‍‌ വിലാസം തരാമോ?
യൂണീകോഡ് മലയാളം ധാരാളമായി ആവശ്യമുണ്ട്. പക്ഷെ പ്രശ്നമതല്ല. ഈ വാക്കുകളൊക്കെ കുത്തിയിരുന്ന് അക്ഷരത്തെറ്റു പരിശോധിക്കണം. ആര്‍ക്കെങ്കിലും എന്നെ സഹായിക്കാമോ. ഇപ്പോള്‍ ഹുസൈന്‍ സാര്‍‌ മാത്രമേ ഇതില്‍‌ എന്നെ സഹായിക്കാനായി ഉള്ളൂ.
ടെക്സ്റ്റ് അയക്കുമ്പോള്‍ അതിലെ അക്ഷരത്തെറ്റുകള്‍ തിരുത്തി അയച്ചാല്‍ ഇമ്മിണി വലിയ സന്തോഷം.
സ്പെല്ലിങ്ങ് ചെക്കറിന്‍ മാത്രമല്ല, മിക്ക language computing related ഗവേഷണ പ്രവര്‍ത്തനങ്ങള്‍ക്കും ഇങ്ങനത്തെ ഒരു വന്‍‌ശേഖരം അത്യാവശ്യമാണ്‍.

Reply | Parent | Thread

Re: ടെക്സ്റ്റ് വേണോ സ്പെല് ചെക്കിനായി?

from: anonymous
date: Jul. 17th, 2007 03:05 am (UTC)
Link

യ്യോ..! ഞാന്‍ ഏവൂരാന്‍.., ഞാനാ ആ കമന്റിട്ടതു് -- വിലാസവും ഒരിക്കല്‍ കൂടെ:evuraan ജീ-മെയില്‍.കോം

Reply | Parent | Thread

a little help

from: anonymous
date: Jul. 17th, 2007 11:16 am (UTC)
Link

great effort...................
if you want i could spare 1 hour a day for assisting you to complete this...............for our great Malayalam
mail me at antonyboban@gmail.com

Reply | Thread