നിര്വചനം
ഭാഷാ മാതൃകകളിലേക്കുള്ള ഇൻപുട്ടുകളായി വർത്തിക്കുന്ന വാക്കുകൾ, ഉപപദങ്ങൾ അല്ലെങ്കിൽ പ്രതീകങ്ങൾ പോലുള്ള ചെറിയ യൂണിറ്റുകളായി (ടോക്കണുകൾ) വാചകത്തെ വിഭജിക്കുന്ന പ്രക്രിയയാണ് ടോക്കണൈസേഷൻ.
ഉദ്ദേശ്യം
എൽഎൽഎമ്മുകളിൽ പരിശീലനത്തിനും അനുമാനത്തിനുമായി പാഠത്തെ കൈകാര്യം ചെയ്യാവുന്ന ഘടകങ്ങളാക്കി മാറ്റുക എന്നതാണ് ഇതിന്റെ ഉദ്ദേശ്യം.
പ്രാധാന്യം
- NLP-യിലെ അടിസ്ഥാന പ്രീപ്രോസസിംഗ് ഘട്ടം.
- പദാവലിയുടെ വലുപ്പത്തെയും കാര്യക്ഷമതയെയും ബാധിക്കുന്നു.
- ടോക്കണൈസേഷൻ തിരഞ്ഞെടുപ്പുകൾ കൃത്യതയെയും പ്രകടനത്തെയും ബാധിക്കുന്നു.
- എംബെഡിംഗുകളുമായും മോഡൽ പരിശീലനവുമായും ബന്ധപ്പെട്ടത്.
ഇത് എങ്ങനെ പ്രവർത്തിക്കുന്നു
- ടോക്കണൈസേഷൻ സ്കീം (വാക്ക്, ഉപവേഡ്, പ്രതീകം) നിർവചിക്കുക.
- ഇൻപുട്ട് ടെക്സ്റ്റിൽ ടോക്കണൈസർ പ്രയോഗിക്കുക.
- സംഖ്യാ ഐഡികളിലേക്കുള്ള മാപ്പ് ടോക്കണുകൾ.
- പ്രോസസ്സിംഗിനായി മോഡലിലേക്ക് ടോക്കണുകൾ ഫീഡ് ചെയ്യുക.
- ഔട്ട്പുട്ട് ടോക്കണുകൾ തിരികെ ടെക്സ്റ്റിലേക്ക് പരിവർത്തനം ചെയ്യുക.
ഉദാഹരണങ്ങൾ (യഥാർത്ഥ ലോകം)
- ജിപിടി മോഡലുകളിൽ ഉപയോഗിക്കുന്ന ബൈറ്റ് പെയർ എൻകോഡിംഗ് (ബിപിഇ).
- ബെർട്-ൽ ഉപയോഗിക്കുന്ന വേഡ്പീസ്.
- ബഹുഭാഷാ NLP-യിൽ ഉപയോഗിക്കുന്ന വാക്യപീസ്.
റഫറൻസുകൾ / കൂടുതൽ വായന
- സെൻറിച്ച് തുടങ്ങിയവർ. “ഉപപദ യൂണിറ്റുകളുള്ള അപൂർവ പദങ്ങളുടെ ന്യൂറൽ മെഷീൻ വിവർത്തനം.” ACL.
- ഗൂഗിൾ സെന്റൻസ്പീസ് ഡോക്യുമെന്റേഷൻ.
- ജുറാഫ്സ്കിയും മാർട്ടിനും. സ്പീച്ച് ആൻഡ് ലാംഗ്വേജ് പ്രോസസ്സിംഗ്.