കേസ് പഠനം: സംഭാഷണ AI

3 ഇന്ത്യൻ ഭാഷകളിൽ ASR നിർമ്മിക്കുന്നതിനായി 8k മണിക്കൂറിലധികം ഡാറ്റ ശേഖരിക്കുകയും വിഭജിക്കുകയും ട്രാൻസ്ക്രൈബ് ചെയ്യുകയും ചെയ്തു

ഉച്ചാരണ ശേഖരണം
ഭാഷിണി പ്രോജക്ട് വഴി തങ്ങളുടെ പൗരന്മാർക്ക് അവരുടെ സ്വന്തം ഭാഷയിൽ ഇന്റർനെറ്റ്, ഡിജിറ്റൽ സേവനങ്ങൾ എളുപ്പത്തിൽ ലഭ്യമാക്കാൻ സർക്കാർ ലക്ഷ്യമിടുന്നു.

ഇന്ത്യയുടെ AI-അധിഷ്ഠിത ഭാഷാ വിവർത്തന പ്ലാറ്റ്‌ഫോമായ ഭഷിനി, ഡിജിറ്റൽ ഇന്ത്യ സംരംഭത്തിന്റെ ഒരു സുപ്രധാന ഭാഗമാണ്.

എം‌എസ്‌എംഇകൾക്കും സ്റ്റാർട്ടപ്പുകൾക്കും സ്വതന്ത്ര നവീകരണക്കാർക്കും ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് (എഐ), നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻ‌എൽ‌പി) ടൂളുകൾ നൽകാൻ രൂപകൽപ്പന ചെയ്‌തിരിക്കുന്ന ഭാഷിണി പ്ലാറ്റ്‌ഫോം ഒരു പൊതു വിഭവമായി പ്രവർത്തിക്കുന്നു. ഇന്ത്യൻ പൗരന്മാരെ അവരുടെ മാതൃഭാഷകളിൽ രാജ്യത്തെ ഡിജിറ്റൽ സംരംഭങ്ങളുമായി സംവദിക്കാൻ പ്രാപ്തരാക്കുന്നതിലൂടെ ഡിജിറ്റൽ ഉൾപ്പെടുത്തൽ പ്രോത്സാഹിപ്പിക്കുക എന്നതാണ് ഇതിന്റെ ലക്ഷ്യം.

കൂടാതെ, ഇന്ത്യൻ ഭാഷകളിൽ ഇന്റർനെറ്റ് ഉള്ളടക്കത്തിന്റെ ലഭ്യത ഗണ്യമായി വിപുലീകരിക്കാനും ഇത് ലക്ഷ്യമിടുന്നു. ഭരണവും നയവും ശാസ്ത്രവും സാങ്കേതികവിദ്യയും പോലുള്ള പൊതു താൽപ്പര്യമുള്ള മേഖലകളെ ഇത് പ്രത്യേകിച്ചും ലക്ഷ്യമിടുന്നു. തൽഫലമായി, ഇത് പൗരന്മാരെ അവരുടെ ഭാഷയിൽ ഇന്റർനെറ്റ് ഉപയോഗിക്കാൻ പ്രേരിപ്പിക്കുകയും അവരുടെ സജീവ പങ്കാളിത്തം പ്രോത്സാഹിപ്പിക്കുകയും ചെയ്യും.

ഭാഷാ തടസ്സങ്ങൾ മറികടക്കുന്നതിനും അതുവഴി ഡിജിറ്റൽ ഉൾപ്പെടുത്തലും ശാക്തീകരണവും ഉറപ്പാക്കുന്നതിന് സംഭാവന ചെയ്യുന്നവരുടെയും പങ്കാളിത്ത സ്ഥാപനങ്ങളുടെയും പൗരന്മാരുടെയും വൈവിധ്യമാർന്ന ആവാസവ്യവസ്ഥയെ പ്രാപ്തമാക്കുന്നതിന് NLP പ്രയോജനപ്പെടുത്തുക.

യഥാർത്ഥ ലോക പരിഹാരം

ഡാറ്റ ഉപയോഗിച്ച് പ്രാദേശികവൽക്കരണത്തിന്റെ ശക്തി അഴിച്ചുവിടുന്നു

ഇന്ത്യൻ ഭാഷകളിൽ ഡിജിറ്റൽ സേവനങ്ങൾ നൽകുന്നതിന് ബഹുഭാഷാ ഡാറ്റാസെറ്റുകളും AI അടിസ്ഥാനമാക്കിയുള്ള ഭാഷാ സാങ്കേതിക പരിഹാരങ്ങളും സൃഷ്ടിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന ഒരു പ്ലാറ്റ്ഫോം ഇന്ത്യക്ക് ആവശ്യമായിരുന്നു. ഈ സംരംഭം ആരംഭിക്കുന്നതിന്, ഇന്ത്യൻ ഇൻസ്റ്റിറ്റ്യൂട്ട് ഓഫ് ടെക്‌നോളജി, മദ്രാസ് (ഐഐടി മദ്രാസ്) ഇന്ത്യൻ ഭാഷാ ഡാറ്റാസെറ്റുകൾ ശേഖരിക്കുന്നതിനും വിഭജിക്കുന്നതിനും ട്രാൻസ്‌ക്രൈബ് ചെയ്യുന്നതിനും ബഹുഭാഷാ സംഭാഷണ മാതൃകകൾ നിർമ്മിക്കുന്നതിന് ഷൈപ്പുമായി സഹകരിച്ചു.

വെല്ലുവിളികൾ

ഇന്ത്യൻ ഭാഷകൾക്കായുള്ള അവരുടെ സ്പീച്ച് ടെക്നോളജി സ്പീച്ച് റോഡ്മാപ്പ് ഉപയോഗിച്ച് ക്ലയന്റിനെ സഹായിക്കുന്നതിന്, AI മോഡൽ നിർമ്മിക്കുന്നതിന് ടീമിന് വലിയ അളവിലുള്ള പരിശീലന ഡാറ്റ ഏറ്റെടുക്കുകയും വിഭജിക്കുകയും ട്രാൻസ്ക്രൈബ് ചെയ്യുകയും വേണം. ഉപഭോക്താവിന്റെ നിർണായക ആവശ്യകതകൾ ഇവയായിരുന്നു:

ഡാറ്റ ശേഖരണം

  • ഓരോ ഭാഷയ്ക്കും 3000 ഭാഷകളുള്ള 8 ഇന്ത്യൻ ഭാഷകളിൽ 4 മണിക്കൂർ പരിശീലന ഡാറ്റ നേടുക.
  • ഓരോ ഭാഷയ്‌ക്കും, വിതരണക്കാരൻ എക്‌സ്‌ടെമ്പോർ സ്‌പീച്ച് ശേഖരിക്കും
    18-60 വയസ് പ്രായമുള്ളവരിൽ നിന്നുള്ള സംഭാഷണ പ്രസംഗം
  • പ്രായം, ലിംഗഭേദം, വിദ്യാഭ്യാസം, ഭാഷകൾ എന്നിവ അനുസരിച്ച് സംസാരിക്കുന്നവരുടെ വൈവിധ്യമാർന്ന മിശ്രിതം ഉറപ്പാക്കുക
  • സ്പെസിഫിക്കേഷനുകൾ അനുസരിച്ച് റെക്കോർഡിംഗ് പരിതസ്ഥിതികളുടെ വൈവിധ്യമാർന്ന മിശ്രിതം ഉറപ്പാക്കുക.
  • ഓരോ ഓഡിയോ റെക്കോർഡിംഗും കുറഞ്ഞത് 16kHz ആയിരിക്കണം, എന്നാൽ 44kHz ആയിരിക്കണം

ഡാറ്റ സെഗ്മെന്റേഷൻ

  • ഓരോ സ്പീക്കറിനും 15 സെക്കൻഡ് ദൈർഘ്യമുള്ള സംഭാഷണ സെഗ്‌മെന്റുകൾ സൃഷ്‌ടിക്കുകയും ഓഡിയോയെ മില്ലിസെക്കൻഡിലേക്ക് ടൈംസ്റ്റാമ്പ് ചെയ്യുകയും ചെയ്യുക, ഒരു സംഭാഷണത്തിലെ ശബ്ദ തരം (സംസാരം, ബബിൾ, സംഗീതം, ശബ്ദം), തിരിവുകൾ, ഉച്ചാരണങ്ങൾ, ശൈലികൾ
  • തുടക്കത്തിലും അവസാനത്തിലും 200-400 മില്ലിസെക്കൻഡ് പാഡിംഗ് ഉപയോഗിച്ച് ടാർഗെറ്റുചെയ്‌ത ശബ്‌ദ സിഗ്നലിനായി ഓരോ സെഗ്‌മെന്റും സൃഷ്‌ടിക്കുക.
  • എല്ലാ സെഗ്‌മെന്റുകൾക്കും, ഇനിപ്പറയുന്ന ഒബ്‌ജക്‌റ്റുകൾ പൂരിപ്പിക്കണം, അതായത്, ആരംഭ സമയം, അവസാന സമയം, സെഗ്‌മെന്റ് ഐഡി, ഉച്ചത്തിലുള്ള ലെവൽ, ശബ്‌ദ തരം, ഭാഷാ കോഡ്, സ്പീക്കർ ഐഡി മുതലായവ.

ഡാറ്റ ട്രാൻസ്ക്രിപ്ഷൻ

  • പ്രതീകങ്ങളും പ്രത്യേക ചിഹ്നങ്ങളും, അക്ഷരവിന്യാസവും വ്യാകരണവും, ക്യാപിറ്റലൈസേഷൻ, ചുരുക്കെഴുത്തുകൾ, സങ്കോചങ്ങൾ, വ്യക്തിഗത സംഭാഷണ അക്ഷരങ്ങൾ, അക്കങ്ങൾ, വിരാമചിഹ്നങ്ങൾ, ചുരുക്കെഴുത്തുകൾ, അവ്യക്തമായ, സംസാരം, അവ്യക്തമായ സംഭാഷണം, ലക്ഷ്യമല്ലാത്ത ഭാഷകൾ, അല്ലാത്തവ തുടങ്ങിയവയെ ചുറ്റിപ്പറ്റിയുള്ള വിശദമായ ട്രാൻസ്ക്രിപ്ഷൻ മാർഗ്ഗനിർദ്ദേശങ്ങൾ പിന്തുടരുക.

ഗുണനിലവാര പരിശോധനയും ഫീഡ്‌ബാക്കും

  • എല്ലാ റെക്കോർഡിംഗുകളും ഗുണനിലവാര വിലയിരുത്തലിനും മൂല്യനിർണ്ണയത്തിനും വിധേയമാക്കും, സാധുതയുള്ള സംഭാഷണം മാത്രമേ നൽകാവൂ

പരിഹാരം

സംഭാഷണ AI-യെ കുറിച്ചുള്ള ആഴത്തിലുള്ള ധാരണയോടെ, 8 ഇന്ത്യൻ ഭാഷകളിൽ ഓഡിയോ ഡാറ്റാസെറ്റിന്റെ വലിയ കോർപ്പസ് നിർമ്മിക്കുന്നതിന് വിദഗ്ദ്ധരായ കളക്ടർമാർ, ഭാഷാശാസ്ത്രജ്ഞർ, വ്യാഖ്യാനകർ എന്നിവരുടെ ഒരു ടീമിനൊപ്പം ഡാറ്റ ശേഖരിക്കാനും വിഭജിക്കാനും ട്രാൻസ്ക്രൈബ് ചെയ്യാനും ഞങ്ങൾ ക്ലയന്റിനെ സഹായിച്ചു.

Shaip-നുള്ള പ്രവർത്തനത്തിന്റെ വ്യാപ്തി ഉൾപ്പെടുത്തിയിട്ടുണ്ട്, എന്നാൽ വലിയ അളവിലുള്ള ഓഡിയോ പരിശീലന ഡാറ്റ നേടുക, ഓഡിയോ റെക്കോർഡിംഗുകൾ ഒന്നിലധികം വിഭാഗങ്ങളായി വിഭജിക്കുക, ഡാറ്റ ട്രാൻസ്‌ക്രൈബ് ചെയ്യുക, മെറ്റാഡാറ്റ [SpeakerID, Age, Gender, Language, Dialect] അടങ്ങുന്ന അനുബന്ധ JSON ഫയലുകൾ ഡെലിവർ ചെയ്യുക എന്നിവയിൽ മാത്രം പരിമിതപ്പെടുത്തിയിരുന്നില്ല.
മാതൃഭാഷ, യോഗ്യത, തൊഴിൽ, ഡൊമെയ്ൻ, ഫയൽ ഫോർമാറ്റ്, ഫ്രീക്വൻസി, ചാനൽ, ഓഡിയോ തരം, സ്പീക്കറുകളുടെ എണ്ണം, വിദേശ ഭാഷകളുടെ എണ്ണം, ഉപയോഗിച്ച സജ്ജീകരണം, ഇടുങ്ങിയ ബാൻഡ് അല്ലെങ്കിൽ വൈഡ്ബാൻഡ് ഓഡിയോ മുതലായവ]. 

സങ്കീർണ്ണമായ പ്രോജക്റ്റുകൾക്കായി സംഭാഷണ സാങ്കേതികവിദ്യയെ പരിശീലിപ്പിക്കുന്നതിന് ആവശ്യമായ ഗുണനിലവാരം നിലനിർത്തിക്കൊണ്ട് Shaip സ്കെയിലിൽ 3000 മണിക്കൂർ ഓഡിയോ ഡാറ്റ ശേഖരിച്ചു. പങ്കെടുത്ത ഓരോരുത്തരിൽ നിന്നും വ്യക്തമായ സമ്മതപത്രം എടുത്തു.

1. ഡാറ്റ ശേഖരണം