കേസ് പഠനം: സംഭാഷണ AI
ഇന്ത്യയുടെ AI-അധിഷ്ഠിത ഭാഷാ വിവർത്തന പ്ലാറ്റ്ഫോമായ ഭഷിനി, ഡിജിറ്റൽ ഇന്ത്യ സംരംഭത്തിന്റെ ഒരു സുപ്രധാന ഭാഗമാണ്.
എംഎസ്എംഇകൾക്കും സ്റ്റാർട്ടപ്പുകൾക്കും സ്വതന്ത്ര നവീകരണക്കാർക്കും ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് (എഐ), നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻഎൽപി) ടൂളുകൾ നൽകാൻ രൂപകൽപ്പന ചെയ്തിരിക്കുന്ന ഭാഷിണി പ്ലാറ്റ്ഫോം ഒരു പൊതു വിഭവമായി പ്രവർത്തിക്കുന്നു. ഇന്ത്യൻ പൗരന്മാരെ അവരുടെ മാതൃഭാഷകളിൽ രാജ്യത്തെ ഡിജിറ്റൽ സംരംഭങ്ങളുമായി സംവദിക്കാൻ പ്രാപ്തരാക്കുന്നതിലൂടെ ഡിജിറ്റൽ ഉൾപ്പെടുത്തൽ പ്രോത്സാഹിപ്പിക്കുക എന്നതാണ് ഇതിന്റെ ലക്ഷ്യം.
കൂടാതെ, ഇന്ത്യൻ ഭാഷകളിൽ ഇന്റർനെറ്റ് ഉള്ളടക്കത്തിന്റെ ലഭ്യത ഗണ്യമായി വിപുലീകരിക്കാനും ഇത് ലക്ഷ്യമിടുന്നു. ഭരണവും നയവും ശാസ്ത്രവും സാങ്കേതികവിദ്യയും പോലുള്ള പൊതു താൽപ്പര്യമുള്ള മേഖലകളെ ഇത് പ്രത്യേകിച്ചും ലക്ഷ്യമിടുന്നു. തൽഫലമായി, ഇത് പൗരന്മാരെ അവരുടെ ഭാഷയിൽ ഇന്റർനെറ്റ് ഉപയോഗിക്കാൻ പ്രേരിപ്പിക്കുകയും അവരുടെ സജീവ പങ്കാളിത്തം പ്രോത്സാഹിപ്പിക്കുകയും ചെയ്യും.
യഥാർത്ഥ ലോക പരിഹാരം
ഡാറ്റ ഉപയോഗിച്ച് പ്രാദേശികവൽക്കരണത്തിന്റെ ശക്തി അഴിച്ചുവിടുന്നു
ഇന്ത്യൻ ഭാഷകളിൽ ഡിജിറ്റൽ സേവനങ്ങൾ നൽകുന്നതിന് ബഹുഭാഷാ ഡാറ്റാസെറ്റുകളും AI അടിസ്ഥാനമാക്കിയുള്ള ഭാഷാ സാങ്കേതിക പരിഹാരങ്ങളും സൃഷ്ടിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന ഒരു പ്ലാറ്റ്ഫോം ഇന്ത്യക്ക് ആവശ്യമായിരുന്നു. ഈ സംരംഭം ആരംഭിക്കുന്നതിന്, ഇന്ത്യൻ ഇൻസ്റ്റിറ്റ്യൂട്ട് ഓഫ് ടെക്നോളജി, മദ്രാസ് (ഐഐടി മദ്രാസ്) ഇന്ത്യൻ ഭാഷാ ഡാറ്റാസെറ്റുകൾ ശേഖരിക്കുന്നതിനും വിഭജിക്കുന്നതിനും ട്രാൻസ്ക്രൈബ് ചെയ്യുന്നതിനും ബഹുഭാഷാ സംഭാഷണ മാതൃകകൾ നിർമ്മിക്കുന്നതിന് ഷൈപ്പുമായി സഹകരിച്ചു.
വെല്ലുവിളികൾ
ഇന്ത്യൻ ഭാഷകൾക്കായുള്ള അവരുടെ സ്പീച്ച് ടെക്നോളജി സ്പീച്ച് റോഡ്മാപ്പ് ഉപയോഗിച്ച് ക്ലയന്റിനെ സഹായിക്കുന്നതിന്, AI മോഡൽ നിർമ്മിക്കുന്നതിന് ടീമിന് വലിയ അളവിലുള്ള പരിശീലന ഡാറ്റ ഏറ്റെടുക്കുകയും വിഭജിക്കുകയും ട്രാൻസ്ക്രൈബ് ചെയ്യുകയും വേണം. ഉപഭോക്താവിന്റെ നിർണായക ആവശ്യകതകൾ ഇവയായിരുന്നു:
ഡാറ്റ ശേഖരണം
- ഓരോ ഭാഷയ്ക്കും 3000 ഭാഷകളുള്ള 8 ഇന്ത്യൻ ഭാഷകളിൽ 4 മണിക്കൂർ പരിശീലന ഡാറ്റ നേടുക.
- ഓരോ ഭാഷയ്ക്കും, വിതരണക്കാരൻ എക്സ്ടെമ്പോർ സ്പീച്ച് ശേഖരിക്കും
18-60 വയസ് പ്രായമുള്ളവരിൽ നിന്നുള്ള സംഭാഷണ പ്രസംഗം - പ്രായം, ലിംഗഭേദം, വിദ്യാഭ്യാസം, ഭാഷകൾ എന്നിവ അനുസരിച്ച് സംസാരിക്കുന്നവരുടെ വൈവിധ്യമാർന്ന മിശ്രിതം ഉറപ്പാക്കുക
- സ്പെസിഫിക്കേഷനുകൾ അനുസരിച്ച് റെക്കോർഡിംഗ് പരിതസ്ഥിതികളുടെ വൈവിധ്യമാർന്ന മിശ്രിതം ഉറപ്പാക്കുക.
- ഓരോ ഓഡിയോ റെക്കോർഡിംഗും കുറഞ്ഞത് 16kHz ആയിരിക്കണം, എന്നാൽ 44kHz ആയിരിക്കണം
ഡാറ്റ സെഗ്മെന്റേഷൻ
- ഓരോ സ്പീക്കറിനും 15 സെക്കൻഡ് ദൈർഘ്യമുള്ള സംഭാഷണ സെഗ്മെന്റുകൾ സൃഷ്ടിക്കുകയും ഓഡിയോയെ മില്ലിസെക്കൻഡിലേക്ക് ടൈംസ്റ്റാമ്പ് ചെയ്യുകയും ചെയ്യുക, ഒരു സംഭാഷണത്തിലെ ശബ്ദ തരം (സംസാരം, ബബിൾ, സംഗീതം, ശബ്ദം), തിരിവുകൾ, ഉച്ചാരണങ്ങൾ, ശൈലികൾ
- തുടക്കത്തിലും അവസാനത്തിലും 200-400 മില്ലിസെക്കൻഡ് പാഡിംഗ് ഉപയോഗിച്ച് ടാർഗെറ്റുചെയ്ത ശബ്ദ സിഗ്നലിനായി ഓരോ സെഗ്മെന്റും സൃഷ്ടിക്കുക.
- എല്ലാ സെഗ്മെന്റുകൾക്കും, ഇനിപ്പറയുന്ന ഒബ്ജക്റ്റുകൾ പൂരിപ്പിക്കണം, അതായത്, ആരംഭ സമയം, അവസാന സമയം, സെഗ്മെന്റ് ഐഡി, ഉച്ചത്തിലുള്ള ലെവൽ, ശബ്ദ തരം, ഭാഷാ കോഡ്, സ്പീക്കർ ഐഡി മുതലായവ.
ഡാറ്റ ട്രാൻസ്ക്രിപ്ഷൻ
- പ്രതീകങ്ങളും പ്രത്യേക ചിഹ്നങ്ങളും, അക്ഷരവിന്യാസവും വ്യാകരണവും, ക്യാപിറ്റലൈസേഷൻ, ചുരുക്കെഴുത്തുകൾ, സങ്കോചങ്ങൾ, വ്യക്തിഗത സംഭാഷണ അക്ഷരങ്ങൾ, അക്കങ്ങൾ, വിരാമചിഹ്നങ്ങൾ, ചുരുക്കെഴുത്തുകൾ, അവ്യക്തമായ, സംസാരം, അവ്യക്തമായ സംഭാഷണം, ലക്ഷ്യമല്ലാത്ത ഭാഷകൾ, അല്ലാത്തവ തുടങ്ങിയവയെ ചുറ്റിപ്പറ്റിയുള്ള വിശദമായ ട്രാൻസ്ക്രിപ്ഷൻ മാർഗ്ഗനിർദ്ദേശങ്ങൾ പിന്തുടരുക.
ഗുണനിലവാര പരിശോധനയും ഫീഡ്ബാക്കും
- എല്ലാ റെക്കോർഡിംഗുകളും ഗുണനിലവാര വിലയിരുത്തലിനും മൂല്യനിർണ്ണയത്തിനും വിധേയമാക്കും, സാധുതയുള്ള സംഭാഷണം മാത്രമേ നൽകാവൂ
പരിഹാരം
സംഭാഷണ AI-യെ കുറിച്ചുള്ള ആഴത്തിലുള്ള ധാരണയോടെ, 8 ഇന്ത്യൻ ഭാഷകളിൽ ഓഡിയോ ഡാറ്റാസെറ്റിന്റെ വലിയ കോർപ്പസ് നിർമ്മിക്കുന്നതിന് വിദഗ്ദ്ധരായ കളക്ടർമാർ, ഭാഷാശാസ്ത്രജ്ഞർ, വ്യാഖ്യാനകർ എന്നിവരുടെ ഒരു ടീമിനൊപ്പം ഡാറ്റ ശേഖരിക്കാനും വിഭജിക്കാനും ട്രാൻസ്ക്രൈബ് ചെയ്യാനും ഞങ്ങൾ ക്ലയന്റിനെ സഹായിച്ചു.
Shaip-നുള്ള പ്രവർത്തനത്തിന്റെ വ്യാപ്തി ഉൾപ്പെടുത്തിയിട്ടുണ്ട്, എന്നാൽ വലിയ അളവിലുള്ള ഓഡിയോ പരിശീലന ഡാറ്റ നേടുക, ഓഡിയോ റെക്കോർഡിംഗുകൾ ഒന്നിലധികം വിഭാഗങ്ങളായി വിഭജിക്കുക, ഡാറ്റ ട്രാൻസ്ക്രൈബ് ചെയ്യുക, മെറ്റാഡാറ്റ [SpeakerID, Age, Gender, Language, Dialect] അടങ്ങുന്ന അനുബന്ധ JSON ഫയലുകൾ ഡെലിവർ ചെയ്യുക എന്നിവയിൽ മാത്രം പരിമിതപ്പെടുത്തിയിരുന്നില്ല.
മാതൃഭാഷ, യോഗ്യത, തൊഴിൽ, ഡൊമെയ്ൻ, ഫയൽ ഫോർമാറ്റ്, ഫ്രീക്വൻസി, ചാനൽ, ഓഡിയോ തരം, സ്പീക്കറുകളുടെ എണ്ണം, വിദേശ ഭാഷകളുടെ എണ്ണം, ഉപയോഗിച്ച സജ്ജീകരണം, ഇടുങ്ങിയ ബാൻഡ് അല്ലെങ്കിൽ വൈഡ്ബാൻഡ് ഓഡിയോ മുതലായവ].
സങ്കീർണ്ണമായ പ്രോജക്റ്റുകൾക്കായി സംഭാഷണ സാങ്കേതികവിദ്യയെ പരിശീലിപ്പിക്കുന്നതിന് ആവശ്യമായ ഗുണനിലവാരം നിലനിർത്തിക്കൊണ്ട് Shaip സ്കെയിലിൽ 3000 മണിക്കൂർ ഓഡിയോ ഡാറ്റ ശേഖരിച്ചു. പങ്കെടുത്ത ഓരോരുത്തരിൽ നിന്നും വ്യക്തമായ സമ്മതപത്രം എടുത്തു.
1. ഡാറ്റ ശേഖരണം
2. ഡാറ്റ സെഗ്മെന്റേഷൻ
- ശേഖരിച്ച ഓഡിയോ ഡാറ്റ 15 സെക്കൻഡ് വീതമുള്ള സ്പീച്ച് സെഗ്മെന്റുകളായി വിഭജിക്കുകയും ഒരു സംഭാഷണത്തിലെ ഓരോ സ്പീക്കർ, ശബ്ദ തരം, തിരിവുകൾ, ഉച്ചാരണങ്ങൾ, വാക്യങ്ങൾ എന്നിവയ്ക്ക് വേണ്ടി മില്ലിസെക്കൻഡിലേക്ക് ടൈംസ്റ്റാമ്പ് ചെയ്യുകയും ചെയ്തു.
- ഒരു ശബ്ദ സിഗ്നലിന്റെ തുടക്കത്തിലും അവസാനത്തിലും 200-400 മില്ലിസെക്കൻഡ് പാഡിംഗ് ഉപയോഗിച്ച് അതിന്റെ ടാർഗെറ്റുചെയ്ത ശബ്ദ സിഗ്നലിനായി ഓരോ സെഗ്മെന്റും സൃഷ്ടിച്ചു.
- എല്ലാ സെഗ്മെന്റുകൾക്കും, ഇനിപ്പറയുന്ന ഒബ്ജക്റ്റുകൾ നിലവിലുണ്ട്, പൂരിപ്പിച്ചു, അതായത്, ആരംഭ സമയം, അവസാന സമയം, സെഗ്മെന്റ് ഐഡി, ഉച്ചത്തിലുള്ള നില (ഉച്ചത്തിലുള്ള, സാധാരണ, നിശബ്ദം), പ്രാഥമിക ശബ്ദ തരം (സംസാരം, ബബിൾ, സംഗീതം, ശബ്ദം, ഓവർലാപ്പ്), ഭാഷാ കോഡ് സ്പീക്കർ ഐഡി, ട്രാൻസ്ക്രിപ്ഷൻ തുടങ്ങിയവ.
3. ഗുണനിലവാര പരിശോധനയും ഫീഡ്ബാക്കും
- എല്ലാ റെക്കോർഡിംഗുകളും ഗുണനിലവാരത്തിനായി വിലയിരുത്തി, WER 90% ഉം TER 90% ഉം ഉള്ള സാധുതയുള്ള സംഭാഷണ റെക്കോർഡിംഗുകൾ മാത്രമേ ഡെലിവർ ചെയ്തിട്ടുള്ളൂ
- ഗുണനിലവാര ചെക്ക്ലിസ്റ്റ് പിന്തുടരുന്നു:
» സെഗ്മെന്റ് ദൈർഘ്യത്തിന്റെ പരമാവധി 15 സെക്കൻഡ്
» നിർദ്ദിഷ്ട ഡൊമെയ്നുകളിൽ നിന്നുള്ള ട്രാൻസ്ക്രിപ്ഷൻ, അതായത്: കാലാവസ്ഥ, വ്യത്യസ്ത തരം വാർത്തകൾ, ആരോഗ്യം, കൃഷി, വിദ്യാഭ്യാസം, ജോലികൾ അല്ലെങ്കിൽ ധനകാര്യം
» കുറഞ്ഞ പശ്ചാത്തല ശബ്ദം
» ഓഡിയോ ക്ലിപ്പ് ഓഫില്ല - വക്രീകരണമില്ല
» ട്രാൻസ്ക്രിപ്ഷനായി ശരിയായ ഓഡിയോ സെഗ്മെന്റേഷൻ
4. ഡാറ്റ ട്രാൻസ്ക്രിപ്ഷൻ
മടി, ഫില്ലർ വാക്കുകൾ, തെറ്റായ തുടക്കങ്ങൾ, മറ്റ് വാക്കാലുള്ള ടിക്കുകൾ എന്നിവയുൾപ്പെടെ സംസാരിക്കുന്ന എല്ലാ വാക്കുകളും ട്രാൻസ്ക്രിപ്ഷനിൽ കൃത്യമായി പകർത്തിയിട്ടുണ്ട്. വലിയക്ഷരങ്ങൾ, ചെറിയക്ഷരങ്ങൾ, അക്ഷരവിന്യാസം, വലിയക്ഷരം, ചുരുക്കങ്ങൾ, സങ്കോചങ്ങൾ, അക്കങ്ങൾ, എന്നിവയെ ചുറ്റിപ്പറ്റിയുള്ള വിശദമായ ട്രാൻസ്ക്രിപ്ഷൻ മാർഗ്ഗനിർദ്ദേശങ്ങളും ഞങ്ങൾ പിന്തുടർന്നു.
വിരാമചിഹ്നങ്ങൾ, ചുരുക്കെഴുത്തുകൾ, അവ്യക്തമായ സംസാരം, സംസാരമല്ലാത്ത ശബ്ദങ്ങൾ തുടങ്ങിയവ. കൂടാതെ, ശേഖരണത്തിനും ട്രാൻസ്ക്രിപ്ഷനുമായി പിന്തുടരുന്ന വർക്ക് ഫ്ലോ താഴെ പറയുന്നതാണ്:
ഫലം
വിദഗ്ധ ഭാഷാവിദഗ്ധരിൽ നിന്നുള്ള ഉയർന്ന നിലവാരമുള്ള ഓഡിയോ ഡാറ്റ, നിശ്ചിത സമയത്തിനുള്ളിൽ വ്യത്യസ്ത ഭാഷകളുള്ള 8 ഇന്ത്യൻ ഭാഷകളിൽ ബഹുഭാഷാ സ്പീച്ച് റെക്കഗ്നിഷൻ മോഡലുകൾ കൃത്യമായി പരിശീലിപ്പിക്കാനും നിർമ്മിക്കാനും ഇന്ത്യൻ ഇൻസ്റ്റിറ്റ്യൂട്ട് ഓഫ് ടെക്നോളജി - മദ്രാസിനെ പ്രാപ്തമാക്കും. സ്പീച്ച് റെക്കഗ്നിഷൻ മോഡലുകൾ ഇനിപ്പറയുന്നവയ്ക്ക് ഉപയോഗിക്കാം:
- പൗരന്മാരെ അവരുടെ സ്വന്തം മാതൃഭാഷയിലുള്ള സംരംഭങ്ങളുമായി ബന്ധിപ്പിച്ചുകൊണ്ട് ഡിജിറ്റൽ ഉൾപ്പെടുത്തലിനുള്ള ഭാഷാ തടസ്സം മറികടക്കുക.
- ഡിജിറ്റൽ ഭരണം പ്രോത്സാഹിപ്പിക്കുന്നു
- ഇന്ത്യൻ ഭാഷകളിൽ സേവനങ്ങൾക്കും ഉൽപന്നങ്ങൾക്കുമായി ഒരു ഇക്കോസിസ്റ്റം രൂപീകരിക്കുന്നതിനുള്ള കാറ്റലിസ്റ്റ്
- പൊതു താൽപ്പര്യമുള്ള ഡൊമെയ്നുകളിൽ കൂടുതൽ പ്രാദേശികവൽക്കരിച്ച ഡിജിറ്റൽ ഉള്ളടക്കം, പ്രത്യേകിച്ച്, ഭരണവും നയവും
സംഭാഷണ AI സ്പെയ്സിലെ ഷൈപ്പിന്റെ വൈദഗ്ധ്യം ഞങ്ങളെ ആകർഷിച്ചു. കർശനമായ സമയപരിധിയിലും മാർഗ്ഗനിർദ്ദേശങ്ങളിലും 8 ഭാഷകളിൽ വിദഗ്ദ്ധരായ ഭാഷാവിദഗ്ധരിൽ നിന്ന് ആവശ്യമായ പരിശീലന ഡാറ്റ സോഴ്സിംഗ്, സെഗ്മെന്റിംഗ്, ട്രാൻസ്ക്രൈബിംഗ്, ഡെലിവറി എന്നിവയിൽ നിന്നുള്ള അവരുടെ മൊത്തത്തിലുള്ള പ്രോജക്റ്റ് എക്സിക്യൂഷൻ കഴിവ്; ഗുണനിലവാരത്തിന്റെ സ്വീകാര്യമായ നിലവാരം നിലനിർത്തിക്കൊണ്ടുതന്നെ.”
നിങ്ങളുടെ സംഭാഷണ AI ആപ്ലിക്കേഷൻ വികസനം 100% ത്വരിതപ്പെടുത്തുക
തിരഞ്ഞെടുത്ത ക്ലയന്റുകൾ
ലോകത്തെ മുൻനിര AI ഉൽപ്പന്നങ്ങൾ നിർമ്മിക്കുന്നതിന് ടീമുകളെ പ്രാപ്തരാക്കുന്നു.