കേസ് പഠനം: സംഭാഷണ AI

3 ഇന്ത്യൻ ഭാഷകളിൽ ASR നിർമ്മിക്കുന്നതിനായി 8 മണിക്കൂറിലധികം ഡാറ്റ ശേഖരിച്ചു, വിഭജിച്ചു, ട്രാൻസ്ക്രൈബ് ചെയ്തു.
സംഭാഷണ AI
ഭാഷിണി പ്രോജക്ട് വഴി തങ്ങളുടെ പൗരന്മാർക്ക് അവരുടെ സ്വന്തം ഭാഷയിൽ ഇന്റർനെറ്റ്, ഡിജിറ്റൽ സേവനങ്ങൾ എളുപ്പത്തിൽ ലഭ്യമാക്കാൻ സർക്കാർ ലക്ഷ്യമിടുന്നു.

ഇന്ത്യയുടെ AI-അധിഷ്ഠിത ഭാഷാ വിവർത്തന പ്ലാറ്റ്‌ഫോമായ ഭഷിനി, ഡിജിറ്റൽ ഇന്ത്യ സംരംഭത്തിന്റെ ഒരു സുപ്രധാന ഭാഗമാണ്.

എം‌എസ്‌എംഇകൾക്കും സ്റ്റാർട്ടപ്പുകൾക്കും സ്വതന്ത്ര നവീകരണക്കാർക്കും ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് (എഐ), നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻ‌എൽ‌പി) ടൂളുകൾ നൽകാൻ രൂപകൽപ്പന ചെയ്‌തിരിക്കുന്ന ഭാഷിണി പ്ലാറ്റ്‌ഫോം ഒരു പൊതു വിഭവമായി പ്രവർത്തിക്കുന്നു. ഇന്ത്യൻ പൗരന്മാരെ അവരുടെ മാതൃഭാഷകളിൽ രാജ്യത്തെ ഡിജിറ്റൽ സംരംഭങ്ങളുമായി സംവദിക്കാൻ പ്രാപ്തരാക്കുന്നതിലൂടെ ഡിജിറ്റൽ ഉൾപ്പെടുത്തൽ പ്രോത്സാഹിപ്പിക്കുക എന്നതാണ് ഇതിന്റെ ലക്ഷ്യം.

കൂടാതെ, ഇന്ത്യൻ ഭാഷകളിൽ ഇന്റർനെറ്റ് ഉള്ളടക്കത്തിന്റെ ലഭ്യത ഗണ്യമായി വിപുലീകരിക്കാനും ഇത് ലക്ഷ്യമിടുന്നു. ഭരണവും നയവും ശാസ്ത്രവും സാങ്കേതികവിദ്യയും പോലുള്ള പൊതു താൽപ്പര്യമുള്ള മേഖലകളെ ഇത് പ്രത്യേകിച്ചും ലക്ഷ്യമിടുന്നു. തൽഫലമായി, ഇത് പൗരന്മാരെ അവരുടെ ഭാഷയിൽ ഇന്റർനെറ്റ് ഉപയോഗിക്കാൻ പ്രേരിപ്പിക്കുകയും അവരുടെ സജീവ പങ്കാളിത്തം പ്രോത്സാഹിപ്പിക്കുകയും ചെയ്യും.

യഥാർത്ഥ ലോക പരിഹാരം

ഡാറ്റ ഉപയോഗിച്ച് പ്രാദേശികവൽക്കരണത്തിന്റെ ശക്തി അഴിച്ചുവിടുന്നു

ഇന്ത്യൻ ഭാഷകളിൽ ഡിജിറ്റൽ സേവനങ്ങൾ നൽകുന്നതിന് ബഹുഭാഷാ ഡാറ്റാസെറ്റുകളും AI അടിസ്ഥാനമാക്കിയുള്ള ഭാഷാ സാങ്കേതിക പരിഹാരങ്ങളും സൃഷ്ടിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന ഒരു പ്ലാറ്റ്ഫോം ഇന്ത്യക്ക് ആവശ്യമായിരുന്നു. ഈ സംരംഭം ആരംഭിക്കുന്നതിന്, ഇന്ത്യൻ ഇൻസ്റ്റിറ്റ്യൂട്ട് ഓഫ് ടെക്‌നോളജി, മദ്രാസ് (ഐഐടി മദ്രാസ്) ഇന്ത്യൻ ഭാഷാ ഡാറ്റാസെറ്റുകൾ ശേഖരിക്കുന്നതിനും വിഭജിക്കുന്നതിനും ട്രാൻസ്‌ക്രൈബ് ചെയ്യുന്നതിനും ബഹുഭാഷാ സംഭാഷണ മാതൃകകൾ നിർമ്മിക്കുന്നതിന് ഷൈപ്പുമായി സഹകരിച്ചു.

വെല്ലുവിളികൾ

ഇന്ത്യൻ ഭാഷകൾക്കായുള്ള അവരുടെ സ്പീച്ച് ടെക്നോളജി സ്പീച്ച് റോഡ്മാപ്പ് ഉപയോഗിച്ച് ക്ലയന്റിനെ സഹായിക്കുന്നതിന്, AI മോഡൽ നിർമ്മിക്കുന്നതിന് ടീമിന് വലിയ അളവിലുള്ള പരിശീലന ഡാറ്റ ഏറ്റെടുക്കുകയും വിഭജിക്കുകയും ട്രാൻസ്ക്രൈബ് ചെയ്യുകയും വേണം. ഉപഭോക്താവിന്റെ നിർണായക ആവശ്യകതകൾ ഇവയായിരുന്നു:

ഡാറ്റ ശേഖരണം

  • ഓരോ ഭാഷയ്ക്കും 3000 ഭാഷകളുള്ള 8 ഇന്ത്യൻ ഭാഷകളിൽ 4 മണിക്കൂർ പരിശീലന ഡാറ്റ നേടുക.
  • ഓരോ ഭാഷയ്‌ക്കും, വിതരണക്കാരൻ എക്‌സ്‌ടെമ്പോർ സ്‌പീച്ച് ശേഖരിക്കും
    18-60 വയസ് പ്രായമുള്ളവരിൽ നിന്നുള്ള സംഭാഷണ പ്രസംഗം
  • പ്രായം, ലിംഗഭേദം, വിദ്യാഭ്യാസം, ഭാഷകൾ എന്നിവ അനുസരിച്ച് സംസാരിക്കുന്നവരുടെ വൈവിധ്യമാർന്ന മിശ്രിതം ഉറപ്പാക്കുക
  • സ്പെസിഫിക്കേഷനുകൾ അനുസരിച്ച് റെക്കോർഡിംഗ് പരിതസ്ഥിതികളുടെ വൈവിധ്യമാർന്ന മിശ്രിതം ഉറപ്പാക്കുക.
  • ഓരോ ഓഡിയോ റെക്കോർഡിംഗും കുറഞ്ഞത് 16kHz ആയിരിക്കണം, എന്നാൽ 44kHz ആയിരിക്കണം

ഡാറ്റ സെഗ്മെന്റേഷൻ

  • ഓരോ സ്പീക്കറിനും 15 സെക്കൻഡ് ദൈർഘ്യമുള്ള സംഭാഷണ സെഗ്‌മെന്റുകൾ സൃഷ്‌ടിക്കുകയും ഓഡിയോയെ മില്ലിസെക്കൻഡിലേക്ക് ടൈംസ്റ്റാമ്പ് ചെയ്യുകയും ചെയ്യുക, ഒരു സംഭാഷണത്തിലെ ശബ്ദ തരം (സംസാരം, ബബിൾ, സംഗീതം, ശബ്ദം), തിരിവുകൾ, ഉച്ചാരണങ്ങൾ, ശൈലികൾ
  • തുടക്കത്തിലും അവസാനത്തിലും 200-400 മില്ലിസെക്കൻഡ് പാഡിംഗ് ഉപയോഗിച്ച് ടാർഗെറ്റുചെയ്‌ത ശബ്‌ദ സിഗ്നലിനായി ഓരോ സെഗ്‌മെന്റും സൃഷ്‌ടിക്കുക.
  • എല്ലാ സെഗ്‌മെന്റുകൾക്കും, ഇനിപ്പറയുന്ന ഒബ്‌ജക്‌റ്റുകൾ പൂരിപ്പിക്കണം, അതായത്, ആരംഭ സമയം, അവസാന സമയം, സെഗ്‌മെന്റ് ഐഡി, ഉച്ചത്തിലുള്ള ലെവൽ, ശബ്‌ദ തരം, ഭാഷാ കോഡ്, സ്പീക്കർ ഐഡി മുതലായവ.

ഡാറ്റ ട്രാൻസ്ക്രിപ്ഷൻ

  • പ്രതീകങ്ങളും പ്രത്യേക ചിഹ്നങ്ങളും, അക്ഷരവിന്യാസവും വ്യാകരണവും, ക്യാപിറ്റലൈസേഷൻ, ചുരുക്കെഴുത്തുകൾ, സങ്കോചങ്ങൾ, വ്യക്തിഗത സംഭാഷണ അക്ഷരങ്ങൾ, അക്കങ്ങൾ, വിരാമചിഹ്നങ്ങൾ, ചുരുക്കെഴുത്തുകൾ, അവ്യക്തമായ, സംസാരം, അവ്യക്തമായ സംഭാഷണം, ലക്ഷ്യമല്ലാത്ത ഭാഷകൾ, അല്ലാത്തവ തുടങ്ങിയവയെ ചുറ്റിപ്പറ്റിയുള്ള വിശദമായ ട്രാൻസ്ക്രിപ്ഷൻ മാർഗ്ഗനിർദ്ദേശങ്ങൾ പിന്തുടരുക.

ഗുണനിലവാര പരിശോധനയും ഫീഡ്‌ബാക്കും

  • എല്ലാ റെക്കോർഡിംഗുകളും ഗുണനിലവാര വിലയിരുത്തലിനും മൂല്യനിർണ്ണയത്തിനും വിധേയമാക്കും, സാധുതയുള്ള സംഭാഷണം മാത്രമേ നൽകാവൂ

പരിഹാരം

സംഭാഷണ AI-യെ കുറിച്ചുള്ള ആഴത്തിലുള്ള ധാരണയോടെ, 8 ഇന്ത്യൻ ഭാഷകളിൽ ഓഡിയോ ഡാറ്റാസെറ്റിന്റെ വലിയ കോർപ്പസ് നിർമ്മിക്കുന്നതിന് വിദഗ്ദ്ധരായ കളക്ടർമാർ, ഭാഷാശാസ്ത്രജ്ഞർ, വ്യാഖ്യാനകർ എന്നിവരുടെ ഒരു ടീമിനൊപ്പം ഡാറ്റ ശേഖരിക്കാനും വിഭജിക്കാനും ട്രാൻസ്ക്രൈബ് ചെയ്യാനും ഞങ്ങൾ ക്ലയന്റിനെ സഹായിച്ചു.

Shaip-നുള്ള പ്രവർത്തനത്തിന്റെ വ്യാപ്തി ഉൾപ്പെടുത്തിയിട്ടുണ്ട്, എന്നാൽ വലിയ അളവിലുള്ള ഓഡിയോ പരിശീലന ഡാറ്റ നേടുക, ഓഡിയോ റെക്കോർഡിംഗുകൾ ഒന്നിലധികം വിഭാഗങ്ങളായി വിഭജിക്കുക, ഡാറ്റ ട്രാൻസ്‌ക്രൈബ് ചെയ്യുക, മെറ്റാഡാറ്റ [SpeakerID, Age, Gender, Language, Dialect] അടങ്ങുന്ന അനുബന്ധ JSON ഫയലുകൾ ഡെലിവർ ചെയ്യുക എന്നിവയിൽ മാത്രം പരിമിതപ്പെടുത്തിയിരുന്നില്ല.
മാതൃഭാഷ, യോഗ്യത, തൊഴിൽ, ഡൊമെയ്ൻ, ഫയൽ ഫോർമാറ്റ്, ഫ്രീക്വൻസി, ചാനൽ, ഓഡിയോ തരം, സ്പീക്കറുകളുടെ എണ്ണം, വിദേശ ഭാഷകളുടെ എണ്ണം, ഉപയോഗിച്ച സജ്ജീകരണം, ഇടുങ്ങിയ ബാൻഡ് അല്ലെങ്കിൽ വൈഡ്ബാൻഡ് ഓഡിയോ മുതലായവ].

സങ്കീർണ്ണമായ പ്രോജക്റ്റുകൾക്കായി സംഭാഷണ സാങ്കേതികവിദ്യയെ പരിശീലിപ്പിക്കുന്നതിന് ആവശ്യമായ ഗുണനിലവാരം നിലനിർത്തിക്കൊണ്ട് Shaip സ്കെയിലിൽ 3000 മണിക്കൂർ ഓഡിയോ ഡാറ്റ ശേഖരിച്ചു. പങ്കെടുത്ത ഓരോരുത്തരിൽ നിന്നും വ്യക്തമായ സമ്മതപത്രം എടുത്തു.

1. ഡാറ്റ ശേഖരണം

2. ഡാറ്റ സെഗ്മെന്റേഷൻ

  • ശേഖരിച്ച ഓഡിയോ ഡാറ്റ 15 സെക്കൻഡ് വീതമുള്ള സ്പീച്ച് സെഗ്‌മെന്റുകളായി വിഭജിക്കുകയും ഒരു സംഭാഷണത്തിലെ ഓരോ സ്പീക്കർ, ശബ്‌ദ തരം, തിരിവുകൾ, ഉച്ചാരണങ്ങൾ, വാക്യങ്ങൾ എന്നിവയ്‌ക്ക് വേണ്ടി മില്ലിസെക്കൻഡിലേക്ക് ടൈംസ്റ്റാമ്പ് ചെയ്യുകയും ചെയ്തു.
  • ഒരു ശബ്‌ദ സിഗ്നലിന്റെ തുടക്കത്തിലും അവസാനത്തിലും 200-400 മില്ലിസെക്കൻഡ് പാഡിംഗ് ഉപയോഗിച്ച് അതിന്റെ ടാർഗെറ്റുചെയ്‌ത ശബ്‌ദ സിഗ്നലിനായി ഓരോ സെഗ്‌മെന്റും സൃഷ്‌ടിച്ചു.
  • എല്ലാ സെഗ്‌മെന്റുകൾക്കും, ഇനിപ്പറയുന്ന ഒബ്‌ജക്‌റ്റുകൾ നിലവിലുണ്ട്, പൂരിപ്പിച്ചു, അതായത്, ആരംഭ സമയം, അവസാന സമയം, സെഗ്‌മെന്റ് ഐഡി, ഉച്ചത്തിലുള്ള നില (ഉച്ചത്തിലുള്ള, സാധാരണ, നിശബ്ദം), പ്രാഥമിക ശബ്‌ദ തരം (സംസാരം, ബബിൾ, സംഗീതം, ശബ്ദം, ഓവർലാപ്പ്), ഭാഷാ കോഡ് സ്പീക്കർ ഐഡി, ട്രാൻസ്ക്രിപ്ഷൻ തുടങ്ങിയവ.

3. ഗുണനിലവാര പരിശോധനയും ഫീഡ്‌ബാക്കും

  • എല്ലാ റെക്കോർഡിംഗുകളും ഗുണനിലവാരത്തിനായി വിലയിരുത്തി, WER 90% ഉം TER 90% ഉം ഉള്ള സാധുതയുള്ള സംഭാഷണ റെക്കോർഡിംഗുകൾ മാത്രമേ ഡെലിവർ ചെയ്തിട്ടുള്ളൂ
  • ഗുണനിലവാര ചെക്ക്‌ലിസ്റ്റ് പിന്തുടരുന്നു:
    » സെഗ്‌മെന്റ് ദൈർഘ്യത്തിന്റെ പരമാവധി 15 സെക്കൻഡ്
    » നിർദ്ദിഷ്‌ട ഡൊമെയ്‌നുകളിൽ നിന്നുള്ള ട്രാൻസ്‌ക്രിപ്ഷൻ, അതായത്: കാലാവസ്ഥ, വ്യത്യസ്ത തരം വാർത്തകൾ, ആരോഗ്യം, കൃഷി, വിദ്യാഭ്യാസം, ജോലികൾ അല്ലെങ്കിൽ ധനകാര്യം
    » കുറഞ്ഞ പശ്ചാത്തല ശബ്ദം
    » ഓഡിയോ ക്ലിപ്പ് ഓഫില്ല - വക്രീകരണമില്ല
    » ട്രാൻസ്ക്രിപ്ഷനായി ശരിയായ ഓഡിയോ സെഗ്മെന്റേഷൻ

4. ഡാറ്റ ട്രാൻസ്ക്രിപ്ഷൻ
മടി, ഫില്ലർ വാക്കുകൾ, തെറ്റായ തുടക്കങ്ങൾ, മറ്റ് വാക്കാലുള്ള ടിക്കുകൾ എന്നിവയുൾപ്പെടെ സംസാരിക്കുന്ന എല്ലാ വാക്കുകളും ട്രാൻസ്ക്രിപ്ഷനിൽ കൃത്യമായി പകർത്തിയിട്ടുണ്ട്. വലിയക്ഷരങ്ങൾ, ചെറിയക്ഷരങ്ങൾ, അക്ഷരവിന്യാസം, വലിയക്ഷരം, ചുരുക്കങ്ങൾ, സങ്കോചങ്ങൾ, അക്കങ്ങൾ, എന്നിവയെ ചുറ്റിപ്പറ്റിയുള്ള വിശദമായ ട്രാൻസ്ക്രിപ്ഷൻ മാർഗ്ഗനിർദ്ദേശങ്ങളും ഞങ്ങൾ പിന്തുടർന്നു.
വിരാമചിഹ്നങ്ങൾ, ചുരുക്കെഴുത്തുകൾ, അവ്യക്തമായ സംസാരം, സംസാരമല്ലാത്ത ശബ്ദങ്ങൾ തുടങ്ങിയവ. കൂടാതെ, ശേഖരണത്തിനും ട്രാൻസ്ക്രിപ്ഷനുമായി പിന്തുടരുന്ന വർക്ക് ഫ്ലോ താഴെ പറയുന്നതാണ്:

ഫലം

വിദഗ്ധ ഭാഷാവിദഗ്ധരിൽ നിന്നുള്ള ഉയർന്ന നിലവാരമുള്ള ഓഡിയോ ഡാറ്റ, നിശ്ചിത സമയത്തിനുള്ളിൽ വ്യത്യസ്ത ഭാഷകളുള്ള 8 ഇന്ത്യൻ ഭാഷകളിൽ ബഹുഭാഷാ സ്പീച്ച് റെക്കഗ്നിഷൻ മോഡലുകൾ കൃത്യമായി പരിശീലിപ്പിക്കാനും നിർമ്മിക്കാനും ഇന്ത്യൻ ഇൻസ്റ്റിറ്റ്യൂട്ട് ഓഫ് ടെക്നോളജി - മദ്രാസിനെ പ്രാപ്തമാക്കും. സ്പീച്ച് റെക്കഗ്നിഷൻ മോഡലുകൾ ഇനിപ്പറയുന്നവയ്ക്ക് ഉപയോഗിക്കാം:

  • പൗരന്മാരെ അവരുടെ സ്വന്തം മാതൃഭാഷയിലുള്ള സംരംഭങ്ങളുമായി ബന്ധിപ്പിച്ചുകൊണ്ട് ഡിജിറ്റൽ ഉൾപ്പെടുത്തലിനുള്ള ഭാഷാ തടസ്സം മറികടക്കുക.
  • ഡിജിറ്റൽ ഭരണം പ്രോത്സാഹിപ്പിക്കുന്നു
  • ഇന്ത്യൻ ഭാഷകളിൽ സേവനങ്ങൾക്കും ഉൽപന്നങ്ങൾക്കുമായി ഒരു ഇക്കോസിസ്റ്റം രൂപീകരിക്കുന്നതിനുള്ള കാറ്റലിസ്റ്റ്
  • പൊതു താൽപ്പര്യമുള്ള ഡൊമെയ്‌നുകളിൽ കൂടുതൽ പ്രാദേശികവൽക്കരിച്ച ഡിജിറ്റൽ ഉള്ളടക്കം, പ്രത്യേകിച്ച്, ഭരണവും നയവും
ഗോൾഡൻ-5-നക്ഷത്രം

സംഭാഷണ AI സ്‌പെയ്‌സിലെ ഷൈപ്പിന്റെ വൈദഗ്‌ധ്യം ഞങ്ങളെ ആകർഷിച്ചു. കർശനമായ സമയപരിധിയിലും മാർഗ്ഗനിർദ്ദേശങ്ങളിലും 8 ഭാഷകളിൽ വിദഗ്ദ്ധരായ ഭാഷാവിദഗ്ധരിൽ നിന്ന് ആവശ്യമായ പരിശീലന ഡാറ്റ സോഴ്‌സിംഗ്, സെഗ്‌മെന്റിംഗ്, ട്രാൻസ്‌ക്രൈബിംഗ്, ഡെലിവറി എന്നിവയിൽ നിന്നുള്ള അവരുടെ മൊത്തത്തിലുള്ള പ്രോജക്റ്റ് എക്‌സിക്യൂഷൻ കഴിവ്; ഗുണനിലവാരത്തിന്റെ സ്വീകാര്യമായ നിലവാരം നിലനിർത്തിക്കൊണ്ടുതന്നെ.”

നിങ്ങളുടെ സംഭാഷണ AI ആപ്ലിക്കേഷൻ വികസനം 100% ത്വരിതപ്പെടുത്തുക

തിരഞ്ഞെടുത്ത ക്ലയന്റുകൾ

ലോകത്തെ മുൻ‌നിര AI ഉൽ‌പ്പന്നങ്ങൾ‌ നിർമ്മിക്കുന്നതിന് ടീമുകളെ പ്രാപ്തരാക്കുന്നു.