ഇന്ത്യയെപ്പോലെ സാംസ്കാരിക വൈവിധ്യവും ഭാഷാപരമായി സമ്പന്നവുമായ ഒരു രാജ്യത്ത്, ഉൾക്കൊള്ളുന്ന AI നിർമ്മിക്കുന്നത് ആരംഭിക്കുന്നത് പ്രാതിനിധ്യമുള്ളതും ഉയർന്ന നിലവാരമുള്ളതുമായ ഡാറ്റാസെറ്റുകൾ ശേഖരിക്കുന്നതിലൂടെയാണ്. അതാണ് പിന്നിലെ ദർശനം. പ്രോജക്റ്റ് വാണി— നയിക്കുന്ന ഒരു വലിയ തോതിലുള്ള, ഓപ്പൺ സോഴ്സ് സംരംഭം ആർട്ട്പാർക്ക്, ഐഐഎസ്സി ബെംഗളൂരു, ഒപ്പം ഗൂഗിൾ, എല്ലാ ഇന്ത്യൻ ഭാഷകൾക്കും ഭാഷാഭേദങ്ങൾക്കും ശബ്ദം നൽകുക എന്നതാണ് ലക്ഷ്യം.
അഭിലാഷകരമായ ലക്ഷ്യമോ? ശേഖരിക്കുക എന്നതോ? 150,000+ മണിക്കൂർ സംസാരം ഒപ്പം 15,000+ മണിക്കൂർ ട്രാൻസ്ക്രിപ്ഷനുകൾ നിന്ന് ക്സനുമ്ക്സ ദശലക്ഷം ആളുകൾ ഉടനീളം 773 ജില്ലകൾ ഇന്ത്യയുടെ.
ഈ ദേശീയ ദൗത്യത്തിന്റെ പ്രധാന വിൽപ്പനക്കാരിൽ ഒരാളെന്ന നിലയിൽ, ഷേപ്പ് സ്വതസിദ്ധമായ സംഭാഷണ ഡാറ്റ, ട്രാൻസ്ക്രിപ്ഷൻ, മെറ്റാഡാറ്റ ശേഖരണം എന്നിവ ക്യൂറേറ്റ് ചെയ്യുന്നതിൽ നിർണായക പങ്ക് വഹിച്ചു - യഥാർത്ഥ ഇന്ത്യയെ യഥാർത്ഥത്തിൽ പ്രതിനിധീകരിക്കുന്ന തുല്യമായ ശബ്ദ സാങ്കേതികവിദ്യകൾക്ക് അടിത്തറ പാകി.
വാണി പദ്ധതിയുടെ പിന്നിലെ കാഴ്ചപ്പാട്
AI ഉൾപ്പെടുത്തൽ വിടവ് നികത്തുന്നതിനാണ് പ്രോജക്റ്റ് വാണി രൂപകൽപ്പന ചെയ്തിരിക്കുന്നത്, സൃഷ്ടിച്ചുകൊണ്ട് ഏറ്റവും വലിയ മൾട്ടിമോഡൽ, ബഹുഭാഷാ, ഓപ്പൺ സോഴ്സ് ഡാറ്റാസെറ്റ് ഇന്ത്യയിൽ. പ്രാദേശിക ഇന്ത്യൻ ഭാഷകളിൽ കൃത്യമായ സംഭാഷണ തിരിച്ചറിയൽ, വിവർത്തനം, ജനറേറ്റീവ് AI സംവിധാനങ്ങൾ എന്നിവ വികസിപ്പിക്കുന്നതിനുള്ള അടിസ്ഥാന ഡാറ്റയാണിത് - ഇവയിൽ പലതും ആഗോള സാങ്കേതിക പരിസ്ഥിതി വ്യവസ്ഥകളിൽ പ്രാതിനിധ്യം കുറവാണ്.
ഇനിപ്പറയുന്ന മേഖലകളിൽ ഫലപ്രദമായ ആപ്ലിക്കേഷനുകൾക്ക് ശക്തി പകരുക എന്നതാണ് ദീർഘകാല ദർശനം:
- ആരോഗ്യ പരിരക്ഷ – ശബ്ദാധിഷ്ഠിത ടെലിമെഡിസിൻ
- പഠനം - പ്രാദേശിക ഭാഷാ പഠന വേദികൾ
- ഭരണം – പൗര സേവനങ്ങൾക്കായുള്ള സംഭാഷണ ഇന്റർഫേസുകൾ
- പ്രവേശനക്ഷമത - വികലാംഗ ഉപയോക്താക്കൾക്കുള്ള ശബ്ദ ഉപകരണങ്ങൾ
- ദുരന്ത പ്രതികരണം - പ്രാദേശിക ഭാഷകളിൽ തത്സമയ ആശയവിനിമയം
പ്രോജക്റ്റ് വാണിക്ക് വേണ്ടി ഇന്ത്യയിലെ ഏറ്റവും വലിയ ഓപ്പൺ സോഴ്സ് സ്പീച്ച് ഡാറ്റാസെറ്റ് നിർമ്മിക്കാൻ ഷായിപ്പ് എങ്ങനെ സഹായിച്ചു
ഇവയുടെ ശേഖരണ ചുമതല ഷായിപ്പിനെ ഏൽപ്പിച്ചു. 8,000 മണിക്കൂർ സ്വതസിദ്ധമായ സംസാരം ഒപ്പം 800 മണിക്കൂർ സ്വമേധയാ പരിശോധിച്ചുറപ്പിച്ച ട്രാൻസ്ക്രിപ്ഷനുകൾ. സ്പീക്കർ ഓൺബോർഡിംഗ്, ഓഡിയോ ക്യാപ്ചർ, മെറ്റാഡാറ്റ ടാഗിംഗ്, ട്രാൻസ്ക്രിപ്ഷൻ ഏകോപനം, ഗുണനിലവാര നിയന്ത്രണം എന്നിവ ഞങ്ങളുടെ ഉത്തരവാദിത്തത്തിൽ ഉൾപ്പെട്ടിരുന്നു.
8,000 മണിക്കൂർ സ്വയമേവയുള്ള ഓഡിയോ ഡാറ്റയുടെ
നിന്നുള്ള റെക്കോർഡിംഗുകൾ ഓരോ ജില്ലയിലും 400+ മാതൃഭാഷക്കാർ, വ്യത്യസ്ത പ്രായക്കാർ, ലിംഗഭേദങ്ങൾ, ഭാഷാഭേദങ്ങൾ എന്നിവയെ പ്രതിനിധീകരിക്കുന്നു
80 ജില്ലകൾ, മൂടി
ഉറപ്പാക്കാൻ ഇമേജ് അധിഷ്ഠിത പ്രോംപ്റ്റിംഗ് സ്വാഭാവികമായ, സന്ദർഭോചിതമായ സംസാരം
ഞങ്ങളുടെ സമീപനത്തെ അദ്വിതീയമാക്കിയത് ഇതാ:
ജില്ലാതല വൈവിധ്യം
ബീഹാർ, ഉത്തർപ്രദേശ്, കർണാടക, പശ്ചിമ ബംഗാൾ, മഹാരാഷ്ട്ര തുടങ്ങിയ സംസ്ഥാനങ്ങളിലായി വ്യാപിച്ചുകിടക്കുന്ന 80 ജില്ലകളിൽ നിന്നാണ് ഞങ്ങൾ റെക്കോർഡിംഗുകൾ ശേഖരിച്ചത്. ഓരോ ജില്ലയും 100 മണിക്കൂർ ഓഡിയോ ഡാറ്റ സംഭാവന ചെയ്തു, പ്രാദേശിക സന്തുലിതാവസ്ഥ ഉറപ്പാക്കി. മുഖ്യധാരാ AI ഡാറ്റാസെറ്റുകളിൽ പലപ്പോഴും അവഗണിക്കപ്പെടുന്ന പ്രാദേശിക ഉച്ചാരണങ്ങളുടെയും ഭാഷകളുടെയും പ്രാതിനിധ്യം ഉറപ്പാക്കിക്കൊണ്ട് ഞങ്ങൾ മാതൃഭാഷ സംസാരിക്കുന്നവരെ ഉൾപ്പെടുത്തി.
ഭാഷാപരവും ജനസംഖ്യാപരവുമായ പ്രാതിനിധ്യം
ബീഹാർ, ഉത്തർപ്രദേശ്, കർണാടക, പശ്ചിമ ബംഗാൾ, മഹാരാഷ്ട്ര തുടങ്ങിയ സംസ്ഥാനങ്ങളിലായി വ്യാപിച്ചുകിടക്കുന്ന 80 ജില്ലകളിൽ നിന്നാണ് ഞങ്ങൾ റെക്കോർഡിംഗുകൾ ശേഖരിച്ചത്. ഓരോ ജില്ലയും 100 മണിക്കൂർ ഓഡിയോ ഡാറ്റ സംഭാവന ചെയ്തു, പ്രാദേശിക സന്തുലിതാവസ്ഥ ഉറപ്പാക്കി. മുഖ്യധാരാ AI ഡാറ്റാസെറ്റുകളിൽ പലപ്പോഴും അവഗണിക്കപ്പെടുന്ന പ്രാദേശിക ഉച്ചാരണങ്ങളുടെയും ഭാഷകളുടെയും പ്രാതിനിധ്യം ഉറപ്പാക്കിക്കൊണ്ട് ഞങ്ങൾ മാതൃഭാഷ സംസാരിക്കുന്നവരെ ഉൾപ്പെടുത്തി.
ഇമേജ്-പ്രൊംപ്റ്റഡ് സ്പീച്ച്
സ്വാഭാവികവും സ്വാഭാവികവുമായ പദാവലി ഉത്തേജിപ്പിക്കുന്നതിനായി, പങ്കെടുക്കുന്നവർക്ക് ഒരു സെഷനിൽ 45–90 ചിത്രങ്ങൾ കാണിക്കുകയും അവ വിവരിക്കാൻ ആവശ്യപ്പെടുകയും ചെയ്തു. സാംസ്കാരിക ചിഹ്നങ്ങൾ മുതൽ ദൈനംദിന വസ്തുക്കൾ വരെയുള്ള വൈവിധ്യമാർന്ന ചിത്രങ്ങൾ ഉപയോഗിച്ച് അവരുടെ മാതൃഭാഷയിൽ സ്വാഭാവികവും സ്വാഭാവികവുമായ പ്രതികരണങ്ങൾ ഉണർത്താൻ പങ്കാളികളോട് ആവശ്യപ്പെട്ടു. വിപുലമായ NLP സിസ്റ്റങ്ങളെ പരിശീലിപ്പിക്കുന്നതിന് അത്യാവശ്യമായ യഥാർത്ഥ ലോകവും സന്ദർഭോചിതവുമായ സംസാരം റെക്കോർഡിംഗുകൾ പ്രതിഫലിപ്പിക്കുന്നുവെന്ന് ഇത് ഉറപ്പാക്കി.
ഉയർന്ന നിലവാരമുള്ള ട്രാൻസ്ക്രിപ്ഷൻ മാനദണ്ഡങ്ങൾ
സംഭാഷണ ഡാറ്റയുടെ 10% മാത്രമേ ട്രാൻസ്ക്രൈബ് ചെയ്തിട്ടുള്ളൂ - 800 മണിക്കൂർ. സ്പീക്കറുടെ 20-50 കിലോമീറ്റർ ചുറ്റളവിൽ പ്രാദേശിക ഭാഷാശാസ്ത്രജ്ഞരാണ് ട്രാൻസ്ക്രിപ്ഷനുകൾ നടത്തിയത്, ഇത് ഭാഷാഭേദങ്ങളും സൂക്ഷ്മതകളും പരിചയപ്പെടുന്നുവെന്ന് ഉറപ്പാക്കി. രണ്ടാമത്തെ ലെയർ പരിശോധന <5% പദ പിശക് നിരക്ക് (WER) ഉറപ്പാക്കി.
കർശനമായ ഗുണനിലവാര ഉറപ്പ്
ഓഡിയോ ഡാറ്റ ഒരു ഉയർന്ന ബാർ പാലിക്കണം: പശ്ചാത്തല ശബ്ദം, പ്രതിധ്വനികൾ, ഫോൺ വൈബ്രേഷനുകൾ അല്ലെങ്കിൽ വികലതകൾ എന്നിവ പാടില്ല. നിശബ്ദവും പ്രതിധ്വനികൾ ഇല്ലാത്തതുമായ അന്തരീക്ഷത്തിലാണ് ഓഡിയോ റെക്കോർഡുചെയ്തത്. സംഭാഷണ വ്യക്തത, ശബ്ദ നിലകൾ, മെറ്റാഡാറ്റ കൃത്യത, സ്പീക്കർ സ്ഥിരീകരണം എന്നിവയ്ക്കായുള്ള മാർഗ്ഗനിർദ്ദേശങ്ങൾ പാലിക്കുന്നതിന് ഫയലുകൾ കർശനമായ അവലോകനത്തിന് വിധേയമാക്കി. എല്ലാ ഫയലുകളിലും മെറ്റാഡാറ്റ ടാഗിംഗ് കൃത്യമായിരിക്കണം, കൂടാതെ എല്ലാ റെക്കോർഡിംഗുകളും സ്പീക്കറിനും ലൊക്കേഷൻ വിന്യാസത്തിനും പരിശോധിച്ചു.
ഞങ്ങൾ പരിഹരിച്ച വെല്ലുവിളികൾ
- റിമോട്ട് ലോജിസ്റ്റിക്സ് – 80 ജില്ലകളിലുടനീളമുള്ള ടീമുകളെ കൈകാര്യം ചെയ്യുന്നു
- സ്പീക്കർ വൈവിധ്യം - വിദൂര സ്ഥലങ്ങളിൽ 32,000+ പരിശോധിച്ചുറപ്പിച്ച സ്പീക്കറുകളെ ഉൾപ്പെടുത്തുന്നു.
- സാംസ്കാരിക സംവേദനക്ഷമത - പ്രാദേശിക ആചാരങ്ങളെയും ഭാഷാഭേദങ്ങളെയും ബഹുമാനിക്കുക
- ഡാറ്റ സമഗ്രത - ഗുണനിലവാരവും അനുസരണ മാനദണ്ഡങ്ങളും പാലിക്കൽ
- ഗുണനിലവാര നിയന്ത്രണം - ഒന്നിലധികം ഭാഷാപരവും സാംസ്കാരികവുമായ സന്ദർഭങ്ങളിൽ
കൃത്യമായ ആസൂത്രണം, സാങ്കേതികവിദ്യ അടിസ്ഥാനമാക്കിയുള്ള സാധൂകരണം, ഓരോ പ്രദേശത്തിന്റെയും സാംസ്കാരിക സൂക്ഷ്മതകൾ മനസ്സിലാക്കിയ പ്രാദേശിക ടീമുകളുമായുള്ള പങ്കാളിത്തം എന്നിവയിലൂടെയാണ് ഞങ്ങളുടെ വിജയം ഉണ്ടായത്.
ആഘാതവും പ്രയോഗങ്ങളും
ഷൈപ്പിന്റെ സംഭാവന പ്രോജക്റ്റ് വാണിയുടെ പുരോഗതി ത്വരിതപ്പെടുത്തുക മാത്രമല്ല, ഇന്ത്യയിൽ ഇൻക്ലൂസീവ് എഐയ്ക്ക് അടിത്തറയിടുകയും ചെയ്തു. ക്യൂറേറ്റഡ് സ്പീച്ച് ഡാറ്റാസെറ്റ് ഇതിനകം തന്നെ ഇനിപ്പറയുന്നവയ്ക്കായി AI മോഡലുകൾ നിർമ്മിക്കുന്നതിനും മികച്ചതാക്കുന്നതിനും ഉപയോഗിക്കുന്നു:
- വെർണാക്കുലർ വോയ്സ് അസിസ്റ്റന്റുകൾ
- പ്രാദേശിക വിവർത്തന എഞ്ചിനുകൾ
- കാഴ്ച വൈകല്യമുള്ളവർക്ക് ഉപയോഗിക്കാവുന്ന ആശയവിനിമയ ഉപകരണങ്ങൾ
- ഗ്രാമീണ വിദ്യാർത്ഥികൾക്കായി AI-അധിഷ്ഠിത എഡ്ടെക് പ്ലാറ്റ്ഫോമുകൾ
- ഗ്രാമീണ ടെലിമെഡിസിൻ
- ശബ്ദാധിഷ്ഠിത പൗര സേവനങ്ങൾ
- തത്സമയ വിവർത്തനവും ട്രാൻസ്ക്രിപ്ഷനും
തീരുമാനം
എല്ലാവരെയും ഉൾക്കൊള്ളുന്നതും ആക്സസ് ചെയ്യാവുന്നതുമായ AI-യിലേക്കുള്ള ഒരു ധീരമായ ചുവടുവയ്പ്പാണ് പ്രോജക്റ്റ് വാണി - ഇതിൽ ഒരു അടിസ്ഥാന പങ്ക് വഹിക്കാൻ ഷായിപ്പിന് ബഹുമതിയുണ്ട്. വൈവിധ്യത്തിലും പ്രാതിനിധ്യത്തിലും വേരൂന്നിയ ധാർമ്മികവും ഉൾക്കൊള്ളുന്നതുമായ AI സംവിധാനങ്ങൾ നിർമ്മിക്കുന്നതിനുള്ള നമ്മുടെ പ്രതിബദ്ധതയെ വീണ്ടും ഉറപ്പിക്കുന്നതാണ് പ്രോജക്റ്റ് വാണിയിലെ ഷൈപ്പിന്റെ പ്രവർത്തനങ്ങൾ. 8,000 മണിക്കൂറിലധികം പ്രസംഗം ശേഖരിക്കുകയും 800 മണിക്കൂർ ട്രാൻസ്ക്രൈബ് ചെയ്യുകയും ചെയ്തതോടെ, ഇന്ത്യയിലെ ഏറ്റവും ദീർഘവീക്ഷണമുള്ള ഡിജിറ്റൽ ഉൾപ്പെടുത്തൽ പദ്ധതികളിൽ ഒന്നിൽ പങ്കു വഹിക്കാൻ കഴിഞ്ഞതിൽ ഞങ്ങൾ അഭിമാനിക്കുന്നു.
150,000+ മണിക്കൂർ ഡാറ്റ എന്ന വലിയ ലക്ഷ്യത്തിലേക്ക് പ്രോജക്റ്റ് വാണി മുന്നേറുമ്പോൾ, ഓരോ ഇന്ത്യക്കാരനെയും അഭിസംബോധന ചെയ്യുന്നതും എല്ലാവർക്കുമായി സംസാരിക്കുന്നതുമായ AI നവീകരണത്തിന്റെ അടുത്ത അതിർത്തിയെ പിന്തുണയ്ക്കാൻ ഞങ്ങൾ തയ്യാറാണ്.
യഥാർത്ഥ ലോകത്തെ മനസ്സിലാക്കുന്ന AI നിർമ്മിക്കുന്നതിന് ഞങ്ങളുമായി പങ്കാളിയാകാൻ ആഗ്രഹിക്കുന്നുണ്ടോ? www.shaip.com