നിരവധി സ്വാഭാവിക ഭാഷാ പ്രോസസ്സിംഗ് പ്രോജക്റ്റുകളുടെ നട്ടെല്ലാണ് NLP ഡാറ്റാസെറ്റുകൾ, ടെക്സ്റ്റ് വർഗ്ഗീകരണം, വികാര വിശകലനം, ചോദ്യോത്തരങ്ങൾ തുടങ്ങിയ വൈവിധ്യമാർന്ന ജോലികൾക്ക് വഴക്കം നൽകുന്നു. ഉദാഹരണത്തിന്, ബ്ലോഗ് ഓതർഷിപ്പ് കോർപ്പസിൽ ഏകദേശം 681,000 ബ്ലോഗർമാരിൽ നിന്നുള്ള 20,000-ത്തിലധികം ബ്ലോഗ് പോസ്റ്റുകൾ അടങ്ങിയിരിക്കുന്നു, ഇത് എഴുത്ത് ശൈലികൾ, രചയിതാവിനെ തിരിച്ചറിയൽ എന്നിവ പഠിക്കുന്നതിനുള്ള ഒരു സമ്പന്നമായ ഉറവിടമാക്കി മാറ്റുന്നു.
അക്കാദമിക് ഗവേഷണത്തിൽ താൽപ്പര്യമുള്ളവർക്ക്, arXiv ഗവേഷണ പ്രബന്ധങ്ങളുടെ ഡാറ്റാസെറ്റ് ഒന്നിലധികം വിഷയങ്ങളിലുടനീളമുള്ള ശാസ്ത്രീയ പ്രബന്ധങ്ങളുടെ ഒരു വലിയ ശേഖരത്തിലേക്ക് പ്രവേശനം നൽകുന്നു, സൈറ്റേഷൻ വിശകലനം, ഡോക്യുമെന്റ് വർഗ്ഗീകരണം തുടങ്ങിയ നൂതന NLP ജോലികളെ പിന്തുണയ്ക്കുന്നു. ഫെഡറൽ പ്രൊക്യുർമെന്റ് ഡാറ്റ സെന്റർ ഡാറ്റാസെറ്റ് മറ്റൊരു വിലപ്പെട്ട ഉറവിടമാണ്, ഇത് ഫെഡറൽ കരാറുകളെക്കുറിച്ചുള്ള വിശദമായ വിവരങ്ങൾ വാഗ്ദാനം ചെയ്യുന്നു - സർക്കാർ ഡാറ്റയും എന്റിറ്റി അംഗീകാരവും ഉൾപ്പെടുന്ന പ്രോജക്റ്റുകൾക്ക് അനുയോജ്യം.
മെഷീൻ ലേണിംഗ് മോഡലുകളെ പരിശീലിപ്പിക്കുന്നതിനും വിലയിരുത്തുന്നതിനും ഈ nlp ഡാറ്റാസെറ്റുകൾ വ്യാപകമായി ഉപയോഗിക്കുന്നു, ഗവേഷകരെയും ഡെവലപ്പർമാരെയും വിവിധ nlp ടാസ്ക്കുകളിൽ അവരുടെ സിസ്റ്റങ്ങളുടെ പ്രകടനം മെച്ചപ്പെടുത്താൻ സഹായിക്കുന്നു. നിങ്ങൾ ബ്ലോഗ് പോസ്റ്റുകൾ, ഗവേഷണ പ്രബന്ധങ്ങൾ അല്ലെങ്കിൽ സർക്കാർ ഡാറ്റ എന്നിവയിൽ പ്രവർത്തിക്കുകയാണെങ്കിലും, ഈ ഡാറ്റാസെറ്റുകൾ ശക്തവും വൈവിധ്യപൂർണ്ണവുമായ NLP ആപ്ലിക്കേഷനുകൾക്ക് അടിത്തറ നൽകുന്നു.
എന്താണ് എൻഎൽപി?
NLP (നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ്) കമ്പ്യൂട്ടറുകളെ മനുഷ്യൻ്റെ ഭാഷ മനസ്സിലാക്കാൻ സഹായിക്കുന്നു. ടെക്സ്റ്റും സംസാരവും മനുഷ്യർ ചെയ്യുന്നതുപോലെ വായിക്കാനും മനസ്സിലാക്കാനും പ്രതികരിക്കാനും കമ്പ്യൂട്ടറുകളെ പഠിപ്പിക്കുന്നത് പോലെയാണിത്.
NLP-ന് എന്ത് ചെയ്യാൻ കഴിയും?
- ക്രമരഹിതമായ വാചകം സംഘടിത ഡാറ്റയാക്കി മാറ്റുക
- കമൻ്റുകൾ പോസിറ്റീവാണോ നെഗറ്റീവാണോ എന്ന് മനസ്സിലാക്കുക
- ഭാഷകൾക്കിടയിൽ വിവർത്തനം ചെയ്യുക
- ദൈർഘ്യമേറിയ പാഠങ്ങളുടെ സംഗ്രഹങ്ങൾ സൃഷ്ടിക്കുക
- അതോടൊപ്പം തന്നെ കുടുതല്!
- NLP ഉപയോഗിച്ച് ആരംഭിക്കുക:
നല്ല NLP സംവിധാനങ്ങൾ നിർമ്മിക്കുന്നതിന്, അവരെ പരിശീലിപ്പിക്കാൻ നിങ്ങൾക്ക് ധാരാളം ഉദാഹരണങ്ങൾ ആവശ്യമാണ് - കൂടുതൽ പരിശീലനത്തിലൂടെ മനുഷ്യർ എങ്ങനെ നന്നായി പഠിക്കുന്നു എന്നതുപോലെ. നിങ്ങൾക്ക് ഈ ഉദാഹരണങ്ങൾ കണ്ടെത്താൻ കഴിയുന്ന നിരവധി സ്വതന്ത്ര ഉറവിടങ്ങളുണ്ട് എന്നതാണ് നല്ല വാർത്ത: ആലിംഗനം ചെയ്യുന്ന മുഖം, കഗ്ലെ ഒപ്പം GitHub. ഈ പ്ലാറ്റ്ഫോമുകളിൽ നിന്നുള്ള ഡാറ്റാസെറ്റുകൾ എളുപ്പത്തിൽ ആക്സസ് ചെയ്യാൻ കഴിയും, ഇത് NLP പ്രോജക്റ്റ് വികസനം ത്വരിതപ്പെടുത്തുന്നു.
NLP മാർക്കറ്റ് വലുപ്പവും വളർച്ചയും:
2023 ലെ കണക്കനുസരിച്ച്, നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസിംഗ് (NLP) വിപണിയുടെ മൂല്യം ഏകദേശം 26 ബില്യൺ ഡോളറായിരുന്നു. 30 മുതൽ 2023 വരെ ഏകദേശം 2030% വാർഷിക വളർച്ചാ നിരക്ക് (CAGR) ഉള്ളതിനാൽ ഇത് ഗണ്യമായി വളരുമെന്ന് പ്രതീക്ഷിക്കുന്നു. ആരോഗ്യ സംരക്ഷണം, ധനകാര്യം, ഉപഭോക്തൃ സേവനം തുടങ്ങിയ വ്യവസായങ്ങളിലെ NLP ആപ്ലിക്കേഷനുകളുടെ വർദ്ധിച്ചുവരുന്ന ഡിമാൻഡാണ് ഈ വളർച്ചയെ നയിക്കുന്നത്.
ഒരു നല്ല NLP ഡാറ്റാസെറ്റ് എങ്ങനെ തിരഞ്ഞെടുക്കാം, ഇനിപ്പറയുന്ന ഘടകങ്ങൾ പരിഗണിക്കുക:
- പ്രാധാന്യമനുസരിച്ച്: നിങ്ങളുടെ നിർദ്ദിഷ്ട ടാസ്ക് അല്ലെങ്കിൽ ഡൊമെയ്നുമായി ഡാറ്റാസെറ്റ് വിന്യസിക്കുന്നുണ്ടെന്ന് ഉറപ്പാക്കുക.
- വലുപ്പം: വലിയ ഡാറ്റാസെറ്റുകൾ സാധാരണയായി മോഡൽ പ്രകടനത്തെ മെച്ചപ്പെടുത്തുന്നു, എന്നാൽ ഗുണനിലവാരവുമായി സന്തുലിതമാക്കുന്നു.
- വൈവിധ്യം: മോഡൽ ദൃഢത വർദ്ധിപ്പിക്കുന്നതിന് വ്യത്യസ്ത ഭാഷാ ശൈലികളും സന്ദർഭങ്ങളും ഉള്ള ഡാറ്റാസെറ്റുകൾക്കായി തിരയുക.
- ഗുണമേന്മയുള്ള: പിശകുകൾ അവതരിപ്പിക്കുന്നത് ഒഴിവാക്കാൻ നന്നായി ലേബൽ ചെയ്തതും കൃത്യവുമായ ഡാറ്റ പരിശോധിക്കുക.
- പ്രവേശനക്ഷമത: ഡാറ്റാസെറ്റ് ഉപയോഗത്തിന് ലഭ്യമാണെന്ന് ഉറപ്പാക്കുകയും ഏതെങ്കിലും ലൈസൻസിംഗ് നിയന്ത്രണങ്ങൾ പരിഗണിക്കുകയും ചെയ്യുക.
- പ്രീപ്രൊസസ്സിംഗ്: ഡാറ്റാസെറ്റിന് കാര്യമായ ക്ലീനിംഗ് അല്ലെങ്കിൽ പ്രീപ്രോസസ്സിംഗ് ആവശ്യമുണ്ടോ എന്ന് നിർണ്ണയിക്കുക.
- കമ്മ്യൂണിറ്റി പിന്തുണ: ജനപ്രിയ ഡാറ്റാസെറ്റുകൾക്ക് പലപ്പോഴും കൂടുതൽ ഉറവിടങ്ങളും കമ്മ്യൂണിറ്റി പിന്തുണയും ഉണ്ട്, അത് സഹായകരമാകും.
ഈ ഘടകങ്ങൾ വിലയിരുത്തുന്നതിലൂടെ, നിങ്ങളുടെ പ്രോജക്റ്റിന്റെ ആവശ്യങ്ങൾക്ക് ഏറ്റവും അനുയോജ്യമായ ഒരു ഡാറ്റാസെറ്റ് നിങ്ങൾക്ക് തിരഞ്ഞെടുക്കാൻ കഴിയും. NLP പ്രോജക്റ്റുകളിൽ മികച്ച ഫലങ്ങൾ നേടുന്നതിന് ശരിയായ ഡാറ്റാസെറ്റുകൾ തിരഞ്ഞെടുക്കേണ്ടത് അത്യാവശ്യമാണ്, കാരണം അവ മോഡൽ പ്രകടനത്തെയും പരിശീലന കാര്യക്ഷമതയെയും നേരിട്ട് ബാധിക്കുന്നു.
NLP-യ്ക്കായി കാണേണ്ട മികച്ച 33 ഓപ്പൺ ഡാറ്റാസെറ്റുകൾ
പൊതുവായ
യുസിഐയുടെ സ്പാംബേസ് (ലിങ്ക്)
Hewlett-Packard Labs-ൽ സൃഷ്ടിച്ച Spambase-ന് ഒരു വ്യക്തിഗത സ്പാം ഫിൽട്ടർ വികസിപ്പിക്കാൻ ലക്ഷ്യമിട്ട് ഉപയോക്താക്കളുടെ സ്പാം ഇമെയിലുകളുടെ ഒരു ശേഖരം ഉണ്ട്. ഇതിന് ഇമെയിൽ സന്ദേശങ്ങളിൽ നിന്ന് 4600-ലധികം നിരീക്ഷണങ്ങളുണ്ട്, അതിൽ 1820 ഓളം സ്പാം ആണ്.
എൻറോൺ ഡാറ്റാസെറ്റ് (ലിങ്ക്)
എൻറോൺ ഡാറ്റാ സെറ്റിൽ പൊതുജനങ്ങൾക്ക് അവരുടെ മെഷീൻ ലേണിംഗ് മോഡലുകളെ പരിശീലിപ്പിക്കുന്നതിനായി അജ്ഞാതമാക്കിയ 'യഥാർത്ഥ' ഇമെയിലുകളുടെ ഒരു വലിയ ശേഖരം ലഭ്യമാണ്. 150-ലധികം ഉപയോക്താക്കളിൽ നിന്ന്, പ്രധാനമായും എൻറോണിന്റെ സീനിയർ മാനേജ്മെന്റിൽ നിന്ന്, അര ദശലക്ഷത്തിലധികം ഇമെയിലുകൾ ഇതിൽ ഉൾപ്പെടുന്നു. ഘടനാപരവും ഘടനാപരമല്ലാത്തതുമായ ഫോർമാറ്റുകളിൽ ഉപയോഗിക്കാൻ ഈ ഡാറ്റാ സെറ്റ് ലഭ്യമാണ്. ഘടനാപരമല്ലാത്ത ഡാറ്റ മെച്ചപ്പെടുത്തുന്നതിന്, നിങ്ങൾ ഡാറ്റ പ്രോസസ്സിംഗ് ടെക്നിക്കുകൾ പ്രയോഗിക്കേണ്ടതുണ്ട്.
സിസ്റ്റം ഡാറ്റാസെറ്റ് ശുപാർശ ചെയ്യുക (ലിങ്ക്)
Recommender System ഡാറ്റാസെറ്റ് വിവിധ സവിശേഷതകൾ ഉൾക്കൊള്ളുന്ന വിവിധ ഡാറ്റാസെറ്റുകളുടെ ഒരു വലിയ ശേഖരമാണ്,
- ഉൽപ്പന്ന അവലോകനങ്ങൾ
- നക്ഷത്ര റേറ്റിംഗുകൾ
- ഫിറ്റ്നസ് ട്രാക്കിംഗ്
- ഗാന ഡാറ്റ
- സോഷ്യൽ നെറ്റ്വർക്കുകൾ
- ടൈംസ്റ്റാമ്പുകൾ
- ഉപയോക്തൃ/ഇന ഇടപെടലുകൾ
- ജിപിഎസ് ഡാറ്റ
പെൻ ട്രീബാങ്ക് (ലിങ്ക്)
വാൾ സ്ട്രീറ്റ് ജേർണലിൽ നിന്നുള്ള ഈ കോർപ്പസ്, സീക്വൻസ് ലേബലിംഗ് മോഡലുകൾ പരീക്ഷിക്കുന്നതിന് ജനപ്രിയമാണ്.
എൻ.എൽ.ടി.കെ (ലിങ്ക്)
ഈ പൈത്തൺ ലൈബ്രറി NLP-യ്ക്കായി 100-ലധികം കോർപ്പറ, ലെക്സിക്കൽ ഉറവിടങ്ങളിലേക്ക് ആക്സസ് നൽകുന്നു. ലൈബ്രറി ഉപയോഗിക്കുന്നതിനുള്ള പരിശീലന കോഴ്സായ NLTK പുസ്തകവും ഇതിൽ ഉൾപ്പെടുന്നു. ഇംഗ്ലീഷ് ഭാഷയുടെ ഒരു വലിയ ലെക്സിക്കൽ ഡാറ്റാബേസായ WordNet-ലേക്കുള്ള ആക്സസ് NLTK-യിൽ ഉൾപ്പെടുന്നു, അവിടെ നാമങ്ങൾ, ക്രിയകൾ, നാമവിശേഷണങ്ങൾ, ക്രിയാവിശേഷണങ്ങൾ തുടങ്ങിയ പദങ്ങൾ പങ്കിട്ട അർത്ഥങ്ങളെ അടിസ്ഥാനമാക്കി സിൻസെറ്റുകളായി തരംതിരിച്ചിരിക്കുന്നു. NLP ഗവേഷണത്തിനായി കോർപ്പറയുടെയും ലെക്സിക്കൽ ഉറവിടങ്ങളുടെയും ഒരു വ്യാഖ്യാന പട്ടികയും NLTK നൽകുന്നു.
സാർവത്രിക ആശ്രിതത്വം (ലിങ്ക്)
100-ലധികം ഭാഷകളിലെ ഉറവിടങ്ങൾ, 200 ട്രീബാങ്കുകൾ, 300-ലധികം കമ്മ്യൂണിറ്റി അംഗങ്ങളിൽ നിന്നുള്ള പിന്തുണ എന്നിവ ഉപയോഗിച്ച് വ്യാകരണം വ്യാഖ്യാനിക്കുന്നതിന് യുഡി സ്ഥിരമായ ഒരു മാർഗം നൽകുന്നു.
സെന്റിമെന്റ് അനാലിസിസ് ഡാറ്റാസെറ്റുകൾ
സിനിമകൾക്കും ധനകാര്യത്തിനുമുള്ള നിഘണ്ടുക്കൾ (ലിങ്ക്)
ഫിനാൻസ് ഫില്ലിംഗുകളിലും മൂവി റിവ്യൂകളിലും പോസിറ്റീവ് അല്ലെങ്കിൽ നെഗറ്റീവ് പോളാരിറ്റിക്ക് വേണ്ടിയുള്ള ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട നിഘണ്ടുക്കൾ സിനിമകൾക്കും ധനകാര്യ ഡാറ്റാസെറ്റ് നൽകുന്നു. ഈ നിഘണ്ടുക്കൾ IMDb, US ഫോം-8 ഫില്ലിംഗുകളിൽ നിന്ന് എടുത്തതാണ്.വികാരം 140 (ലിങ്ക്)
സെന്റിമെന്റ് 140-ൽ 160,000-ലധികം ട്വീറ്റുകൾ ഉണ്ട്: ട്വീറ്റ് തീയതി, ധ്രുവീകരണം, വാചകം, ഉപയോക്തൃനാമം, ഐഡി, ചോദ്യം എന്നിങ്ങനെ 6 വ്യത്യസ്ത ഫീൽഡുകളിൽ തരംതിരിച്ചിരിക്കുന്ന വിവിധ ഇമോട്ടിക്കോണുകൾ. Twitter പ്രവർത്തനത്തെ അടിസ്ഥാനമാക്കി ഒരു ബ്രാൻഡിന്റെയോ ഉൽപ്പന്നത്തിന്റെയോ ഒരു വിഷയത്തിന്റെയോ പോലും വികാരം കണ്ടെത്തുന്നത് ഈ ഡാറ്റാസെറ്റ് നിങ്ങൾക്ക് സാധ്യമാക്കുന്നു. ഈ ഡാറ്റാസെറ്റ് സ്വയമേവ സൃഷ്ടിക്കപ്പെട്ടതിനാൽ, മറ്റ് മനുഷ്യ വ്യാഖ്യാന ട്വീറ്റുകളിൽ നിന്ന് വ്യത്യസ്തമായി, ഇത് പോസിറ്റീവ് വികാരങ്ങളും നെഗറ്റീവ് വികാരങ്ങളും ഉള്ള ട്വീറ്റുകളെ പ്രതികൂലമായി തരംതിരിക്കുന്നു.
മൾട്ടി-ഡൊമെയ്ൻ സെന്റിമെന്റ് ഡാറ്റാസെറ്റ് (ലിങ്ക്)
ഈ മൾട്ടി-ഡൊമെയ്ൻ സെന്റിമെന്റ് ഡാറ്റാസെറ്റ് വിവിധ ഉൽപ്പന്നങ്ങൾക്കായുള്ള ആമസോൺ അവലോകനങ്ങളുടെ ഒരു ശേഖരമാണ്. പുസ്തകങ്ങൾ പോലുള്ള ചില ഉൽപ്പന്ന വിഭാഗങ്ങൾക്ക് ആയിരക്കണക്കിന് അവലോകനങ്ങൾ ഉണ്ട്, മറ്റുള്ളവയ്ക്ക് നൂറുകണക്കിന് അവലോകനങ്ങൾ മാത്രമേയുള്ളൂ. കൂടാതെ, സ്റ്റാർ റേറ്റിംഗുകളുള്ള അവലോകനങ്ങൾ ബൈനറി ലേബലുകളായി പരിവർത്തനം ചെയ്യാവുന്നതാണ്.
സ്റ്റാൻഡ്ഫോർഡ് സെൻ്റിമെൻ്റ് ട്രീബാങ്ക് (ലിങ്ക്)
Rotten Tomatoes-ൽ നിന്നുള്ള ഈ NLP ഡാറ്റാസെറ്റിൽ ദൈർഘ്യമേറിയ ശൈലികളും കൂടുതൽ വിശദമായ വാചക ഉദാഹരണങ്ങളും ഉൾപ്പെടുന്നു.
ബ്ലോഗ് ഓതർഷിപ്പ് കോർപ്പസ് (ലിങ്ക്)
ഈ ശേഖരത്തിൽ ഏകദേശം 1.4 ദശലക്ഷം വാക്കുകളുള്ള ബ്ലോഗ് പോസ്റ്റുകൾ ഉണ്ട്, ഓരോ ബ്ലോഗും ഒരു പ്രത്യേക ഡാറ്റാസെറ്റാണ്.
OpinRank ഡാറ്റാസെറ്റ് (ലിങ്ക്)
എഡ്മണ്ട്സിൽ നിന്നും ട്രിപ്പ് അഡ്വൈസറിൽ നിന്നും 300,000 അവലോകനങ്ങൾ, കാർ മോഡൽ അല്ലെങ്കിൽ ട്രാവൽ ഡെസ്റ്റിനേഷൻ, ഹോട്ടൽ എന്നിവ സംഘടിപ്പിച്ചത്.
ടെക്സ്റ്റ് ഡാറ്റാസെറ്റ്
വിക്കി ക്യുഎ കോർപ്പസ് (ലിങ്ക്)
ഓപ്പൺ-ഡൊമെയ്ൻ ചോദ്യോത്തര ഗവേഷണത്തെ സഹായിക്കുന്നതിനായി സൃഷ്ടിച്ച WiKi QA കോർപ്പസ് പൊതുവായി ലഭ്യമായ ഏറ്റവും വിപുലമായ ഡാറ്റാസെറ്റുകളിൽ ഒന്നാണ്. Bing സെർച്ച് എഞ്ചിൻ അന്വേഷണ ലോഗുകളിൽ നിന്ന് സമാഹരിച്ചത്, ഇത് ചോദ്യോത്തര ജോഡികളോടെയാണ് വരുന്നത്. ഇതിന് 3000-ലധികം ചോദ്യങ്ങളും 1500 ലേബൽ ചെയ്ത ഉത്തര വാക്യങ്ങളുമുണ്ട്.
നിയമപരമായ കേസ് റിപ്പോർട്ടുകൾ ഡാറ്റാസെറ്റ് (ലിങ്ക്)
ലീഗൽ കേസ് റിപ്പോർട്ടുകൾ ഡാറ്റാസെറ്റിന് 4000 നിയമ കേസുകളുടെ ശേഖരമുണ്ട്, കൂടാതെ സ്വയമേവയുള്ള വാചക സംഗ്രഹത്തിനും ഉദ്ധരണി വിശകലനത്തിനും പരിശീലനം നൽകാനും ഇത് ഉപയോഗിക്കാം. ഓരോ ഡോക്യുമെന്റും, ക്യാച്ച്ഫ്രേസുകളും, അവലംബ ക്ലാസുകളും, അവലംബ ക്യാച്ച്ഫ്രേസുകളും മറ്റും ഉപയോഗിക്കുന്നു.
ജിയോപാർഡി (ലിങ്ക്)
ഒരു റെഡ്ഡിറ്റ് ഉപയോക്താവ് ഒരുമിച്ച് കൊണ്ടുവന്ന ജനപ്രിയ ക്വിസ് ടിവി ഷോയിൽ അവതരിപ്പിച്ച 200,000-ത്തിലധികം ചോദ്യങ്ങളുടെ ഒരു ശേഖരമാണ് ജിയോപാർഡി ഡാറ്റാസെറ്റ്. ഓരോ ഡാറ്റാ പോയിന്റും സംപ്രേഷണം ചെയ്ത തീയതി, എപ്പിസോഡ് നമ്പർ, മൂല്യം, റൗണ്ട്, ചോദ്യം/ഉത്തരം എന്നിവ പ്രകാരം തരം തിരിച്ചിരിക്കുന്നു.
20 ന്യൂസ് ഗ്രൂപ്പുകൾ (ലിങ്ക്)
20,000 ഡോക്യുമെൻ്റുകളുടെ ഒരു ശേഖരം 20 വാർത്താ ഗ്രൂപ്പുകളും വിഷയങ്ങളും ഉൾക്കൊള്ളുന്നു, മതം മുതൽ ജനപ്രിയ കായിക വിനോദങ്ങൾ വരെയുള്ള വിഷയങ്ങൾ വിശദീകരിക്കുന്നു.
റോയിട്ടേഴ്സ് ന്യൂസ് ഡാറ്റാസെറ്റ് (ലിങ്ക്)
1987-ൽ ആദ്യമായി പ്രത്യക്ഷപ്പെട്ട ഈ ഡാറ്റാസെറ്റ് മെഷീൻ ലേണിംഗ് ആവശ്യങ്ങൾക്കായി ലേബൽ ചെയ്യുകയും ഇൻഡക്സ് ചെയ്യുകയും സമാഹരിക്കുകയും ചെയ്തു.
ArXiv (ലിങ്ക്)
ഈ ഗണ്യമായ 270 GB ഡാറ്റാസെറ്റിൽ എല്ലാ arXiv ഗവേഷണ പേപ്പറുകളുടെയും പൂർണ്ണമായ വാചകം ഉൾപ്പെടുന്നു.
യൂറോപ്യൻ പാർലമെൻ്റ് നടപടികൾ സമാന്തര കോർപ്പസ് (ലിങ്ക്)
പാർലമെൻ്റ് നടപടികളിൽ നിന്നുള്ള വാക്യ ജോഡികളിൽ 21 യൂറോപ്യൻ ഭാഷകളിൽ നിന്നുള്ള എൻട്രികൾ ഉൾപ്പെടുന്നു, മെഷീൻ ലേണിംഗ് കോർപ്പറയ്ക്കായി സാധാരണമല്ലാത്ത ചില ഭാഷകൾ ഫീച്ചർ ചെയ്യുന്നു.
ബില്യൺ വേഡ് ബെഞ്ച്മാർക്ക് (ലിങ്ക്)
WMT 2011 ന്യൂസ് ക്രാളിൽ നിന്ന് ഉരുത്തിരിഞ്ഞത്, ഈ ഭാഷാ മോഡലിംഗ് ഡാറ്റാസെറ്റിൽ നൂതന ഭാഷാ മോഡലിംഗ് ടെക്നിക്കുകൾ പരീക്ഷിക്കുന്നതിനായി ഏകദേശം ഒരു ബില്യൺ വാക്കുകൾ അടങ്ങിയിരിക്കുന്നു.
ഓഡിയോ സ്പീച്ച് ഡാറ്റാസെറ്റുകൾ
സ്പോക്കൺ വിക്കിപീഡിയ കോർപ്പറ (ലിങ്ക്)
ഇംഗ്ലീഷ് ഭാഷയ്ക്ക് അപ്പുറത്തേക്ക് പോകാൻ ആഗ്രഹിക്കുന്ന എല്ലാവർക്കും ഈ ഡാറ്റാസെറ്റ് അനുയോജ്യമാണ്. ഈ ഡാറ്റാസെറ്റിൽ ഡച്ച്, ജർമ്മൻ, ഇംഗ്ലീഷ് ഭാഷകളിൽ സംസാരിക്കുന്ന ലേഖനങ്ങളുടെ ഒരു ശേഖരം ഉണ്ട്. ഇതിന് വൈവിധ്യമാർന്ന വിഷയങ്ങളും നൂറുകണക്കിന് മണിക്കൂറുകളുള്ള സ്പീക്കർ സെറ്റുകളും ഉണ്ട്.2000 HUB5 ഇംഗ്ലീഷ് (ലിങ്ക്)
2000 HUB5 ഇംഗ്ലീഷ് ഡാറ്റാസെറ്റിൽ ഇംഗ്ലീഷ് ഭാഷയിൽ 40 ടെലിഫോൺ സംഭാഷണ ട്രാൻസ്ക്രിപ്റ്റുകൾ ഉണ്ട്. നാഷണൽ ഇൻസ്റ്റിറ്റ്യൂട്ട് ഓഫ് സ്റ്റാൻഡേർഡ്സ് ആൻഡ് ടെക്നോളജിയാണ് ഡാറ്റ നൽകുന്നത്, സംഭാഷണ സംഭാഷണം തിരിച്ചറിയുന്നതിനും സംഭാഷണം ടെക്സ്റ്റാക്കി മാറ്റുന്നതിനുമാണ് ഇതിന്റെ പ്രധാന ശ്രദ്ധ.
ലിബ്രിസ്പീച്ച് (ലിങ്ക്)
LibriSpeech ഡാറ്റാസെറ്റ് ഏകദേശം 1000 മണിക്കൂർ ഇംഗ്ലീഷ് സംഭാഷണത്തിന്റെ ഒരു ശേഖരമാണ്, അത് ഓഡിയോ ബുക്കുകളിൽ നിന്നുള്ള അധ്യായങ്ങളായി വിഷയങ്ങളാൽ ശരിയായി വിഭജിച്ചിരിക്കുന്നു, ഇത് സ്വാഭാവിക ഭാഷാ പ്രോസസ്സിംഗിനുള്ള മികച്ച ഉപകരണമാക്കി മാറ്റുന്നു.
സൗജന്യ സ്പോക്കൺ ഡിജിറ്റ് ഡാറ്റാസെറ്റ് (ലിങ്ക്)
ഈ NLP ഡാറ്റാസെറ്റിൽ ഇംഗ്ലീഷിൽ സംസാരിക്കുന്ന അക്കങ്ങളുടെ 1,500-ലധികം റെക്കോർഡിംഗുകൾ ഉൾപ്പെടുന്നു.
M-AI ലാബ്സ് സ്പീച്ച് ഡാറ്റാസെറ്റ് (ലിങ്ക്)
ഒന്നിലധികം ഭാഷകൾ ഉൾക്കൊള്ളുന്നതും പുരുഷൻ, സ്ത്രീ, മിശ്ര ശബ്ദങ്ങൾ എന്നിങ്ങനെ തരംതിരിച്ചിരിക്കുന്നതുമായ ട്രാൻസ്ക്രിപ്ഷനുകളോട് കൂടിയ ഏകദേശം 1,000 മണിക്കൂർ ഓഡിയോ ഡാറ്റാസെറ്റ് വാഗ്ദാനം ചെയ്യുന്നു.
ശബ്ദായമാനമായ സംഭാഷണ ഡാറ്റാബേസ് (ലിങ്ക്)
ഈ ഡാറ്റാസെറ്റ് സമാന്തര ശബ്ദവും വൃത്തിയുള്ളതുമായ സംഭാഷണ റെക്കോർഡിംഗുകൾ അവതരിപ്പിക്കുന്നു, ഇത് സംഭാഷണ മെച്ചപ്പെടുത്തൽ സോഫ്റ്റ്വെയർ വികസനത്തിന് ഉദ്ദേശിച്ചുള്ളതാണ്, എന്നാൽ വെല്ലുവിളി നിറഞ്ഞ സാഹചര്യങ്ങളിൽ സംഭാഷണത്തെക്കുറിച്ചുള്ള പരിശീലനത്തിനും ഇത് പ്രയോജനകരമാണ്.
അവലോകന ഡാറ്റാസെറ്റുകൾ
Yelp അവലോകനങ്ങൾ (ലിങ്ക്)
Yelp ഡാറ്റാസെറ്റിന് 8.5-ലധികം ബിസിനസുകൾ, അവയുടെ അവലോകനങ്ങൾ, ഉപയോക്തൃ ഡാറ്റ എന്നിവയുടെ 160,000 ദശലക്ഷം അവലോകനങ്ങളുടെ വിപുലമായ ശേഖരമുണ്ട്. നിങ്ങളുടെ മോഡലുകളെ വികാര വിശകലനത്തിൽ പരിശീലിപ്പിക്കാൻ അവലോകനങ്ങൾ ഉപയോഗിക്കാം. കൂടാതെ, ഈ ഡാറ്റാസെറ്റിൽ എട്ട് മെട്രോപൊളിറ്റൻ ലൊക്കേഷനുകൾ ഉൾക്കൊള്ളുന്ന 200,000-ത്തിലധികം ചിത്രങ്ങളുണ്ട്.
IMDB അവലോകനങ്ങൾ (ലിങ്ക്)
50-ത്തിലധികം സിനിമകൾക്കായുള്ള കാസ്റ്റ് വിവരങ്ങൾ, റേറ്റിംഗുകൾ, വിവരണം, തരം എന്നിവ അടങ്ങിയ ഏറ്റവും ജനപ്രിയമായ ഡാറ്റാസെറ്റുകളിൽ ഒന്നാണ് IMDB അവലോകനങ്ങൾ. നിങ്ങളുടെ മെഷീൻ ലേണിംഗ് മോഡലുകൾ പരീക്ഷിക്കാനും പരിശീലിപ്പിക്കാനും ഈ ഡാറ്റാസെറ്റ് ഉപയോഗിക്കാം.
ആമസോൺ അവലോകനങ്ങളും റേറ്റിംഗ് ഡാറ്റാസെറ്റും (ലിങ്ക്)
ആമസോൺ അവലോകനത്തിലും റേറ്റിംഗ് ഡാറ്റാസെറ്റിലും 1996 മുതൽ 2014 വരെ ശേഖരിച്ച ആമസോണിൽ നിന്നുള്ള വിവിധ ഉൽപ്പന്നങ്ങളുടെ മെറ്റാഡാറ്റയുടെയും അവലോകനങ്ങളുടെയും വിലപ്പെട്ട ശേഖരം അടങ്ങിയിരിക്കുന്നു - ഏകദേശം 142.8 ദശലക്ഷം റെക്കോർഡുകൾ. മെറ്റാഡാറ്റയിൽ വില, ഉൽപ്പന്ന വിവരണം, ബ്രാൻഡ്, വിഭാഗം എന്നിവയും മറ്റും ഉൾപ്പെടുന്നു, അതേസമയം അവലോകനങ്ങൾക്ക് ടെക്സ്റ്റ് ഗുണമേന്മ, ടെക്സ്റ്റിന്റെ പ്രയോജനം, റേറ്റിംഗുകൾ എന്നിവയും മറ്റും ഉണ്ട്.
ചോദ്യോത്തര ഡാറ്റാസെറ്റുകൾ
സ്റ്റാൻഫോർഡ് ചോദ്യോത്തര ഡാറ്റാസെറ്റ് (SQuAD) (ലിങ്ക്)
ഈ റീഡിംഗ് കോംപ്രിഹെൻഷൻ ഡാറ്റാസെറ്റിൽ ഉത്തരം നൽകാവുന്ന 100,000 ചോദ്യങ്ങളും ഉത്തരം നൽകാനാവാത്ത 50,000 ചോദ്യങ്ങളുമുണ്ട്, എല്ലാം വിക്കിപീഡിയയിലെ ജനക്കൂട്ടം പ്രവർത്തകർ സൃഷ്ടിച്ചതാണ്.
സ്വാഭാവിക ചോദ്യങ്ങൾ (ലിങ്ക്)
ഈ പരിശീലന സെറ്റിന് 300,000 പരിശീലന ഉദാഹരണങ്ങളും 7,800 വികസന ഉദാഹരണങ്ങളും 7,800 ടെസ്റ്റ് ഉദാഹരണങ്ങളും ഉണ്ട്, ഓരോന്നിനും Google അന്വേഷണവും പൊരുത്തപ്പെടുന്ന വിക്കിപീഡിയ പേജും ഉണ്ട്.
ട്രിവിയക്യുഎ (ലിങ്ക്)
ഈ വെല്ലുവിളി നിറഞ്ഞ ചോദ്യ സെറ്റിന് 950,000 QA ജോഡികളുണ്ട്, അതിൽ മനുഷ്യൻ പരിശോധിച്ചതും മെഷീൻ സൃഷ്ടിച്ചതുമായ ഉപസെറ്റുകൾ ഉൾപ്പെടുന്നു.
CLEVR (കോമ്പോസിഷണൽ ലാംഗ്വേജ് ആൻഡ് എലിമെൻ്ററി വിഷ്വൽ റീസണിംഗ്) (ലിങ്ക്)
ഈ വിഷ്വൽ ചോദ്യത്തിന് ഉത്തരം നൽകുന്ന ഡാറ്റാസെറ്റിൽ 3D റെൻഡർ ചെയ്ത ഒബ്ജക്റ്റുകളും വിഷ്വൽ സീനെക്കുറിച്ചുള്ള വിശദാംശങ്ങളുള്ള ആയിരക്കണക്കിന് ചോദ്യങ്ങളും ഉൾപ്പെടുന്നു.
അതിനാൽ, നിങ്ങളുടെ മെഷീൻ ലേണിംഗ് മോഡലിനെ പരിശീലിപ്പിക്കാൻ ഏത് ഡാറ്റാസെറ്റാണ് നിങ്ങൾ തിരഞ്ഞെടുത്തത്?
ഞങ്ങൾ പോകുമ്പോൾ, ഞങ്ങൾ നിങ്ങളെ ഏൽപ്പിക്കും അനുകൂല നുറുങ്ങ്.
നിങ്ങളുടെ ആവശ്യങ്ങൾക്കായി ഒരു NLP ഡാറ്റാസെറ്റ് തിരഞ്ഞെടുക്കുന്നതിന് മുമ്പ് README ഫയലിലൂടെ നന്നായി പരിശോധിക്കുന്നത് ഉറപ്പാക്കുക. ഡാറ്റാസെറ്റിന്റെ ഉള്ളടക്കം, ഡാറ്റ തരംതിരിച്ചിരിക്കുന്ന വിവിധ പാരാമീറ്ററുകൾ, ഡാറ്റാസെറ്റിന്റെ സാധ്യതയുള്ള ഉപയോഗ കേസുകൾ എന്നിവ പോലെ നിങ്ങൾക്ക് ആവശ്യമായ എല്ലാ വിവരങ്ങളും ഡാറ്റാസെറ്റിൽ അടങ്ങിയിരിക്കും.
നിങ്ങൾ നിർമ്മിക്കുന്ന മോഡലുകൾ പരിഗണിക്കാതെ തന്നെ, ഞങ്ങളുടെ മെഷീനുകളെ നമ്മുടെ ജീവിതവുമായി കൂടുതൽ അടുത്തും അന്തർലീനമായും സമന്വയിപ്പിക്കുന്നതിനുള്ള ആവേശകരമായ ഒരു സാധ്യതയുണ്ട്. NLP ഉപയോഗിച്ച്, ബിസിനസ്സ്, സിനിമകൾ, സംഭാഷണം തിരിച്ചറിയൽ, ധനകാര്യം എന്നിവയ്ക്കും അതിലേറെ കാര്യങ്ങൾക്കുമുള്ള സാധ്യതകൾ പലമടങ്ങ് വർധിച്ചു.