എന്താണ് എൻഎൽപി?
NLP (നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ്) കമ്പ്യൂട്ടറുകളെ മനുഷ്യൻ്റെ ഭാഷ മനസ്സിലാക്കാൻ സഹായിക്കുന്നു. ടെക്സ്റ്റും സംസാരവും മനുഷ്യർ ചെയ്യുന്നതുപോലെ വായിക്കാനും മനസ്സിലാക്കാനും പ്രതികരിക്കാനും കമ്പ്യൂട്ടറുകളെ പഠിപ്പിക്കുന്നത് പോലെയാണിത്.
NLP-ന് എന്ത് ചെയ്യാൻ കഴിയും?
- ക്രമരഹിതമായ വാചകം സംഘടിത ഡാറ്റയാക്കി മാറ്റുക
- കമൻ്റുകൾ പോസിറ്റീവാണോ നെഗറ്റീവാണോ എന്ന് മനസ്സിലാക്കുക
- ഭാഷകൾക്കിടയിൽ വിവർത്തനം ചെയ്യുക
- ദൈർഘ്യമേറിയ പാഠങ്ങളുടെ സംഗ്രഹങ്ങൾ സൃഷ്ടിക്കുക
- അതോടൊപ്പം തന്നെ കുടുതല്!
- NLP ഉപയോഗിച്ച് ആരംഭിക്കുക:
നല്ല NLP സംവിധാനങ്ങൾ നിർമ്മിക്കുന്നതിന്, അവരെ പരിശീലിപ്പിക്കാൻ നിങ്ങൾക്ക് ധാരാളം ഉദാഹരണങ്ങൾ ആവശ്യമാണ് - കൂടുതൽ പരിശീലനത്തിലൂടെ മനുഷ്യർ എങ്ങനെ നന്നായി പഠിക്കുന്നു എന്നതുപോലെ. നിങ്ങൾക്ക് ഈ ഉദാഹരണങ്ങൾ കണ്ടെത്താൻ കഴിയുന്ന നിരവധി സ്വതന്ത്ര ഉറവിടങ്ങളുണ്ട് എന്നതാണ് നല്ല വാർത്ത: ആലിംഗനം ചെയ്യുന്ന മുഖം, കഗ്ലെ ഒപ്പം സാമൂഹികം
NLP മാർക്കറ്റ് വലുപ്പവും വളർച്ചയും:
2023 ലെ കണക്കനുസരിച്ച്, നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസിംഗ് (NLP) വിപണിയുടെ മൂല്യം ഏകദേശം 26 ബില്യൺ ഡോളറായിരുന്നു. 30 മുതൽ 2023 വരെ ഏകദേശം 2030% വാർഷിക വളർച്ചാ നിരക്ക് (CAGR) ഉള്ളതിനാൽ ഇത് ഗണ്യമായി വളരുമെന്ന് പ്രതീക്ഷിക്കുന്നു. ആരോഗ്യ സംരക്ഷണം, ധനകാര്യം, ഉപഭോക്തൃ സേവനം തുടങ്ങിയ വ്യവസായങ്ങളിലെ NLP ആപ്ലിക്കേഷനുകളുടെ വർദ്ധിച്ചുവരുന്ന ഡിമാൻഡാണ് ഈ വളർച്ചയെ നയിക്കുന്നത്.
ഒരു നല്ല NLP ഡാറ്റാസെറ്റ് എങ്ങനെ തിരഞ്ഞെടുക്കാം, ഇനിപ്പറയുന്ന ഘടകങ്ങൾ പരിഗണിക്കുക:
- പ്രാധാന്യമനുസരിച്ച്: നിങ്ങളുടെ നിർദ്ദിഷ്ട ടാസ്ക് അല്ലെങ്കിൽ ഡൊമെയ്നുമായി ഡാറ്റാസെറ്റ് വിന്യസിക്കുന്നുണ്ടെന്ന് ഉറപ്പാക്കുക.
- വലുപ്പം: വലിയ ഡാറ്റാസെറ്റുകൾ സാധാരണയായി മോഡൽ പ്രകടനത്തെ മെച്ചപ്പെടുത്തുന്നു, എന്നാൽ ഗുണനിലവാരവുമായി സന്തുലിതമാക്കുന്നു.
- വൈവിധ്യം: മോഡൽ ദൃഢത വർദ്ധിപ്പിക്കുന്നതിന് വ്യത്യസ്ത ഭാഷാ ശൈലികളും സന്ദർഭങ്ങളും ഉള്ള ഡാറ്റാസെറ്റുകൾക്കായി തിരയുക.
- ഗുണമേന്മയുള്ള: പിശകുകൾ അവതരിപ്പിക്കുന്നത് ഒഴിവാക്കാൻ നന്നായി ലേബൽ ചെയ്തതും കൃത്യവുമായ ഡാറ്റ പരിശോധിക്കുക.
- പ്രവേശനക്ഷമത: ഡാറ്റാസെറ്റ് ഉപയോഗത്തിന് ലഭ്യമാണെന്ന് ഉറപ്പാക്കുകയും ഏതെങ്കിലും ലൈസൻസിംഗ് നിയന്ത്രണങ്ങൾ പരിഗണിക്കുകയും ചെയ്യുക.
- പ്രീപ്രൊസസ്സിംഗ്: ഡാറ്റാസെറ്റിന് കാര്യമായ ക്ലീനിംഗ് അല്ലെങ്കിൽ പ്രീപ്രോസസ്സിംഗ് ആവശ്യമുണ്ടോ എന്ന് നിർണ്ണയിക്കുക.
- കമ്മ്യൂണിറ്റി പിന്തുണ: ജനപ്രിയ ഡാറ്റാസെറ്റുകൾക്ക് പലപ്പോഴും കൂടുതൽ ഉറവിടങ്ങളും കമ്മ്യൂണിറ്റി പിന്തുണയും ഉണ്ട്, അത് സഹായകരമാകും.
ഈ ഘടകങ്ങൾ വിലയിരുത്തുന്നതിലൂടെ, നിങ്ങളുടെ പ്രോജക്റ്റിൻ്റെ ആവശ്യങ്ങൾക്ക് ഏറ്റവും അനുയോജ്യമായ ഒരു ഡാറ്റാസെറ്റ് നിങ്ങൾക്ക് തിരഞ്ഞെടുക്കാം
NLP-യ്ക്കായി കാണേണ്ട മികച്ച 33 ഓപ്പൺ ഡാറ്റാസെറ്റുകൾ
പൊതുവായ
യുസിഐയുടെ സ്പാംബേസ് (ലിങ്ക്)
Hewlett-Packard Labs-ൽ സൃഷ്ടിച്ച Spambase-ന് ഒരു വ്യക്തിഗത സ്പാം ഫിൽട്ടർ വികസിപ്പിക്കാൻ ലക്ഷ്യമിട്ട് ഉപയോക്താക്കളുടെ സ്പാം ഇമെയിലുകളുടെ ഒരു ശേഖരം ഉണ്ട്. ഇതിന് ഇമെയിൽ സന്ദേശങ്ങളിൽ നിന്ന് 4600-ലധികം നിരീക്ഷണങ്ങളുണ്ട്, അതിൽ 1820 ഓളം സ്പാം ആണ്.
എൻറോൺ ഡാറ്റാസെറ്റ് (ലിങ്ക്)
എൻറോൺ ഡാറ്റാസെറ്റിൽ പൊതുജനങ്ങൾക്ക് അവരുടെ മെഷീൻ ലേണിംഗ് മോഡലുകളെ പരിശീലിപ്പിക്കുന്നതിനായി അജ്ഞാത 'യഥാർത്ഥ' ഇമെയിലുകളുടെ ഒരു വലിയ ശേഖരം ലഭ്യമാണ്. 150-ലധികം ഉപയോക്താക്കളിൽ നിന്ന്, പ്രധാനമായും എൻറോണിന്റെ സീനിയർ മാനേജ്മെന്റിൽ നിന്നുള്ള അര ദശലക്ഷത്തിലധികം ഇമെയിലുകൾ ഇതിന് ഉണ്ട്. ഈ ഡാറ്റാസെറ്റ് ഘടനാപരമായതും ഘടനയില്ലാത്തതുമായ ഫോർമാറ്റുകളിൽ ഉപയോഗിക്കാൻ ലഭ്യമാണ്. ഘടനയില്ലാത്ത ഡാറ്റ വർദ്ധിപ്പിക്കുന്നതിന്, നിങ്ങൾ ഡാറ്റ പ്രോസസ്സിംഗ് ടെക്നിക്കുകൾ പ്രയോഗിക്കേണ്ടതുണ്ട്.
സിസ്റ്റം ഡാറ്റാസെറ്റ് ശുപാർശ ചെയ്യുക (ലിങ്ക്)
Recommender System ഡാറ്റാസെറ്റ് വിവിധ സവിശേഷതകൾ ഉൾക്കൊള്ളുന്ന വിവിധ ഡാറ്റാസെറ്റുകളുടെ ഒരു വലിയ ശേഖരമാണ്,
- ഉൽപ്പന്ന അവലോകനങ്ങൾ
- നക്ഷത്ര റേറ്റിംഗുകൾ
- ഫിറ്റ്നസ് ട്രാക്കിംഗ്
- ഗാന ഡാറ്റ
- സോഷ്യൽ നെറ്റ്വർക്കുകൾ
- ടൈംസ്റ്റാമ്പുകൾ
- ഉപയോക്തൃ/ഇന ഇടപെടലുകൾ
- ജിപിഎസ് ഡാറ്റ
പെൻ ട്രീബാങ്ക് (ലിങ്ക്)
വാൾ സ്ട്രീറ്റ് ജേർണലിൽ നിന്നുള്ള ഈ കോർപ്പസ്, സീക്വൻസ് ലേബലിംഗ് മോഡലുകൾ പരീക്ഷിക്കുന്നതിന് ജനപ്രിയമാണ്.
എൻ.എൽ.ടി.കെ (ലിങ്ക്)
ഈ പൈത്തൺ ലൈബ്രറി NLP-യ്ക്കായി 100-ലധികം കോർപ്പറ, ലെക്സിക്കൽ ഉറവിടങ്ങളിലേക്ക് പ്രവേശനം നൽകുന്നു. ലൈബ്രറി ഉപയോഗിക്കുന്നതിനുള്ള പരിശീലന കോഴ്സായ NLTK പുസ്തകവും ഇതിൽ ഉൾപ്പെടുന്നു.
സാർവത്രിക ആശ്രിതത്വം (ലിങ്ക്)
100-ലധികം ഭാഷകളിലെ ഉറവിടങ്ങൾ, 200 ട്രീബാങ്കുകൾ, 300-ലധികം കമ്മ്യൂണിറ്റി അംഗങ്ങളിൽ നിന്നുള്ള പിന്തുണ എന്നിവ ഉപയോഗിച്ച് വ്യാകരണം വ്യാഖ്യാനിക്കുന്നതിന് യുഡി സ്ഥിരമായ ഒരു മാർഗം നൽകുന്നു.
വികാര വിശകലനം
സിനിമകൾക്കും ധനകാര്യത്തിനുമുള്ള നിഘണ്ടുക്കൾ (ലിങ്ക്)
ഫിനാൻസ് ഫില്ലിംഗുകളിലും മൂവി റിവ്യൂകളിലും പോസിറ്റീവ് അല്ലെങ്കിൽ നെഗറ്റീവ് പോളാരിറ്റിക്ക് വേണ്ടിയുള്ള ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട നിഘണ്ടുക്കൾ സിനിമകൾക്കും ധനകാര്യ ഡാറ്റാസെറ്റ് നൽകുന്നു. ഈ നിഘണ്ടുക്കൾ IMDb, US ഫോം-8 ഫില്ലിംഗുകളിൽ നിന്ന് എടുത്തതാണ്.വികാരം 140 (ലിങ്ക്)
സെന്റിമെന്റ് 140-ൽ 160,000-ലധികം ട്വീറ്റുകൾ ഉണ്ട്: ട്വീറ്റ് തീയതി, ധ്രുവീകരണം, വാചകം, ഉപയോക്തൃനാമം, ഐഡി, ചോദ്യം എന്നിങ്ങനെ 6 വ്യത്യസ്ത ഫീൽഡുകളിൽ തരംതിരിച്ചിരിക്കുന്ന വിവിധ ഇമോട്ടിക്കോണുകൾ. Twitter പ്രവർത്തനത്തെ അടിസ്ഥാനമാക്കി ഒരു ബ്രാൻഡിന്റെയോ ഉൽപ്പന്നത്തിന്റെയോ ഒരു വിഷയത്തിന്റെയോ പോലും വികാരം കണ്ടെത്തുന്നത് ഈ ഡാറ്റാസെറ്റ് നിങ്ങൾക്ക് സാധ്യമാക്കുന്നു. ഈ ഡാറ്റാസെറ്റ് സ്വയമേവ സൃഷ്ടിക്കപ്പെട്ടതിനാൽ, മറ്റ് മനുഷ്യ വ്യാഖ്യാന ട്വീറ്റുകളിൽ നിന്ന് വ്യത്യസ്തമായി, ഇത് പോസിറ്റീവ് വികാരങ്ങളും നെഗറ്റീവ് വികാരങ്ങളും ഉള്ള ട്വീറ്റുകളെ പ്രതികൂലമായി തരംതിരിക്കുന്നു.
മൾട്ടി-ഡൊമെയ്ൻ സെന്റിമെന്റ് ഡാറ്റാസെറ്റ് (ലിങ്ക്)
ഈ മൾട്ടി-ഡൊമെയ്ൻ സെന്റിമെന്റ് ഡാറ്റാസെറ്റ് വിവിധ ഉൽപ്പന്നങ്ങൾക്കായുള്ള ആമസോൺ അവലോകനങ്ങളുടെ ഒരു ശേഖരമാണ്. പുസ്തകങ്ങൾ പോലുള്ള ചില ഉൽപ്പന്ന വിഭാഗങ്ങൾക്ക് ആയിരക്കണക്കിന് അവലോകനങ്ങൾ ഉണ്ട്, മറ്റുള്ളവയ്ക്ക് നൂറുകണക്കിന് അവലോകനങ്ങൾ മാത്രമേയുള്ളൂ. കൂടാതെ, സ്റ്റാർ റേറ്റിംഗുകളുള്ള അവലോകനങ്ങൾ ബൈനറി ലേബലുകളായി പരിവർത്തനം ചെയ്യാവുന്നതാണ്.
സ്റ്റാൻഡ്ഫോർഡ് സെൻ്റിമെൻ്റ് ട്രീബാങ്ക് (ലിങ്ക്)
Rotten Tomatoes-ൽ നിന്നുള്ള ഈ NLP ഡാറ്റാസെറ്റിൽ ദൈർഘ്യമേറിയ ശൈലികളും കൂടുതൽ വിശദമായ വാചക ഉദാഹരണങ്ങളും ഉൾപ്പെടുന്നു.
ബ്ലോഗ് ഓതർഷിപ്പ് കോർപ്പസ് (ലിങ്ക്)
ഈ ശേഖരത്തിൽ ഏകദേശം 1.4 ദശലക്ഷം വാക്കുകളുള്ള ബ്ലോഗ് പോസ്റ്റുകൾ ഉണ്ട്, ഓരോ ബ്ലോഗും ഒരു പ്രത്യേക ഡാറ്റാസെറ്റാണ്.
OpinRank ഡാറ്റാസെറ്റ് (ലിങ്ക്)
എഡ്മണ്ട്സിൽ നിന്നും ട്രിപ്പ് അഡ്വൈസറിൽ നിന്നും 300,000 അവലോകനങ്ങൾ, കാർ മോഡൽ അല്ലെങ്കിൽ ട്രാവൽ ഡെസ്റ്റിനേഷൻ, ഹോട്ടൽ എന്നിവ സംഘടിപ്പിച്ചത്.
ടെക്സ്റ്റ്
-
വിക്കി ക്യുഎ കോർപ്പസ് (ലിങ്ക്)
ഓപ്പൺ-ഡൊമെയ്ൻ ചോദ്യോത്തര ഗവേഷണത്തെ സഹായിക്കുന്നതിനായി സൃഷ്ടിച്ച WiKi QA കോർപ്പസ് പൊതുവായി ലഭ്യമായ ഏറ്റവും വിപുലമായ ഡാറ്റാസെറ്റുകളിൽ ഒന്നാണ്. Bing സെർച്ച് എഞ്ചിൻ അന്വേഷണ ലോഗുകളിൽ നിന്ന് സമാഹരിച്ചത്, ഇത് ചോദ്യോത്തര ജോഡികളോടെയാണ് വരുന്നത്. ഇതിന് 3000-ലധികം ചോദ്യങ്ങളും 1500 ലേബൽ ചെയ്ത ഉത്തര വാക്യങ്ങളുമുണ്ട്.
-
നിയമപരമായ കേസ് റിപ്പോർട്ടുകൾ ഡാറ്റാസെറ്റ് (ലിങ്ക്)
ലീഗൽ കേസ് റിപ്പോർട്ടുകൾ ഡാറ്റാസെറ്റിന് 4000 നിയമ കേസുകളുടെ ശേഖരമുണ്ട്, കൂടാതെ സ്വയമേവയുള്ള വാചക സംഗ്രഹത്തിനും ഉദ്ധരണി വിശകലനത്തിനും പരിശീലനം നൽകാനും ഇത് ഉപയോഗിക്കാം. ഓരോ ഡോക്യുമെന്റും, ക്യാച്ച്ഫ്രേസുകളും, അവലംബ ക്ലാസുകളും, അവലംബ ക്യാച്ച്ഫ്രേസുകളും മറ്റും ഉപയോഗിക്കുന്നു.
-
ജിയോപാർഡി (ലിങ്ക്)
ഒരു റെഡ്ഡിറ്റ് ഉപയോക്താവ് ഒരുമിച്ച് കൊണ്ടുവന്ന ജനപ്രിയ ക്വിസ് ടിവി ഷോയിൽ അവതരിപ്പിച്ച 200,000-ത്തിലധികം ചോദ്യങ്ങളുടെ ഒരു ശേഖരമാണ് ജിയോപാർഡി ഡാറ്റാസെറ്റ്. ഓരോ ഡാറ്റാ പോയിന്റും സംപ്രേഷണം ചെയ്ത തീയതി, എപ്പിസോഡ് നമ്പർ, മൂല്യം, റൗണ്ട്, ചോദ്യം/ഉത്തരം എന്നിവ പ്രകാരം തരം തിരിച്ചിരിക്കുന്നു.
-
20 ന്യൂസ് ഗ്രൂപ്പുകൾ (ലിങ്ക്)
20,000 ഡോക്യുമെൻ്റുകളുടെ ഒരു ശേഖരം 20 വാർത്താ ഗ്രൂപ്പുകളും വിഷയങ്ങളും ഉൾക്കൊള്ളുന്നു, മതം മുതൽ ജനപ്രിയ കായിക വിനോദങ്ങൾ വരെയുള്ള വിഷയങ്ങൾ വിശദീകരിക്കുന്നു.
-
റോയിട്ടേഴ്സ് ന്യൂസ് ഡാറ്റാസെറ്റ് (ലിങ്ക്)
1987-ൽ ആദ്യമായി പ്രത്യക്ഷപ്പെട്ട ഈ ഡാറ്റാസെറ്റ് മെഷീൻ ലേണിംഗ് ആവശ്യങ്ങൾക്കായി ലേബൽ ചെയ്യുകയും ഇൻഡക്സ് ചെയ്യുകയും സമാഹരിക്കുകയും ചെയ്തു.
-
ArXiv (ലിങ്ക്)
ഈ ഗണ്യമായ 270 GB ഡാറ്റാസെറ്റിൽ എല്ലാ arXiv ഗവേഷണ പേപ്പറുകളുടെയും പൂർണ്ണമായ വാചകം ഉൾപ്പെടുന്നു.
-
യൂറോപ്യൻ പാർലമെൻ്റ് നടപടികൾ സമാന്തര കോർപ്പസ് (ലിങ്ക്)
പാർലമെൻ്റ് നടപടികളിൽ നിന്നുള്ള വാക്യ ജോഡികളിൽ 21 യൂറോപ്യൻ ഭാഷകളിൽ നിന്നുള്ള എൻട്രികൾ ഉൾപ്പെടുന്നു, മെഷീൻ ലേണിംഗ് കോർപ്പറയ്ക്കായി സാധാരണമല്ലാത്ത ചില ഭാഷകൾ ഫീച്ചർ ചെയ്യുന്നു.
-
ബില്യൺ വേഡ് ബെഞ്ച്മാർക്ക് (ലിങ്ക്)
WMT 2011 ന്യൂസ് ക്രാളിൽ നിന്ന് ഉരുത്തിരിഞ്ഞത്, ഈ ഭാഷാ മോഡലിംഗ് ഡാറ്റാസെറ്റിൽ നൂതന ഭാഷാ മോഡലിംഗ് ടെക്നിക്കുകൾ പരീക്ഷിക്കുന്നതിനായി ഏകദേശം ഒരു ബില്യൺ വാക്കുകൾ അടങ്ങിയിരിക്കുന്നു.
ഓഡിയോ പ്രസംഗം
-
സ്പോക്കൺ വിക്കിപീഡിയ കോർപ്പറ (ലിങ്ക്)
-
2000 HUB5 ഇംഗ്ലീഷ് (ലിങ്ക്)
2000 HUB5 ഇംഗ്ലീഷ് ഡാറ്റാസെറ്റിൽ ഇംഗ്ലീഷ് ഭാഷയിൽ 40 ടെലിഫോൺ സംഭാഷണ ട്രാൻസ്ക്രിപ്റ്റുകൾ ഉണ്ട്. നാഷണൽ ഇൻസ്റ്റിറ്റ്യൂട്ട് ഓഫ് സ്റ്റാൻഡേർഡ്സ് ആൻഡ് ടെക്നോളജിയാണ് ഡാറ്റ നൽകുന്നത്, സംഭാഷണ സംഭാഷണം തിരിച്ചറിയുന്നതിനും സംഭാഷണം ടെക്സ്റ്റാക്കി മാറ്റുന്നതിനുമാണ് ഇതിന്റെ പ്രധാന ശ്രദ്ധ.
-
ലിബ്രിസ്പീച്ച് (ലിങ്ക്)
LibriSpeech ഡാറ്റാസെറ്റ് ഏകദേശം 1000 മണിക്കൂർ ഇംഗ്ലീഷ് സംഭാഷണത്തിന്റെ ഒരു ശേഖരമാണ്, അത് ഓഡിയോ ബുക്കുകളിൽ നിന്നുള്ള അധ്യായങ്ങളായി വിഷയങ്ങളാൽ ശരിയായി വിഭജിച്ചിരിക്കുന്നു, ഇത് സ്വാഭാവിക ഭാഷാ പ്രോസസ്സിംഗിനുള്ള മികച്ച ഉപകരണമാക്കി മാറ്റുന്നു.
-
സൗജന്യ സ്പോക്കൺ ഡിജിറ്റ് ഡാറ്റാസെറ്റ് (ലിങ്ക്)
ഈ NLP ഡാറ്റാസെറ്റിൽ ഇംഗ്ലീഷിൽ സംസാരിക്കുന്ന അക്കങ്ങളുടെ 1,500-ലധികം റെക്കോർഡിംഗുകൾ ഉൾപ്പെടുന്നു.
-
M-AI ലാബ്സ് സ്പീച്ച് ഡാറ്റാസെറ്റ് (ലിങ്ക്)
ഒന്നിലധികം ഭാഷകൾ ഉൾക്കൊള്ളുന്നതും പുരുഷൻ, സ്ത്രീ, മിശ്ര ശബ്ദങ്ങൾ എന്നിങ്ങനെ തരംതിരിച്ചിരിക്കുന്നതുമായ ട്രാൻസ്ക്രിപ്ഷനുകളോട് കൂടിയ ഏകദേശം 1,000 മണിക്കൂർ ഓഡിയോ ഡാറ്റാസെറ്റ് വാഗ്ദാനം ചെയ്യുന്നു.
-
ശബ്ദായമാനമായ സംഭാഷണ ഡാറ്റാബേസ് (ലിങ്ക്)
ഈ ഡാറ്റാസെറ്റ് സമാന്തര ശബ്ദവും വൃത്തിയുള്ളതുമായ സംഭാഷണ റെക്കോർഡിംഗുകൾ അവതരിപ്പിക്കുന്നു, ഇത് സംഭാഷണ മെച്ചപ്പെടുത്തൽ സോഫ്റ്റ്വെയർ വികസനത്തിന് ഉദ്ദേശിച്ചുള്ളതാണ്, എന്നാൽ വെല്ലുവിളി നിറഞ്ഞ സാഹചര്യങ്ങളിൽ സംഭാഷണത്തെക്കുറിച്ചുള്ള പരിശീലനത്തിനും ഇത് പ്രയോജനകരമാണ്.
അവലോകനങ്ങൾ
-
Yelp അവലോകനങ്ങൾ (ലിങ്ക്)
Yelp ഡാറ്റാസെറ്റിന് 8.5-ലധികം ബിസിനസുകൾ, അവയുടെ അവലോകനങ്ങൾ, ഉപയോക്തൃ ഡാറ്റ എന്നിവയുടെ 160,000 ദശലക്ഷം അവലോകനങ്ങളുടെ വിപുലമായ ശേഖരമുണ്ട്. നിങ്ങളുടെ മോഡലുകളെ വികാര വിശകലനത്തിൽ പരിശീലിപ്പിക്കാൻ അവലോകനങ്ങൾ ഉപയോഗിക്കാം. കൂടാതെ, ഈ ഡാറ്റാസെറ്റിൽ എട്ട് മെട്രോപൊളിറ്റൻ ലൊക്കേഷനുകൾ ഉൾക്കൊള്ളുന്ന 200,000-ത്തിലധികം ചിത്രങ്ങളുണ്ട്.
-
IMDB അവലോകനങ്ങൾ (ലിങ്ക്)
50-ത്തിലധികം സിനിമകൾക്കായുള്ള കാസ്റ്റ് വിവരങ്ങൾ, റേറ്റിംഗുകൾ, വിവരണം, തരം എന്നിവ അടങ്ങിയ ഏറ്റവും ജനപ്രിയമായ ഡാറ്റാസെറ്റുകളിൽ ഒന്നാണ് IMDB അവലോകനങ്ങൾ. നിങ്ങളുടെ മെഷീൻ ലേണിംഗ് മോഡലുകൾ പരീക്ഷിക്കാനും പരിശീലിപ്പിക്കാനും ഈ ഡാറ്റാസെറ്റ് ഉപയോഗിക്കാം.
-
ആമസോൺ അവലോകനങ്ങളും റേറ്റിംഗ് ഡാറ്റാസെറ്റും (ലിങ്ക്)
ആമസോൺ അവലോകനത്തിലും റേറ്റിംഗ് ഡാറ്റാസെറ്റിലും 1996 മുതൽ 2014 വരെ ശേഖരിച്ച ആമസോണിൽ നിന്നുള്ള വിവിധ ഉൽപ്പന്നങ്ങളുടെ മെറ്റാഡാറ്റയുടെയും അവലോകനങ്ങളുടെയും വിലപ്പെട്ട ശേഖരം അടങ്ങിയിരിക്കുന്നു - ഏകദേശം 142.8 ദശലക്ഷം റെക്കോർഡുകൾ. മെറ്റാഡാറ്റയിൽ വില, ഉൽപ്പന്ന വിവരണം, ബ്രാൻഡ്, വിഭാഗം എന്നിവയും മറ്റും ഉൾപ്പെടുന്നു, അതേസമയം അവലോകനങ്ങൾക്ക് ടെക്സ്റ്റ് ഗുണമേന്മ, ടെക്സ്റ്റിന്റെ പ്രയോജനം, റേറ്റിംഗുകൾ എന്നിവയും മറ്റും ഉണ്ട്.
ചോദ്യവും ഉത്തരവും
-
സ്റ്റാൻഫോർഡ് ചോദ്യോത്തര ഡാറ്റാസെറ്റ് (SQuAD) (ലിങ്ക്)
ഈ റീഡിംഗ് കോംപ്രിഹെൻഷൻ ഡാറ്റാസെറ്റിൽ ഉത്തരം നൽകാവുന്ന 100,000 ചോദ്യങ്ങളും ഉത്തരം നൽകാനാവാത്ത 50,000 ചോദ്യങ്ങളുമുണ്ട്, എല്ലാം വിക്കിപീഡിയയിലെ ജനക്കൂട്ടം പ്രവർത്തകർ സൃഷ്ടിച്ചതാണ്.
-
സ്വാഭാവിക ചോദ്യങ്ങൾ (ലിങ്ക്)
ഈ പരിശീലന സെറ്റിന് 300,000 പരിശീലന ഉദാഹരണങ്ങളും 7,800 വികസന ഉദാഹരണങ്ങളും 7,800 ടെസ്റ്റ് ഉദാഹരണങ്ങളും ഉണ്ട്, ഓരോന്നിനും Google അന്വേഷണവും പൊരുത്തപ്പെടുന്ന വിക്കിപീഡിയ പേജും ഉണ്ട്.
-
ട്രിവിയക്യുഎ (ലിങ്ക്)
ഈ വെല്ലുവിളി നിറഞ്ഞ ചോദ്യ സെറ്റിന് 950,000 QA ജോഡികളുണ്ട്, അതിൽ മനുഷ്യൻ പരിശോധിച്ചതും മെഷീൻ സൃഷ്ടിച്ചതുമായ ഉപസെറ്റുകൾ ഉൾപ്പെടുന്നു.
-
CLEVR (കോമ്പോസിഷണൽ ലാംഗ്വേജ് ആൻഡ് എലിമെൻ്ററി വിഷ്വൽ റീസണിംഗ്) (ലിങ്ക്)
ഈ വിഷ്വൽ ചോദ്യത്തിന് ഉത്തരം നൽകുന്ന ഡാറ്റാസെറ്റിൽ 3D റെൻഡർ ചെയ്ത ഒബ്ജക്റ്റുകളും വിഷ്വൽ സീനെക്കുറിച്ചുള്ള വിശദാംശങ്ങളുള്ള ആയിരക്കണക്കിന് ചോദ്യങ്ങളും ഉൾപ്പെടുന്നു.
അതിനാൽ, നിങ്ങളുടെ മെഷീൻ ലേണിംഗ് മോഡലിനെ പരിശീലിപ്പിക്കാൻ ഏത് ഡാറ്റാസെറ്റാണ് നിങ്ങൾ തിരഞ്ഞെടുത്തത്?
ഞങ്ങൾ പോകുമ്പോൾ, ഞങ്ങൾ നിങ്ങളെ ഏൽപ്പിക്കും അനുകൂല നുറുങ്ങ്.
നിങ്ങളുടെ ആവശ്യങ്ങൾക്കായി ഒരു NLP ഡാറ്റാസെറ്റ് തിരഞ്ഞെടുക്കുന്നതിന് മുമ്പ് README ഫയലിലൂടെ നന്നായി പരിശോധിക്കുന്നത് ഉറപ്പാക്കുക. ഡാറ്റാസെറ്റിന്റെ ഉള്ളടക്കം, ഡാറ്റ തരംതിരിച്ചിരിക്കുന്ന വിവിധ പാരാമീറ്ററുകൾ, ഡാറ്റാസെറ്റിന്റെ സാധ്യതയുള്ള ഉപയോഗ കേസുകൾ എന്നിവ പോലെ നിങ്ങൾക്ക് ആവശ്യമായ എല്ലാ വിവരങ്ങളും ഡാറ്റാസെറ്റിൽ അടങ്ങിയിരിക്കും.
നിങ്ങൾ നിർമ്മിക്കുന്ന മോഡലുകൾ പരിഗണിക്കാതെ തന്നെ, ഞങ്ങളുടെ മെഷീനുകളെ നമ്മുടെ ജീവിതവുമായി കൂടുതൽ അടുത്തും അന്തർലീനമായും സമന്വയിപ്പിക്കുന്നതിനുള്ള ആവേശകരമായ ഒരു സാധ്യതയുണ്ട്. NLP ഉപയോഗിച്ച്, ബിസിനസ്സ്, സിനിമകൾ, സംഭാഷണം തിരിച്ചറിയൽ, ധനകാര്യം എന്നിവയ്ക്കും അതിലേറെ കാര്യങ്ങൾക്കുമുള്ള സാധ്യതകൾ പലമടങ്ങ് വർധിച്ചു.