എൽഎൽഎം ബെഞ്ച്മാർക്കിംഗ്

എൽഎൽഎം ബെഞ്ച്മാർക്കിംഗ്, പുനർനിർമ്മിച്ചത്: മനുഷ്യ വിധിന്യായം തിരികെ കൊണ്ടുവരിക

ഓട്ടോമേറ്റഡ് സ്കോറുകൾ മാത്രം നോക്കിയാൽ, മിക്ക എൽഎൽഎമ്മുകളും മികച്ചതായി തോന്നും - അവ സൂക്ഷ്മമായി തെറ്റായതോ, അപകടസാധ്യതയുള്ളതോ, അല്ലെങ്കിൽ ഓഫ്-ടോണിൽ എഴുതുന്നതോ വരെ. സ്റ്റാറ്റിക് ബെഞ്ച്മാർക്കുകൾ അളക്കുന്നതും നിങ്ങളുടെ ഉപയോക്താക്കൾക്ക് യഥാർത്ഥത്തിൽ ആവശ്യമുള്ളതും തമ്മിലുള്ള വിടവാണിത്. ഈ ഗൈഡിൽ, ഓട്ടോമേഷനുമായി മനുഷ്യ വിധിന്യായം (HITL) എങ്ങനെ സംയോജിപ്പിക്കാമെന്ന് ഞങ്ങൾ കാണിക്കുന്നു, അങ്ങനെ നിങ്ങളുടെ എൽഎൽഎം ബെഞ്ച്മാർക്കിംഗ് ടോക്കൺ-ലെവൽ കൃത്യത മാത്രമല്ല - സത്യസന്ധത, സുരക്ഷ, ഡൊമെയ്ൻ ഫിറ്റ് എന്നിവ പ്രതിഫലിപ്പിക്കുന്നു.

എൽഎൽഎം ബെഞ്ച്മാർക്കിംഗ് യഥാർത്ഥത്തിൽ എന്താണ് അളക്കുന്നത്

ഓട്ടോമേറ്റഡ് മെട്രിക്സുകളും ലീഡർബോർഡുകളും വേഗതയേറിയതും ആവർത്തിക്കാവുന്നതുമാണ്. മൾട്ടിപ്പിൾ ചോയ്‌സ് ടാസ്‌ക്കുകളിലെ കൃത്യത, ടെക്‌സ്‌റ്റ് സമാനതയ്‌ക്കുള്ള BLEU/ROUGE, ഭാഷാ മോഡലിംഗിനുള്ള ആശയക്കുഴപ്പം എന്നിവ ദിശാസൂചന സിഗ്നലുകൾ നൽകുന്നു. എന്നാൽ അവ പലപ്പോഴും യുക്തിസഹമായ ശൃംഖലകൾ, വസ്തുതാപരമായ അടിസ്ഥാനം, നയ പാലിക്കൽ എന്നിവ നഷ്ടപ്പെടുത്തുന്നു - പ്രത്യേകിച്ച് ഉയർന്ന തലത്തിലുള്ള സന്ദർഭങ്ങളിൽ. അതുകൊണ്ടാണ് ആധുനിക പ്രോഗ്രാമുകൾ മൾട്ടി-മെട്രിക്, സുതാര്യമായ റിപ്പോർട്ടിംഗ്, സാഹചര്യ യാഥാർത്ഥ്യം എന്നിവയ്ക്ക് പ്രാധാന്യം നൽകുന്നത്.

ഓട്ടോമേറ്റഡ് മെട്രിക്സും സ്റ്റാറ്റിക് ടെസ്റ്റ് സെറ്റുകളും

ക്ലാസിക് മെട്രിക്സിനെക്കുറിച്ച് ചിന്തിക്കുക a സ്പീഡോമീറ്റർ—സുഗമമായ ഒരു ഹൈവേയിൽ നിങ്ങൾ എത്ര വേഗത്തിലാണ് പോകുന്നതെന്ന് പറഞ്ഞതിന് വളരെ മികച്ചത്. പക്ഷേ, മഴയിൽ ബ്രേക്കുകൾ പ്രവർത്തിക്കുന്നുണ്ടോ എന്ന് അവർ നിങ്ങളോട് പറയില്ല. ബ്ലൂ/റോഗ്/പെർപ്ലക്‌സിറ്റി താരതമ്യത്തിന് സഹായിക്കുന്നു, പക്ഷേ അവയെ ഓർമ്മപ്പെടുത്തൽ അല്ലെങ്കിൽ ഉപരിതല-തല പൊരുത്തം വഴി ക്രമീകരിക്കാൻ കഴിയും.

അവർക്ക് എവിടെയാണ് വീഴ്ച സംഭവിക്കുന്നത്

യഥാർത്ഥ ഉപയോക്താക്കൾ അവ്യക്തത, ഡൊമെയ്ൻ പദപ്രയോഗങ്ങൾ, പരസ്പരവിരുദ്ധമായ ലക്ഷ്യങ്ങൾ, മാറുന്ന നിയന്ത്രണങ്ങൾ എന്നിവ കൊണ്ടുവരുന്നു. സ്റ്റാറ്റിക് ടെസ്റ്റ് സെറ്റുകൾ അത് വളരെ അപൂർവമായി മാത്രമേ പിടിച്ചെടുക്കൂ. തൽഫലമായി, പൂർണ്ണമായും ഓട്ടോമേറ്റഡ് ബെഞ്ച്മാർക്കുകൾ സങ്കീർണ്ണമായ എന്റർപ്രൈസ് ജോലികൾക്കുള്ള മോഡൽ സന്നദ്ധതയെ അമിതമായി വിലയിരുത്തുന്നു. HELM/AIR-Bench പോലുള്ള കമ്മ്യൂണിറ്റി ശ്രമങ്ങൾ കൂടുതൽ മാനങ്ങൾ (ദൃഢത, സുരക്ഷ, വെളിപ്പെടുത്തൽ) ഉൾക്കൊള്ളുന്നതിലൂടെയും സുതാര്യവും വികസിച്ചുകൊണ്ടിരിക്കുന്നതുമായ സ്യൂട്ടുകൾ പ്രസിദ്ധീകരിക്കുന്നതിലൂടെയും ഇത് പരിഹരിക്കുന്നു.

എൽഎൽഎം ബെഞ്ച്മാർക്കുകളിലെ മനുഷ്യ വിലയിരുത്തലിനുള്ള കേസ്

ചില ഗുണങ്ങൾ ശാഠ്യപൂർവ്വം മാനുഷികമായി നിലനിൽക്കുന്നു: സ്വരസൂചകം, സഹായമനസ്ഥിതി, സൂക്ഷ്മമായ കൃത്യത, സാംസ്കാരിക ഔചിത്യം, അപകടസാധ്യത. ശരിയായ പരിശീലനം ലഭിച്ചതും കാലിബ്രേറ്റ് ചെയ്തതുമായ മനുഷ്യ റേറ്റർമാർ ഇവയ്ക്ക് നമുക്കുള്ള ഏറ്റവും മികച്ച ഉപകരണങ്ങളാണ്. തന്ത്രം അവരെ ഉപയോഗിക്കുക എന്നതാണ്. തിരഞ്ഞെടുത്തും വ്യവസ്ഥാപിതമായുംഅതിനാൽ ഗുണനിലവാരം ഉയർന്ന നിലയിൽ തുടരുമ്പോൾ തന്നെ ചെലവുകൾ നിയന്ത്രിക്കാൻ കഴിയും.

മനുഷ്യരെ എപ്പോൾ ഉൾപ്പെടുത്തണം

മനുഷ്യരെ എപ്പോൾ ഉൾപ്പെടുത്തണം

  • അവ്യക്തത: നിർദ്ദേശങ്ങൾ ഒന്നിലധികം വിശ്വസനീയമായ ഉത്തരങ്ങൾ അനുവദിക്കുന്നു.
  • ഉയർന്ന അപകടസാധ്യതയുള്ളത്: ആരോഗ്യ സംരക്ഷണം, ധനകാര്യം, നിയമം, സുരക്ഷ-നിർണ്ണായക പിന്തുണ.
  • ഡൊമെയ്ൻ സൂക്ഷ്മത: വ്യവസായ പദപ്രയോഗങ്ങൾ, പ്രത്യേക ന്യായവാദം.
  • വിയോജിപ്പിന്റെ സൂചനകൾ: ഓട്ടോമേറ്റഡ് സ്കോറുകൾ പരസ്പരം വൈരുദ്ധ്യമുള്ളതോ വ്യാപകമായി വ്യത്യാസപ്പെടുന്നതോ ആണ്.

റൂബ്രിക്കുകളും കാലിബ്രേഷനും രൂപകൽപ്പന ചെയ്യൽ (ലളിതമായ ഉദാഹരണം)

1–5 സ്കെയിലിൽ ആരംഭിക്കുക കൃത്യത, അടിസ്ഥാനം, ഒപ്പം നയ വിന്യാസം. ഓരോ സ്കോറിനും 2–3 വ്യാഖ്യാനിച്ച ഉദാഹരണങ്ങൾ നൽകുക. ചുരുക്കി പ്രവർത്തിപ്പിക്കുക. കാലിബ്രേഷൻ റൗണ്ടുകൾ: റേറ്റർമാർ ഒരു പങ്കിട്ട ബാച്ച് സ്കോർ ചെയ്യുന്നു, തുടർന്ന് സ്ഥിരത കർശനമാക്കുന്നതിന് യുക്തികൾ താരതമ്യം ചെയ്യുന്നു. ഇന്റർ-റേറ്റർ കരാർ ട്രാക്ക് ചെയ്യുകയും ബോർഡർലൈൻ കേസുകൾക്ക് വിധിനിർണ്ണയം ആവശ്യപ്പെടുകയും ചെയ്യുന്നു.

രീതികൾ: എൽഎൽഎം-ആസ്-എ-ജഡ്ജ് മുതൽ ട്രൂ എച്ച്ഐടിഎൽ വരെ

എൽഎൽഎം-ആസ്-എ-ജഡ്ജ് (മറ്റൊരു മോഡലിനെ ഗ്രേഡ് ചെയ്യാൻ ഒരു മോഡൽ ഉപയോഗിക്കുന്നത്) ഉപയോഗപ്രദമാണ് തൃശൂലം: ഇത് വേഗതയേറിയതും വിലകുറഞ്ഞതുമാണ്, കൂടാതെ നേരിട്ടുള്ള പരിശോധനകൾക്ക് നന്നായി പ്രവർത്തിക്കുന്നു. എന്നാൽ ഇതിന് അതേ ബ്ലൈൻഡ് സ്പോട്ടുകൾ പങ്കിടാൻ കഴിയും - ഭ്രമാത്മകത, വ്യാജ പരസ്പരബന്ധം അല്ലെങ്കിൽ "ഗ്രേഡ് പണപ്പെരുപ്പം". ഇത് ഉപയോഗിക്കുക മുൻ‌ഗണന നൽകുക പകരം വയ്ക്കാനല്ല, മറിച്ച് മനുഷ്യ അവലോകനത്തിനുള്ള കേസുകൾ.

ഒരു പ്രായോഗിക ഹൈബ്രിഡ് പൈപ്പ്‌ലൈൻ

ഒരു പ്രായോഗിക ഹൈബ്രിഡ് പൈപ്പ്‌ലൈൻ

  1. ഓട്ടോമേറ്റഡ് പ്രീ-സ്ക്രീൻ: വ്യക്തമായ പാസുകൾ/പരാജയങ്ങൾ ഫിൽട്ടർ ചെയ്യുന്നതിന് ടാസ്‌ക് മെട്രിക്‌സ്, അടിസ്ഥാന ഗാർഡ്‌റെയിലുകൾ, എൽഎൽഎം-ആസ്-ജഡ്ജ് എന്നിവ പ്രവർത്തിപ്പിക്കുക.
  2. സജീവ തിരഞ്ഞെടുപ്പ്: പരസ്പരവിരുദ്ധമായ സിഗ്നലുകളോ ഉയർന്ന അനിശ്ചിതത്വമോ ഉള്ള സാമ്പിളുകൾ മനുഷ്യ അവലോകനത്തിനായി തിരഞ്ഞെടുക്കുക.
  3. വിദഗ്ദ്ധ മനുഷ്യ വ്യാഖ്യാനം: പരിശീലനം ലഭിച്ച റേറ്റർമാർ (അല്ലെങ്കിൽ ഡൊമെയ്ൻ വിദഗ്ധർ) വ്യക്തമായ റൂബ്രിക്കുകൾക്കെതിരെ സ്കോർ ചെയ്യുന്നു; അഭിപ്രായവ്യത്യാസങ്ങൾ തീർക്കുന്നു.
  4. ഗുണമേന്മ: ഇന്റർ-റേറ്റർ വിശ്വാസ്യത നിരീക്ഷിക്കുക; ഓഡിറ്റ് ലോഗുകളും യുക്തികളും നിലനിർത്തുക. പ്രായോഗിക നോട്ട്ബുക്കുകൾ (ഉദാഹരണത്തിന്, HITL വർക്ക്ഫ്ലോകൾ) ഈ ലൂപ്പ് സ്കെയിൽ ചെയ്യുന്നതിനുമുമ്പ് പ്രോട്ടോടൈപ്പ് ചെയ്യുന്നത് എളുപ്പമാക്കുന്നു.

താരതമ്യ പട്ടിക: ഓട്ടോമേറ്റഡ് vs എൽഎൽഎം-ആസ്-ജഡ്ജ് vs എച്ച്ഐടിഎൽ

സമീപനം ശക്തി ദുർബലത മികച്ച ഉപയോഗം
ഓട്ടോമേറ്റഡ് മെട്രിക്കുകൾ വേഗതയുള്ള, പുനരുൽപ്പാദിപ്പിക്കാവുന്ന, വിലകുറഞ്ഞ മിസ്സ് ന്യൂനൻസ്/യുക്തിസഹകരണം, അമിതമായി ഫിറ്റ് ചെയ്യാൻ എളുപ്പമാണ് ബേസ്‌ലൈൻ & റിഗ്രഷൻ പരിശോധനകൾ
ജഡ്ജിയായി എൽഎൽഎം സ്കെയിൽ ട്രയേജ്, ഉപരിതല പ്രശ്നങ്ങൾ മോഡൽ ബയസുകൾ പങ്കിടുന്നു; ഓഡിറ്റ്-ഗ്രേഡ് അല്ല. മനുഷ്യ അവലോകനങ്ങൾക്ക് മുൻഗണന നൽകുക
HITL (വിദഗ്ധ റേറ്റർമാർ) സൂക്ഷ്മതകൾ പകർത്തുന്നു, ഓഡിറ്റിന് തയ്യാറാണ് ട്രയേജ് ഇല്ലാതെ വേഗത കുറഞ്ഞതും ചെലവേറിയതും ഉയർന്ന അപകടസാധ്യതയുള്ള ജോലികൾ, നയ/സുരക്ഷാ ഗേറ്റുകൾ

നുറുങ്ങ്: കവറേജിനും വിശ്വാസ്യതയ്ക്കും വേണ്ടി മൂന്നും സംയോജിപ്പിക്കുക.

സുരക്ഷയും അപകടസാധ്യതയും സംബന്ധിച്ച ബെഞ്ച്മാർക്കുകൾ വ്യത്യസ്തമാണ്

റെഗുലേറ്റർമാരും സ്റ്റാൻഡേർഡ് ബോഡികളും അപകടസാധ്യതകൾ രേഖപ്പെടുത്തുന്ന വിലയിരുത്തലുകൾ പ്രതീക്ഷിക്കുന്നു, പരിശോധിക്കുന്നു റിയലിസ്റ്റിക് സാഹചര്യങ്ങൾ, മേൽനോട്ടം എന്നിവ പ്രകടമാക്കുക. NIST AI RMF (2024 GenAI പ്രൊഫൈൽ) പങ്കിട്ട പദാവലിയും പ്രയോഗങ്ങളും നൽകുന്നു; NIST GenAI വിലയിരുത്തൽ പ്രോഗ്രാം ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട പരിശോധനകൾ നടത്തുന്നു; കൂടാതെ ഹെൽം/എയർ-ബെഞ്ച് മൾട്ടി-മെട്രിക്, സുതാര്യമായ ഫലങ്ങൾ സ്പോട്ട്‌ലൈറ്റ് ചെയ്യുന്നു. നിങ്ങളുടെ ഭരണ വിവരണം ഉറപ്പിക്കാൻ ഇവ ഉപയോഗിക്കുക.

സുരക്ഷാ ഓഡിറ്റുകൾക്കായി എന്തൊക്കെ ശേഖരിക്കണം

സുരക്ഷാ ഓഡിറ്റുകൾക്കായി എന്തൊക്കെ ശേഖരിക്കണം

  • വിലയിരുത്തൽ പ്രോട്ടോകോളുകൾ, റൂബ്രിക്സ്, ഒപ്പം അനോട്ടേറ്റർ പരിശീലനം വസ്തുക്കൾ
  • ഡാറ്റ വംശം മലിനീകരണ പരിശോധനകളും
  • ഇന്റർ-റേറ്റർ സ്ഥിതിവിവരക്കണക്കുകളും വിധിനിർണ്ണയ കുറിപ്പുകളും
  • പതിപ്പ് ബെഞ്ച്മാർക്ക് ഫലങ്ങളും റിഗ്രഷൻ ചരിത്രവും

LLM സൊല്യൂഷൻസ്

മിനി-സ്റ്റോറി: ബാങ്കിംഗ് കെ‌വൈ‌സിയിലെ തെറ്റായ പോസിറ്റീവുകൾ കുറയ്ക്കൽ

ഒരു ബാങ്കിന്റെ KYC അനലിസ്റ്റ് ടീം കംപ്ലയൻസ് അലേർട്ടുകൾ സംഗ്രഹിക്കുന്നതിനായി രണ്ട് മോഡലുകൾ പരീക്ഷിച്ചു. ഓട്ടോമേറ്റഡ് സ്കോറുകൾ സമാനമായിരുന്നു. ഒരു HITL പാസിനിടെ, റേറ്റർമാർ അത് ഫ്ലാഗ് ചെയ്തു മോഡൽ എ ഇടയ്ക്കിടെ വീഴുന്നു നെഗറ്റീവ് യോഗ്യതാപത്രങ്ങൾ ("മുൻ ഉപരോധങ്ങളൊന്നുമില്ല"), അർത്ഥങ്ങൾ മാറിമറിയുന്നു. വിധിനിർണ്ണയത്തിനുശേഷം, ബാങ്ക് തിരഞ്ഞെടുത്തു മോഡൽ ബി അപ്‌ഡേറ്റ് ചെയ്‌ത പ്രോംപ്റ്റുകളും. ഒരു ആഴ്ചയിൽ തെറ്റായ പോസിറ്റീവുകൾ 18% കുറഞ്ഞു, ഇത് യഥാർത്ഥ അന്വേഷണങ്ങൾക്ക് വിശകലന വിദഗ്ധരെ സ്വതന്ത്രരാക്കി. (പാഠം: ഓട്ടോമേറ്റഡ് സ്‌കോറുകൾ സൂക്ഷ്മവും ഉയർന്ന ആഘാതമുണ്ടാക്കുന്നതുമായ ഒരു പിശക് നഷ്‌ടപ്പെടുത്തി; HITL അത് കണ്ടെത്തി.)

ഷായ്പ് സഹായിക്കുന്നിടത്ത്

അവ്യക്തമായ/ഉയർന്ന അപകടസാധ്യതയുള്ള ജോലികളിൽ മനുഷ്യ മൂല്യനിർണ്ണയവുമായി ഓട്ടോമേറ്റഡ് മെട്രിക്സ് സംയോജിപ്പിക്കുക; ഡോക്യുമെന്റ് റൂബ്രിക്കുകൾ, റേറ്റർ കാലിബ്രേഷൻ, ഓഡിറ്റബിലിറ്റിക്കായുള്ള വിലയിരുത്തൽ. നിങ്ങൾക്ക് താൽപ്പര്യമുള്ള NIST RMF വിഭാഗങ്ങളിലേക്ക് റിപ്പോർട്ടുകൾ വിന്യസിക്കുക.

ഓട്ടോമേറ്റഡ് സ്കോറുകൾ നഷ്ടപ്പെടുത്തുന്ന സൂക്ഷ്മത - സ്വരം, സന്ദർഭം, സൂക്ഷ്മമായ കൃത്യത, നയ വിന്യാസം - മനുഷ്യർ പിടിച്ചെടുക്കുന്നു. അനിശ്ചിതത്വം കൂടുതലുള്ളപ്പോഴോ അപകടസാധ്യതകൾ യഥാർത്ഥമായപ്പോഴോ അവ ഉപയോഗിക്കുക.

ഇല്ല. അവ ആവശ്യമാണ്, പക്ഷേ അപര്യാപ്തമാണ്. സുരക്ഷയ്ക്ക് സാഹചര്യ-യഥാർത്ഥ പരിശോധനകൾ, വ്യക്തമായ അപകടസാധ്യത/ദുരുപയോഗ കേസുകൾ, മനുഷ്യ മേൽനോട്ടം എന്നിവ ആവശ്യമാണ്; NIST GenAI, HELM/AIR-Bench നിർദ്ദേശങ്ങൾ എന്നിവ കാണുക.

ട്രയേജിനും സ്കെയിലിനും മികച്ചതാണ്, പക്ഷേ ഇത് മോഡൽ ബയസുകൾ പങ്കിടുന്നു. സങ്കീർണ്ണമായ ജോലികളിൽ മനുഷ്യ അവലോകനം മാറ്റിസ്ഥാപിക്കുന്നതിനല്ല, മുൻഗണന നൽകാൻ ഇത് ഉപയോഗിക്കുക.

HELM/AIR-Bench (സുരക്ഷ/ദൃഢത) പോലുള്ള കമ്മ്യൂണിറ്റി ഹബ്ബുകളെയും നിങ്ങളുടെ അപകടസാധ്യതകൾക്ക് അനുസൃതമായി വിന്യസിക്കുന്ന ഏതെങ്കിലും ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട സ്യൂട്ടുകളെയും നിരീക്ഷിക്കുക. മലിനീകരണം ഒഴിവാക്കാൻ സെറ്റുകൾ പുതുതായി സൂക്ഷിക്കുക.

സാമൂഹിക പങ്കിടൽ