Articles Technology

യന്ത്രങ്ങളുടെ തത്തമ്മപേച്ചും ആശങ്കകളും

അജിത് ബാലകൃഷ്ണൻ

May 19, 2022
1 min read

“… And there precisely is a crucial difference between man and machine: Man, in order to become whole, must be forever an explorer of both his inner and his outer realities. His life is full of risks, but risks he has the courage to accept, because, like the explorer, he learns to trust his own capacities to endure, to overcome. What could it mean to speak of risk, courage, trust, endurance, and overcoming when one speaks of machines?” – Joseph Weizenbaum (1923 – 2008), German American computer scientist.

എലൈസ

1966-ൽ ജോസഫ് വെയ്‌സൻബോം (Joseph Weizenbaum) എന്ന ശാസ്ത്രജ്ഞൻ മനുഷ്യർക്ക് ഇംഗ്ലീഷിൽ കമ്പ്യൂട്ടറുമായി സംഭാഷണം നടത്താൻ പറ്റുന്ന ഒരു സോഫ്റ്റ്‌വെയർ ഉണ്ടാക്കി. അതായിരിക്കണം ലോകത്തെ ആദ്യത്തെ ചാറ്റ്ബോട്ട് (chatbot).

മനുഷ്യരോട് പരസഹായമില്ലാതെ അർഥപൂർണമായ സംഭാഷണങ്ങളിൽ ഏർപ്പെടാനാകുന്ന കമ്പ്യൂട്ടർ പ്രോഗ്രാമുകളും ആപ്പുകളും ഇന്നാരെയും അത്ഭുതപ്പെടുത്തുന്നില്ല. ഗൂഗിൾ അസിസ്റ്റൻ്റും, ആമസോണിന്‍റെ അലക്സയും, ആപ്പിൾ ഉപകരണങ്ങളിലെ സിരിയും പോലുള്ള ഡിജിറ്റൽ സഹായികൾ, ഓൺലൈൻ വ്യവഹാരങ്ങളിലേർപ്പെടുമ്പോൾ ചാറ്റ് വിൻഡോയിൽ സഹായത്തിനെത്തുന്ന മനുഷ്യ നാമധാരികളായ ഏജൻ്റുകൾ, വിവിധ രൂപങ്ങളിൽ നമ്മുടെ ജീവിതത്തിലെ നിത്യസാന്നിധ്യങ്ങളായി ചാറ്റ്ബോട്ടുകൾ മാറി കഴിഞ്ഞിട്ടുണ്ട്. എന്നാൽ 1960-കളിൽ അത്തരമൊരു കമ്പ്യൂട്ടർ പ്രോഗ്രാം ഏറെ പുതുമയുള്ള ഒന്നായിരുന്നു.

നിർമ്മിത ബുദ്ധിയുടെ (artificial intelligence) ആദ്യകാല പ്രണേതാക്കളിൽ ഒരാളായിരുന്നു വെയ്‌സൻബോം. അമേരിക്കയിൽ പ്രശസ്ത സര്‍വ്വകലാശാലയായ മസാച്ചുസെറ്റ്സ് ഇൻസ്റ്റിറ്റ്യൂട്ട് ഓഫ് ടെക്നോളജിയിലെ ആർട്ടിഫിഷ്യൽ ഇന്‍റലിജൻസ് ലബോറട്ടറിയായിരുന്നു അദ്ദേഹത്തിന്‍റെ തട്ടകം. മനുഷ്യഭാഷകളെ കംപ്യൂട്ടർ പ്രോഗ്രാമുകൾക്കുള്ളിൽ കൈകാര്യം ചെയ്യാനുള്ള (Natural Language Processing) കഴിവാർജ്ജിക്കുക അന്നേ നിർമ്മിത ബുദ്ധി വികസിപ്പിച്ചെടുക്കാനുള്ള ഗവേഷണങ്ങളുടെ പ്രധാനപ്പെട്ട ലക്ഷ്യങ്ങളിൽ ഒന്നായിരുന്നു. മനുഷ്യർ നിർമ്മിക്കുന്ന ബുദ്ധിയുള്ള യന്ത്രത്തിന് അവരുടെ ഭാഷയിൽ സംസാരിക്കാൻ കഴിയേണ്ടതുണ്ടല്ലോ!

എലൈസ (Eliza) എന്നായിരുന്നു ഈ സോഫ്റ്റ്‌വെയറിന് വെയ്‌സൻബോം പേരിട്ടത്. ജോർജ്ജ് ബെർണാഡ് ഷായുടെ പിഗ്മാലിയൻ എന്ന നാടകത്തിലെ കഥാപാത്രമായ എലൈസ ഡൂലിറ്റിൽ ആയിരുന്നു ആ പേരിന്‍റെ പ്രചോദനം. ഹെൻറി ഹിഗ്ഗിൻസ് എന്ന ശബ്ദ ശാസ്ത്രജ്ഞന്‍റെ അടുത്തേക്ക് കുലീനമായ ഭാഷണശൈലി അഭ്യസിക്കാനെത്തുന്ന ഒരു സാധാരണക്കാരിയായിരുന്നു നാടകത്തിലെ എലൈസ.

എല്ലാ വിഷയങ്ങളിലും ഒരേപോലെ സംഭാഷണങ്ങളിൽ ഏർപ്പെടാൻ കഴിയുന്ന ഒരു ചാറ്റ്ബോട്ട് ആയിരുന്നില്ല എലൈസ. ഒരു സൈക്കോതെറാപ്പിസ്റ്റായിട്ടായിരുന്നു അതിനെ രൂപകല്പന ചെയ്തിരുന്നത്. മാനസികപ്രശ്നങ്ങൾ ഉള്ള ഒരാളെ പോലെ നമ്മൾ ടൈപ്പ് ചെയ്യുന്ന ചോദ്യങ്ങൾക്ക് അത് യുക്തിസഹമെന്ന് തോന്നിക്കുന്ന മറുപടികൾ തരാൻ ശ്രമിക്കും.

തീർത്തും ഉപരിപ്ലവമായ സംഭാഷണത്തിൽ ഏർപ്പെടാൻ മാത്രമേ എലൈസക്ക് കഴിയുമായിരുന്നുള്ളൂ. ഇന്നത്തെ ചാറ്റ്ബോട്ടുകളുമായി താരതമ്യം ചെയ്യുമ്പോൾ തീരെ പ്രാകൃതം. എന്നിട്ടു പോലും തങ്ങൾ സംസാരിക്കുന്നത് ഒരു കമ്പ്യൂട്ടർ പ്രോഗ്രാമിനോടാണെന്ന് മനസ്സിലാക്കാൻ പലർക്കുമായില്ല. സാധാരണക്കാർക്കും ഗവേഷകർക്കും ഇടയിൽ വലിയ സമ്മതി നേടി എലൈസ. അത് അപ്രതീക്ഷിതമായിരുന്നു.

നിർമ്മിത ബുദ്ധി – വെയ്‌സൻബോമിന്‍റെ വിമർശനങ്ങൾ

എലൈസ ഉപയോഗിച്ചവരിൽ വലിയൊരു പങ്ക് അതുമായി ഇടപഴകിയത് വൈകാരികമായിട്ടാണ് എന്നത് വെയ്‌സൻബോമിനെ അത്ഭുതപ്പെടുത്തി. ഒരിക്കൽ തന്‍റെ സെക്രട്ടറി എലൈസ ഉപയോഗിക്കാനിരുന്നപ്പോൾ മുറി വിട്ടു പോകാമോ എന്ന് തന്നോട് ചോദിച്ച കാര്യം അദ്ദേഹം ഒരിടത്ത് ഓർക്കുന്നുണ്ട്. സ്വകാര്യത ഉറപ്പാക്കാൻ!

വെയ്‌സൻബോം കഴിഞ്ഞ കുറച്ചു മാസങ്ങൾ കൊണ്ട് ഉണ്ടാക്കിയെടുത്ത ഒരു പ്രോഗ്രാം മാത്രമാണ് എലൈസ എന്ന് അവർക്ക് അറിയാമായിരുന്നു. എന്നിട്ടും, താൻ ഒരു മനുഷ്യ ഡോക്ടറോടാണ് സംസാരിക്കുന്നത് എന്ന തോന്നലിൽ നിന്ന് പുറത്തു കടക്കാൻ അവർക്കായില്ല.

മനുഷ്യനും യന്ത്രങ്ങളും തമ്മിലുള്ള ബന്ധത്തെ കുറിച്ചുള്ള തത്വചിന്താപരമായ അന്വേഷണത്തിലേക്കാണ് ഈ അനുഭവങ്ങൾ വെയ്‌സൻബോമിനെ നയിച്ചത്. 1976 ൽ പ്രസിദ്ധീകരിച്ച “Computer Power and Human Reason: From Judgement to Calculation” എന്ന പുസ്തകത്തിൽ ഈ കാര്യങ്ങൾ വിശദമായി ആദ്ദേഹം വിശകലനം ചെയ്യുന്നുണ്ട്. അടിസ്ഥാനപരമായി ആ പുസ്തകം മുന്നോട്ട് വച്ച വാദങ്ങൾ രണ്ടായിരുന്നു: “ഒന്നാമതായി, മനുഷ്യനും യന്ത്രവും തമ്മിൽ വ്യത്യാസമുണ്ട്. രണ്ടാമതായി, കമ്പ്യൂട്ടർ ചെയ്യാൻ പാടില്ലാത്ത ചില ജോലികളുണ്ട്, കമ്പ്യൂട്ടറുകളെ കൊണ്ട് അവ ചെയ്യിക്കാൻ പറ്റുമെങ്കിലും.”

അക്കാലത്ത് കമ്പ്യൂട്ടറുകളുമായി ബന്ധപ്പെട്ട ഗവേഷണങ്ങളുടെ മുഖ്യധാരയെ നയിച്ചിരുന്നത് ഈ അത്ഭുത യന്ത്രത്തിൻ്റെ അനന്തസാധ്യതകളെ കുറിച്ചുള്ള ആവേശമായിരുന്നെങ്കിൽ, ആ ഉത്സാഹതിമർപ്പിലെ ഒരു വിമതസാന്നിധ്യമായിരുന്നു വെയ്‌സൻബോം.

ആദ്യകാലം തൊട്ടേ സങ്കീർണമായ ഗണനക്രിയകൾ എളുപ്പത്തിൽ ചെയ്യാനൊക്കുന്ന ഒരു ഉപകരണം മാത്രമായല്ല കംപ്യൂട്ടറുകളെ ആ രംഗത്തുള്ളവർ കണ്ടിരുന്നത്. അതിനെ മനുഷ്യരെ പോലെ ചിന്തിക്കുകയും ആശയവിനിമയം നടത്തുകയും ചെയ്യുന്ന ഒരു യന്ത്രമാക്കി മാറ്റാനൊക്കുമോ എന്ന ചോദ്യം സജീവമായിരുന്നു. ശൈശവ ദശയിലുള്ള കമ്പ്യൂട്ടറുകളുടെ പരിമിതികൾ അക്കാലത്ത് നിർമ്മിത ബുദ്ധിയിലുള്ള പ്രായോഗികമായ പരീക്ഷണങ്ങൾക്ക് തടസ്സമായിരുന്നു എന്നത് നേര്. പക്ഷെ അതൊന്നും മനുഷ്യ ധിഷണയെ വെല്ലുവിളിക്കുന്ന യന്ത്രങ്ങളെക്കുറിച്ചുള്ള ഗണിതശാസ്ത്രപരവും സൈദ്ധാന്തികവുമായ പരികല്പനകൾ മുന്നോട്ടു വെക്കുന്നതിന് അലൻ ട്യൂറിങ്ങിനെയും ജോൺ വോൺ ന്യൂമാനെയും പോലുള്ള കമ്പ്യൂട്ടർ സയൻസിന്‍റെ തലതൊട്ടപ്പന്മാർക്ക് തടസ്സമായില്ല.

യന്ത്രത്തിന്‍റെ പ്രതികരണങ്ങളെ മനുഷ്യരുടേതിൽ നിന്ന് വേർതിരിച്ചറിയുക അസാധ്യമാകുന്ന ഒരു നില വന്നാൽ മാത്രമേ അതിന് മനുഷ്യ ബുദ്ധിയാർജ്ജിക്കാൻ കഴിഞ്ഞിരിക്കുന്നു എന്ന പറയാനൊക്കൂ എന്ന ഒരു മാനദണ്ഡം മുന്നോട്ട് വെച്ചു അലൻ ട്യൂറിംഗ്‌. ട്യൂറിംഗ് ടെസ്റ്റ് (Turing Test) എന്നറിയപ്പെടുന്ന ഈ പരീക്ഷയിൽ അന്തർഭവിച്ചിട്ടുള്ള ശ്രദ്ധേയമായ ഒരു സംഗതി മനുഷ്യരും യന്ത്രങ്ങളും തമ്മിലുള്ള ആശയവിനിമയത്തിന്‍റെ ‘സ്വാഭാവികത’ ബുദ്ധിയുടെ ഏറ്റവും പ്രധാനപ്പെട്ട മാനദണ്ഡമായി മാറുന്നു എന്നതാണ്.

ഒരർത്ഥത്തിൽ എലൈസ ട്യൂറിംഗ് ടെസ്റ്റ് പാസായി എന്ന് പറയാനൊക്കുമെന്നതാണ് വെയ്‌സൻബോമിനെ അലട്ടിയത്. എലൈസയുടെ പ്രതികരണങ്ങൾ മനുഷ്യ ഭാഷണങ്ങളുടെ ദുർബലമായ അനുകരണങ്ങൾ മാത്രമായിരുന്നു. വെറും തത്തമ്മ പേച്ചുകൾ. എന്നിട്ടും വലിയൊരു പങ്ക്‌ ആൾക്കാർ അതിനെ മനുഷ്യഭാഷണമായി കരുതി. ഇതൊരു ആപൽക്കരമായ മായക്കാഴ്‌ചയാണെന്ന് വെയ്‌സൻബോം കരുതി.

യന്ത്ര പേച്ചുകളുടെ പുതിയ കാലം

വെയ്‌സൻബോമിന്‍റെ കാലത്ത് അചിന്തനീയമായിരുന്ന മുന്നേറ്റങ്ങളാണ് കഴിഞ്ഞ കുറച്ചു കാലങ്ങളായി നിർമ്മിത ബുദ്ധിയിലും കംപ്യൂട്ടറുകളുടെ മനുഷ്യഭാഷകളിലുള്ള പ്രാവീണ്യത്തിലും ഉണ്ടായിട്ടുള്ളത്.

കേട്ടെഴുതുക, പാഠങ്ങൾ വായിച്ചു തരിക, അക്ഷരത്തെറ്റുകളും വ്യാകരണ പിശകുകളും തിരുത്തുക, മൊഴിമാറ്റം നടത്തുക തുടങ്ങിയ ഭാഷയിൽ അടിസ്ഥാന വൈദഗ്ദ്ധ്യം ആവശ്യമായ കൃത്യങ്ങളിൽ ഏർപ്പെടാൻ ഇന്ന് കമ്പ്യൂട്ടറുകൾക്ക് സാധ്യമാണ്. മാത്രമല്ല, അതിനും ഒരു പടി കടന്ന് മനുഷൃരുമായി അർത്ഥവത്തായ സംഭാഷണങ്ങളിൽ ഏർപ്പെടാനും പുതിയ രചനകൾ നടത്താനും അവയ്ക്ക് കഴിയുന്നുണ്ട്. ലേഖനങ്ങളും ന്യൂസ് റിപ്പോർട്ടുകളും പരസ്യവാചകങ്ങളും എഴുതുന്ന സോഫ്റ്റ്‌വെയറുകൾ ഇന്ന് സാധാരണമാണ്. എന്തിന്, സോഫ്റ്റ്‌വെയറുകളെ കൊണ്ട് കഥയും കവിതയും പോലുള്ള സർഗാത്മക രചനകളും, കമ്പ്യൂട്ടർ പ്രോഗ്രാമിംഗ് തന്നെയും, ചെയ്യിക്കാനുള്ള ഒരു വലിയ അളവ് വരെ വിജയിച്ച ശ്രമങ്ങളും ഉണ്ടായിട്ടുണ്ട്.

നിർമ്മിത ബുദ്ധിയുടെ ഉപശാഖകളായ മെഷീൻ ലേർണിംഗ്, ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ തുടങ്ങിയ നൂതന സങ്കേതങ്ങളുപയോഗിച്ച് വികസിപ്പിച്ചെടുത്ത ഭാഷാ മോഡലുകളാണ് (Language Models) അവിശ്വസനീയമായ ഇത്തരം നേട്ടങ്ങൾ സാധ്യമാക്കുന്നത്. ഈ ഭാഷാ മോഡലുകളെല്ലാം പൊതുവേ പിന്തുടരുന്ന പ്രക്രിയ ഒന്നാണ്. ഇന്‍റർനെറ്റിന്‍റെ പല ഭാഗങ്ങളിൽ നിന്നും സമാഹരിക്കുന്ന പാഠങ്ങളുടെ (texts) കൂറ്റൻ ശേഖരങ്ങൾ അതിസങ്കീർണമായ ഗണിതശാസ്ത്ര സങ്കേതങ്ങളുപയോഗിച്ച് വിശകലനം ചെയ്ത് ഭാഷകൾ ഉപയോഗിക്കാനുള്ള പ്രാവീണ്യം സ്വായത്തമാക്കുക. ചുരുക്കത്തിൽ, ഒരു പ്രത്യേക സന്ദർഭത്തിൽ സംസാരിക്കുന്നതോ എഴുതുന്നതോ ആയ ഒരു പദശ്രേണിയിലെ അടുത്ത വാക്ക് എന്തെന്ന് ഊഹിക്കാനുള്ള കഴിവ് ഭാഷാ മോഡലുകൾ ഈ പരിശീലനത്തിലൂടെ ആർജ്ജിക്കുന്നു എന്ന് പറയാം. ഈ കഴിവാണ് ‘അർത്ഥവത്തായ’ സംഭാഷങ്ങളിൽ ഏർപ്പെടാനും പാഠങ്ങൾ രചിക്കാനും അവയെ സജ്ജമാക്കുന്നത്.

ഇതൊക്കെ മോഡലുകൾക്ക് കാര്യങ്ങൾ ഗ്രഹിക്കാനും ആ അറിവുകൾ ഓർത്തെടുക്കാനും വിനിമയം നടത്താനും മനുഷ്യ സമാനമായ കഴിവുകൾ ഉണ്ടായിക്കഴിഞ്ഞിരിക്കുന്നു എന്ന തോന്നലുണ്ടാക്കുന്നു. പക്ഷെ ആവേശകരമായ ഈ നേട്ടങ്ങങ്ങൾക്ക് ഒരു മറുവശം കൂടിയുണ്ട്. കഴിഞ്ഞ കുറച്ചു കാലങ്ങളായി ധാരാളമായി ഉണ്ടാകുന്ന ഭാഷാ മോഡലുകളുടെ പ്രയോഗങ്ങളുയർത്തുന്ന വെല്ലുവിളികളെക്കുറിച്ചുള്ള കടുത്ത ആശങ്കകളും വിമർശനങ്ങളും ഈ മറുവശമാണ് വെളിവാക്കുന്നത്. ഗൂഗിൾ തങ്ങളുടെ സെർച്ച് എൻജിനിൽ ഉപയോഗിക്കുന്ന BERT, എലോൺ മസ്ക് ധനസഹായം നൽകുന്ന OpenAI-യുടെ GPT-3 തുടങ്ങിയ ഭാഷാമോഡലുകളിലെ പ്രശ്നങ്ങൾ സമീപകാലത്ത് ഏറെ ചർച്ച ചെയ്യപ്പെട്ടിട്ടുണ്ട്.

ഈ വിവാദങ്ങളിൽ പലതും ഏതാണ്ട് അര നൂറ്റാണ്ടു മുൻപ് വെയ്‌സൻബോം ഉയർത്തിയ ചോദ്യങ്ങൾക്ക് സമാനമായ സന്ദേഹങ്ങളാണ് ഉയർത്തുന്നത്. അക്കാദമികളിൽ നിന്നും സിവിൽ സൊസൈറ്റിയിൽ നിന്നും മാത്രമല്ല ഇത്തരം വിമർശനങ്ങൾ ഉയർന്നു വരുന്നത്. ഈ ഗവേഷണങ്ങളുടെ മുൻനിരയിലുള്ള കമ്പനികൾക്കകത്തു നിന്നും വിമത സ്വരങ്ങൾ ഉണ്ടാകുന്നുണ്ട്. ഒരു വർഷം മുൻപ് ഗൂഗിൾ എത്തിക്കൽ ആർട്ടിഫിഷ്യൽ ഇന്‍റലിജൻസ് ടീമിലെ പ്രധാന ശാസ്ത്രജ്ഞരായ ടിംനിറ്റ് ഗെബ്രുവിനെയും മാർഗരറ്റ് മിച്ചലിനെയും പുറത്താക്കിയത് കമ്പനിക്ക് അകത്തും പുറത്തും വലിയ വിവാദങ്ങൾക്ക് ഇടയാക്കിയിരുന്നു.

ഭാഷാ മോഡലുകളിലെ ചതിക്കുഴികൾ

ഭാഷാ മോഡലുകൾ നിർമ്മിക്കുന്ന പാഠങ്ങളിൽ (texts) മിക്കതിനേയും മനുഷ്യർ നിർമ്മിക്കുന്ന സമാന പാഠങ്ങളിൽ നിന്നും വേർതിരിച്ചറിയാൻ വിഷമമാണ്. നമ്മൾ കൊടുക്കുന്ന ഒരു കൂട്ടം വാക്കുകളിൽ നിന്ന് വിശ്വസനീയമായ ഒരു ലേഖനമോ ന്യൂസ് റിപ്പോർട്ടോ തയ്യാറാക്കാൻ GPT-3 പോലുള്ള മോഡലുകൾക്ക് കഴിയും. വിഷയമെന്തെന്നത് പൊതുവെ അവയെ അലട്ടുകയില്ല. കാലാവസ്ഥാ വ്യതിയാനവും, മോദിയുടെ രണ്ടാമൂഴവും, ക്വാണ്ടം കമ്പ്യൂട്ടറുകളും അവയ്ക്ക് ഒരു പോലെ ആണ്. ഇത് അതീവ പ്രാധാന്യമുള്ള ഒരു ചോദ്യമുയർത്തുന്നു: ഭാഷാ മോഡലുകൾ അവ സൃഷ്ടിക്കുന്ന പാഠങ്ങളുടെ വിഷയങ്ങൾ മനസ്സിലാക്കുന്നുണ്ടോ?

ഭാഷാ മോഡലുകളെ കുറിച്ചുള്ള വിമർശനങ്ങളുടെ ഒരു തലം ദാർശനികമാനങ്ങളുള്ള ഈ ചോദ്യമാണ്. നേരത്തെ സൂചിപ്പിച്ചതു പോലെ അസംഖ്യം പാഠങ്ങളുടെ വിശകലനത്തിന്‍റെ അടിസ്ഥാനത്തിൽ ഒരു പദശ്രേണിയിലെ അടുത്ത വാക്ക് ഊഹിക്കാനുള്ള കഴിവ് ഉപയോഗപ്പെടുത്തി പ്രവർത്തിക്കുന്ന ഗണിതബുദ്ധി മനുഷ്യന്‍റെ അറിവിനും ബോധത്തിനും വിവേചന ശക്തിക്കും പകരമാകുമോ എന്ന സന്ദേഹം ഗൗരവമുള്ളതാണ്.

ഈ വിഷയത്തെ ആഴത്തിൽ പഠിച്ച ഭാഷാശാസ്ത്ര ഗവേഷകരായ എമിലി എം. ബെൻഡറും (Emily M. Bender) അലക്സാണ്ടർ കൊല്ലറും (Alexander Koller) എത്തിച്ചേർന്ന നിഗമനം ഇതാണ്: ഭാഷയുടെ പ്രകാശിത രൂപങ്ങളെ മാത്രമാണ് ഭാഷാ മോഡലുകൾ പരിശീലനത്തിനുള്ള ഡാറ്റയായി ഉപയോഗിക്കുന്നത്. ആ ഭാഷാപരമായ രൂപങ്ങളുടെ (linguistic forms) ആശയവിനിമയ ഉദ്ദേശ്യം (communicative intent) അവയ്ക്ക് അജ്ഞാതമാണ്. അതുകൊണ്ടു തന്നെ അവ സൃഷ്ടിക്കുന്ന പാഠങ്ങളുടെ അർഥം ഭാഷാ മോഡലുകൾക്ക് അറിയാം എന്ന് കരുതാനൊക്കില്ല.

2021 ൽ ടിംനിറ്റ് ഗെബ്രുവും മൂന്ന് അക്കാദമിക് ഗവേഷകരും ചേർന്ന് പ്രസിദ്ധീകരിച്ച ഗവേഷണ പ്രബന്ധം (On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?) ഇന്നത്തെ ഭാഷാ മോഡലുകളുടെ അടിസ്ഥാനപരമായ പരിമിതികളിലേക്ക് വെളിച്ചം വീശുന്ന ഒന്നായിരുന്നു. നേരത്തെ സൂചിപ്പിച്ച, ഗൂഗിളിൽ നിന്ന് ഗെബ്രു പുറത്താക്കപ്പെടാനിടയായ സംഭവപമ്പരകളുടെ തുടക്കം ഈ ഗവേഷണത്തിൽ നിന്നാണ്. വെയ്‌സൻബോമിൻ്റേതിന് സമാനമായ ആശാഭംഗം ഈ പ്രബന്ധത്തിലും കാണാം.

ഗെബ്രുവും കൂട്ടരും ഉയർത്തുന്ന പ്രധാന വിമർശനങ്ങളിൽ ഒന്ന് ഭാഷാ മോഡലുകൾ നിർമ്മിക്കുന്ന പാഠങ്ങളിലെ പലപ്പോഴും തെളിയുന്ന പക്ഷപാതിത്വങ്ങളെ (bias) കുറിച്ചാണ്. ഇന്‍റർനെറ്റിൽ നിന്ന് ഒരു നിയന്ത്രണവും മേൽനോട്ടവും ഇല്ലാതെ, നമുക്ക് സങ്കൽപ്പിക്കാനാവുന്നതിലും എത്രയോ വലിയ അളവിൽ, സമാഹരിക്കപ്പെടുന്ന പാഠങ്ങൾ (എഴുത്തുകൾ) ആണ് ഭാഷാ മോഡലുകളുടെ ഇന്ധനം. അസന്തുലിതവും അസമത്വങ്ങൾ നിറഞ്ഞതുമായ ഇന്നത്തെ ലോകക്രമത്തിൽ മേൽക്കോയ്‌മ ചെലുത്തുന്ന ലോകവീക്ഷണങ്ങൾക്ക് (hegemonic worldviews) ഈ പാഠങ്ങളിൽ ആധിപത്യം ഉണ്ടാക്കുക സ്വാഭാവികമാണ്. ഭാഷാശൈലിയിലും പ്രയോഗത്തിലും പോലും സമൂഹത്തിൽ നിലനിൽക്കുന്ന വർഗ്ഗപരവും വംശീയവുമൊക്കയായ വിവേചനങ്ങളെയും പുരുഷമേധാവിത്വത്തെയും പ്രതിഫലിപ്പിക്കുന്നവയായിരിക്കും ഇവയിൽ ഒരു വലിയ പങ്കും. പരിശീലന ഡാറ്റയിൽ അടക്കം ചെയ്യപ്പെട്ടിട്ടുള്ള ഈ പക്ഷപാതിത്വങ്ങളും (bias) വാർപ്പു മാതൃകകളും ഭാഷാ മോഡലുകൾ ഉണ്ടാക്കുന്ന പാഠങ്ങളിലും പ്രതിഫലിച്ചേക്കാം.

ഈ വിമർശനത്തെ ശരിവെക്കുന്നതാണ് കുറച്ച് മാസങ്ങൾക്ക് മുൻപ് സ്റ്റാൻഫോർഡ് സർവ്വകലാശാലയിലെ ഗവേഷകരായ അബൂബക്കർ ആബിദും സഹപ്രവർത്തകരും ചേർന്ന് നടത്തിയ പഠനം. മുസ്ലിം എന്ന വാക്കുൾപ്പെടുന്ന പദ ശ്രേണിയെ പൂർത്തീകരിക്കാൻ അവർ GPT-3 യോട് ആവശ്യപ്പെട്ടപ്പോൾ കിട്ടിയ ഫലം ഭാഷാ മോഡലുകളിൽ ഒളിഞ്ഞിരിക്കുന്ന മുൻവിധികളെ വെളിപ്പെടുത്തുന്നതായിരുന്നു. 66 ശതമാനം കേസുകളിലും മുസ്ലീമുകളെ അക്രമാസക്തമായ പെരുമാറ്റവുമായി ബന്ധപ്പെടുത്തുന്ന രീതിയിലുള്ള പാഠങ്ങളാണ് GPT-3 ഉണ്ടാക്കിയത്. മുസ്ലിം എന്നതിന് പകരം മറ്റ് മതങ്ങളുടെ പേരുകൾ ഉപയോഗിച്ചപ്പോൾ ആ പാഠങ്ങളിൽ അങ്ങിനെയുള്ള ഭാഷ ഗണ്യമായി കുറഞ്ഞു.

ഇത് ഒറ്റപ്പെട്ട ഒരു ഗവേഷണ ഫലമല്ല. ഭാഷാ മോഡലുകൾ ഉണ്ടാക്കുന്ന പാഠങ്ങളിലെ വിഷലിപ്തമായ ഭാഷയെക്കുറിച്ചും അവ പ്രകടമാക്കുന്ന ലിംഗപരവും വംശീയവും വർഗ്ഗപരവുമായ വിവേചനങ്ങളെ കുറിച്ചും ഉള്ള പരാതികൾ വ്യാപകമാണ്. സമൂഹത്തിൽ നിലനിൽക്കുന്ന ആശാസ്യമല്ലാത്ത വിവേചനങ്ങളെ രൂഢമൂലമാക്കാൻ മനുഷ്യരുടെ നിത്യജീവിതത്തിൽ വലിയ സ്വാധീനം ചെലുത്തുന്ന ഒരു സാങ്കേതിക വിദ്യ അറിഞ്ഞോ അറിയാതെയോ സഹായിക്കുന്നുണ്ടെങ്കിൽ അതിന്‍റെ പ്രത്യാഘാതം അതീവ ഗുരുതരമായിരിക്കും എന്നത് തീർച്ചയാണ്.

ഭാഷയുമായി ബന്ധപ്പെട്ട പ്രശ്നങ്ങൾക്കപ്പുറം മറ്റൊരു വലിയ വിമർശനം കൂടെ ഗെബ്രുവും കൂട്ടരും ഈ മോഡലുകളെ കുറിച്ച് ഉയർത്തുന്നുണ്ട്. പടുകൂറ്റൻ വിവരശേഖരങ്ങളെ അതിസങ്കീർണമായ വിശകലനത്തിന് വിധേയമാക്കിക്കൊണ്ടുള്ള ഭാഷാ മോഡലുകളുടെ പരിശീലനം വലിയ തോതിൽ വൈദ്യുതി വലിച്ചൂറ്റിക്കുടിക്കുന്ന ഒരു പ്രക്രിയയാണ്. ഭാഷാ മോഡലുകൾക്ക് വലിയൊരു പാരിസ്ഥിതികാഘാതം കൂടിയുണ്ട് എന്നർത്ഥം. ഈ കണക്ക് നോക്കുക: ഒരു ശരാശരി മനുഷ്യൻ ഒരു വർഷം 5 ടൺ കാർബൺ വികിരണത്തിന് കാരണമാകുമ്പോൾ ഒരു ഭാഷാ മോഡലിനെ പരിശീലിപ്പിക്കുന്ന പ്രക്രിയ 284 ടൺ കാർബൺ വികിരണത്തിന് ഇടയാക്കുന്നു. അമിതമായ ഈ ഊർജ്ജ ഉപഭോഗത്തിന്‍റെ പാരിസ്ഥിതികാഘാതം അനുഭവിക്കേണ്ടി വരുന്നത് സമൂഹം മുഴുവനും ആണ്. അതേ സമയം വൻ സാമ്പത്തിക ചിലവ്, ധനിക സ്ഥാപനങ്ങൾക്ക് മാത്രം പ്രാപ്യമായ ഒന്നായി ഭാഷാ മോഡലുകളെ മാറ്റുകയും ചെയ്യുന്നു.

നിർമ്മിത ബുദ്ധിയെ തളയ്ക്കാൻ

ഭാഷ മാത്രമല്ല, നിർമ്മിത ബുദ്ധിയുടെ മിക്ക പ്രയോഗരൂപങ്ങളും സമാനമായ വെല്ലുവിളികൾ ഉയർത്തുന്നുണ്ട്. അവയുടെ ഉപയോഗം വ്യാപകമാകുന്നതോടെ ഈ പ്രശ്നങ്ങൾ കൂടുതൽ രൂക്ഷമാകുകയും ചെയ്യും.

ഈ രംഗത്ത് മുൻനിരയിലുള്ള കമ്പനികളും സ്ഥാപനങ്ങളുമെല്ലാം ഈ സാങ്കേതിക വിദ്യകളുടെ ദൂഷ്യവശങ്ങളെ കുറിച്ച് ബോധ്യമുള്ളവരാണ്. പക്ഷെ സ്വകാര്യ മൂലധന താല്പര്യങ്ങളാണ്, നിക്ഷേപത്തിന്‍റെ ഭാവി വരുമാന സാധ്യതകളെക്കുറിച്ചുള്ള കണക്ക് കൂട്ടലുകളാണ്, ആത്യന്തികമായി ഇവയുടെ ദിശ നിർണ്ണയിക്കുന്നത്. അതുകൊണ്ടാണ് പലപ്പോഴും വിമർശനങ്ങൾ അവഗണിക്കപ്പെടുകയോ അല്ലെങ്കിൽ അവയുടെ മുനയൊടിക്കാനുള്ള ശ്രമങ്ങളുണ്ടാകുകയോ ചെയ്യുന്നത്. ഗൂഗിൾ ടിംനിറ്റ് ഗെബ്രുവിനോട് ചെയ്തതു പോലെ.

അതേ സമയം ഇങ്ങനെയുള്ള വിമർശനങ്ങളെ അവസരങ്ങളാക്കി മാറ്റാനുള്ള ശ്രമങ്ങളും നടക്കുന്നുണ്ട്. ഈ മാസം ആദ്യവാരത്തിൽ ഫേസ്ബുക്കിന്‍റെ മാതൃകമ്പനി ആയ മെറ്റ തങ്ങളുടെ ഭാഷാ മോഡൽ സർക്കാരിലും വിദ്യാഭ്യാസ സ്ഥാപനങ്ങളിലും സിവിൽ സൊസൈറ്റി സംഘടനകളിലും, വ്യാവസായിക ഗവേഷണ സ്ഥാപങ്ങളിലും ജോലി ചെയ്യുന്ന എല്ലാ ഗവേഷകർക്കും സൗജന്യമായി ലഭ്യമാക്കുമെന്ന് പ്രഖ്യാപിച്ചത് ഇതിനൊരു ഉദാഹരണമാണ്. ഈ മേഖലയിലെ ഗവേഷണങ്ങൾക്ക് സുതാര്യത കൈവരുത്താൻ ഇത്തരം നീക്കങ്ങൾ സഹായിച്ചേക്കാം. പക്ഷെ പ്രധാന പ്രശ്നങ്ങളൊക്കെ മെറ്റയുടെ ഭാഷാ മോഡലിലും പരിഹരിക്കപ്പെടാതെ, പരിഹാര നിർദേശങ്ങൾ ഒന്നുമില്ലാതെ, അതേ പടി നിലനിൽക്കുന്നു.

തുറന്ന സംവാദങ്ങളുടെ അടിസ്ഥാനത്തിൽ ജനാധിപത്യപരമായി നടക്കേണ്ടുന്ന സാങ്കേതിക വിദ്യകളുടെ സാമൂഹ്യനിയന്ത്രണത്തിന്‍റെ ആവശ്യകതയിലേക്കാണ് ഈ കാര്യങ്ങളൊക്കെ വിരൽ ചൂണ്ടുന്നത്. വെയ്‌സൻബോം തൊട്ട് ഗെബ്രു വരെയുള്ള ഗവേഷകരുടെ അപ്രിയ വിമർശനങ്ങൾക്കു കൂടി പരിഗണന ലഭിക്കുന്ന ഒരിടം അതിനുള്ള ഉപാധിയാണ്.