EVOLUCIJA SURADNJE PONAVLJANJEM DILEME ZATVORENIKA

Zoran Pusić
Autor 21.9.2020. u 09:46

EVOLUCIJA SURADNJE PONAVLJANJEM DILEME ZATVORENIKA

Pitanja i analogije s odnosima među pojedincima i interesnim skupinama u društvu, s odnosima među državama, nameću se same po sebi. Između ostalog, teško se oteti dojmu da bi opisani eksperiment trebao biti obavezno štivo za političare; možda bi mogli naučiti eksperimentirati s matematičkim modelima, a ne sa zamorcima koji su za njih glasali.

Da u sukobu interesa dvije ili više država moja zemlja može biti na dobitku samo na račun gubitka druge strane, da se na odnose različitih država gleda u principu kao na nogomet ili partiju šaha, prilično je rasprostranjen stav. Oni koji ga zastupaju uvjereni su u svoj patriotizam i obično svako drugačije mišljenje proglašavaju izdajom nacionalnih interesa.

Evropska unija zahvaljuje svoj prosperitet i privlačnost upravo prevladavanju sukoba kao modela koji je bio konstanta u odnosima među državama na europskom kontinentu od pamtivijeka. Ali još prije jednog ljudskog vijeka odnosi među državama doživljavani su uglavnom kao vrsta dvoboja u kojem samo jedna strana može biti na dobitku, maksimalistički zahtjevi prema susjednim državama predstavljani su kao dokazi velikog patriotizma, a ratovi u koje je često takav «patriotizam» vodio, smatrani su «nastavkom politike drugim sredstvima».

Ideju da bi se odnosi i konflikti interesa među ljudima, poduzećima i državama mogli aproksimativno opisati matematičkim modelima razradili su u zajedničkoj knjizi «Teorija igara i ponašanje u ekonomiji» ekonomist Oscar Morgenstern i matematičar John von Neumann[i].

Tada postojeća primjenjena matematika bila je usmjerena na rješavanje problema u fizici, matematičko formuliranje zakonitosti u prirodi koja te zakone, svoje ponašanje, ne mijenja ovisno o našem ponašanju.

U ekonomiji i u sukobu interesa među ljudima općenito, dvije ili više strana mijenjaju i prilagođavaju svoje ponašanje ovisno o ponašanju suparnika. Takvi odnosi karakteristični su za odnose u igrama u kojima sudjeluje dva ili više igrača; od tuda i naziv za složene matematičke modele razrađene u knjizi Morgensterna i von Neumanna, dijelu koje predstavlja početak nove grane matematike i put prema boljem razumijevanju odnosa sukoba i suradnje.

Mnoge prave igre, poput, nogometa, tenisa, šaha, … igre su u kojima ne postoji strategija koja bi uključivala suradnju među suparnicima. Svaka od strana u igri ulaže napor, vještinu i, u momčadskim igrama, suradnju samo na svojoj strani, s ciljem pobjede nad suparnikom, pobjede koja ujedno znači poraz suparnika.

Takvi odnosi među suparnicima zovu se u teoriji igara „igre sume nula“. Dobitak dobitnika jednak je gubitku gubitnika. Može se raditi o stvarnom dobitku i gubitku, Morgenstern i von Neumann navode poker kao primjer, a može se raditi o sukobu u kojem dobitak predstavlja pobjedu, a gubitak poraz u sukobu.

U vrijeme pisanja i objavljivanja „Teorije igara“, 1944. godine, bjesnio je Drugi svjetski rat, odnosi među suparnicima koji su se sveli na najveću „igru sume nula“ u ljudskoj povijesti, s porazom ili pobjedom kao jedinim mogućim ishodima, a s gubicima na obje strane gotovo nezamislivim.

Međutim međuljudski odnosi, nadmetanje političkih stranaka, trgovina, odnosi među državama nisu samo „igre“ tog tipa. Čak i kad se teorija igara primjenjuje na modele mogućih vojnih sukoba, a teorija igara se poslije Drugog svjetskog rata često primjenjivala u vojnim strateškim modeliranjima, to su složene igre s optimalnim strategijama koje nisu očigledne.

Pokažimo to na slijedećem pojednostavljenom primjeru:

Osobe A, B i C došle su u takav sukob da svoje nesuglasice odluče riješiti «trobojem». Dogovorena pravila su slijedeća: Osoba A koja je najslabiji strijelac i pogađa jednom u tri pokušaja, gađa prva. Osoba B koja pogađa dva puta u tri pokušaja, gađa druga (ako nije pogođena) i osoba C koja pogađa svaki puta gađa treća (ako nije pogođena). Postupak se ponavlja dok ne ostane nepogođen samo jedan sudionik „troboja“. Pitanje je koga treba gađati osoba A u svom prvom gađanju. Koja je optimalna strategija za A[ii]?

Postoji i previše primjera, i među ljudima i među državama, u kojima složeni odnosi sukoba i suradnje, inicirani sukobom interesa, degeneriraju na „igru sume nula“, sa velikim pratećim gubicima za sve sudionike, iako su postojale strategije u kojima bi gubici za sve sudionike bili manji, odnosno dobici veći.

Ovdje će biti izložen relativno jednostavan primjer razvoja odnosa u suprotnom smjeru, kako sebični interesi mogu voditi suradnji[iii]! Taj, danas klasičan, primjer počinje jednim problemom koji je, po načinu kako je prvi puta formuliran, nazvan Dilema zatvorenika:

Dvije osobe A i B, osumnjičene za isto (ne)djelo, nalaze se u zasebnim ćelijama istražnog zatvora bez mogućnosti međusobne komunikacije. Tužitelj razgovara sa svakim nezavisno, nudeći obojci istu pogodbu: Ako A svjedoči protiv B, a pri tome B ne svjedoči protiv A, sud će A osloboditi, a B će dobiti 5 godina zatvora. Ako A svjedoči protiv B, ali i B svjedoči protiv A, svaki od njih će dobiti 4 godine. Ako A ne svjedoči protiv B, a B svjedoči protiv A, A će dobiti 5 godina, a B će biti oslobođen. Konačno ako A ne svjedoči protiv B niti B ne svjedoči protiv A, tužitelj ima mogućnost, preko posrednih indicija, da za svakog od njih ishodi kaznu od po 2 godine.

Iz shematskog prikaza, gdje (P) znači svjedočenje protiv onog drugog, a (S) odbijanje da se svjedoči, jasno se vidi da ako

Tablica 1

A odabere (P), ovisno o izboru koji će učiniti B, može dobiti 0 ili 4 godine, a ako odabere (S), ovisno o izboru Ba, dobiti će 2 ili 5 godina zatvora. Prema tome za A je bolja strategija da izabere (P). Ali na taj način rezonira i B. Takvo racionalno razmišljanje vodi prema tome da će obojica dobiti po 4 godine zatvora, a mogli su dobiti samo po dvije. Kad bi A ipak «odigrao» (S), .. ali tada riskira 5 godina zatvora dok bi «cinkaroš» B bio oslobođen,…

U navedenoj, originalnoj, Dilemi zatvorenika cilj je dobiti što manje (godina zatvora). Zato su „dobitci“ u Tablici 1 dani kao negativni brojevi. Verzija Dileme zatvorenika gdje dobit može biti i pozitivna i negativna, dakle gubitak,  je slijedeća:

A i B žele izmjenjivati svoje «proizvode», žele trgovati odnosno surađivati jer bi pri tome i jedan i drugi imali koristi. Ali ako jedan od «igrača» uspije prevariti drugog, on će ostvariti mnogo veću dobit. U shemi odlučivanja (P) znači prevara, a (S) suradnja. Dobici i gubici bodovani su proizvoljno, ali tako da ilustriraju paradoks.

Tablica 2

Recimo da A dovozi kovčeg s drogom, kamion cigareta ili brod krijumčarenog oružja, a B dolazi s torbom novca ili grubo brušenih dijamanata. Razmjenjuju svoja «dobra» na brzinu i razilaze se. Svaki od njih bi imao velike koristi od te trgovine, ali još mnogo veće ako uspije prevariti svojeg «partnera».

Paradoks dileme zatvorenika je da vas logično razmišljanje tjera na prevaru a protiv suradnje, na izbor strategije (P).

Po bodovima u Tablici 2 i uz optimističnu pretpostavku da će njegov «partner» izabrati (P) ili (S) s jednakom vjerojatnošću ½, očekivani dobitak za A, ako izabere (P) je

(½)x0 + (½)x100 = 50,

a ako izabere (S) očekuje ga gubitak

(½)x(-100) + (½)x20 = -40.

„Kvaka“ je u tome da tako u ovoj „igri“ razmišlja i B; u strahu od velikog gubitka i A i B propuštaju solidan dobitak.

Primjerima iz kriminalnog miljea najjasnije se opisuju dileme kod Dileme zatvorenika jer se u njima prirodno isključuje moral i ostaje, kroz bodove izražen, goli egoistični interes. To i nije tako nerealna pretpostavka obzirom da su odnosi među interesnim grupama i među državama nerijetko bliži odnosu među kriminalcima, a u pravilu su opterećeni lošim iskustvima i paranojama. Tako da modeli tih odnosa koji ne uključuju teško mjerljive varijable kao što su moral i poštenje, daju dobre prve aproksimacije.

Model odnosa dan Dilemom zatvorenika djeluje na sličan način, potiče prevaru a obeshrabruje suradnju, kad se radi i o jednokratnim odnosima više sudionika.

Na primjer pretpostavimo da u jednoj zajednici postoji određeni broj, recimo sto, „igrača“ koji svoje međusobne odnose ravnaju prema modelu odlučivanja opisanog Tablicom 2. Svaki igrač „igra“ sa svakim; dakle svaki igrač igra s njih 99. Pod pretpostavkom da je cilj svakog igrača ostvariti što veći broj bodova, „prevaranti“ će, bez obzira na broj prevaranata, dobiti više od „suradnika“. To nameće izbor (P) kao povoljniji za svakog sudionika; ali to vodi do dobitka nula svih sudionika, nasuprot dobitka 1980 da su svi surađivali[iv].

No suradnju većeg broja „igrača“ nije jednostavno organizirati pogotovo ako „nesuradnja“ može značiti dobitak. Kao primjer teškoća vezanih za organizaciju takve suradnje objavljena je 2001. godine u Feral Tribuneu „Velika nagradna igra Ferala“.

VELIKA NAGRADNA IGRA FERALA

Najveći nagradni fond – ikada u Hrvatskoj

1 000 000 $ (milijun US dolara u kunskoj protuvrijednosti)

POBJEDNIK NOSI SVE!

PDV podmiruje Feral

Do 31. kolovoza 2001.

Pravila igre:

Feral stavlja u nagradni fond igre 1 000 000 $ (u kunskoj protuvrijednosti na dan isplate). Da bi sudjelovali u igri pošaljite na adresu «Velika nagradna igra Ferala», Bačvice 10, 21000 Split, vaše ime, prezime i adresu. U pismu ili na dopisnici napišite jedan broj i zaokružite ga. Time postajete učesnik u igri.

Pobjednik u igri je onaj učesnik igre koji pošalje najveći (prirodni ) broj.

Feral će isplatiti novčanu nagradu samo pobjedniku i to u iznosu koji se dobije kad se 1 000 000 dolara podijeli s brojem koji je pobjednik napisao.

Tako npr. ako najveći broj na dopisnici za «Veliku nagradnu igru Ferala» koja stigne do 31. VIII 2001. bude 5, učesnik igre koji je poslao tu dopisnicu dobiva  1000 000/5 = 200 000 $.

Ako će postojati više učesnika koji pošalju isti najveći broj nagrada se ravnopravno dijeli između njih.

___________________________________________________________________________

(Kad je Feral objavio ovu igru nazvao me je Viktor Ivančić i pitao: „Čuj, jesi li siguran da nećemo morati platiti neke velike novce?“ Došlo je oko stotinu pisama. Nagrada koju je trebao Feral isplatiti bila je manja od jedne tisućinke jedne lipe.)

Jednostavni ali realistični model odlučivanja opisan Dilemom zatvorenika daje veći očekivani dobitak igraču koji vara, onome koji bira prevaru nasuprot suradnji. To se događa u „igri“ koja zadovoljava uvjete[v] Dileme zatvorenika kad igraju dva igrača kao i kad igra veći broj igrača, svaki sa svakim. U oba slučaja ti odnosi, „igra“ koja se može opisati Dilemom zatvorenika, bili su jednokratni.

Što će se promijeniti ako isti „igrači“ ponavljaju taj model odnosa koji, jednokratno primijenjen, preferira prevaru.

Igrač A može od svog protivnika imati koristi jedino ako on surađuje, ako «igra» (S). Dakle, bez obzira da li A vara ili surađuje, A treba navesti drugog igrača da igra (S) (i, po mogućnosti, tada ga prevariti). Ali stvarati osjećaj kod protivnika da ga vi stalno želite prevariti nije baš najbolji način da ga navedete da «igra» (S).

Odgovor na pitanje «Može li se suradnja pojaviti i opstati u svijetu egoista?» nije sam po sebi očigledan. Ako je suradnja uopće moguća, kako ona počinje? Mogu li pojedinci koji su se opredijelili za suradnju preživjeti konkurenciju prevaranata?

Što bi bile karakteristike uspješne taktike koja ne uzima u obzir nikakve etičke principe nego se u odnosima s okolinom vodi egoističnim ciljevima danim kroz model odlučivanja kakav je Dilema zatvorenika?

Situacija u kojoj sudionici ulaze veći broj puta u odnose aproksimirane «Dilemom zatvorenika», istraživana je pomoću kompjuterske simulacije.

U eksperimentu koji je organizirao Robert Axelrod 1979. godine (na Odjelu za političke znanosti Sveučilišta Michigen, Ann Arbor) poslani su pozivi stručnjacima za teoriju igara, evoluciju, sociologiju, ekonomiju i političke znanosti da sudjeluju u kompjuterskom turniru prema slijedećim pravilima:

Svaki sudionik šalje kompjuterski program koji igra sa svim ostalim poslanim programima Dilemu zatvorenika 200 puta za redom sa svakim, a bodovi se dodijeljuju prema Tablici 3.

Tablica 3

Igra se sastoji u tome da u svakom koraku igrači A i B odigraju istovremeno (P) ili (S), pribroje si dobivene bodove i ponove igru. Dakle ako bi igraču A uspjela prevara (on igra (P), a B igra (S)) dobio bi 5 bodova, a B 0 bodova, ako bi oba igrača surađivala svaki bi dobio po 3 boda, ako bi oba igrala (P) svaki bi dobio po 1 bod. Na 200 ponovljenih igara maksimum  bodova bio je 200×5 = 1000, a minimum 200×0 = 0. Ako n igrača sudjeluje na turniru gdje svatko igra sa svakim, ukupan broj osvojenih bodova po igraču biti će između (n-1)x1000  i  (n-1)x0. Pobjednik turnira je program koji osvoji najviše bodova.

Na turnir je stiglo 14 različitih programa. Program koji je pobijedio (poslao ga je Anatol Rapoport, psiholog sa Sveučilišta u Torontu) bio je najkraći od svih pristiglih programa. Zvao se „Tit for tat“, „Milo za drago“, i koristio je slijedeću jednostavnu taktiku:

  • Igraj (S) u prvom potezu
  • U svakom slijedećem potezu igraj ono što je tvoj protivnik igrao u prethodnom.

Programe koji su sudjelovali na turniru moglo se svrstati u dvije skupine;

«suradnike», programe koji bi počeli sa (S) i nikada nisu prvi odigrali (P) i

«prevarante», programe koji bi, neizazvani, prvi pokušali prevariti suigrača.

Pobjednik, program «Milo za drago» bio je «suradnik». Taj program nije pobijedio ni jednog svog protivnika, ali se nije dao ni nekažnjeno varati. U igri sa svakim od protivnika osvojio bi jednako ili pet bodova manje od protivnika[vi].

Turnir je ponovljen s dodatnim «takmičarom» – programom «Milo za dva draga» koji je počeo s (S), a tek na dvije uzastopne prevare od strane suigrača odgovorio bi igrajući (P), ali i vraćajući se na (S) čim bi suigrač odigrao (S). Taj program je pobijedio u ponovljenom turniru.

Iz ovih kompjuterskih simulacija izlazilo je da su za uspješnost programa važni suradnja i taktika koja bi se mogla nazvati «opraštanje» – sposobnost programa da se poslije sukoba oko prevare što prije, zbog vlastite koristi, vrati suradnji.

Članak o rezultatima opisanog kompjuterskog turnira izazvao je veliki interes.

Organiziran je novi turnir na kojem su učestvovala po istim propozicijama 62 programa. Rapoport je bio jedini koji je ponovo poslao «Milo za drago» (iako su svi znali rezultate prvog turnira i svoje programe izradili tako da budu bolji od programa iz prvog turnira i, posebno, iskoriste njihovu suradnju). Na veliko iznenađenje pobjednik je bio program – «Milo za drago»! «Milo za dva draga» (poslao ga je poznati teoretičar evolucije J.M. Smith) zauzeo je 24. mjesto. Među prvih 15 programa bio je samo jedan «prevarant».

Analiza rezultata drugog turnira pokazala je da je uspješan program onaj koji surađuje i «oprašta» ali da će se pojaviti programi koji će to pokušati iskoristiti. Da bi se to spriječilo treba odlučno i odmah odgovoriti na prevaru. Lako se može pokazati da ako protivnički program ne reagira na naše poteze, igra neovisno o njima, onda je najbolja taktika igrati stalno (P). Iz tog razloga loše su prošli neki programi sa složenom taktikom koje protivnički programi nisu razlikovali od programa koji igraju nezavisno od igre protivnika.

To pokazuje da program osim što treba biti okrenut suradnji, odlučan u odgovoru na prevaru i ne treba biti zlopamtilo, treba imati i lako razumljivu taktiku.

Axelrodov turnir, koji je postao klasika u ispitivanju evolucije suradnje, ponovljen je u različitim varijantama. Npr. kao tzv. ekološki turnir koji se sastojao od niza Axelrodovih turnira. Proporcionalno broju bodova koje osvoji neki program u jednom turniru određuje se broj «potomaka» tog programa u slijedećem turniru (koliko njemu istovjetnih programa ulazi u slijedeći turnir). Ispitivalo se kakvi će programi, kroz takvu simulaciju evolucije, preživjeti. Preživjeli su gotovo isključivo «suradnici».

Najbolji je bio program «Milo za drago», a da pri tome nije pobijedio nikoga! Pobijedio je namećući suradnju; pokazao je da dozvoliti svima da budu jednako dobri ili malo bolji od vas može biti dobra, dapače najbolja taktika u različitim uvjetima.

Primjerima se u pravilu ne mogu dokazivati pozitivne tvrdnje, ali se mogu potaknuti neka interesantna pitanja.

U kojoj mjeri bi model opisan višestruko ponovljenom Dilemom zatvorenika bio relevantan za tumačenje suradnje u primitivnim zajednicama naših predaka koje su bile već dovoljno velike da se genetski poriv ka suradnji, koji postoji među najbližim rođacima, sasvim «razvodni»?

Da li su zajednice koje ne uspiju nadvladati odnose slične jednokratnoj Dilemi zatvorenika među svojim članovima, osuđene na siromaštvo i stagnaciju? Neki primjeri, npr. Darwinov opis odnosa među članovima primitivnih plemena u Patagoniji kao i bijeda nekih primitivnih zajednica koje Fromm navodi u «Anatomiji ljudske destruktivnosti» kao primjere društva s vrlo malim stupnjem suradnje unutar zajednice, govore u prilog toj hipotezi.

Da li je za primitivna društva uvođenje sankcija na odabir taktike (P), na prevaru, u obliku moralnih normi ili kombinacije osvete i prvih nepisanih i pisanih zakona bio uvjet za suradnju unutar zajednice i preduvjet za njen razvoj i napredak?

Da li su zajednice koje nisu razvile norme koje bi prevaru osuđivale i društvene mehanizme koji bi prevaru sankcionirali, ostale zbog toga siromašnije?

I da li su takve zajednice, ako nisu bile izolirane u nekom zabitom kutku Zemlje, nestale u konkurenciji s zajednicama koje su se obogatile kroz unutrašnju suradnju i, često, time postale moćnije.

Ljudi dio svog identiteta i egoizma prenose sa sebe na porodicu, pleme, naciju. Za taj kolektivni egoizam, kad se radi o državama-nacijama nisu do relativno nedavno izgrađene nikakve norme koje bi ga sputavale. Da li zato odnosi među državama često sliče jednokratnoj primjeni Dileme zatvorenika?

Pitanja i analogije s odnosima među pojedincima i interesnim skupinama u društvu, s odnosima među državama, nameću se same po sebi. Između ostalog, teško se oteti dojmu da bi opisani eksperiment trebao biti obavezno štivo za političare; možda bi mogli naučiti eksperimentirati s matematičkim modelima, a ne sa zamorcima koji su za njih glasali.

 

[i]Oscar Morgenstern je bio imigrant u USA, izbjeglica pred nacistima iz Austrije, John von Neumann je bio imigrant u USA iz Mađarske. U mađarskoj stručnoj literatura on se četo navodi kao Janos Neuman.

[ii]Ako A pogodi B, u slijedećem koraku C će pogoditi A. Ako A pogodi C, u slijedećem koraku B će gađati A, a B pogađa A s dva puta većom vjerojatnošću nego što A pogađa B. Za A je najbojlje da prvi hitac opali u zrak i tako prepusti da se prvo obračunaju B i C. Taj logičan zaključak malo je teže dokazati matematički. Dokaz je u prilogu.

[iii]Brojni fascinantni slučajevi suradnje kao optimalne strategije za postizanje vlastite koristi postoje u biologiji. Tako, na primer, Richard Dawkins u knjizi Sebični gen argumentira tezu da je suradnja na nivou organizama najbolja “strategija” gena koji određuju ponašanje tog organizma, kako bi oni, geni, preživjeli.

[iv]Ako svi igrači izaberu (S) svatko će dobiti  99×20 = 1980.  Ako jedan igrač izabere (P), a svi ostali (S), „prevarant“ će dobiti 98×100 = 9800, a svi „suradnici“ po 98×20 – 1×100 = 1860. I tako dalje… Ako 16 igrača odaberu (P), a 84 (S), «prevaranti» dobivaju  84×100 = 8400, a «suradnici» 83×20 – 16×100 = 60. Ako 17 igrača izaberu (P), a 83 (S), «prevaranti» dobivaju  83×100 = 8300, a «suradnici» počinju ostvarivati gubitak  82×20 – 17×100 = -60…  Ako 99 igrača igra (P), a samo jedan (S), svaki «prevarant» dobiva 100, a «suradnik» ima gubitak od –9900. I na kraju, ako svi igraju (P), dobitak svakog igrača je 0 bodova.

[v] (a) Dobitak od uspješne prevare veći je nego Dobitak od suradnje. Dobitak od suradnje veći je nego dobitak ako oba igrača varaju. Dobitak ako oba varaju veći je od „dobitka“ samo jednog prevarenog igrača.

(b) U slučaju ponavljanja te „igre“, dobitak od suradnje veći je nego prosječni dobitak ako igrači biraju (P) ili (S) slučajno i neovisno o igri protivnika.

(U slučaju Tablice 1 dobitak je dobiti što manje godina zatvora, najveći dobitak je 0, a najmanji 5)

[vi] U prvoj zagradi su potezi igrača A, program „Milo za drago“, i igrača B, njegovog protivnika; u drugoj su osvojeni bodovi od ta dva poteza.

Neka u k-tom potezu B igra prvi puta (P);

(S,S)(3,3);…; (S,S)(3,3); (S,P)(0,5); (P,P)(1,1); ….

U slijedećim potezima A igra (P). Ako B također igra (P) do kraja, biti će na dobitku pet bodova u odnosu na A. Ako B u jednom od slijedećih poteza odigra (S), to će biti (P,S)(5,0) i A i B izjednačiti će bodove. Bodovi se u nastavku igre dobivaju po upravo izloženom principu.

„Milo za drago“ može u 200 uzastopnih poteza osvojiti najviše 600 bodova, B stalno surađuje, a najmanje 199, B stalno vara.

Matematička diskusija o najboljim strategijama u „troboju“

 

 

 

 

Zoran Pusić
Autor 21.9.2020. u 09:46

Tacno.net Aplikacija

Aplikacija