Kā AlphaZero pats ir pārrakstījis spēles noteikumus

Deivids Silvers saka, ka datorprogramma, kas iemācījusies būt par šaha lielmeistaru, demonstrē radošuma būtību.

2019. gada 22. februāris

Džordijs Vuds

Deivids Silvers izgudroja kaut ko tādu, kas varētu būt izgudrojošāks par viņu.



Sudraba bija vadošais pētnieks AlphaGo datorprogrammā, kas iemācījās spēlēt Go — slaveni viltīgu spēli, kas izmanto cilvēka intuīciju, nevis skaidrus spēles noteikumus, pētot spēles, kuras spēlē cilvēki.

10 izrāvienu tehnoloģijas — 2019

Šis stāsts bija daļa no mūsu 2019. gada marta numura

  • Skatiet pārējo izdevuma daļu
  • Abonēt

Sudraba jaunākais radījums AlphaZero iemācās spēlēt galda spēles, tostarp Go, šahu un Shogi, trenējoties pret sevi. Izmantojot miljoniem praktisko spēļu, AlphaZero atklāj stratēģijas, kuru izstrādei cilvēkiem bija nepieciešami tūkstošiem gadu.

Vai AI kādu dienu varētu atrisināt problēmas, kuras cilvēka prāts nekad nespētu? Es runāju ar Sudrabu viņa Londonas birojā DeepMind, kas tagad pieder Alphabet.

Vienā slavenajā spēlē pret, iespējams, visu laiku labāko Go spēlētāju, AlphaGo veica izcilu kustību, ko novērotāji sākotnēji uzskatīja par kļūdu. Vai tajā brīdī tas bija radošs?

Move 37, kā tas kļuva zināms, pārsteidza visus, tostarp Go kopienu un mūs, tā veidotājus. Tas bija kaut kas ārpus gaidītā Go spēlēšanas veida, ko cilvēki bija sapratuši tūkstošiem gadu. Man tas ir piemērs tam, ka kaut kas ir radošs.

Tā kā AlphaZero nemācās no cilvēkiem, vai tas ir vēl radošāks?

Ja jums ir kaut kas, kas mācās pats par sevi, tas ir zināšanu uzkrāšana pilnīgi no nulles, tā ir gandrīz radošuma būtība.

AlphaZero viss ir jāizdomā pašam. Katrs solis ir radošs lēciens. Šīs atziņas ir radošas, jo tās nav devušas cilvēki. Un šie lēcieni turpinās, līdz tas ir kaut kas tāds, kas pārsniedz mūsu spējas un spēj mūs pārsteigt.

Jūs esat licis AlphaZero spēlēt pret labāko parasto šaha dzinēju Stockfish. Ko tu esi iemācījies?

Stockfish ir šī ļoti izsmalcinātā meklētājprogramma, taču tās pamatā ir šis modulis, kas saka: Pēc cilvēku domām, šī ir laba vai slikta pozīcija. Tātad cilvēki patiešām ir dziļi cilpā. Tam ir grūti atrauties un saprast principiāli atšķirīgu nostāju.

AlphaZero mācās izprast pozīcijas pats. Bija viena skaista spēle, kuru mēs tikko skatījāmies, kur tā faktiski atdod četrus bandiniekus pēc kārtas, un tā pat mēģina atdot piekto bandinieku. Stockfish uzskata, ka uzvar fantastiski, bet AlphaZero ir patiesi laimīgs. Ir atrasts veids, kā izprast pozīciju, kas pēc šaha normām nav iedomājama. Tā saprot, ka labāk ir ieņemt pozīciju nekā četras bandinieces.

Vai AlphaZero liek domāt, ka mākslīgajam intelektam būs nozīme turpmākajā zinātniskajā inovācijā?

Mašīnmācībā dominē pieeja, ko sauc par uzraudzīto mācīšanos, kas nozīmē, ka jūs sākat ar visu, ko cilvēki zina, un mēģināt to pārvērst datorprogrammā, kas veic lietas tieši tādā pašā veidā. Šīs jaunās pieejas, pastiprināšanas mācīšanās, skaistums ir tāds, ka sistēma pati no pirmajiem principiem mācās, kā sasniegt izvirzītos mērķus. Tas ir kā miljons miniatklājumu viens pēc otra, kas veido šo radošo domāšanas veidu. Un, ja jūs to varat izdarīt, jūs varat iegūt kaut ko tādu, kam ir milzīgs spēks, milzīga spēja atrisināt problēmas un kas, cerams, var novest pie lieliem sasniegumiem.

Vai ir cilvēka radošuma aspekti, kurus nevar automatizēt?

Ja domājam par cilvēka prāta spējām, mēs joprojām esam tālu no tā sasniegšanas. Mēs varam sasniegt rezultātus specializētās jomās, piemēram, šahā un Go, izmantojot milzīgu datora jaudu, kas veltīta šim vienam uzdevumam. Bet cilvēka prāts spēj radikāli vispārināt kaut ko citu. Jūs varat mainīt spēles noteikumus, un cilvēkam nav vajadzīgi vēl 2000 gadu, lai saprastu, kā viņai vajadzētu spēlēt.

Es teiktu, ka, iespējams, mākslīgā intelekta robeža šobrīd — un tas, kur mēs vēlētos iet — ir palielināt mūsu algoritmu diapazonu un elastību, lai aptvertu visu to, ko cilvēka prāts var darīt. Bet tas vēl ir tālu.

Kā mēs tur varētu nokļūt?

Es vēlētos saglabāt šo ideju, ka sistēmu var brīvi izveidot, to neierobežojot cilvēku zināšanas.

Mazulis neuztraucas par savu karjeru vai to, cik bērnu viņam būs. Tā ir spēlēšanās ar rotaļlietām un manipulācijas prasmju apgūšana. Ir ļoti daudz, ko uzzināt par pasauli, ja nav gala mērķa. To pašu var un vajadzētu attiekties arī uz mūsu sistēmām.

paslēpties