- Barashada xoojinta waa qaab-dhismeed go'aan qaadasho oo isku xigxiga halkaas oo wakiilku uu wanaajiyo abaalmarinta wadajirka ah isagoo la falgalaya deegaanka.
- Hababka ku salaysan qaabka iyo kuwa aan lahayn qaabka, RL qoto dheer iyo RL wakiillo badan ayaa suurtageliya codsiyada robotics-ka, aragtida, daryeelka caafimaadka, maaliyadda iyo hawlgallada baaxadda leh.
- Hirgelinta RL ee guuleysta ee shirkadaha waxay u baahan tahay jilitaan, xisaabin xooggan, MLOps, khibrad domain iyo KPI-yo ganacsi oo cad.
- Caqabadaha ugu muhiimsan waa hufnaanta xogta, xasilloonida, eexda, sharraxaadda iyo meelaynta badbaadada leh laga bilaabo jilitaanka ilaa adduunka dhabta ah.
Barashada Xoojinta (RL) waxay ka guurtay xiisaha tacliimeed una gudubtay mid ka mid ah qaababka ugu awoodda badan ee lagu dhisayo nidaamyada la qabsiga, go'aan qaadashada. Halkii ay ka baran lahaayeen xog ururin go'an, wakiilada RL waxay si toos ah wax uga bartaan isdhexgalka, tijaabada iyo qaladka, iyo jawaab celinta dib u dhaca. Isbeddelkaasi wuxuu wax walba beddelaa: sida aan u naqshadeyno algorithms-ka, sida aan u dhisno kaabayaasha dhaqaalaha iyo sida aan ugu xirno AI qiimaha ganacsiga dhabta ah.
Haddii aad isku dayayso inaad fahamto waxa dhabta ah ee hirgelinta barashada xoojinta dhab ahaantii ka dhigan tahay ficil ahaan, waxaad u baahan tahay inaad isku xirto dhowr lakab hal mar: Aasaaska xisaabta (siyaasadaha, abaalmarinta, hawlaha qiimaha), sanduuqa qalabka algorithmic (barashada Q, kala-soocidda siyaasadda, RL qoto dheer), qaybaha injineernimada (jilayaasha, GPU-yada, MLOps) iyo, si gaar ah, su'aalaha istaraatiijiga ah ee CIO-yada iyo hoggaamiyeyaasha (ROI, khatarta, isdhexgalka nidaamyada dhaxalka, sharciyeynta). Maqaalkani wuxuu dhex maraa muuqaalkaas dhammaad ilaa dhammaad, iyadoo diiradda la saarayo hirgelinta wax ku oolka ah halkii laga qeexi lahaa oo keliya qeexitaannada buugaagta.
Waxa dhabta ah ee barashada xoojinta (iyo sida ay uga duwan tahay ML-ka caadiga ah)
Barashada xoojinta waa qaab-dhismeed waxbarasho halkaas oo wakiilka waxay ogaataa istaraatiijiyad ficil ah iyadoo la falgaleysa deegaanka, helitaanka jawaab celin qaab abaalmarin ama ganaaxyo ah. Wakiilka lama siiyo calaamado sax ah sida waxbarashada la kormeerayo, mana aha oo kaliya inuu ururiyo xogta sida waxbarashada aan la kormeerayn. Taa beddelkeeda, waa inuu ogaadaa ficillada horseeda heerka ugu sarreeya. abaalmarin wadareed waqti ka dib.
Si rasmi ah, inta badan dhibaatooyinka RL waxaa loo qaabeeyey Habraacyada Go'aanka Markov (MDP): Mar kasta oo tallaabo deegaanku ku jiro xaalad, wakiilku wuxuu doortaa ficil, deegaanku wuxuu u gudbaa xaalad cusub wuxuuna soo celiyaa abaalmarin scalar ah. Hadafku waa in la barto siyaasadda taasi waxay qeexaysaa ficillada si faa'iidada muddada-dheer la filayo loo kordhiyo, ee maaha oo keliya faa'iidada degdegga ah.
Tani waxay abuurtaa farqi aasaasi ah oo ku saabsan barashada mashiinka caadiga ah: Halkii ay ka yareyn lahaayeen khasaare aan joogto ahayn oo ka badan xog ururin go'an, wakiilada RL waxay hagaajiyaan ujeedo firfircoon oo lagu qeexay isdhexgalka. Waa inay isku dheelitiraan is-weydaarsiga sahaminta-ka-faa'iidaysiga: mararka qaarkood ka faa'iidayso waxa horeba u muuqday mid wanaagsan, mararka qaarkoodna sahaminta ficillo aan la aqoon oo horseedi kara natiijooyin aad u wanaagsan oo muddo dheer ah.
Marka laga eego dhinaca nidaamyada, farqi kale oo muhiim ah ayaa ah in RL "xogta xogtu ay tahay deegaanka laftiisa". ML-ka la kormeerayo waxaad weydiisaa "xog taariikheedkee ayaan haynaa?", halka RL-ka su'aasha ugu muhiimsan ay tahay "ma ku dayasho karnaa ama ma ku dayasho karnaa deegaanka go'aannada lagu gaaro?". Taasi waa sababta jilitaanka tayada sare leh iyo mataanaha dijitaalka ah ay aad ugu muhiim yihiin hirgelinta RL ee dhabta ah.
Qaybaha dhismaha ee asaasiga ah: wakiil, deegaan, siyaasad iyo abaalmarino
Hirgelinta barashada xoojinta kasta, laga bilaabo bot-ka ciyaarta alaabta carruurtu ku ciyaarto ilaa kantaroolka warshadaha, waxay ku wareegsan tahay qaybo yar oo asaasi ah. Fahmidda si cad ayaa ka muhiimsan xifdinta algorithms-ka shaqsiyeed.
The wakiilka waa go'aan-qaade aan tababareyno. Waxay noqon kartaa adeeg software ah oo qiimeeya, matoorro gacanta robot ah oo xakameynaya, algorithm ganacsi oo dooranaya dalabaadka ama matoor talo bixin ah oo go'aaminaya waxa la tusayo isticmaalaha. Wakiilku wuxuu soo saaraa ficillada.
The deegaanka waa dunida uu wakiilku ku dhaqmo oo uu ka jawaabo falalkiisa. Waxay noqon kartaa jilitaanka fiisigiska, shabakadda saadka, suuq, jilaa ciyaaraha fiidiyowga ama socodka shaqada isbitaalka. Deegaanku wuxuu soo bandhigayaa gobolka (ama u kuurgal), waxay qeexaysaa tallaabooyinka sharci ah waxayna soo saartaa xaaladda xigta iyo abaalmarin tirooyin ah ka dib ficil kasta.
The siyaasadda wuxuu qeexayaa dhaqanka wakiilka: marka la eego xaalad la dareemayo, tallaabo noocee ah ayay tahay inuu qaado? Siyaasaddu waxay noqon kartaa jadwal fudud (dhibaatooyin yaryar), qaabab toosan ama shabakado neerfaha qoto dheer; waxay noqon karaan kuwo go'aan qaadasho leh ama kuwo aan la saadaalin karin. Ujeeddada tababarku waa in la horumariyo siyaasaddan si ay u soo saarto abaalmarinno muddo dheer oo wanaagsan.
The calaamadda abaalmarinta waxay qeexaysaa waxa "guusha" macnaheedu yahay deegaanka. Ficil kasta wuxuu horseedaa abaalmarin heer sare ah (oo noqon karta mid togan, mid taban ama eber ah). Si ka duwan waxbarashada la kormeerayo, abaalmarintu badanaa way yar tahay oo way dib u dhacdaa: gaari iskiis u wada wuxuu helaa abaalmarin ku saabsan dhammaystirka waddo si badbaado leh oo hufan, laakiin go'aannada isteerinka shaqsiga ah waxaa laga yaabaa inaysan si cad u fiicnayn ama u xumaan xilliga la qaadayo.
Xiriir dhow ayaa ah shaqada qiimaha, kaas oo qiyaasaya sida ay u wanaagsan tahay dawlad (ama lammaane dawlad-hawleedka ah) marka la eego abaalmarinta mustaqbalka ee la filayo. In kasta oo abaalmarintu ay degdeg tahay, haddana shaqada qiimaha waxay qabataa faa'iidada muddada dheer, taasoo u oggolaanaysa wakiilka inuu ka fogaado faa'iidooyinka muddada gaaban ee masiibo ah mustaqbalka. Algorithms badan oo RL ah, barashada shaqooyinka qiimaha ayaa muhiim u ah sida barashada siyaasadda lafteeda.
Barashada xoojinta ku salaysan moodel iyo tan aan lahayn moodel
Mid ka mid ah go'aamada ugu muhiimsan ee naqshadeynta marka la hirgelinayo RL waa inaad ku tiirsanaato qaab deegaan iyo in kale. Tani waxay garoonka u kala qaybisaa ku salaysan qaabka iyo moodel la'aan habab, oo leh cawaaqib xumada dhabta ah ee qoto dheer.
RL-ku-saleysan qaabka wuxuu u maleynayaa inaad taqaan ama aad barato qaab ku saabsan sida deegaanku u kobco. Qaabkaasi wuxuu saadaalinayaa, marka la eego xaalad iyo ficil, xaaladda xigta iyo abaalmarinta aad arki doonto. Marka aad haysato qaab noocaas ah, waxaad qorsheyn kartaa adigoo ku dayanaya taxane ficillo badan oo mala-awaal ah oo aad dooranayso midka ugu sarreeya ee la filayo. Tani waxay si gaar ah waxtar u leedahay marka tijaabooyinka dhabta ah ay qaali yihiin, khatar yihiin ama gaabis yihiin - tusaale ahaan, shabakadaha tamarta, hababka warshadaha ama daaweynta caafimaadka.
Habka shaqada ee ku salaysan moodelku wuxuu u eg yahay sidan: Wakiilku wuxuu la falgalaa deegaanka, wuxuu ururiyaa kala-guurka (xaalad, ficil, abaalmarin, xaalad xigta), wuxuu ku habboon yahay ama cusbooneysiiyaa qaabka firfircoonida ka dibna wuxuu adeegsadaa qaabkaas si uu gudaha ugu matalo siyaasado kala duwan. Isagoo ku soo bandhigaya dariiqooyinka mustaqbalka ee silico, wakiilku wuxuu qiimeyn karaa xeeladaha isagoon bixin kharashyo dhab ah.
Taas bedelkeeda, RL-ka aan moodeelka lahayn wuxuu ka faa'iidaystaa qaabaynta cad ee deegaanka wuxuuna si toos ah uga bartaa dhaqanka khibradda. Algorithms-ka sida Q-learning ama habab badan oo siyaasadda-jaangooyo ah ayaa diiradda saaraya cusboonaysiinta hawlaha qiimaha ama siyaasadaha ku salaysan oo keliya abaalmarinta la arkay iyo xaaladaha beddela, iyagoo adeegsanaya farsamooyinka bootstrapping halkii ay ka sii qorsheyn lahaayeen qaabka firfircoonida ee la bartay.
Hababka aan moodeelka lahayn waxay iftiimaan marka deegaanku weyn yahay, adag yahay, qayb ahaan aan la garanayn ama si joogto ah isu beddelayo, iyo marka tijaabada iyo qaladka internetka lagu sameeyo ay jaban yihiin. Ka fikir gawaari iskood u shaqeysta oo ku tababaran jilitaanka wadista ee hodanka ah, ama wakiil ciyaar-ciyaar oo sahaminaya malaayiin dhacdo iyada oo aan wax walaac ah laga qabin amniga.
Algorithms-ka barashada xoojinta muhiimka ah iyo qoysaska
Marka laga hadlayo, inta badan hirgelinta RL maanta waxay isticmaalaan noocyo kala duwan oo ka mid ah dhowr kooxood oo asaasi ah oo algorithms ah: hababka ku salaysan qiimaha, hababka tartiib tartiibka siyaasadda iyo isku-dhafka jilayaasha-dhaleeceeyayaasha. Intaa waxaa dheer, shabakadaha neerfaha ee qoto dheer waxay RL u fidiyaan dhibaatooyin cabbir sare leh sida aragga iyo xakamaynta adag.
Hababka ku salaysan qiimaha, sida barashada Q, waxay bartaan shaqo qiyaaseysa soo noqoshada la filayo ee ficilka lagu sameeyo xaalad ka dibna si fiican u dhaqanta ka dib. Barashada Q-tabeelka, waxaad haysataa jadwal qiimayaal Q(s,a) ah oo aad ku cusboonaysiisaa qaacidooyinka kala duwanaanshaha ku-meel-gaarka ah (TD) kuwaas oo ka soo kabanaya qiyaasaha hadda jira. Marka booska xaaladdu noqdo mid weyn ama joogto ah, shabakadaha Q-ga qoto dheer (DQN) waxay miiska ku beddelaan shabakad neerfaha ah, oo caadi ahaan ah shabakad isku-dhafan oo loogu talagalay wax-gelinta ku salaysan sawirka.
Barashada kala duwanaanshaha ku meel gaarka ah waa fikradda ugu muhiimsan ee ka dambeysa algorithms badan oo RL ah: halkii laga sugi lahaa ilaa dhammaadka dhacdo si loo xisaabiyo soo celinta dhabta ah (sida hababka Monte Carlo), hababka TD waxay cusbooneysiiyaan qiyaasaha iyagoo ku salaynaya qiyaasaha kale ee la bartay. Saamayntan bootstrap waxay ka dhigaysaa waxbarashada mid waxtar badan laakiin waxay sidoo kale soo bandhigaysaa caqabado xasillooni.
Hababka siyaasadda-jaan ... Halkii laga baran lahaa qiimaha Q ka dibna si hunguri leh loo dooran lahaa ficillada, hababkani waxay hagaajiyaan qaybinta suurtogalnimada marka loo eego ficillada si dariiqooyinka leh abaalmarino sare ay u noqdaan kuwo aad u badan. Algorithms sida REINFORCE, Trust Region Policy Optimization (TRPO) iyo Proximal Policy Optimization (PPO) ayaa si weyn loogu isticmaalaa xakamaynta joogtada ah iyo robotics-ka.
Hababka jilayaasha-dhaliilayaashu waxay isku daraan labada adduun iyagoo ilaalinaya siyaasad cad (jilaaga) iyo shaqo qiimeed (dhaliilaha). Dhaleeceeyaha ayaa hagaya cusbooneysiinta jilaaga isagoo bixinaya qiyaaso kala duwanaansho hoose oo ku saabsan faa'iidada ficil kasta. Noocyada caanka ah ee jilayaasha-dhaleeceeyayaasha qoto dheer waxaa ka mid ah A2C/A3C, DDPG (ficillada joogtada ah), iyo SAC, kuwaas oo dhammaantood guulo ka gaaray goobaha warshadaha iyo cilmi-baarista.
Marka dhibaatooyinku sii adkaadaan, cilmi-baarayaashu waxay soo jeediyeen hagaajin sida Double Q-learning, Dueling DQN, Bootstrapped DQN iyo distributional RL. Tusaale ahaan, Double Q-learning waxay isticmaashaa laba qiyaasood oo kala duwan si loo yareeyo eexda qiimaynta xad-dhaafka ah, halka Bootstrapped DQN ay hayso madaxyo badan oo Q-yo ah kuwaas oo dhiirigeliya sahaminta qoto dheer iyadoo la qaadayo madaxyo kala duwan qayb kasta.
Barashada xoojinta iyo waxbarashada qoto dheer: RL qoto dheer
Barashada xoojinta qoto dheer (RL qoto dheer) waa barashada xoojinta oo si fudud loo barto halkaas oo siyaasadda, shaqada qiimaha ama qaabka adduunka lagu matalo shabakad neerfaha qoto dheer. Tani waxay u suurta gelisay RL inay wax ka qabato waxyaabaha la geliyo dareenka cayriin sida sawirrada, maqalka ama vector-ka xaaladda cabbirkiisu sarreeyo ee aan macquul ahayn in lagu maareeyo miisaska caadiga ah ama moodooyinka toosan.
Tusaale caan ah ayaa ah isticmaalka shabakadaha neerfaha ee isku-dhafan sida qiyaasaha shaqada ee qiimaha Q ee ciyaaraha Atari. Algorithm-ka DQN wuxuu pixels-ka cayriin ka qaadaa shaashadda sidii gelinta, wuxuu ku farsameeyaa lakabyo isku-dhafan wuxuuna soo saaraa qiimayaal ficil oo la qiyaasay. Tani waxay u oggolaatay wakiillada inay si toos ah uga bartaan xeelado aadamenimo ka sarreeya sawirrada, iyada oo aan lahayn astaamo gacanta lagu sameeyay ama aqoon cad oo ku saabsan xeerarka ciyaarta.
Hawlaha aragtida kombiyuutarka si ballaaran, RL qoto dheer ayaa lagu daray farsamooyinka feejignaanta iyo qaab-dhismeedka gaarka ah si loo maareeyo kala-qaybinta, ogaanshaha walxaha, qiyaasta qoto dheer iyo xakamaynta ku salaysan sawirka. Tusaale ahaan, moodooyinka feejignaanta ee xulashada leh waxay diiradda saari karaan ilaha xisaabinta ee gobollada ugu habboon ee sawirka, iyadoo ay hagayaan calaamadaha abaalmarinta ee ka tarjumaya waxqabadka shaqada.
Si kastaba ha ahaatee, RL qoto dheer waa mid gaajaysan oo si caan ah u deggan. Tababaridda shabakadaha waaweyn oo leh bartilmaameedyo xiran, xog aan degganayn iyo abaalmarinno dib u dhac ah ayaa si fudud u kala duwanaan kara haddii cabbirrada sare, istaraatiijiyadaha sahaminta iyo qaab-dhismeedka shabakadda aan si taxaddar leh loo hagaajin. Tani waa mid ka mid ah sababaha ugu waaweyn ee jilitaanka adag iyo qalabka awoodda badan (GPU-yada, TPU-yada, kooxaha la qaybiyey) aan looga gorgortami karin mashaariicda dhabta ah.
Laga bilaabo aragti ilaa dhaqan: socodka shaqada RL ee caadiga ah ee hirgelinta
Hirgelinta nidaamka RL maaha oo keliya xulashada algorithm; waa naqshadaynta wareeg buuxa oo ka bilaabma dhibaatada ganacsiga ilaa qaabaynta deegaanka, doorashada algorithm, tababarka, ansixinta, dejinta iyo la socodka. Tallaabooyinku waa isku xiran yihiin oo badanaa waa kuwo soo noqnoqda.
Marka hore, waxaad qeexeysaa dhibaatada go'aanka oo aad hubisaa inay runtii tahay mid isku xigxigta oo abaalmarin ku saleysan. Shaqooyin badan oo ganacsi ah kuma habboona RL waxaana si fiican loogu xalliyaa qaabab la kormeero ama xitaa halbeeg fudud. Musharixiinta RL ee wanaagsan waxay ku lug leeyihiin is-weydaarsi muddo dheer ah, wareegyo jawaab celin ah iyo xaalado isbeddelaya - qorsheynta wadada, qoondaynta kheyraadka, qiimaha waqti ka dib, xakamaynta robot-ka, talooyinka muddada dheer.
Marka labaad, waxaad deegaanka u qaabaynaysaa MDP ahaan: xaalado, ficillo, abaalmarino iyo kala-guur. Taasi waxay u baahan tahay aqoon qoto dheer oo ku saabsan domain-ka: macluumaadkee ayuu wakiilku ku arkaa tallaabo kasta, waa maxay ficillada la oggol yahay, sidee bay ficilladaasi u beddelaan nidaamka iyo qaab-dhismeedka abaalmarinta ee ugu habboon yoolalka ganacsiga? Shaqada abaalmarinta ee si liidata loo qaabeeyey waxay horseedi kartaa "jabsiga abaalmarinta", halkaas oo wakiilladu ay ku kordhiyaan dhibcaha tirooyinka siyaabo ka hor imanaya yoolalka dhabta ah.
Saddexaad, waxaad dooranaysaa inaad dhisto qalab jilitaan ama inaad ku tiirsanaato xogta is-dhexgalka taariikhiga ah. Marka jawiga dhabta ahi uu khatar yahay ama gaabis yahay (khadadka wax soo saarka, nidaamyada korontada, robotyada jireed), mataano dijitaal ah oo tayo sare leh ayaa lagama maarmaan ah. Meelaha aan muhiimka ahayn, sida talooyinka khadka tooska ah ama xulashooyinka hawlgalka qaarkood, waxaad ku bilaabi kartaa RL aan siyaasad lahayn oo ku jira diiwaanka oo aad u gudubto sahaminta khadka tooska ah ee taxaddar leh goor dambe.
Marka afraad, waxaad dooranaysaa oo aad hirgelinaysaa qoys algorithm ah oo ku habboon xaaladdaada iyo meelaha ficilka, xaaladaha xogta iyo xaddidaadaha. Barashada Q-ga ee shaxda ayaa ku filnaan karta dhibaatooyinka yaryar ee kala duwan; Qaab-dhismeedka DQN-ka u eg wuxuu u shaqeeyaa xakamaynta qarsoon ee ku salaysan sawirka; hababka dhaleecaynta jilayaasha ayaa caadi u ah ficillada joogtada ah; hababka ku salaysan qaabka ayaa kaa caawinaya marka aad si raqiis ah u matali karto laakiin xogta dhabta ahi waa qaali.
Ugu dambeyntii, waxaad dhistaa dhuumaha MLOps ee ku wareegsan wakiilka RL: raadraaca tijaabada, tababarka la soo saari karo, qiimeynta ka soo horjeedka aasaaska, istaraatiijiyadaha dejinta amniga ah iyo la socodka joogtada ah. Dhuumahan waa inuu qabtaa oo keliya noocyada moodeelka laakiin sidoo kale noocyada deegaanka, maadaama isbeddellada dhaqdhaqaaqa jilitaanka ay si weyn u beddeli karaan dhaqanka wakiilka.
Codsiyada dhabta ah ee barashada xoojinta
Iyadoo ay adag tahay, RL waxaa horey loogu isticmaalay nidaamyo dhab ah oo la yaab leh, badanaa gadaasha muuqaalka. Robotics, saadka, maaliyadda, daryeelka caafimaadka iyo aaladaha dijitaalka ah ayaa ka mid ah meelaha ay ugu badan tahay.
Robotics-ka, RL waxay tababartaa robot-yada si ay u qabtaan xirfado dhaqdhaqaaq oo adag, u dhex maraan meelaha buuqa badan iyo inay si sax ah u maareeyaan walxaha. Halkii ay gacanta ku qori lahaayeen waddo kasta, robotyadu waxay wax ku bartaan is-dhexgal soo noqnoqda, iyagoo si tartiib tartiib ah u hagaajinaya qabashada, isu-imaatinka ama socodka. RL qoto dheer oo leh muuqaallo ayaa u oggolaanaya inay si toos ah uga fikiraan quudinta kamaradaha, iyagoo la qabsanaya jawiga isbeddelaya.
Deegaannada ciyaaruhu waxay ahaayeen garoon dabiici ah oo loogu talagalay cilmi-baarista RL waxayna soo saareen qaar ka mid ah marxaladaha ugu muuqda. Wakiillada lagu tababaray RL waxay ku fiicnaayeen ciyaaraha Atari ee caadiga ah, Go, chess, StarCraft iyo ciyaaraha kale ee istaraatiijiyadda ee adag, kuwaas oo inta badan ka sarreeya khubarada ugu sarreeya aadanaha. Guulahani waxay muujinayaan awoodda RL ee ay ku heli karto xeelado muddo dheer ah meelaha go'aan qaadashada ee aadka u weyn.
Dhanka maaliyadda, RL waxaa loo adeegsaday maaraynta faylalka, istaraatiijiyadaha ganacsiga iyo maaraynta khatarta. Wakiilladu waxay bartaan inay qoondeeyaan raasamaalka, furaan oo xiraan jagooyinka ama dib u dheellitiraan faylalka si ay uga jawaabaan xaaladaha suuqa ee isbeddelaya, iyagoo u wanaajiya faa'iidooyinka khatarta la hagaajiyay. Halkan, xaddidaadaha sida kharashyada macaamilka, xaddidaadaha sharciyeynta iyo rabitaanka khatarta waa in lagu dhex daraa abaalmarinta iyo naqshadeynta deegaanka.
Daryeelka caafimaadku waa meel kale oo rajo leh laakiin xasaasi ah: RL waxaa loo isticmaalaa in lagu shaqsiyeeyo siyaasadaha daaweynta, lagu wanaajiyo jadwalka shucaaca ama lagu maareeyo xaaladaha daba dheeraada waqti ka dib. Iyadoo la qaabeynayo xaaladda bukaanka iyo faragelinta suurtagalka ah sida MDP, wakiilka RL wuxuu soo jeedin karaa taxane tallaabooyin ah oo kor u qaada natiijooyinka caafimaad ee muddada dheer. Maadaama khatarta ay sarreyso, arrimaha sida fasiraadda, caddaaladda iyo badbaadada lama gorgortami karo.
Gaadiidka iyo saadka, RL waxay wanaajisaa marin-haweedka, maaraynta maraakiibta iyo hawlgallada bakhaarka. Laga bilaabo marin-haweedka firfircoon ee gawaarida keenista ee ka jawaaba taraafikada waqtiga-dhabta ah iyo cimilada, ilaa soo qaadashada iyo xidhitaanka robot-ka ee xarumaha fulinta, wakiilada RL waxay bartilmaameedsadaan kharashyo hooseeya, gaarsiinta degdegga ah iyo isku hallayn sare iyagoo wax ka baranaya jawaab celin joogto ah.
Nidaamyada aragga oo ay ku shaqeeyaan barashada xoojinta
Aragtida kombiyuutarku waa lamaane dabiici ah oo loogu talagalay barashada xoojinta, gaar ahaan marka wakiilladu ay tahay inay ku dhaqmaan aragtida muuqaalka halkii ay ka ahaan lahaayeen vectors xaalad qaabaysan. RL-ga qoto dheer wuxuu fidiyaa moodooyinka aragtida caadiga ah isagoo ka dhigaya wax soo saarkooda inay kiciyaan ficillo si joogto ah loogu qiimeeyo shaqada abaalmarinta.
Tusaale ahaan, nidaamyada RL ee ku salaysan aragtida ee diyaaradaha aan duuliyaha lahayn waxay bartaan inay ka fogaadaan caqabadaha iyo inay dhex maraan jawiyada adag iyagoo isticmaalaya oo keliya wax-gelinta kamaradaha. Iyadoo lagu tababarayo jilitaanka qani ah, diyaaradaha aan duuliyaha lahayn waxay la kulmi karaan malaayiin xaalado duulimaad ah waxayna baran karaan siyaasadaha guud ahaan u tarjuma adduunka dhabta ah. Cabbiraadaha sida heerka guusha ee ka fogaanshaha caqabadaha ama waqtiga dhammaystirka howlgalka waxay u dhaqmaan sidii abaalmarinno qaabeeya dhaqanka.
Kormeerka warshadaha, nidaamyada aragga ee RL-ku xoojiyay waxay go'aamiyaan meesha iyo sida loo raadiyo cilladaha, ee maaha oo keliya sida loo ogaado si aan joogto ahayn. Halkii laga sawiri lahaa badeecad kasta si isku mid ah, siyaasadda RL waxay dooran kartaa heerarka zoom-ka, xaglaha ama gobollada xiisaha leh iyadoo lagu saleynayo indha-indheyn hore, taasoo hagaajinaysa xawaaraha iyo saxnaanta labadaba.
Sawir-qaadista caafimaadku waxay sidoo kale ka faa'iidaysataa RL, halkaas oo siyaasaduhu ay hagi karaan helitaanka sawirka, diiradda saari karaan meelaha laga shakiyo ama baaritaannada ogaanshaha taxanaha ah. Hadafku ma aha oo kaliya ogaanshaha cilladaha laakiin sidoo kale waa hagaajinta dhammaan socodka shaqada ee ogaanshaha iyadoo la raacayo xaddidaadaha sida waqtiga, kharashka iyo badbaadada bukaanka.
Guud ahaan, isku xidhka aragtida iyo RL waxay nidaamyada aqoonsiga ee taagan u beddelaan wareegyo aragti-falgal firfircoon oo hab-dhaqankooda la qabsada waqtiga dhabta ah. La qabsigaasi waa waxa ay u baahan yihiin hawlo badan oo adduunka dhabta ah, laga bilaabo wadista iskeed u shaqeysa ilaa ilaalada caqliga leh.
Barashada xoojinta wakiillada badan iyo aragtida iskaashiga
Xaalado badan oo macquul ah waxay ku lug leeyihiin hal wakiil oo caqli badan laakiin dad dhan oo iyaga ka mid ah ayaa ku dhex milmaya jawi wadaag ah. Barashada xoojinta wakiillada badan (MARL) waxay wax ka qabataa xaaladdan, halkaas oo wakiilladu ay iska kaashan karaan, ku tartami karaan ama labadaba.
Codsiyada aragtida iskaashiga ah, robotyo badan, diyaarado aan duuliye lahayn ama kamarado ayaa isku xira si loo gaaro yool guud, sida khariidaynta aagga masiibooyinka ama la socodka warshadaha waaweyn ee warshadaha. Wakiil kastaa wuxuu fiiriyaa aragti maxalli ah oo keliya, sidaa darteed wadaagista macluumaadka iyo barashada siyaasadaha wadajirka ah ee wax ku oolka ah ayaa muhiim ah.
Astaamaha ugu muhiimsan ee nidaamyada wakiillada badan waxaa ka mid ah go'aan qaadashada baahsan, hab-raacyada isgaarsiinta iyo takhasuska hawlaha. Halkii laga isticmaali lahaa hal koontaroole dhexe, wakiil kastaa wuxuu sameeyaa doorashooyin maxalli ah, mararka qaarna wuxuu u gudbiyaa macluumaad kooban kuwa kale. Wakiillada qaarkood waxay ku takhasusaan hagitaanka, kuwa kalena waxay ku takhasusaan ogaanshaha ama wax ka qabashada, RL-na waa inay bartaan siyaasadaha ka faa'iidaysta qaybtan shaqada.
MARL waxay soo bandhigaysaa caqabado cusub, sida aan joogtada ahayn (sababtoo ah siyaasadaha wakiilada kale way isbeddelayaan inta lagu jiro tababarka) iyo ballaarinta. Haddana marka ay shaqeyso, waxay gaari kartaa adkeysi iyo waxqabad ka sarreeya nidaamka wakiil kasta - haddii hal wakiil uu guuldareysto, kuwa kale way magdhabi karaan oo la qabsan karaan.
Marka laga reebo robotics-ka iyo aragtida, RL-ga wakiillada badan wuxuu taageeraa codsiyada maaraynta taraafikada, nidaamyada tamarta ee la qaybiyey, xaraashka xayeysiiska iyo domain kasta oo go'aan-qaatayaal badan ay si istaraatiiji ah u falgalaan. Kuwa hirgeliya, naqshadeynta kanaallada isgaarsiinta, kala-goynta abaalmarinta iyo nidaamyada tababarka waxay noqdaan kuwo muhiim ah sida algorithm-ka saldhigga ah ee RL.
Xadka iyo caqabadaha barashada xoojinta hadda jirta
Iyadoo ay ballanqaaday, RL aad bay uga fog tahay wax aan macquul ahayn waxayna la socotaa xaddidaadyo halis ah oo koox kasta oo fulinaysa ay tahay inay wajahdo fool ka fool. Iska indha tirka arrimahan badanaa waxay ku dhammaadaan nidaamyo aan degganayn, miisaaniyado xisaabeed oo khasaara ama tijaabo ganacsi oo aan waligood ka bixin shaybaarka.
Xogta iyo hufnaanta muunadda waa qodobbo xanuun badan: algorithms badan oo RL ah waxay u baahan yihiin tiro badan oo isdhexgal ah si loo barto siyaasadaha wanaagsan. Ciyaaraha la jilay waa kuwo la aqbali karo; nidaamyada jireed ama jawi qaali ah ma aha. Hababka ku salaysan moodeelka, RL-ka offline-ka ah iyo istaraatiijiyadaha sahaminta ee wanaagsan dhammaantood waa isku dayo lagu doonayo in RL laga dhigo mid muunad ahaan waxtar badan leh.
Dhibaatada sahaminta iyo ka faa'iidaysiga ma aha oo kaliya xiiso aragtiyeed laakiin waa caqabad injineernimo wax ku ool ah. Wakiillada sahaminta aadka u yar waxay ku xayirmaan dhaqanno aan fiicnayn; wakiillada sahaminta aadka u daran waxay kharribaan kheyraadka ama qaadaan tallaabooyin aan ammaan ahayn. Farsamooyinka sida siyaasadaha epsilon-hungry, bilowga rajo-gelinta, gunnooyinka xiisaha leh ama noocyada kala duwan ee muunad qaadista Thompson ayaa la isticmaalaa, laakiin hagaajinta waxay weli tahay mid dhibaato gaar ah leh.
Xasilloonida iyo isku-soo-ururinta ayaa ah isha kale ee madax-xanuunka: algorithms-ka RL ee qoto dheer ayaa laga yaabaa inay ruxmaan, kala duwanaadaan ama ay noqdaan kuwo si ba'an u burbura marka deegaanku wax yar isbeddelo. Wax ka beddelka yar yar ee lagu sameeyo miisaanka abaalmarinta, heerarka waxbarashada ama qaab-dhismeedka shabakadda ayaa samayn kara ama jebin kara tababarka. Taasi waa sababta tijaabinta adag, baabi'inta iyo la socodka ay udub dhexaad u yihiin mashruuc kasta oo RL ah oo halis ah.
Barashada wareejinta iyo guud ahaanta deegaannada oo dhan way adag tahay. Wakiilladu badanaa waxay bartaan siyaasadaha si fiican loogu habeeyey simulator gaar ah ama nidaam tababar laakiin ku guuldareysta marka xaaladuhu isbeddelaan - iftiin cusub, dhaqan isticmaale oo kala duwan, isbeddello siyaasadeed, ama qalab la cusbooneysiiyay. Farsamooyinka sida kala soocidda domain-ka, barashada meta-barashada iyo tababarka hawlo badan ayaa caawiya, laakiin waxqabadka xooggan ee ka baxsan qaybinta weli waa goob cilmi baaris oo firfircoon.
Fasiraadda iyo hufnaanta ayaa si gaar ah dhibaato ugu ah RL qoto dheer. Marka siyaasadaha lagu matalo shabakadaha waaweyn ee neerfaha, fahamka sababta tallaabo gaar ah loo qaaday waqti cayiman ma aha wax aan caadi ahayn. Qaybaha la nidaamiyay sida maaliyadda iyo daryeelka caafimaadka, dhaqanka sanduuqa madow ayaa si isa soo taraysa u ah mid aan la aqbali karin, taasoo horseedaysa shaqo ku saabsan qalabka RL ee la sharxi karo iyo qalabka is-eegista siyaasadda.
Aragtida istaraatiijiyadeed ee CIO-yada: Goorma ayay RL macno samaynaysaa ganacsiga?
Marka laga eego dhinaca hoggaanka, su'aasha ugu muhiimsan ma aha "ma isticmaali karnaa RL?" laakiin "ma u isticmaali karnaa RL dhibaatadan, haddii ay sidaas tahay, goorma?". RL waa tiknoolajiyad labaad oo mawjad labaad ah: badanaa waxay macno samaynaysaa marka ururku hore u haysto dhuumaha xogta ee adag, falanqaynta iyo ML la kormeero.
Musharixiinta RL ee wanaagsan waxay wadaagaan sifooyin dhowr ah: go'aannadu waa kuwo isku xigxiga, jawaab celin ayaa la heli karaa, deegaanka waa la matali karaa ama ugu yaraan dib ayaa loo celin karaa waxaana jira KPI-yo cad oo la cabbiri karo oo la xiriira waxqabadka muddada dheer. Hagaajinta tamarta, qiimaha firfircoon, saadka baaxadda weyn, xakamaynta warshadaha ee adag iyo shaqsiyeynta jihada dheer ayaa ah tusaalooyin caadi ah.
Kahor inta aan la bilaabin mashruuc, CIO-yada waa inay qiimeeyaan diyaargarowga afar qaybood: xogta, tignoolajiyada, hibada iyo qiimaha ganacsiga. Dhanka xogta, diiradda la saarayo ma aha oo kaliya mugga laakiin in isdhexgalka la qaabayn karo ama la matali karo. Dhinaca tiknoolajiyada, helitaanka GPU-yada, kaabayaasha la qaybiyey iyo kaydka MLOps ee xooggan waa qasab. Dhinaca kartida, kooxuhu waxay u baahan yihiin labadaba khabiirada RL iyo injineerada ku raaxaysan nidaamyada waaweyn; tixgeli diseño y construcción de equipos de agentes de IA.
Tallaabo muhiim ah waa in la isla qaabeeyo shaqada abaalmarinta iyadoo lala kaashanayo khubarada domain-ka si ay si daacad ah uga muuqato yoolalka ganacsiga iyo caqabadaha. Haddii abaalmarintu ay qabato oo keliya dhinac cidhiidhi ah (tusaale ahaan, dakhliga) oo ay iska indha tirto kuwa kale (u hoggaansanaanta, caddaaladda, badbaadada, qanacsanaanta macaamiisha), wakiilku wuxuu hagaajin doonaa waxa khaldan wuxuuna abuuri doonaa khatar halkii uu ka ahaan lahaa qiimo.
Ugu dambeyntii, kiisaska ganacsiga ee RL waa inay si toos ah ugu xidhaan abaalmarinta uu ururiyay wakiilka halbeegyada maaliyadeed: dhimista kharashka, kor u qaadista dakhliga ama faa'iidooyinka waxtarka. La'aanteed xiriirkaas, waxay noqoneysaa wax aan macquul aheyn in la caddeeyo wadarta kharashka lahaanshaha (jilitaanka, xisaabinta, MLOps, dayactirka) ama in la barbar dhigo xalalka RL iyo aasaaska fudud.
Tiknoolajiyada injineernimada iyo qaab-dhismeedka hirgelinta RL
Dhinaca injineernimada, hirgelinta RL waxay la macno tahay isu-ururinta qalabyo kala duwan oo lagu sameeyo qalabka, maktabadaha, kaabayaasha tababarka iyo qalabka tijaabada. In kasta oo fikradaha algorithm-ku ay yihiin kuwo guud, haddana nidaamka deegaanka ee aad doorato wuxuu si weyn u saameeyaa wax soo saarka iyo isku halaynta.
Qaab-dhismeedka deegaanku wuxuu bixiyaa is-dhexgal heer sare ah oo loogu talagalay wakiilada si ay ula falgalaan nidaamyada dhabta ah ee la matalay ama la duubay. Madal-dhaqameedyada caadiga ah waxay soo bandhigayaan API fudud: dib u habeyn deegaanka, tallaabo tallaabo ah oo hel xaalad cusub, abaalmarin iyo calamo joojin ah. Buug-yaraha ballaaran ee deegaanka - laga bilaabo ciyaaraha fiidiyowga ee Atari iyo kuwa hore ilaa jilitaanka wadista iyo xaaladaha warshadaha - wuxuu suurtogal ka dhigayaa tijaabinta iyo halbeegga degdega ah.
Marka laga soo tago deegaanka, maktabadaha RL waxay hirgeliyaan algorithms kala duwan (DQN, PPO, A2C, DDPG, SAC, Bootstrapped DQN iyo waxyaabo kaloo badan) oo leh astaamo macquul ah iyo jillaab hagaajin. Maktabadahani waxay inta badan si adag ugu dhex milmaan qaab-dhismeedka waxbarashada qoto dheer sida TensorFlow ama PyTorch, taasoo ku siinaysa marin u helidda dardargelinta GPU, kala-soocidda otomaatiga ah iyo nidaamka deegaanka ee qalabka bislaaday.
Qaab-dhismeedyo horumarsan ayaa ku daraya astaamo sida tababar qaybsan, kaydin dib-u-ciyaar oo aan siyaasad ahayn, tababar ku salaysan dadweynaha, nadiifinta hyperparameter iyo taageerada jawi aan caadi ahayn (sida jilitaanka wadista, ciyaaraha qofka koowaad ee 3D ama moodooyinka warshadaha ee gaarka ah). Mashaariicda waaweyn, awoodda lagu tababaro baaxadda, dib u bilaabista tijaabooyinka iyo isbarbardhigga noocyada kala duwan si nidaamsan ayaa noqda kala duwanaansho muhiim ah.
Ugu dambeyntii, lakabka MLOps wuxuu isku xiraa wax walba: raadraaca tijaabada, xogta iyo nooca deegaanka, is-dhexgalka joogtada ah iyo dejinta, la socodka iyo digniinta. RL, waa inaad qeexitaanka deegaanka ula dhaqantaa sidii farshaxan heer sare ah: isbeddel kasta oo ku yimaada dhaqdhaqaaqa, caqliga abaalmarinta ama xaddidaadaha wuxuu abuuraa "xog-ururin" cusub oo baabi'in karta natiijooyinkii hore.
Khatarta, anshaxa iyo eexda nidaamyada waxbarashada xoojinta
Marka nidaamyada RL ay u guuraan qaybaha khatarta sare leh, maaraynta khatarta iyo anshaxa waxay joojiyaan inay noqdaan kuwo dheeraad ah oo ikhtiyaari ah waxayna noqdaan walaacyada naqshadeynta ee muhiimka ah. Maadaama wakiilladu ay si firfircoon isugu dayaan inay sare u qaadaan abaalmarinta, waxay ka faa'iideysan karaan godadka, eexda ama indho-indheynta naqshadaynta deegaanka siyaabo aysan aadanuhu fileynin.
Eexashada ku jirta tababarka xogta ama jilitaanka waxay horseedi kartaa siyaasado takoor ah, gaar ahaan nidaamyada ku salaysan aragtida ama go'aan qaadashada ee la falgala dadka. Haddii kooxo gaar ah oo dadweynuhu ka tirsan yihiin aan si fiican loo matalin ama si khaldan loogu sheegin deegaanka, siyaasadda la bartay waxay ku shaqayn kartaa si liidata ama si aan caddaalad ahayn. Tani ma aha mid gaar u ah RL, laakiin wareegga isdhexgalka ayaa kordhin kara saameyntaas.
Qalabka lagu hubinayo caddaaladda, cabbiraadda eexda iyo hirgelinta caqabadaha waa in lagu daraa habka RL. Dib u eegis joogto ah oo ku saabsan naqshadeynta deegaanka, qaab-dhismeedka abaalmarinta iyo waxqabadka kooxaha hoose ayaa loo baahan yahay, oo ay weheliyaan qalab farsamo sida cabbirrada caddaaladda, qaab-dhismeedka ogaanshaha eexda iyo hababka sharraxaadda ee loogu talagalay RL.
Walaac kale ayaa ah dabeecadda "sanduuq madow" ee siyaasadaha RL ee qoto dheer. Hay'adaha sharci dejinta iyo daneeyayaasha ayaa si isa soo taraysa u dalbanaya sharraxaad ku saabsan go'aannada otomaatiga ah, gaar ahaan marka ay saameeyaan deynta, daryeelka caafimaadka, shaqada ama badbaadada. Shaqada RL ee la sharxi karo waxay higsaneysaa inay soo saarto sababaha la fahmi karo ee aadanaha, muujiso xaaladaha saameynta leh iyo inay tijaabiso dhaqamada ka soo horjeeda.
Ugu dambeyntii, qaabab badan oo maaraynta khatarta ah ayaa xoogga saaraya baahida loo qabo kormeer joogto ah, raad-raac iyo xaqiijin adag oo ku saabsan hawlaha iyo siyaasadaha abaalmarinta. Deegaannada la nidaamiyay, diiwaanka ficillada, xaaladaha iyo natiijooyinka waa in la hayaa oo la hubin karaa, hababka dib-u-celinta waa inay diyaar ahaadaan haddii wakiilku si lama filaan ah u dhaqmo.
Laga bilaabo jilitaanka ilaa adduunka dhabta ah: xidhitaanka farqiga sim-ilaa-dhabta ah
Mashaariicda ugu halista badan ee RL waxay si weyn ugu tiirsan yihiin jilitaan inta lagu jiro tababarka, ka dibna waxay la kulmaan caqabadda ah in siyaasadaha loo wareejiyo adduunka dhabta ah. Farqiga u dhexeeya jawiga la sawiray iyo kan dhabta ah - iftiinka, qaab-dhismeedka, buuqa, dhaqdhaqaaqa aan la qaabayn, dhaqanka aadanaha - wuxuu sababi karaa hoos u dhac ku yimaada waxqabadka.
Farqigan loogu yeero farqiga-sim-to-real waxaa lagu cabbiraa siyaabo kala duwan, oo ay ku jiraan cabbirrada qaybinta oo isbarbar dhigaya indha-indheynta la sameeyay iyo tan dhabta ah. Kala duwanaansho sare waxay ka dhigan tahay in siyaasaddu aysan arkin wax la mid ah xogta dhabta ah ee ay la kulmi doonto, dhaqankeeduna uu noqon karo mid jilicsan.
Si loo yareeyo tan, xirfadlayaashu waxay adeegsadaan kala soocidda domain-ka (qaababka kala duwan, iftiinka, xuduudaha fiisigiska inta lagu jiro tababarka), hagaajinta xogta dhabta ah, hagaajinta siyaasadda adag iyo istaraatiijiyadaha dejinta ee muxaafidka ah. Fikraddu waa in wakiilka loo soo bandhigo kala duwanaansho badan intii suurtagal ah si uu u barto xeeladaha guud halkii uu ka xasuusan lahaa sifooyinka hal jilitaan.
Codsiyada muhiimka u ah badbaadada, hawlgalinta waxaa la sameeyaa: wakiillada marka hore waxay ku shaqeeyaan "qaabka hooska", iyagoo sameynaya talooyin la diiwaan geliyay laakiin aan la fulin, ka dibna si tartiib tartiib ah ayay u helaan madax-bannaani marka waxqabadkooda iyo adkeysigooda la xaqiijiyo. Habkani wuxuu kuu ogolaanayaa inaad siyaasadaha ku tijaabiso xaalado nololeed adiga oo aan si buuxda gacanta ugu dhigin kahor.
Marka la eego mustaqbalka, horumarka jilitaanka daacadnimada sare leh, qaabaynta wax soo saarka iyo farsamooyinka ku salaysan qaabka/moodada isku-dhafka ah ayaa sii wadi doona inay yareeyaan farqiga siman-ilaa-dhabta ah, taasoo ka dhigaysa RL mid waxtar u leh nidaamyo ballaaran oo adduunka dhabta ah.
Isku soo wada duub dhammaan lakabyadan - laga bilaabo aasaaska MDP iyo naqshadeynta algorithm-ka ilaa jilitaanka, anshaxa, kaabayaasha dhaqaalaha iyo isku-dubaridka ganacsiga - waa waxa barashada xoojinta ka dhiga fikrad caqli badan una roga tignoolajiyad la hirgelin karo oo dhab ahaantii abuuri karta qiimo jawi adag oo firfircoon.