News

Soundbyte 134: Explore vs. exploit

2 maart 2014

Twee weken geleden alweer is de nieuwe strategie (2014-2017) in de vorm van een prachtig boek aan alle medewerkers gepresenteerd. Niet toevallig zijn we ook in het Apeldoornse aan het nadenken over onze invulling hiervan. Zijn onze speerpunten –waarmee we ons richten op technologieën die ondersteunen bij het ontsluiten en beter presenteren van informatie: semantische technologie, enterprise search, personalisatie, recommendation en filtering– nog actueel? Zeker wel. Dat merk ik aan klanten/partners/concullega’s die in gesprekken onze expertise steeds beter begrijpen. Of beter worden dat te veinzen 😉 En nu, doorgaan “and be famous for it” of moeten we juist een stap verder zetten om de actualiteit voor te blijven? Het gevaar van commodity ligt altijd op de loer, evenals de Wet van de remmende voorsprong.

In een discussie over onze strategie zei een collega:

“Als je doet wat je deed, dan krijg je wat je kreeg.”

Mooie uitspraak met een bevestiging van de orde der dingen. Een modern spreekwoord. Maar wat nu? Wat is de volgende stap?

Met deze vraag in het achterhoofd heb ik deze week veel gelezen, gedacht en gedubd. Waar kunnen we onze expertise fijnslijpen en in welke richting moeten we eventueel nog verbreden om klanten en partners nog beter van dienst te zijn. En dan staat voor mij buiten kijf dat we niet af moeten wijken van de grote lijn.

Dit bracht me bij een tak binnen machine learning, genaamd ‘reinforcement learning’, waarbij adaptieve (i.e. zelf-lerende) agents de beste te nemen volgende stap bepalen op basis van eerdere waarnemingen. Zeer boeiende technologie die als ‘enabler’ kan dienen voor ‘next-best action decision-making’ en de verbijzondering met de potentie een ware hype te worden, genaamd ‘next-best action marketing’ a.k.a. ‘personalized marketing’. Pas op voor het Jeopardy Effect.

Verschillende artikelen over dit onderwerp brachten een interessante keuze onder mijn aandacht die altijd de kop opsteekt wanneer je probeert te leren door interactie met de omgeving en bekend staat als het ‘explore-exploit dilemma’. Het principe is goed te volgen en herkenbaar; Wanneer er geen waarnemingen zijn is de enige optie te kiezen voor het onbekende (explore). Je leert altijd iets, goed of slecht. Op een zeker moment heeft de agent een strategie gevonden om de volgende actie te bepalen die werkt. Ofwel, er is een optie gevonden die kan hij inzetten (exploit). Het eerder aangehaalde spreekwoord ligt dus ten grondslag aan een dilemma: “Als je doet wat je deed, dan krijg je wat je kreeg”. Of iets aangescherpt voor deze context:

“Als je doet wat je deed, dan weet je wat je krijgt.”

En dat hoeft helemaal niet slecht te zijn. In tegendeel, dat is kennis, maar misschien is er meer; Als er nog opties te onderzoeken zijn is de huidge mogelijk sub-optimaal. Wanneer moet de agent stoppen met exploratie en zijn kennis exploiteren?

Het dilemma is mijzelf overigens ook niet vreemd, niemand waarschijnlijk. Gaan we weer naar dezelfde vakantiebestemming als vorig jaar, omdat we weten dat het daar zo leuk is. Of kiezen we een ervoor ‘ns iets anders te proberen. Gebruiken we de kennis die we al hebben, of zijn we leergierig en kiezen we voor het onbekende met het risico dat de ervaring slechter is.

Als je niet exploreert zal je niet leren, maar als je enkel exploreert maak je geen gebruik van wat je hebt geleerd. Je kan het dilemma niet omzeilen. Je kan wel een strategie kiezen.

Misschien is ‘reinforcement learning’ wel een volgende stap die we moeten zetten, maar laat ik niet op de zaken vooruit lopen.

-Dick

2 Responses to Soundbyte 134: Explore vs. exploit

  1. Marcel Offermans says:

    Ervan uitgaande dat er meer dan één agent in het spel is, denk ik dat je twee dingen moet doen. Ten eerste kun je de kennis die de agents opbouwen delen. Ten tweede zul je waarschijnlijk altijd een kleine hoeveelheid “randomness” willen introduceren zodat je in elk geval niet altijd alleen maar gebruik maakt van ervaring, maar af en toe, bewust of onbewust, eens iets nieuws probeert. Genetische algoritmen doen ook iets dergelijks (een onderwerp waar ik vroeger op afgestudeerd ben).

  2. John M says:

    Excellent!
    🙂

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *