Programma evaluatie: geen methode, maar een denkraam

Referentie:

Broekman, T.G., Schaap, C.P.D.R., & Schippers, G.M. (1987). Programma evaluatie: geen methode, maar een denkraam. Maandblad Geestelijke volksgezondheid, 42, 147-162.

Gepubliceerd met toestemming van de uitgever. As pdf available from: https://www.beta.nl/pubs/boi.10103

De ontwikkeling en uitvoering van beleid in de GGZ wordt door een groot aantal factoren beinvloed. Een van de factoren die een steeds grotere plaats in gaat nemen, is de systematische evaluatie van de in de praktijk uitgevoerde zorg. Enerzijds kan systematische evaluatie namelijk tegemoetkomen aan een verdere inhoudelijke ontwikkeling en optimalisering van de zorg, anderzijds ook aan de toenemende vraag naar verantwoording van de geïnvesteerde middelen. Dit is waarschijnlijk de achtergrond die verklaart waarom er een duidelijke belangstelling in de GGZ bestaat voor programma evaluatie, getuige bijvoor beeld de grote toeloop naar de in 1984 in Nijmegen gehouden conferentie 'Programma-evaluatie in de Geestelijke Gezondheidszorg'. De indruk bestond bij velen dat programma evaluatie een methode of instrument zou zijn, waar mee aan bovengenoemde behoeften tegemoetgekomen zou kunnen worden: een doos van Pandora (Schnabel, 1984). Het idee van programma evaluatie als instrument of methode is ook al in het beleid van de overheid verwerkt: als één van de accenten in toekomstig onderzoek wordt in de nota Geestelijke Volksgezondheid (1984) onderzoek naar de mogelijkheden van programma evaluatie als instrument voor kwaliteitsbewaking genoemd.
Is het wel terecht om programma evaluatie de status van een methode of een instrument te geven? Onzes inziens niet. Het doel van dit artikel is dan ook om te laten zien dat programma evaluatie geen methode is, maar vooral een begrip dat een bepaalde visie op de toepassing van sociale wetenschappen inhoudt. Omdat hier vooral in de Verenigde Staten uitvoerig over gepubliceerd is, zullen we in dit artikel enkele relevante Amerikaanse publikaties over programma evaluatie bespreken. Aan de hand hiervan laten we zien dat onder de noemer programma evaluatie ontwikkelingen worden aangegeven die een leidraad kunnen bieden bij het nadenken over en het uitvoeren van systematische evaluatie binnen de GGZ. Deze uiteenzetting mondt uit in een aantal achtereenvolgende stappen, die een richtsnoer bieden voor iedereen die bij het programmeren van een evaluatie betrokken is.

Afperking van het begrip programma evaluatie

De term programma evaluatie is een paraplu voor een groot aantal verschillen de activiteiten. Een van de oorzaken hiervan is dat aan een programma diverse te evalueren aspecten onderscheiden kunnen worden, zoals: implementatie, uitvoering, resultaten en kosten. Onderzoek naar ieder van deze verschillende aspecten wordt gekenmerkt door het geheel eigen karakter, waar nog eens bijkomt het feit dat de achtergrond van de onderzoeker telkens verschilt. Zo wordt implementatie en uitvoering dikwijls door bestuurskundigen en politicologen onderzocht, terwijl onderzoek naar resultaten eerder het werk van sociologen en psychologen is. De kosten vallen tenslotte meestal onder de expertise van economen en accountants. In aansluiting op deze diverse aspecten krijgt het begrip evaluatie ook verschillende betekenissen. Deze variëren van vergelijkingen met een voorgeschreven norm tot het toekennen van oorzakelijke verbanden tussen een programma en geconstateerde veranderingen.

Wij omschrijven programma evaluatie als het systematisch evalueren van het functioneren van een programma. Laten we eens bij de termen in deze omschrijving stilstaan. Ten eerste: evalueren. Evalueren betekent waarde toekennen aan, en dat houdt in een oordeel over iets geven. Een oordeel kan verschillende dimensies hebben. Zo kan men zeggen dat iets leuk was of dat het nuttig was, of dat het geholpen heeft. Die dimensies die voor de evaluatie van belang worden geacht, worden criteria genoemd. Bij het geven van een oordeel volgens een criterium wordt een norm gebruikt, waarbij er twee varianten zijn. Ten eerste kunnen op de criteria absolute normen aangelegd worden waaraan voldaan moet worden. Zo zou men bijvoorbeeld kunnen stellen dat een bepaalde voorziening positief beoordeeld wordt als meer dan de helft van de gebruikers baat bij de voorziening heeft gehad. De tweede mogelijkheid tot normering biedt de vergelijking. Het oordeel krijgt dan de vorm van bijvoorbeeld: dit programma is meer . . . (criterium) . . . dan dat programma.

In de omschrijving wordt het onderwerp van de evaluatie geformuleerd als 'het functioneren van een programma'. Een programma bestaat uit een aantal voorzieningen of maatregelen die getroffen zijn om een bepaalde dienst te kunnen verlenen. Het begrip programma wordt zeer ruim gebruikt. Er wordt bijvoorbeeld een instelling voor psychotherapie onder verstaan, maar ook een pakket van maatregelen dat een overheid treft om integratie tussen verschillende gezondheidsvoorzieningen te bevorderen.

Het programma wordt niet op zich geëvalueerd, maar het functioneren van het programma wordt geëvalueerd. Met de term functioneren wordt de nadruk gelegd op het onderzoeken van de manier waarop het programma in de praktijk werkt. Dit in tegenstelling tot een onderzoek dat zich beperkt tot een analyse van het ontwerp en de regels van het programma.

De term systematisch houdt in dat de evaluatie aan bepaalde regels moet voldoen. Deze regels moeten vastgelegd worden en de evaluatie moet volgens deze regels uitgevoerd worden. Dit is een noodzakelijke voorwaarde om de evaluatie een intersubjectief karakter te geven. Alleen als de regels bekend zijn en de evaluatie volgens deze regels wordt uitgevoerd, kan een buitenstaander de evaluatie beoordelen.

Benaderingen in programma evaluatie: een overzicht

House (1980) geeft in zijn boek 'Evaluating with Validity' een taxonomie van de belangrijkste evaluatiebenaderingen zoals deze in de Verenigde Staten gepraktizeerd worden. Om een idee te geven van de veelheid van mogelijkheden om een programma te evalueren, zullen we vier benaderingen bespreken, namelijk: systeem-analyserend ('system analysis'), doelgericht ('behavioral objectives'), besluitvormend ('decisionmaking') en doel-vrij ('goal-free'). De overige vier benaderingen die House bespreekt ('art criticism', 'professional review', 'quasi legal' en 'case study') hebben onzes inziens geen betrekking op programma evaluatie, ofschoon ze wel van dienst kunnen zijn bij de beoordeling van een programma. Het zijn benaderingen die zich vooral richten op het oordeel van een of meerdere deskundigen, die na het horen van de belangrijkste partijen en bestudering van de relevante gegevens tot bepaalde conclusies of aanbevelingen komen. Dit kunnen nuttige en bruikbare procedures zijn, maar vallen buiten onze afperking van het begrip programma evaluatie. Als voorbeelden in Nederland van deze benaderingen, zou men kunnen denken aan: visitatiecommissies, intercollegiale en interinstitutionele toetsing, het werk van de Inspectie.

Systeem-analyserend

Deze benadering, die veel gebruikt wordt door de Amerikaanse overheid - en in Nederland bijvoorbeeld door het Sociaal Cultureel Planbureau wordt uitgevoerd - is sterk kwantitatief van aard. Er worden enkele eenvoudige output maten gedefinieerd, die indicatief geacht worden voor het beoogde effect. Vaak met behulp van reeds bestaande variaties in (de uitvoering van) een programma en soms met behulp van een (quasi-)experimenteel design worden verschillen in programma's of beleid gerelateerd aan de output maten. De hoeksteen van deze benadering is de kosten-baten analyse en de vragen die binnen deze benadering gesteld worden, zijn typisch vragen van een instantie die politieke en/of financiële verantwoording voor een programma draagt.

Een probleem bij deze benadering is de definitie van de output maten. Omdat het vaak grootschalige evaluaties betreft, wordt gebruik gemaakt van vrij simpele indicatoren die relatief gemakkelijk voorhanden zijn. Een voorbeeld van deze benadering is de recente publikatie van het Sociaal en Cultureel Planbureau 'Samenhang in de geestelijke gezondheidszorg voor volwassenen', geschreven door Mootz (1985). De slotconclusies gaan. over substitutiemogelijkheden tussen voorzieningen met als doel een beperking van de kosten. Bij gebrek aan maten die iets over de output van een programma zeggen - Mootz zegt zelfs 'het antwoord op de vraag, in welke mate de voorzieningen effectief zijn, valt gezien de onduidelijkheid over het doel en de inhoud van de geestelijke gezondheidszorg, niet te geven' (pag. 91)- worden criteria zoals het aantal contacturen, psychiatrische nazorg en verblijfsduur, gehanteerd bij de conclusies over gewenste substitutie tussen voorzieningen.

De waarde van een dergelijke 'systeem-analyserende' benadering ligt vooral in het macroperspectief dat gehanteerd wordt. Het gevaar van deze benadering schuilt echter vooral in problemen rondom de begripsvaliditeit van de gebruikte criteria.

Doelgericht

Deze benadering gaat uit van de doelen zoals deze door het programma gesteld worden. Onderzocht wordt of deze doelen ook bereikt worden. De discrepantie tussen de doelen zoals deze door het programma gesteld worden en de mate waarin deze bereikt worden, is de maat voor het succes van het programma. Alhoewel dit op het eerste gezicht een heldere en voor de hand liggende benadering lijkt, kleven er enkele moeilijkheden aan. Vaak is niet duidelijk wat de doelen van een programma precies zijn. Een evaluator die deze benadering hanteert, zal eerst moeten proberen om de doelen duidelijk te krijgen. Hierbij stuit hij op een aantal problemen.

Ten eerste zullen politici en beleidsambtenaren het doel zo algemeen mogelijk formuleren om zich niet exact vast te hoeven leggen op concrete en falsifieerbare voornemens. Bovendien scharen groepen uit de bevolking zich gemakkelijker achter een algemene leus dan achter een precies uitgewerkt plan. Kortom: de vaagheid van doelen heeft een politieke en tactische functie en deze zal niet gemakkelijk opgegeven worden. Ten tweede zullen verschillende groepen binnen een programma verschillende ideeën over de specifieke doelen hebben, omdat zij het globale doel door middel van verschillende concrete doelen willen bereiken. Zowel een gedragstherapeut als een psychoanalyticus zullen hun cliënten beter willen maken. De gedragstherapeut zal hiertoe als doel de klachten van de cliënt kiezen, de psychoanalyticus daarentegen de onbewuste conflicten die aan de klachten ten grondslag liggen. Beleidsmatig wordt deze 'methoden-vrijheid' meestal gerespecteerd. Ten derde is het doel zoals dat officieel vastligt meestal niet (meer) hetzelfde als de doelen zoals deze specifiek, in de praktijk, worden nagestreefd. Werkers in de praktijk kunnen, bijvoorbeeld door veranderde omstandigheden, hun doelstellingen veranderd hebben zodat deze niet meer geheel conform de officiële doelstelling zijn (Schagen, 1981, pag. 27).

Als laatste moeten we nog opmerken dat een benadering die de mate van succes ziet in het verschil tussen gestelde en behaalde doelen, het gevaar in zich bergt om de doelen laag te stellen, zodat er niet snel een discrepantie zal ontstaan. Deze doelgerichte benadering lijkt dan ook vooral geschikt bij het opzetten en invoeren van een nieuw programma. Als onderdeel van het nieuwe programma worden dan de evaluatieprocedures ingevoerd, zodat er onmiddellijk feedback gegeven kan worden over de mate waarin het programma de doelstelling(en) bereikt en op grond waarvan de uitvoering bijgesteld kan worden. Deze wijze van werken is kenmerkend geweest voor de evaluatie van het Krisiscentrum Utrecht (Beenackers, 1982; Heijs, 1984).

Doelgericht evalueren wordt ook op individueel klinisch niveau veel gebruikt omdat de clinicus als het ware zijn eigen programma kan bijstellen. Hier zijn niet de algemene doelen van het programma in het geding, maar de doelen zoals die voor iedere cliënt afzonderlijk en in samenwerking met de cliënt vastgesteld worden. Regelmatige tussentijdse bepaling van vooruitgang op deze doelen wordt als leidraad voor de individuele behandeling gebruikt. Deze procedure staat bekend als Goal Attainment Scaling (GAS) (Kiresuk en Sherman, 1968).

Besluitvormend

Er bestaat ook een benadering waarbinnen wordt betoogd dat, wil een evaluatie maximale gebruikswaarde hebben, deze gericht moet worden op de informatie die degenen die de besluiten nemen, nodig hebben. De evaluatie moet zo ingericht worden, dat de verkregen informatie maximaal relevant is voor het besluitvormingsproces. Deze benadering is vooral ontstaan uit ontevredenheid over de mate waarin evaluatiegegevens gebruikt worden. Een veel voorkomende klacht onder evaluatoren is, dat de evaluatie geen invloed heeft op de praktische gang van zaken, terwijl dit met programma evaluatie juist wordt nagestreefd. Er bestaat dan ook een groep evaluatoren die redeneren dat, wil programma evaluatie invloed uit kunnen oefenen, deze zoveel mogelijk aan moet sluiten bij de behoeften van die personen of instanties die invloed uitoefenen en besluiten kunnen nemen. Idealiter zou er sprake moeten zijn van enkele alternatieve besluiten, die vooral zo gestructureerd en uitgewerkt zijn, dat op basis hiervan vastligt welke uitkomsten een ondersteuning voor welk besluit vormen.

Een voordeel van deze benadering is dat zij de evaluatie structureert. Er is een duidelijke vraag die gesteld wordt. Bovendien is het inderdaad zo dat deze benadering die invloed van de evaluatie op de praktijk (en met name het beleid) maximaliseert, omdat zij direct bij de vragen van degenen die de besluiten nemen, aansluit. Tegelijkertijd vormt dit echter ook het grote probleem bij deze benadering. De evaluator neemt het standpunt van de besluitvormer in, dat natuurlijk van veel meer zaken afhankelijk is dan van de kwaliteit en de resultaten van het programma. Het gevaar bestaat dat de evaluator zich compromitteert aan de gevoerde politiek.

Doel-vrij

Een recent voorbeeld van deze, volgens House meest besproken en minst gepraktizeerde benadering, is onzes inziens het onderzoek van Kerkhof (1985) naar het functioneren van de (geestelijke) gezondheidszorg ten aanzien van suïcideproblematiek. De term 'goal-free' is afkomstig van Scriven (1973), die zich met deze benadering voornamelijk afzet tegen de evaluatie die ten dienste staat van de reeds gevestigde groeperingen. Scriven redeneert dat deze laatste bijna altijd een 'bias' heeft ten gunste van degenen die het programma ontworpen hebben of van degenen die het programma uitvoeren. Een evaluatie die bepaalt in hoeverre de doelstellingen van het programma verwerkelijkt worden, negeert de effecten van het programma die niet in de doelstellingen zijn opgenomen. Zo kan een bepaald hulpverleningsprogramma de door het programma gestelde doelen wel bereiken, maar (op den duur) ook als resultaat hebben dat de mensen hun vermogen om zelfstandig problemen op te lossen verliezen en afhankelijk worden van hulp van buitenaf, hetgeen toch niet de doelstelling van het programma zal zijn!

De eerste drie benaderingen, die we besproken hebben, gaan uit van het programma zoals dat gepland of uitgevoerd wordt. Deze evaluaties zijn op het program gericht. De benadering zoals Scriven deze voorstaat, is meer gericht op de personen die van het programma gebruik maken. De evaluatie is in die zin doel-vrij, dat niet de doelen zoals deze geformuleerd zijn geëvalueerd worden, maar de effecten van het programma in ruimere zin. Hier vallen dan vooral ook de niet bedoelde effecten onder. In het voorbeeld van Kerkhof is het uitgangspunt niet de doelstellingen van de GGZ of van verschillende programma's binnen de GGZ, maar behoeften en ervaringen van suïcideplegers. Voor verschillende programma's wordt vervolgens onderzocht in hoeverre deze, gezien de behoeften, adequate hulp verlenen.

De moeilijkheid bij deze benadering wordt hiermee direct duidelijk. De evaluatie wordt niet gestuurd door concrete vragen die rechtstreeks uit de doelen of anderszins uit het programma voortvloeien zoals dat bij de andere benaderingen wel gebeurt. De evaluator heeft een grote vrijheid ten aanzien van de effecten die hij wil onderz,)eken en dient daarvoor op andere referentiekaders - volgens Scriven de behoefte van de cliënten - te steunen, waarbij het risico bestaat dat zijn eigen 'bias' een grote rol gaat spelen.

Zoals uit het voorgaande te verwachten valt, is Scriven een voorstander van een evaluator die onafhankelijk is van de staf van het programma. De evaluator is een kritische buitenstaander, die zijn evaluatie vooral zal richten op zaken die niet naar behoren verlopen. Eén van de grootste gevaren voor de evaluator ziet Scriven in de mogelijkheid, dat de evaluator langzamerhand gecoöpteerd raakt met het programma en daardoor niet meer in staat zal zijn een onafhankelijke evaluatie uit te voeren. Ondanks dat evaluaties van deze soort bijna niet zijn uitgevoerd, is het een belangrijke benadering die in ieder geval de betekenis heeft van een ferme waarschuwing aan evaluatoren tegen een verregaande identificatie met het programma en daardoor veroorzaakte 'bias'.

Conclusie

Bovenstaande indeling is een goede poging om de veelheid aan evaluatieactiviteiten te ordenen. Bovendien wordt hierdoor ook een aantal belangrijke keuzen die bij een evaluatie gemaakt worden worden, duidelijk. Er is slechts een belangrijke benadering die House niet noemt, namelijk de benadering van Attkisson e.a. (1978) en Franklin en Trasher (1976), auteurs die in de Nederlandse geestelijke gezondheidszorg vrij bekend zijn. Voor hen heeft programma evaluatie een 'monitor'-functie voor het management van een programma en is als integraal onderdeel van het programma geïmplementeerd. Deze benadering is een mengvorm van de doelgerichte en de besluitvormende benadering.

De indeling in verschillende benaderingen bevestigt in ieder geval het al eerder genoemde paraplu-karakter van de term programma evaluatie, waarmee tegelijkertijd nog eens duidelijk wordt dat men onder programma evaluatie niet een bepaalde methode kan verstaan. Dit brengt ons bij de vraag wat het concept programma evaluatie dan wel bij kan dragen tot de in onze inleiding gesignaleerde behoefte aan systematische evaluatie. Daartoe zullen we in het navolgende, aan de hand van enkele auteurs een theoretisch kader schetsen, waarbinnen het waarom en waarvoor van het evalueren van programma's nader geanalyseerd kan worden.

Relevantie van de informatie

Cronbach e.a. (1980) hebben een theoretisch kader ontwikkeld, waarin de belangrijkste aspecten van programma evaluatie naar voren komen. Daarbij gaan zij uit van de vraag wat de meest relevante informatie is voor een bepaalde groep personen in een bepaald ontwikkelingsstadium van het programma. Dit resulteert in een schema waarin langs twee dimensies (het auditorium van de evaluatie en het ontwikkelingsstadium van het programma) de meest relevante informatie wordt geclassificeerd.

Cronbach e.a. splitsen het auditorium (iedereen die geïnteresseerd is) van de evaluatie op in twee niveaus: ambtelijk niveau en publieksniveau. Binnen deze laatste groep wordt onderscheid gemaakt tussen de burgers of kiezers in het algemeen (constituents) en personen die uit hoofde van hun functie of interesse hun mening over een programma weergeven (illuminators). Cronbach e.a. denken bij deze laatste groep aan journalisten, wetenschappers, commentatoren en dergelijke. Een speciale groep binnen de burgers is de (potentiële) cliëntèle van het programma. Onder het ambtelijke niveau worden die personen verstaan die een bepaalde dienst verlenen. Deze groep is op te delen in personen die voor de politiek en het beleid verantwoordelijk zijn (policy level), personen die het programma besturen (program level) en personen die het programma uitvoeren (operating level). Deze vijf groepen verschillen onderling met betrekking tot de kennis die zij over het programma hebben en de criteria die zij hanteren ter beoordeling van het programma, waardoor voor ieder van deze groepen verschillende informatie relevant is.

Als tweede dimensie hanteren Cronbach e. a. de ontwikkelingsfase van het programma. In navolging van Suchman (1970) delen zij de ontwikkeling in vier fasen in, namelijk 'breadboard, superrealization, prototype and established'. In ieder van deze vier fasen is voor ieder van de vijf genoemde groepen verschillende informatie van belang. De breadboardfase is een fase van ontwikkelen en uitproberen. Veranderingen worden continu aangebracht. Met alles wat in deze fase geleerd is, wordt er een eerste uitvoering geprobeerd (superrealization). Hierna wordt het prototype op grotere schaal ingevoerd, waarbij zo goed mogelijk nagegaan wordt wat de consequenties van het programma zullen zijn als het ook werkelijk en definitief ingevoerd zou worden. Zodra dit laatste gebeurt of gebeurd is, spreken we van een gevestigd (established) programma. Het programma heeft dan een wettelijk vastgestelde structuur en organisatie.

Natuurlijk is hier sprake van een ideale ontwikkelingsschets. In de werkelijkheid zal het gecompliceerder toegaan. Vaak zullen de eerste fasen niet doorlopen worden of verkeren verschillende onderdelen van het programma in een verschillende ontwikkelingsfase. Dit doet niets af aan het feit, dat het onderscheid in de ontwikkelingsfasen van een programma zoals Cronbach e.a. dat maken, van groot belang is, juist omdat hiermee aangegeven wordt dat de relevantie van de informatie in hoge mate bepaald wordt door de mogelijkheden die er (nog) bestaan ter verandering van het programma.

Het kader van Cronbach e. a. maakt duidelijk dat het bij het opzetten van een evaluatie van belang is om vast te stellen voor welke groep van het auditorium de evaluatie in hoofdzaak geschiedt en wat de mogelijkheden tot verandering van het programma zijn. Op basis hiervan moet zo nauwkeurig mogelijk van tevoren vastgesteld worden wat de functie en het doel van de evaluatie zullen zijn. Functie en doel zijn twee begrippen die afkomstig zijn van Scriven (1967). De functie van de evaluatie verwijst naar de rol die aan de evaluatie is toebedeeld en naar het gebruik dat men van de resultaten wil maken. Het doel van de evaluatie verwijst naar de criteria van de evaluatie en naar de manier waarop de evaluatie wordt uitgevoerd. In de volgende paragraaf zullen we eerst de functie bespreken. Daarna volgt het doel.

De functie van de evaluatie

Scriven maakt aan de hand van de verschillende functies die een evaluatie kan hebben, een tweedeling tussen formatieve en summatieve evaluatie. Formatieve evaluatie heeft een functie in de ontwikkeling en verbetering van een programma. De resultaten worden continu geregistreerd en functioneren als feedback voor het programma, zodat op basis hiervan het programma steeds bijgesteld wordt. Summatieve evaluatie daarentegen evalueert het definitieve, gevestigde programma op de effecten, zonder dat er sprake is van een bijsturing op basis van de evaluatie. Summatieve evaluatie is een soort eindoordeel.

Cronbach e.a. (1980) drukken het als volgt uit: het is het verschil tussen evaluaties die vragen hoe we het programma kunnen verbeteren en evaluaties die vragen hoe goed het programma is. Zij zijn van mening dat dit onderscheid in functies niet adequaat is. Iedere evaluatie is formatief als hij daadwerkelijk invloed heeft. Dit past in de visie die de Stanford groep op programma evaluatie heeft. Geen enkele evaluatie zal alleen beslissend zijn. Evaluatie speelt zich af in een complex politiek krachtenveld. De kennis verkregen door de evaluatie-activiteiten dringt langzaam door in de samenleving en alleen door een proces van een groeiend aantal evaluaties en bevindingen heeft programma evaluatie invloed. Een summatieve evaluatie zou naar mening van Cronbach e.a. te veel uitgaan van de irreële veronderstelling dat een evaluatie alleen beslissend kan zijn. Daardoor zou een evaluatie die met een summatieve functie is opgezet, uiteindelijk toch weinig invloed hebben.

Het schijnt ons toe dat Cronbach e.a. hierin gelijk hebben. Toch vinden wij het onderscheid tussen formatieve en summatieve evaluatie van belang, omdat het zo duidelijk de nadruk op twee potentieel verschillende functies legt. Aan de ene kant de functie van programma evaluatie als een systematische wijze van continue evaluatie, feedback en toepassing van de bevindingen die weer geëvalueerd worden; de evaluatie heeft een cyclisch verloop en is bedoeld om het programma bij te sturen en de resultaten te optimaliseren. Aan de andere kant staat dan de functie van programma evaluatie als een eenmalig overzicht van de resultaten van een programma. Hier wordt geen interne feedback nagestreefd. De evaluatie is vooral bedoeld voor personen buiten het programma die een oordeel over het programma willen vormen en op grond van dat oordeel een besluit willen nemen.

Omdat een evaluatie niet altijd de functie vervult die beoogd wordt, is het belangrijk dat er ook nog een onderscheid wordt aangebracht tussen de functie zoals bedoeld en de functie zoals uitgeoefend. Een evaluatie kan op een manier gebruikt worden die niet met de oorspronkelijk bedoelde functie overeenkomt. Het kan zelfs zo zijn, dat de evaluatie in het geheel geen functie vervult. Ook komt het voor dat de evaluatie enkel en alleen gebruikt wordt ter ondersteuning van beslissingen die toch wel genomen zouden zijn.

De vraag naar het gebruik en de feitelijke functie van evaluatie is inmiddels ook al uitvoerig behandeld in de literatuur. Behulpzaam hierin is de indeling van Leviton en Hughes (1981), die een onderscheid maken tussen (1) gebruikswaarde, (2) feitelijk gebruik en (3) invloed (impact) van de evaluatie. Gebruikswaarde heeft betrekking op de relevantie van de resultaten. Feitelijk gebruik heeft betrekking op een actieve manier van kennis nemen van de resultaten en deze betrekken bij bijvoorbeeld het nemen van beslissingen, het uitoefenen van politieke druk en het opbouwen van kennis over het programma. Van invloed is sprake indien de resultaten leiden tot een verandering van het programma of het beleid. Enerzijds kunnen de resultaten een lage gebruikswaarde hebben omdat bijvoorbeeld de kwaliteit van de gegevens in termen van validiteit en betrouwbaarheid laag is, of omdat de resultaten geen praktische waarde hebben. Anderzijds kan het zijn dat, ondanks dat de resultaten wel gebruikt worden, deze geen invloed hebben omdat er andere factoren zoals gevestigde tradities, vooroordelen en politieke verhoudingen een grotere rol spelen bij het besluitvormingsproces (Wurzburg, 1979).

Met behulp van deze indeling is vrij goed te analyseren waarom een bepaalde evaluatie geen invloed heeft. Bijvoorbeeld omdat (1) de gebruikswaarde laag is, omdat (2) de bevindingen niet gebruikt worden (aangenomen dat de gebruikswaarde hoog genoeg is), of dat wanneer aan beide andere wel voldaan is, (3) andere factoren die de meningsvorming en besluitvorming beïnvloeden van groter gewicht zijn. Vaak concentreren discussies over beleidsrelevantie van onderzoek zich hoofdzakelijk op de invloed van het onderzoek. Daarbij wordt helaas, als het onderzoek geen invloed heeft gehad, al snel geconcludeerd dat het dus niet beleidsrelevant was.

Het gebruik wordt door Leviton en Hughes verder onderverdeeld in drie categorieën: instrumenteel, conceptueel en overredend. Het gebruik wordt instrumenteel genoemd indien gespecificeerd kan worden dat een bepaald besluit op basis van de evaluatie genomen is of als de evaluatie van dienst is geweest bij het oplossen van een probleem. Het 'Projekt-evaluatie gezinstherapie jeugdige drugsverslaafden RIAGG Centrum/Oudwest, CAD Zuidoost Gelderland' (Romijn e.a., 1984) is een voorbeeld waarbij de overheid instrumenteel gebruik van de resultaten van de evaluatie beoogt. Voor zover nu te voorzien, zal de overheid een beslissing over verdere implementatie van de betreffende behandelingsvorm voor een groot deel baseren op de uitkomsten van deze evaluatie. Van conceptueel gebruik is sprake als de evaluatie van invloed is op de mening en kennis van een programma of een behandelingsvorm. Het proefschrift van Jenner (1984) over opnamevoorkómende strategieën vinden wij een goed voorbeeld van een evaluatie die vooral bijdraagt tot vermeerdering van de kennis over een gedeelte van de hulpverlening. Als de evaluatie gebruikt wordt om anderen te overtuigen of om een politieke stellingname te onderbouwen, wordt het gebruik overredend genoemd. Het meest in het oog springende voorbeeld van dit type gebruik is de evaluatie van de PAAZ-Overvecht in Utrecht (Mastboom e.a., 1983), getuige het voorwoord van Mastboom: 'In juni 1981 werd het NcGv door de directie van het ziekenhuis Overvecht te Utrecht verzocht een onderzoek uit te voeren met als oogmerk het (voorlopige) besluit van het Centraal Orgaan Ziekenhuistarieven (coz) de personeelsformatie... drastisch in te krimpen effectiever te kunnen bestrijden' (pag. 1).

Wij willen hier een vierde categorie aan toevoegen, namelijk gebruik ter verantwoording. Hiermee wordt bedoeld dat de resultaten van de evaluatie worden gebruikt voor verslaggeving en verantwoording aan derden, waarbij gedacht kan worden aan besturen, financiers en cliëntenorganisaties. Deze wijze van gebruik zien we vooral wanneer de evaluatie als een integraal onderdeel van het programma geïmplementeerd is, zoals bijvoorbeeld de programma evaluatie in het herstellingsoord het Derde Orde Huis in Wijchen (Broekman, 1984).

Vanzelfsprekend is er vrijwel nooit sprake van één van de vier soorten gebruik. Het is bijvoorbeeld mogelijk dat programma evaluatie zowel als basis voor het nemen van beslissingen, als voor het vermeerderen van de kennis van de werkzaamheid van het programma, als voor politieke doeleinden gebruikt wordt.

Het doel van de evaluatie

Het doel verwijst naar de criteria en naar het ontwerp (design) van de evaluatie. Ten aanzien van de criteria bevinden de wetenschapper en de programma evaluator zich in een verschillende positie. Voor de wetenschapper worden de te onderzoeken verschijnselen bepaald door een meer of minder expliciet uitgewerkt nomologisch netwerk. Onder het nomologisch netwerk verstaat De Groot (1972): ' . . . een theorie met alle expliciteringen ervan, voorzover deze in een bepaald stadium van het onderzoek zijn uitgewerkt en getoetst...' (pag. 84). Inherent aan een programma is dat de doelen waarvoor het programma in het leven is geroepen, geen waardevrije, op zich na te streven doelen zijn. De effecten die bestudeerd zullen worden en waaraan het programma getoetst wordt, hangen af van de waarde die men aan deze effecten toekent en worden niet uitsluitend door een nomologisch netwerk bepaald.

Een programma evaluator zal derhalve, alvorens tot een evaluatie over te kunnen gaan, samen met de opdrachtgever de waarden, in de vorm van criteria, moeten vaststellen. Dit speelt zich niet alleen tussen de evaluator en de opdrachtgever af. Beiden zullen zich bewust zijn van het feit, dat de evaluatie aan een auditorium voorgelegd zal worden. Ideeën die er in de maatschappij over de criteria bestaan, zullen zeker in ogenschouw genomen moeten worden, omdat de evaluatie anders geen gehoor zal vinden. Bij deze bepaling kan een bestaand nomologisch netwerk wel van dienst zijn. Indien bijvoorbeeld een evaluator het met de opdrachtgever eens is geworden, dat in een psychotherapeutische setting effecten van psychotherapie bepaald moeten worden en vanuit welk kader (bijvoorbeeld: psychoanalytisch, client-centered, gedragstherapeutisch), dan staat er een nomologisch netwerk ter beschikking van de evaluator, waarvan hij ook gebruik zal moeten maken.

Over het tweede punt, het ontwerp van de evaluatie, bestaat een levendige discussie over de bruikbaarheid en de toepasbaarheid van de 'wetenschappelijke methoden'. Campbell en Stanley (1966) en, later, Cook en Campbell (1979) gaan bij de opbouw van hun methodologie uit van een onderzoeker die een manipulatie pleegt en de verschijnselen die hij vervolgens constateert, wil claimen als een gevolg van zijn manipulatie. Zij ontwikkelen hun methodologie door systematisch alle logische tegenwerpingen tegen deze claim te behandelen en te laten zien hoe deze door middel van het design van de studie ondervangen kunnen worden. De interne validiteit van een design heeft betrekking op de geldigheid van de conclusie dat het geconstateerde effect aan de behandeling toe te schrijven is.

Helaas staat bij voornoemde auteurs de externe validiteit, in hoeverre de bevindingen van de feitelijke studie gegeneraliseerd kunnen worden naar het domein waarop de studie betrekking heeft, op de achtergrond. Toch is dit voor het auditorium meestal de meest belangrijke vorm van validiteit. De informatie bijvoorbeeld dat een specifieke gedragstherapie uitgevoerd in een specifieke instelling met specifieke cliënten en therapeuten op een aantal specifieke meetinstrumenten verbetering te zien geeft, is vaak niet relevant voor het auditorium. Wat wel relevant is, is wat een bepaald voorzieningenpakket met een bepaalde personeelsformatie voor een grote, en vaak diverse, groep cliënten aan resultaten kan boeken.

Het probleem van de verhouding tussen interne en externe validiteit kan ook bezien worden in het licht van de experimentele controle die de evaluator over de uitvoering van het programma heeft of zou moeten hebben. Moet een programma onder strikte condities geëvalueerd worden of zoveel mogelijk zoals het, zonder die controle, uitgevoerd wordt? Zodra de evaluatie beëindigd is en de controle over de uitvoering van het programma wegvalt, is de kans groot dat het programma anders uitgevoerd zal gaan worden, zodat de resultaten van de evaluatie niet meer voor dat programma geldig zijn. In deze adviseert bijvoorbeeld Cronbach (1982) om verschillende uitvoeringen van een programma onder natuurlijke condities te bestuderen in plaats van slechts enkele uitvoeringen onder strenge experimentele controle. De verschillende natuurlijke uitvoeringen van een programma kunnen dan 'geparametriseerd' (Boruch en Gomez, 1979) worden, zodat er naar verbanden tussen de waarden van de parameters en de uitkomsten van een programma gezocht kan worden.

Een ander probleem is dat het implementeren van een vanuit een logisch redeneermodel (Stokking, 1984) gewenst design vaak veel organisatorische en financiële problemen met zich meebrengt. Bovendien kan het voorkomen dat het te veel tijd kost (zowel wat de implementatie als de uitvoering betreft), zodat de evaluatie geen functie meer kan vervullen.

Juist doordat in programma evaluatie de relevantie van de informatie voor het auditorium centraal staat, laait de strijd tussen voor- en tegenstanders van verschillende onderzoeksmethoden in de evaluatieliteratuur soms sterk op. Cook en Reichardt (1979) spreken van een slinger, die tussen de polen kwalitatieve en kwantitatieve methoden heen en weer slingert: als reactie op de aanprijzing van de ene methode wordt de andere weer overdreven aangeprezen. In het boek 'Qualitative and quantitative methods in evaluation research' (1979) trachten Cook en Reichardt beide methoden hun eigen krediet te geven: kwalitatieve methoden zijn vooral op 'ontdekking' gericht en kwantitatieve op 'verificatie' (pag. 17).

De vraag in hoeverre geconstateerde veranderingen, methodologisch gezien, éénduidig als effecten van een programma beschouwd kunnen worden, raakt overigens enigszins op de achtergrond indien de veranderingen op zich waardevol geacht worden. Dit is zeker het geval indien het gaat om veranderingen die van uitgesproken maatschappelijk belang zijn of om problemen die uiterst resistent gebleken zijn tegen verschillende programma's.

In ieder geval willen we benadrukken dat een evaluator niet automatisch een ontwerp uit een soort kookboek voor een evaluatie kiest, maar iedere keer weer stilstaat bij het soort informatie dat het onderzoek op moet leveren, de functie van de evaluatie, de potentiële uitwerking van de resultaten en de haalbaarheid van het ontwerp.

Samenvattende conclusies

Uit de diversiteit van benaderingen die in dit artikel zijn opgesomd, blijkt nog eens duidelijk dat programma evaluatie geen specifieke methode is. Het is een begrip dat een veelheid van activiteiten gericht op het evalueren van programma's, bundelt en is bijgevolg geen tovermiddel dat toegepast kan worden als een programma geëvalueerd dient te worden. Programma evaluatie betekent niets meer, maar ook niets minder dan het systematisch evalueren van het functioneren van een programma.

De verschillende aspecten die een rol spelen bij programma evaluatie worden vooral door Scriven (1967) en Cronbach e.a. (1980) goed belicht. Laatstgenoemde auteurs hebben een kader ontwikkeld waarbinnen de relevantie van de informatie die een evaluatie op kan leveren, centraal staat. Welke informatie relevant is, wordt volgens deze auteurs bepaald door het ontwikkelingsstadium van het programma en wie de hoofdgebruikers uit het auditorium zijn. Een verdere uitwerking van dit kader wordt mogelijk door de begrippen functie en doel van de evaluatie. De opvattingen in dit artikel laten zich in een aantal punten samenvatten, die tegelijkertijd even zoveel stappen zijn voor en dus een leidraad bij het programmeren van een evaluatie:
1 Identificeren van de hoofdgebruiker(s) uit het auditorium.
2 Vaststellen van de ontwikkelingsfase en mogelijkheden ter verandering van het programma.
3 Op basis van de eerste twee stappen globaal vaststellen welke informatie belangrijk is.
4 Vervolgens de functie van de evaluatie nauwkeurig bepalen.
5 De criteria (en eventueel normen) en het ontwerp van de evaluatie ontwikkelen.

Vanzelfsprekend worden deze stappen nooit zo schematisch doorlopen en zullen de antwoorden nooit volledig van tevoren bepaald kunnen worden, zeker omdat er vaak tegenstrijdige belangen bij hoofdgebruikers uit het auditorium zullen zijn. De stappen bieden echter wel een 'denkraam' voor alle betrokkenen, dat van dienst kan zijn bij het programmeren van een evaluatie. Dit laatste is overigens een proces waarvan de betekenis niet onderschat mag worden. Denkbaar is zelfs, dat de analyse van het doel van de evaluatie met de daarbij behorende omschrijving van het programma op zich al zoveel invloed op het programma heeft, dat het uitvoeren van een evaluatie niet meer nodig is.

Tot slot willen we nog opmerken, dat als de behoefte aan het evalueren van programma's die we in de inleiding genoemd hebben tot meer programma evaluatie leidt, dit nog niet hoeft te betekenen dat evaluaties ook een daadwerkelijke en aanwijsbare invloed zullen hebben op beleid. Dit zal enerzijds afhankelijk zijn van de mate waarin evaluaties beleidsrelevant zullen blijken (gebruikswaarde hebben), maar anderzijds ook van het beleidsproces zelf. Als, onzes inziens terecht, van evaluatoren verwacht wordt dat zij een belangrijke bijdrage leveren aan de beleidsrelevantie van een evaluatie, dan mag ook verwacht worden dat beleidsmakers gevoelig worden voor de relevantie van de resultaten van een evaluatie.

Literatuur

Attkisson, C. C., W. A. Hargreaves, M. J. Horowitz en J. E. Sorensen (eds.). Evaluation of human service programs. New York, Academic Press, 1978.

Beenackers, A. A. J. M. Project-evaluatie in de geestelijke gezondheidszorg: het Utrechtse model. Gezondheid en Samenleving 1982, 3, pag. 251-259.

Boruch, R. F. en H. Gomez. Measuring impact: Power theory in social program evaluation. In: L.-E. Datta en R. Perloff (eds.). Improving evaluations. Beverly Hills, Sage, 1979.

Broekman, T. G. Program evaluatie: tussen het evalueren van een program en het programmeren van een evaluatie. Nijmegen, Katholieke Universiteit, Vakgroep Klinische Psychologie, 1984. Doctoraal scriptie. https://www.beta.nl/pubs/boi.001

Campbell, D. T. en J. C. Stanley. Experimental and quasi-experimental designs for research. Chicago. Rand McNally, 1966.

Cook, T. D. en D. T. Campbell. Quasi-experimentation. Design and analysis issues for field settings. Chicago, Rand McNally, 1979.

Cook, T. D. en C. S. Reichardt (eds.). Qualitative and quantitative methods in evaluation research. Beverly Hills, Sage, 1979.

Cronbach, L. J. Designing evaluations of educational and social programs. San Francisco, Jossey-Bass, 1982.

Cronbach, L. J., S. R. Ambron, S. M. Dombusch, R. D. Hess, R. C. Hornik, D. C. Philips, D. F. Walker en S. S. Weiner. Toward reform of program evaluation. San Francisco, Jossey-Bass, 1980.

Franklin, J. L. en J. H. Trasher. An introduction to program evaluation. New York, Wiley, 1976.

Groot, A. D. de. Methodologie: Grondslagen van onderzoek en denken in de gedragswetenschappen. Den Haag, Mouton, 1972.

Heijs, H. Programma-evaluatie aan den lijve. In: G. M. Schippers, N. Sijben, C. Schaap en J. Mastboom (eds.). Programma-evaluatie in de Geestelijke Gezondheidszorg. Lisse, Swets & Zeitlinger, 1984.

House, E. R. Evaluating with validity. Beverly Hills, Sage, 1980.

Jenner, J. A. Opnamevoorkómende strategieen in de praktijk van de sociale psychiatrie. Rotterdam, Erasmus Universiteit, 1984. Academisch proefschrift.

Kerkhof, A. J. F. M. Suïcide en de geestelijke gezondheidszorg. Lisse, Swets & Zeitlinger, 1985.

Kiresuk, T. J. en R. E. Sherman. Goal attainment scaling: A general method for evaluating comprehensive community mental health programs. Community Mental Health Journal 1968, 4, pag. 443-453.

Leviton, L. C. en E. F. X. Hughes. Research on the utilization of evaluations. Evaluation Review 1981, 5, pag. 525-548.

Mastboom, J. , R. Berghmans, P. van Zijl, L. Peters en R. van Mazijk. PAAZ in de pas. Organisatie, hulpverlening, patiënten en behandelingskosten van de PAAZ-Overvecht to Utrecht, beschreven en vergeleken met drie andere psychiatrische afdelingen van algemene ziekenhuizen (PAAZ'en). Utrecht, Nederlands centrum Geestelijke volksgezondheid, 1983. NcGv-reeks 54.

Ministerie van Welzijn, Volksgezondheid en Cultuur. Nota Geestelijke Volksgezondheid. 's-Gravenhage, Staatsuitgeverij, 1984.

Mootz, M. Samenhang in de geestelijke gezondheidszorg voor volwassenen. Rijswijk, Sociaal en Cultureel Planbureau, 1985.

Romijn, C., G. Schippers en M. Lange. Project evaluatie gezinstherapie jeugdige drugsverslaafden RIAGG Centrum/Oudwest, CAD Zuidoost Gelderland: PEG Onderzoeksvoorstel. Nijmegen, Katholieke Universiteit, Vakgroep Klinische Psychologie, 1984. Intern rapport 84KL01.

Schagen, S. Het evalueren van psychotherapie: Een alledaagse bezigheid. De Psycholoog 1981, 16, pag. 22-36.

Schnabel, P. Programma-evaluatie: een nadere kennismaking bij het scheiden van de markt. In: G. M. Schippers, N. Sijben, C. Schaap en J. Mastboom (eds.). Programma-evaluatie in de Geestelijke Gezondheidszorg.Lisse, Swets & Zeitlinger, 1984.

Scriven, M. The methodology of evaluation. In: R. E. Stake e. a. (eds.). Perspectives on curriculum evaluation. Chicago, Rand Mcnally, 1967. AERA Monograph Series on curriculum evaluation, no. 1.

Scriven, M. Goal free evaluation. In: E. R. House (ed.). School evaluation. Berkeley, McCutchan, 1973.

Stokking, K. M. Interpreteren en evalueren. Methodologie rondom de uitkomsten van onderzoek. Deventer, Van Loghum Slaterus, 1984.

Suchman, E. A. Action for what? A critique of evaluative research. In: R. O'Toole (ed.). The organisation, management, and tactics of social research. Cambridge, Mass., Schenkman, 1970.

Wurzburg, G. What limits the impact of evaluations on federal policy? In: L.-E. Datta en R. Perloff (eds. ).Improving evaluations. Beverly Hills, Sage, 1979.

Summary

Broekman, T. G., C. P. D. R. Schaap and G.M. Schippers. Programme evaluation: not a method but a frame of mind. Programme evaluation is quite often understood to be a certain method of evaluating programmes. Some relevant American publications about programme evaluation show that this is not a correct interpretation. It should rather be interpreted as a certain field of study, the developments of which may offer a guideline when thinking about or carrying out systematic evaluation in the field of mental health care. This article deals with these developments and concludes with a sequence of steps, which may offer a guideline to everyone involved with programme evaluation.