Inleiding
De aandacht voor kwetsbaarheid bij ouderen is de afgelopen jaren sterk toegenomen. Prevalentieschattingen van kwetsbaarheid lopen op tot 40% en voor de toekomst wordt een stijgende trend verwacht. 1 Kwetsbaarheid leidt tot een verhoogd risico op negatieve gezondheidsuitkomsten zoals de ontwikkeling van beperkingen in activiteiten. 2 , 3 , 4 Zulke beperkingen kunnen leiden tot een afname in kwaliteit van leven en een toename van zorggebruik en daaraan gerelateerde kosten. Preventie van beperkingen onder thuiswonende kwetsbare ouderen kan daarom als prioriteit in zowel onderzoek als de klinische praktijk worden gezien. 5 In het kader van preventieve interventies stellen sommige auteurs een stapsgewijze aanpak voor. Eerst zou een grootschalige en efficiënte screeningmoeten plaatsvinden omvervolgens een uitgebreid diagnostisch onderzoek te kunnen doen bij de als potentieel kwetsbaar geïdentificeerde ouderen. Met behulp van valide screeningsinstrumenten kan zo overbodige diagnostiek worden voorkomen. 6
In de laatste decennia zijn er diverse instrumenten ontwikkeld om kwetsbare ouderen op te sporen. 4 Een deel daarvan is vanuit een fysiologisch perspectief op kwetsbaarheid ontwikkeld en deze zijn gericht op fysieke indicatoren zoals onvrijwillig gewichtsverlies en verminderde grijpkracht. 7 Een ander deel is op een breder perspectief gebaseerd. 8 Vanuit dit multifactoriële perspectief wordt rekening gehouden met fysieke, psychologische, sociale en omgevingsgerelateerde factoren. Tegenwoordig komt er steeds meer belangstelling voor het tweede perspectief omdat veel wetenschappers kwetsbaarheid beschouwen als een resultaat van een complex samenspel van achteruitgang op diverse terreinen. 3 , 9
Instrumenten voor kwetsbaarheid kunnen gebaseerd zijn op zelfrapportage, observaties of meer objectieve metingen zoals handkracht. 8 Er wordt verondersteld dat niet op zelfrapportage gebaseerde instrumenten meer valide en betrouwbare informatie opleveren. 10 , 11 Ze zijn praktisch gezien echter minder gemakkelijk uit te voeren en kosten veel tijd. 10 , 11 , 12 Op zelfrapportage gebaseerde instrumenten zijn efficiënter en daarom geschikter omeen grote doelgroep te bereiken. 12
Er ontbreekt een gouden standaard om kwetsbaarheid te meten en er is nog weinig bekend over de psychometrische kwaliteit van bestaande instrumenten. Gezien de toenemende belangstelling voor instrumenten die kwetsbaarheid vanuit een multifactorieel perspectief meten en bruikbaar zijn voor grootschalige screening zijn er drie zelfrapportage-instrumenten gekozen die aan deze twee criteria voldoen: de Groningen Frailty Indicator (GFI), 13 de Tilburg Frailty Indicator (TFI), 14 en de Sherbrooke Postal Questionnaire (SPQ ). 6 De psychometrische eigenschappen van deze instrumenten zijn gedeeltelijk onderzocht in eerdere studies, 15 , 16 , 17 , 18 , 19 , 20 maar er kan nog niet geconcludeerd worden welk instrument uiteindelijk de voorkeur verdient. Bovendien zijn de gekozen instrumenten nog nooit in één steekproef onder dezelfde omstandigheden met elkaar vergeleken. Deze studie heeft daarom als doel de psychometrische eigenschappen van de drie gekozen instrumenten te evalueren enmet elkaar te vergelijken.
Methoden
Studie opzet en participanten
In de regio’s Midden-Limburg (Roggel en Roermond) en Utrecht (Amersfoort) hebben drie huisartspraktijken meegedaan aan het onderzoek. Tussen november 2008 en april 2009 zijn alle patiënten vanaf 70 jaar (n = 687) namens hun huisarts uitgenodigd om een vragenlijst in te vullen. De vragenlijst bestond uit de drie ‘frailty’-instrumenten (GFI, TFI en SPQ ) en een instrument dat beperkingen in activiteitenmeet (GARS; Groningen Activiteiten Restrictie Schaal). 21 Zo nodig ontvingen de ouderen na twee weken een reminder. De schriftelijke benaderingswijze is vooraf in een pilot studie uitgetest en als praktisch bruikbaar bevonden. 22 Ouderen hebben vooraf schriftelijk toestemming gegeven voor deelname. De studie vereiste geen goedkeuring van de Medisch Ethische Toetsingscommissie.
Dataverzameling
Voor een gedetailleerd overzicht van de items van de drie ‘frailty’-instrumenten wordt verwezen naar Appendix 1.
Instrumenten
De Groningen Frailty Indicator (GFI) bepaalt het nivo van kwetsbaarheid en bestaat uit 15 items over vier domeinen van functioneren: fysiek (9 items), cognitief (1 item), sociaal (3 items) en psychisch (2 items). 13 De meeste items kunnenmet “ja” of “nee” beantwoord worden. Scores op de GFI variëren van 0 tot en met 15; ouderenmet een totaalscore van 4 of hoger worden alsmatig tot ernstig kwetsbaar beschouwd. 13 , 19 Een studie van Steverink en collega’s liet zien dat de GFI een intern consistente schaal is met aanwijzingen voor adequate constructvaliditeit. 13 , 19
De Tilburg Frailty Indicator (TFI) bestaat uit twee subschalen. 14 De eerste subschaal (10 items) heeft betrekking op determinanten van kwetsbaarheid, waaronder socio-demografische gegevens en chronische ziektes. Een deel van deze gegevens (leeftijd, geslacht, opleiding en inkomen) is in de onderhavige studie als achtergrondkenmerken en voor onderzoek van de constructvaliditeit gebruikt. De analyse van de psychometrische eigenschappen is gericht op de tweede subschaal die het nivo van kwetsbaarheid bepaalt. Deze subschaal bestaat uit 15 items die betrekking hebben op fysieke (8 items), sociale (3 items) en psychische aspecten (4 items) waarvan één item over cognitie gaat.Demeeste vragen worden ook hier met “ja” of “nee” beantwoord, met een totaalscore variërend van 0-15. Een score van 5 of hoger wijst volgens de ontwikkelaars op kwetsbaarheid. 14 Volgens Gobbens en collega’s heeft de TFI goede betrouwbaarheid en validiteit. 14
De Sherbrooke Postal Questionnaire (SPQ ) bevat 6 items. 6 Deze zijn gericht op het fysieke (4 items), sociale (1 item) en cognitieve (1 item) domein van functioneren. De vragen worden beantwoord met “ja” of “nee”. De scores variëren van 0 tot en met 6; ouderen met een score van tenminste 2, of die de vragenlijst niet terugsturen, worden door de auteurs als kwetsbaar beschouwd. In de onderhavige studie zijn ouderen die de vragenlijst niet teruggestuurd hebben niet meegenomen in de berekening van de prevalentie van kwetsbaarheid. Eerder onderzoek heeft aanwijzingen voor predictieve validiteit laten zien. 6 , 17 , 18 , 20
De Groningen Activiteiten Restrictie Schaal (GARS) is een valide en betrouwbaar instrument dat beperking in activiteiten meet. 21 De GARS bestaat uit twee subschalen. De eerste subschaal gaat over activiteiten in het dagelijks leven (ADL; 11 items) en de tweede over instrumentele activiteiten in het dagelijks leven (IADL; 7 items). De vragen worden beantwoord op een vierpuntsschaal. De schaal loopt van “Ja, dat kan ik volledig zelfstandig zonder enige moeite” tot en met “Nee, dat kan ik alleen maar met hulp van anderen”. De somscores variëren van 18 tot en 72 (totale schaal), van 11 tot en met 44 (ADL subschaal) en van 7 tot en met 28 (IADL subschaal). Hogere scores wijzen op meer beperkingen in dagelijkse activiteiten.
Statistische analyse
Beschrijvende statistiek is gebruikt om een overzicht te geven van de achtergrondkenmerken van de deelnemende ouderen. Op basis van de originele afkappunten is de prevalentie van kwetsbaarheid berekend. Tevens is de overeenstemming in de bepaling van kwetsbaarheid tussen de drie instrumenten onderzocht (Cohens kappa). Verder is de interne consistentie van de drie instrumenten berekend (Cronbachs alfa en gecorrigeerde totaal-item-correlaties).
Met behulp van het programma ‘Mokken Scale Analysis voor Polychotomous Items’ (versie 5), kortwegMSP5, is de cumulatieve schaalbaarheid van de drie instrumenten onderzocht. 23 Met cumulatieve schaalbaarheid wordt bedoeld de mate waarin een schaal een monotoon homogene set van items vormt en een hiërarchie in de moeilijkheidsgraad van items laat zien.MSP5 levert ook een maat voor interne consistentie op: de rhocoëfficiënt (vergelijkbaar met Cronbachs alfa).
De constructvaliditeit werd bepaald door de kwetsbaarheidsscores van subgroepen met verschillende achtergrondkenmerken met elkaar te vergelijken. Verondersteld werd dat kwetsbare ouderen vaker vrouwelijk, ouder en minder hoog opgeleid zijn en een lager inkomen hebben in vergelijking met niet kwetsbare ouderen. 24 Deze hypothese werd getoetst met behulp van Mann-Whitney U en Kruskal-Wallis toetsen, omdat de gevonden kwetsbaarheidscores in deze studie niet normaal verdeeld waren. Verder zijn kwetsbaarheid en beperkingen in activiteiten sterk aan elkaar gerelateerde concepten. 7 Kwetsbare ouderen hebben een verhoogd risico op beperkingen, en beperkingen kunnen de mate van kwetsbaarheid versterken. 2 , 3 7 Substantiële associaties (Spearmans rangcorrelatie) tussen kwetsbaarheid enerzijds en beperkingen in activiteiten anderzijds wezen op constructvaliditeit. De gevonden correlaties mochten echter ook niet te hoog zijn; in dat geval zouden de instrumenten voor kwetsbaarheid en de GARS immers een identiek conceptmeten. Van de drie ‘frailty’- instrumenten wordt echter aangenomen dat deze wel hetzelfde concept (kwetsbaarheid) meten. De correlaties tussen de drie ‘frailty’- instrumenten zijn eveneens berekend.
Indien minder dan 25% (GFI, TFI, SPQ ) of 50% (GARS) 21 van de itemwaarden ontbrak, zijn missende scores vervangen door het gemiddelde van de betreffende persoon op de resterende items (casemean substitution). 25 Deelnemers voor wie meer itemwaarden op een instrument ontbraken, zijn voor de analyse van het betreffende instrument buiten beschouwing gelaten.
Alle statistische analyses zijn uitgevoerd met behulp van SPSS voorWindows versie 16.0.Het niveau voor statistische significantie is bepaald op p = 0.05 (tweezijdig getoetst). Voor vergelijking van de drie groepen (leeftijd, opleiding, inkomen) is Bonferroni correctie toegepast die resulteerde in een significantie niveau van p = 0.02 (tweezijdig getoetst).
Resultaten
Participanten
Van de 687 aangeschreven ouderen hebben 532 (77,4%) de vragenlijst teruggestuurd. De steekproef bestond uit 311 vrouwen (58,5%) en 221 mannen (41,5%). In totaal woonde 64% in een stedelijke omgeving (Roermond, Amersfoort) en 36% in een landelijke omgeving (Roggel). In Tabel 1 wordt een overzicht gegeven van de kenmerken van de ouderen. De gemiddelde leeftijd van de onderzoeksgroep was 77 jaar, variërend van 70 tot en met 97 jaar (SD = 5,5). Bijna de helft van de ouderen (48,6%) had ten hoogste voortgezet onderwijs gevolgd en 42% had een netto (huishoud)inkomen van tenminste Y1500 per maand. Gebaseerd op de originele afkappunten, heeft de GFI 245 ouderen (46,3%), de TFI 211 ouderen (40,2%) en de SPQ 305 ouderen (59,1%) als kwetsbaar geïdentificeerd.
Het instrument met het grootste aantal geëxcludeerde ouderen op basis van missende waarden (>25% missende item waarden) was de SPQ (n = 8). Voor de GFI en TFI zijn op basis van missende itemwaarden respectievelijk een en twee ouderen geëxcludeerd. Op itemniveau varieerde het aantal missende waarde van 0 tot en met 8 (GFI), van 0 tot en met 12 (TFI) en van 1 tot en met 10 (SPQ ).
Betrouwbaarheid
De vergelijking van de als kwetsbaar geïdentificeerde ouderen tussen de drie ‘frailty’- instrumenten heeft de volgende Cohens kappa coëfficiënten opgeleverd: 0,74 (GFI – TFI), 0,28 (SPQ – GFI) en 0,25 (SPQ – TFI).De gevonden waarden voor de Cronbachs alfacoëfficiënten voor de GFI, TFI en SPQ waren respectievelijk 0,73, 0,79, en 0,26. Alfawaarden boven 0,70 wijzen op een bevredigende interne consistentie. 27 De gecorrigeerde totaal-item correlaties, dus de correlatie tussen één item van een schaal en de som van de overige items, varieerden van 0,14 tot en met 0,55met een gemiddelde van 0,30 (GFI), van 0,18 tot en met 0,58met een gemiddelde van 0,39 (TFI) en van 0,13 tot en met 0,25 met een gemiddelde van 0,18 (SPQ ). Naarmate de correlatiecoëfficiënt lager is, past het itemminder goed bij de overige items van de schaal. 27
Schaalbaarheid
De mokkenanalyse heeft de volgende H-coëfficiënten opgeleverd: H = 0,28 (GFI), H = 0,30 (TFI) en H = 0,09 (SPQ ). Er zou sprake zijn van cumulatieve schaalbaarheid, dus een monotoon homogene set van items met een hiërarchie in de moeilijkheidsgraad van items, indien Loevinger’s H coëfficiënt significant groter is dan nul en niet onder een positieve constante c valt die door de onderzoeker bepaald wordt. Aanbevolen wordt een minimum van c = 0,30. Waarden tussen 0,30 en 0,40 wijzen op een zwakke schaal, tussen 0,40 en 0,50 op een middelmatige schaal en waarden boven 0,50 op een sterke schaal. 23 De gevonden rho-coëfficiënten voor de GFI, TFI en SPQ waren respectievelijk 0,76, 0,79 en 0,27. Een rho-coëfficiënt groter dan 0,80 is wenselijk en een rho-coëfficiënt van 0,70 geldt als minimum eis voor interne consistentie. 23
Constructvaliditeit
Tabel 2 geeft een overzicht van de correlaties tussen de drie instrumenten voor kwetsbaarheid onderling en die met beperkingen in activiteiten (GARS).De correlatie tussen de GFI en TFI bedroeg r = 0,87.De correlatie met de SPQ was r = 0,47 voor de GFI en r = 0,42 voor de TFI. De correlatie coëfficiënten tussen de drie instrumenten en de GARSwaren r = 0,57 (GFI – GARS), r = 0,61 (TFI – GARS) en r = 0,46 (SPQ – GARS).
Tabel 1 laat de gemiddelde totaalscores en standaarddeviaties van de drie instrumenten zien voor de verschillende categorieën van leeftijd, geslacht, opleiding en inkomen. De scores van de GFI en TFI zijn significant hoger voor vrouwen, ouderen met een hogere leeftijd en ouderen met een lagere opleiding en minder inkomen. In tegenstelling hiermee zijn de scores voor de SPQ hoger bij mannen dan bij vrouwen. De scores op de SPQ stijgen weliswaar met een toenemende leeftijd, een lagere opleiding en minder inkomen, maar de verschillen met betrekking tot opleiding en inkomen zijn niet significant.
Discussie
Het doel van deze studie was de psychometrische evaluatie en vergelijking van de GFI, TFI en SPQ. Uit de bevindingen kan geconcludeerd worden dat: (1) de prevalentieschatting van kwetsbaarheid bij thuiswonende ouderen per instrument nogal varieert (van 40% tot bijna 60%); (2) de scores op GFI en TFI het meest overeenstemmen; (3) de GFI en TFI een hogere interne consistentie hebben dan de SPQ; (4) de instrumenten geen monotoon homogene set van items vormen en geen hiërarchie in de moeilijkheidsgraad van items laten zien (dit geldt zeker voor de SPQ; de TFI en GFI kunnen op dit aspect als zwakke schalen worden aangeduid); en (5) de GFI en TFI hebben een betere constructvaliditeit dan de SPQ. Conform de verwachting is er een sterke samenhang tussen de kwetsbaarheidsscores en de aan kwetsbaarheid gerelateerde kenmerken (bijvoorbeeld leeftijd, geslacht en beperkingen in activiteiten). De GFI en de TFI lijken het vermogen te hebben om het beoogde concept (kwetsbaarheid) te meten.
De resultaten met betrekking tot de GFI en TFI zijn een aanvulling op en bevestiging van de bevindingen uit eerder onderzoek. Steverink en collega’s concludeerden dat de GFI een intern consistente schaal is met positieve aanwijzingen voor constructvaliditeit. 13 De resultaten van onze studie ondersteunen deze uitspraak. Gobbens en collega’s hebben recentelijk onderzoek gedaan naar de test-hertestbetrouwbaarheid, de inhoudsvaliditeit, de constructvaliditeit en de interne consistentie van de TFI. 14 Ze rapporteren positieve resultaten met betrekking tot de onderzochte psychometrische eigenschappen. In onze studie zijn de resultaten voor de TFI vergelijkbaar met die voor de GFI. Dit is deels toe te schrijven aan het feit dat 7 van de 15 items overeenkomen in beide instrumenten. Deze items hebben betrekking op gehoor- en gezichtsbeperkingen, onvrijwillig gewichtsverlies, en psychologisch en cognitief functioneren (zie ook Appendix 1). Eerdere studies over de SPQ wezen op predictieve validiteit van de SPQ met betrekking tot functionele achteruitgang, noodzaak van verder diagnostisch onderzoek, 18 gebruik van spoedeisende hulp 20 en mortaliteit. 17 Conclusies over de predictieve validiteit kunnen op basis van onderhavige studie niet getrokken worden, maar de SPQ heeft in onze studie een relatief lage betrouwbaarheid en constructvaliditeit laten zien. Voor zover bekend is de cumulatieve schaalbaarheid van de drie instrumenten niet eerder met een model uit de itemresponsetheorie onderzocht. Onze resultaten laten zien dat geen van de instrumenten een monotoon homogene set van items vormt. Zij laten geen hiërarchie in de moeilijkheidsgraad van de items zien. Praktisch gezien impliceert dit dat vergelijkbare somscores via verschillende antwoordpatronen (en dus verschillende items) kunnen zijn opgebouwd en dat onzeker is of de somscores een systematische ordening van de respondenten op de latente eigenschap ‘kwetsbaarheid’ toelaten.Met andere woorden, ouderen die dezelfde somscore op één van de onderzochte instrumenten hebben en vervolgens als kwetsbaar geïdentificeerd worden, kunnen op verschillende items scoren en dus op verschillende gebieden problemen ervaren. De instrumenten, vooral de GFI en de TFI, hebben het potentieel om kwetsbare ouderen vroegtijdig op te sporen, maar vervolgens is uitgebreider assessment nodig om inzicht in de problemengebieden te verkrijgen.
De resultaten van deze studiemoeten in het licht van enkele potentiële beperkingen geïnterpreteerd worden. Ten eerste is de SPQ niet volledig volgens de richtlijnen afgenomen. Ouderen die de vragenlijst niet retourneerden hebben wij, anders dan voorgesteld door de ontwikkelaars, niet in deze valideringsstudie opgenomen omdat van deze ouderen geen informatie beschikbaar was over scores op de screeningsinstrumenten en de GARS. Waren zij wel geïncludeerd dan had de SPQ een prevalentieschatting voor kwetsbaarheid opgeleverd van 67,0% in plaats van 59,1%. Daarnaast is geen nadere informatie bekend over het precieze profiel van de non-responders in deze studie. Enkele sterke punten van onderhavige studie zijn de vergelijking van de drie instrumenten in dezelfde steekproef en onder dezelfde omstandigheden, en de bewezen bruikbaarheid van de schriftelijke screeningsprocedure. 22 De respons was met ruim 77% immers goed (en zelfs beter dan in enkele eerdere studies waarin schriftelijk gescreend werd op kwetsbaarheid 22 , 28 , 29 ) en er waren relatief weinig missende waarden op de lijsten.
De gevonden prevalentieschattingen voor kwetsbaarheid kunnen als hoog beoordeeld worden. Bij de interpretatie van deze schattingen is het van belang te bedenken dat de prevalentie afhankelijk is van de gehanteerde definitie van kwetsbaarheid en de manier waarop kwetsbaarheid gemeten is. 9 In een recente studie van Santos-Eggiman en collega’s, 30 die gebaseerd is op het werk van Fried en collega’s, 7 , 31 wordt een verschil gemaakt tussen kwetsbare ouderen en ouderen die zich in een voorstadium van kwetsbaarheid bevinden (“pre-frail”). Zij rapporteren een prevalentie van kwetsbaarheid van 11,3% bij Nederlandse thuiswonende ouderen, terwijl 38,5% van de steekproef zich in een voorstadium van kwetsbaarheid bevond. Deze resultaten duiden erop dat mogelijk een deel van de ouderen in onze studie, die als kwetsbaar geïdentificeerd zijn, nog in een voorstadium van kwetsbaarheid verkeert.
Wat betekenen deze resultaten voor de praktijk? Ofschoon de meeste ouderen regelmatig hun huisarts bezoeken, is het een bekend probleem dat het nog onvoldoende lukt om de risico’s en zorgbehoeften van ouderen systematisch en adequaat in kaart te brengen. 32 Eenvoudige instrumenten als de GFI en TFI hebben het potentieel om kwetsbare ouderen snel en vroegtijdig op het spoor te komen. Dit leidt overigens slechts tot een indicatie voor kwetsbaarheid, mede omdat door de beperkte schaalbaarheid van de items in de onderzochte instrumenten op basis van een bepaalde somscore niet op voorhand duidelijk is op welke gebieden problemen aanwezig zijn of dreigen. Bovendien kan er bij een (aanzienlijk) deel van de ouderen sprake zijn van een voorstadium van kwetsbaarheid. In aanvulling op de screening is uitgebreid diagnostisch onderzoek nodig, bijvoorbeeld door een praktijkondersteuner, om nader te exploreren of er inderdaad sprake is van een kwetsbare situatie en welke factoren hierin een rol spelen. 6
Van de beschikbare Nederlandstalige screeningsinstrumenten is op basis van onze studie nog niet goed aan te geven of de GFI of de TFI de voorkeur geniet. Gelet op de psychometrische kwaliteit en het aantal missende waarden lijkt de SPQ minder geschikt dan de GFI of de TFI. Bij de keuze van een geschikt instrument is van cruciaal belang in hoeverre instrumenten in staat zijn om de negatieve uitkomsten van kwetsbaarheid, zoals beperkingen, institutionalisering en sterfte, goed te voorspellen. Dit moet toekomstig (longitudinaal) onderzoek nog uitwijzen. Daarnaast is het van belang dat in aanvullend onderzoek gekeken wordt naar de testhertestbetrouwbaarheid van de GFI en de TFI. Bovendien zou de vergelijking van GFI- en TFI-scores met het klinisch oordeel van een professional, bijvoorbeeld een huisarts of praktijkondersteuner, kunnen leiden tot een beter inzicht in de validiteit van de instrumenten.
Dankbetuiging
De auteurs willen graag de volgende huisartspraktijken danken: Huisartspraktijk Matthee in Roermond, Huisartspraktijk Hundscheid in Roggel en huisartsenpraktijk Dokters bij Jansen in Amersfoort. Bovendien danken we de betrokken ouderen voor hun medewerking en het Center voor Data en Informatie Management (MEMIC) van de Universiteit Maastricht voor hun assistentie in de dataverzameling. Dr. Ans Bouman van de Universiteit Maastricht danken we voor haar bijdrage in het uitvoeren van de Mokken schaalanalyse.
Het onderzoek is gefinancierd door Stichting Innovatie Alliantie (SIA) en Hogeschool Zuyd, Heerlen.
Appendix -‘Frailty’-instrumenten: Een overzicht van alle items