Stellungnahme der Bundesärztekammer zum Vorbericht des IQWiG zum Zusammenhang zwischen Menge der erbrachten Leistung und der Ergebnisqualiät für die Indikation "Elektiver Eingriff Bauchaortenaneurysma"

13.02.2006

- Vorbericht - Auftrag Q05-01A

Stellungnahme der Bundesärztekammer zum Vorbericht des IQWiG zum Zusammenhang zwischen Menge der erbrachten Leistung und der Ergebnisqualiät für die Indikation "Elektiver Eingriff Bauchaortenaneurysma" [PDF]

1. Folgende Originalstudien fehlen im Vorbericht

Im Anhang A 2, List der berückischtigen systematischen Übersichtsarbeiten und HTAs, sollte unsereres Erachtens noch das Systematic Review von Phil Shackley et al., Eur J Vasc Endovasc Surg 2000; 20. 326-335, aufgenommen werden. Unseres Erachtens sind die "Conclusions" dieses Systematic Review noch immer gültig: " ...evidence of a relationship between volume and outcome in peripheral vascular surgery may be attributable to factors such as lack of adjustment for case-mix, different definitions of volume and poor quality of studies, especially those of retrospective design. Future studies should address these deficiencies by making full adjustment for case mix and by being prospective in design.“

2. Folgende Bewertungen von Originalstudien im Vorbericht sind nicht korrekt (inkl. Begründung):

Datenextraktionsbögen mit detaillierten Einzelauswertungen

Leider sind die ausführlichen Auswertungsbögen für die begutachteten Studien nicht einsehbar. Die konsentierten Datenextraktionsbögen sollten um der Transparenz und der Nachvollziehbarkeit der Bewertungen willen zugänglich gemacht werden. Da die Einzelauswertungsbögen nicht veröffentlicht wurden, kann leider auch die Checkliste, in welcher aufgeführt wird, ob und welche Qualitätsmerkmale bei den ausgewerteten Studien erfüllt sind, nicht eingesehen werden.

Birkmeyer et al (2002)

In dieser Studie wird das Odds Ratio für den Zusammenhang zwischen Leistungsmenge und Ergebnisqualität bei kontinuierlicher Analyse der Fallzahl nicht angegeben.

Dimick et al (2003)

Die bloße Angabe eines "Hospital-Level-Clustering"zur Frage der Durchführung einer Mehrebenenanalyse bei der statistischen Auswertung erscheint uns nicht ausreichend informativ. Ergebniszahlen für die Patienten-Teilgruppe mit elektivem Eingriff fehlen.

Dimick et al (2003b)

Bei der Analyse des Zusammenhangs zwischen Leistungsmenge und Komplikationen wurde eine kontinuierliche Analyse des Parameters "Leistungsmenge" und eine Mehrebenenmodellierung nicht vorgenommen, eine Berücksichtigung möglicher Cluster-Effekte wäre gerade bei dieser Fragestellung von großer Bedeutung gewesen (evtl. weitere Konfidenzintervalle) Eine Stratifikation lediglich für elektive Eingriffe wurde nicht vorgenommen. Außer dem wurden relevante Faktoren wie die postoperative Therapie nicht berücksichtigt.

Dueck et al(2004)

Bei der Schilderung des Zusammenhangs zwischen Arzt-Leistungsmenge und Ergebnisqualität wird lediglich ein Korrelationskoeffizient für unadjustierte Daten berichtet Diese Ergebnisse sind u. E. nur sehr eingeschränkt für den behaupteten Zusammenhang interpretierbar.

Dueck et al (2004b)

Bei der Ergebnisdarstellung wird u. E. das Hazard Ratio falsch interpretiert (s. S. 34) Bei dieser Arbeit wären außerdem zusätzliche Ergebnisangaben sinnvoll, wonach eine Spezialisierung auf Seiten des Chirurgen (Gefäß- vs. Allgemeinchirurg) und Krankenhausprozessfaktoren(Operation außerhalb der regulären Dienstzeit) ungleich stärkere Effekte auf die Ergebnisqualität haben können als der Faktor "Leistungsmenge"

3. Anmerkungen zur projektspezifischen Methodik (bei Änderungsvorschlägen einschließlich Begründung unter Angabe entsprechender wissenschaftlicher Belege):

Abgrenzung "elektiv" I "planbar" versus "dringlich" bzw. "notfallmäßig"

Es sollte kritisch diskutiert werden, ob eine chirurgische Behandlung bei symptomatischen Patienten mit Bauchaortenaneurysma (BAA) im strengen Sinne noch als elektiv angesehen werden kann. U. E. liegt ein planbarer Eingriff im Sinne einer elektiven Behandlung nur bei einem asymptomatischen BAA vor. Eine dringliche, innerhalb von wenigen Stunden notwendige Operation oder gar eine notfallmäßige, unverzüglich und ohne Aufschub durchzuführende Operation, stellen unseres Erachtens keine planbaren Eingriffe i. e. S mehr dar. Für die Ergebnisdarstellung des Evidenzberichtes sollten entsprechend der Fragestellung nur diejenigen Untersuchungen herangezogen werden, bei denen Zielgrößen bei der elektiven Operation des BAA erhoben und ausgewertet wurden, oder bei denen alternativ eine Stratifikation bzw. Subgruppenanalyse der Zielgrößen nach der Dringlichkeit des Eingriffs möglich ist, so dass eine Darstellung der Ergebnisqualität für elektive Eingriffe ohne Vermischung mit anderen Dringlichkeitsgraden erfolgen kann. Auch bei Berücksichtigung des Dringlichkeitsgrads der Operation in einer Risikoadjustierung wurden sich die Ergebnisse auf die Gesamtheit der Operationen und nicht nur auf die Unterkategorie der elektiven Eingriffe beziehen.

Im Bericht wird festgehalten, dass der Anteil von dringenden und Notfalloperationen je nach Studie und Prozedurenmengen-Kategorie zwischen 11 % und 66 % lag, wobei die Krankenhäuser mit niedrigen Fallzahlen einen höheren Anteil an dringlichen Operationen hatten. Daraus ergibt sich ein möglicher Bias für den Fall, dass diese Einteilung nicht hinreichend reliabel vorgenommen wurde und die entsprechenden Informationen nicht in eine Risikoadjustierung oder besser stratifizierte Analyse eingeflossen sind.

Bezüglich der Einteilung von Eingriffen in "elective", "urgent" oder "emergent" sollte darauf hingewiesen werden, dass es zur Interrater- und Intrarater-Reliabilität dieser Unterscheidung offenbar keine Daten gibt. Es kann auch nicht ausgeschlossen werden, dass eine derartige Einordnung ex post vorgenommen und vom Ausgang des Eingriffs beinflusst wurde.

Unterschiedliche Operationsverfahren

Hinsichtlich der Schilderung und Unterscheidung der konventionellen offenen Operation und dem endovaskulären Eingriff beim BAA verweisen wir auf die Klarstellung von Prof. Wenk vom 30.01.2006. In dieser Hinsicht sollten die unterschiedlichen Letalitäts- und Morbiditätsraten zwischen offener OP und endovaskulärem Eingriff noch deutlicher herausgestellt werden. Es ist belegt, dass das endovaskuläre Vorgehen eine zwei- bis dreifach niedrigere 30-Tages- bzw. Krankenhaus-Letalität aufweist als die konventionelle offene Operation. Aufgrund solcher Unterschiede können diese beiden Vorgehensweisen nicht gemeinsam ausgewertet werden, vielmehr wäre eine Stratifikation bzw. eine Subgruppen-Analyse erforderlich, weil sonst alle Qualitätszielgrößen mit einem unkontrollierten Bias belastet wären, da unterschiedliche Diffusions- und Anwendungsraten der endovaskulären Operation bei Krankenhäusern und Ärzten mit verschiedener Leistungsmenge als Confounder nicht ausgeschlossen werden können. Sehr zu Recht wird im Bericht bemängelt, dass in keiner der Studien zwischen einem offenen bzw. endovaskulären Eingriff differenziert wurde (s. S. 20). Im Abschnitt 4.4.5, Subgruppenanalyse, wird dargelegt, dass eine Subgruppenanalyse nach den unterschiedlichen Operationsverfahren geplant gewesen sei. Es sollte festgehalten werden, dass eine derartige, aus methodischen Gründen zwingend notwendige stratifizierte Analyse mangels einer entsprechenden Datengrundlage in keiner der ausgewerteten Untersuchungen durchgeführt wurde, und dass durch diesen Bias die Ergebnisse systematisch verzerrt worden sein könnten.

Hinsichtlich des endovaskulären Vorgehens sollte geprüft werden, ob nicht mögliche Periodeneffekte und unterschiedliche Diffusionsraten des endovaskulären Vorgehens zum Zeitpunkt der Datenerhebung mit Bezug auf Krankenhaus- und Arzt-Volumenkategorien die Gültigkeit der Ergebnisse einschränken könnten.

Zielgrößen

Für die Zielgröße "perioperative Letalität" werden unterschiedliche Definitionen verwandt wie die 30-Tage- bzw. die Krankenhaus-Letalität Die 30-Tage-Letalität hat gegenüber der Hospital-Letalität den Vorteil, dass sie weniger biasanfällig - etwa durch Verlegungen – ist. In drei Arbeiten werden beide Letalitätsdefinitionen berücksichtigt, jedoch weder i. S. e. gegenseitigen Vergleichs noch einer wechselseitigen Ergänzung.

Adjustierung für intervenierende Variablen / Risiko-Adjustierung / Case-Mix-Adjustierung

Im Hinblick auf die Risikoadjustierung gehen die Verfasser lediglich auf Patientenvariablen ein. Weitere mögliche Confounder bezüglich Arzt- und / oder Krankenhausmerkmalen wie z. B. Spezialisierung von Arzt und Pflegepersonal oder Struktur- und Prozessqualitätsmerkmalen des Krankenhauses wie z. B. Personalschlüssel o. ä. werden nicht erwähnt. Auch im Hinblick auf Patientenmerkmale ist die Adjustierung nicht vollständig; ein wichtiger ergebnisrelevanter Parameter wie die postoperative Therapie wird nicht spezifiziert Es wäre außerdem bei jeder Studie erforderlich gewesen, dass wechselseitig für Krankenhaus- bzw. Abteilungsfallzahl und Leistungsmenge des Arztes adjustiert wird.

Bei der Risikoadjustierung wurden keine für die in den jeweiligen Datensätzen ausgewertete Patientenpopulation validierten logistischen Risiko-Scores angewandt, wie sie für andere Indikationsbereiche, z. B Koronarbypass-Operationen, als etabliert gelten können.

Im Abschnitt 4.4.4, Sensitivitätsanalyse, wird erwähnt, dass eine Adjustierung nach Strukturmerkmalen der Krankenhäuser geplant gewesen sei Dies hielten auch wir für dringend notwendig, es sollte festgehalten werden, dass Strukturmerkmale auf Seiten des Krankenhauses nur vereinzelt untersucht wurden (z. B Dueck et al., 2004b), obwohl sie offenbar von substantieller Bedeutung sind.

Wesentliche unberücksichtigte Confounder betreffen außerdem eine möglicherweise unterschiedliche Häufigkeit von endovaskulären Eingriffen in den verschiedenen Volumenkategorien (s. o.) und eine Beurteilung der Dringlichkeit von Eingriffen von unklarer Reliabilität.

Datenqualität I Datenvalidität

Im Bericht sollte generell mehr Augenmerk auf die Datenqualität (z. B. Vollständigkeit, Reliabilität, Datenclearing) und eine mögliche Datenvalidierung gelegt werden. Es sollte dargestellt werden, in welcher der ausgewerteten Studien eine Überprüfung der Datenqualität und der Datenvalidität durchgeführt wurde. Auch sollte zur Problematik fehlender oder unplausibler Angaben für jede der ausgewerteten Studien eine Einschätzung erfolgen.

Übertragbarkeit der Ergebnisse

U. E können die Studienergebnisse vorwiegend aus kanadischen und US-amerikanischen Untersuchungen mit anhand des NIS oder aufgrund der Medicare-Datenbasis erhobenen Ergebnissen mangels verlässlicher empirischer Daten über potentielle Ankerpunkte kaum auf den deutschen Versorgungskontext übertragen werden können. Bei gegenteiliger Auffassung sollten die Verfasser des Evidenzberichts ggf. ausführlich darlegen, ob und aufgrund welcher Vergleichsankerpunkte die Daten aus Ontario und Teilen der USA begründet und mit hinreichender Sicherheit auf deutsche Versorgungsverhältnisse transferiert werden können. Bei den Medicare-Daten des Autorenkollektivs um Birkmeyer und Goodney muss beachtet werden, dass diese lediglich für über 65jährige Mitglieder der staatlichen Krankenversicherung Geltung beanspruchen können. In Deutschland waren im Jahr 2000 laut Umscheid et al(2001) zumindest etwa 25% der an einem BAA operierten Patienten in einem Alter von 65 Jahren oder jünger.

Hinsichtlich der Vergleichbarkeit und Übertragbarkeit der Ergebnisse sollte auch geschildert werden, wie häufig die Indikation zum elektiven Eingriff beim asymptomatischen Bauchaortenaneurysma in Deutschland im Ver gleich zu den USA bzw. Kanada in Abhängigkeit vom Aneurysmadurchmesser gestellt wird. Außerdem sollte dargelegt werden, wie häufig in den USA bzw. Kanada im Vergleich zu Deutschland bei ähnlich gelagerten Fällen ein konventionell-offenes oder ein endovaskuläres Vorgehen gewählt wird. Mit Bezug auf einen möglichen Periodeneffekt ist zu beachten, dass die Daten aus den berichteten Studien im Wesentlichen während der Jahre bis einschl. 1999 erhoben wurden. Es ist daher problematisch, diese hinsichtlich der operativen Vorgehens weise, anteilsmäßigen Verschiebungen zwischen offenem und endovaskulärem Vorgehen und zwischenzeitlich bei Stentprothesen eingetretener Innovationen auf die Zeitperiode ab 2007 in Deutschland zu übertragen.

Beurteilung der Studienqualität insgesamt

Laut Evidenzbericht lassen sich bestimmte Studien anhand der Kriterien (1) hinreichende Datenqualität und -beschreibung, (2) Angemessenheit der statistischen Auswertung und (3) ausreichende Ergebnisdarstellung als Studien von höherer Qualität kennzeichnen. Die Charakterisierung der Studienqualität anhand dieser Kriterien ist für uns wegen des Fehlens der detaillierten Einzelauswertungsbögen im einzelnen nicht nachvollziehbar. Diese Abgrenzung sollte in einer eigenen Vergleichstabelle ausführlicher dargestellt und begründet werden.

Nach unserer Einschätzung kann bei keiner der Studien aufgrund der nicht hinreichenden Beurteilbarkeit der Datenvalidität von einer zufriedenstellenden Datenqualität mit der notwendigen Sicherheit ausgegangen werden. Eine Angemessenheit der statistischen Auswertung ist u. E nur gegeben, wenn primär eine Analyse der Leistungsmenge als kontinuierliche Größe durchgeführt wurde mit Angabe eines Odds Ratio oder eines Hazard Ratio für den Zusammenhang zwischen Menge und Qualität. Weiterhin ist eine hierarchische bzw. Mehrebenenmodellierung zum Ausschluss möglicher Cluster-Effekte unter Spezifikation des Vorgehens notwendig. Hierbei sollte berichtet werden, welche Modelle mit welchen Programmprozeduren berechnet wurden, da verschiedene Methoden von Mehrebenenanalysen nicht notwendigerweise zu identischen Ergebnissen führen. Für alle relevanten Confounder sollte in der statistischen Analyse adjustiert worden sein, um soweit als möglich einen Bias zu vermeiden. Um unbeobachtete Variablen im Regressionsmodell abbilden zu können, wären Instrumentalvariablen wünschenswert. Schließlich sollte auch überprüft worden sein, inwiefern ein gefundener Schwellenwert tatsächlich zwischen schlechter und guter Qualität im Hinblick auf eine relevante Ergebniszielgröße diskriminiert. Keine der ausgewerteten Studien untersucht die prädiktive Valenz eines potentiellen Mindestmengenkriteriums im Hinblick auf einen etablierten Ergebnisqualitätsindikator wie z. B. die 30-Tages-Letalität.

Zusammenfassung der Ergebnisse

U. E. zeigen die retrospektiven Untersuchungen zum Zusammenhang zwischen Krankenhaus-Leistungsmenge und Letalität mit Analyse der Fallzahl als kontinuierlicher Variable eine inkonsistente Datenlage, wobei wenige Untersuchungen (Birkmeyer et al, 2002, 2003) einen solchen statistischen negativen Zusammenhang behaupten, während drei weitere Untersuchungen (Kantonen et al, 1997; Khuri et al, 1999; Dueck et al, 2004b) eine solche Assoziation nicht nachweisen können.

Die Analyse des Zusammenhanges zwischen Arzt-Leistungsmenge und Letalität mit Analyse der Fallzahl als kontinuierlicher Variable ergab zwar in drei retrospektiven Datenauswertungen (Kantonen et al, 1997; Birkmeyer et al, 2003; Dueck et al, 2004b) einen negativen statistischen Zusammenhang, doch ist auch dieser Befund angesichts der geschilderten, nicht hinreichend berücksichtigten Confounder mit nachfolgendem Bias mit einem vermutlich hohen Grad an Unsicherheit verbunden. Hinsichtlich des Zusammenhanges zwischen Arzt-Leistungsmenge und Ergebnisqualität werden in jeder Studie unterschiedliche Prozedurenmengen-Kategorien verwendet, weil die Kategorienbildung auf Perzentilen basiert. Dieses Vorgehen erscheint insofern fragwürdig, als die Schwellenwertsermittlung damit von Zufälligkeiten der Datenerhebung und der Datenverteilung abhängig gemacht wird und nicht nach dem möglicherweise trennschärfsten Schwellenwert gesucht wird. Die in diesen Studien gefundenen unterschiedlichen Schwellenwerte sollten deskriptiv dargestellt werden, um die inkonsistente Datenlage zu kennzeichnen. Vor diesem Hintergrund erscheinen uns die Behauptung, in allen Studien zum Zusammenhang von Krankenhaus-Prozedurenmenge und Letalität finde sich ein erhöhtes Mortalitätsrisiko bei niedrigerer Prozedurenmenge (s. S. 37) und die Aussage "Je niedriger die Prozedurenmenge (bezogen auf Krankenhaus bzw. Chirurg), desto höher die Mortalität" (s. S. 41) zu apodiktisch und kurzschlüssig, zu wenig differenziert und anhand der ausgewerteten Studiendaten so nicht nachvollziehbar. U. E. kann durch die vorliegenden retrospektiven Studien nicht mit der nötigen Sicherheit nachgewiesen werden, dass zwischen Krankenhaus- oder Arzt-Leistungsmenge und Ergebnisqualität, insbesondere 30-Tage- oder Krankenhaus-Letalität, ein Zusammenhang in besonderem Maße besteht.

Die Feststellung, dass sich in einigen Studien eine sogenannte "Dosis-Wirkungs-Beziehung" erkennen lasse, ist u. E. so nicht haltbar. Zum einen ist der gewählte Begriff nicht zutreffend, da der Ausdruck "Wirkung" eine kausale Beziehung unterstellt. Vorgeblich bessere Ergebnisse bei höheren Fallzahlen heißt jedoch nicht vorgeblich bessere Ergebnisse durch höhere Fallzahlen. Ein Kausalitätsnachweis wäre höchst wünschenswert, wurde jedoch unseres Wissens bisher nicht erbracht. Der Begriff ist also Ausdruck eines Fehlschlusses. Zum anderen halten wir die Feststellung auch insofern für problematisch, als eine bloße Einteilung der Prozedurenmenge in mehrere Kategorien nicht einen streng monotonen Kurvenverlauf der Mengen-Qualitäts-Relation nachweisen kann. Bei der Schilderung der Ergebnisse wird häufig auf Unterschiede zwischen den untersten und den obersten Prozedurenmengen-Kategorien im Sinne statistisch signifikanter Unterschiede hingewiesen. Derartige Vergleiche sind jedoch für die Definition möglicher Schwellenwerte nicht geeignet; relevant wären Vergleiche zwischen direkt benachbarten Prozedurenmengen-Kategorien.

Der Einschätzung der Verfasser, dass die Ermittlung eines Schwellenwertes durch keine der ausgewerteten Studien erreicht werden kann, stimmen wir nachdrücklich zu, die Gründe hierfür sollten noch näher spezifiziert werden. Ebenfalls stimmen wir mit der Auffassung, dass keine der Studien mögliche positive oder negative Effekte der Einführung einer Mindestmenge nachweisen kann, völlig überein. Auch hier sollten u. E. die Grunde noch näher spezifiziert werden: Im Kern wäre hierzu der Nachweis einer kausalen Beziehung zwischen Leistungsmenge und Ergebnisqualität durch eine prospektive lnterventionsstudie nötig.

Die vorliegende inkonsistente Datenlage lässt u. E. nur den Schluss zu, dass für den Fall, dass in Deutschland eine Mindestmenge beim elektiven Eingriff BAA definiert werden soll, angesichts der mit vielen Unsicherheiten belasteten Ergebnisse retrospektiver Studien aus angloamerikanischen Ländern und deren mangelnder Übertragbarkeit auf den aktuellen deutschen Versorgungskontext eine prospektive Untersuchung zu dieser Fragestellung (mit Erhebung verschiedener Zielgrößen einschl. weiterer patientenrelevanter Ergebnisqualitätsindikatoren wie z. B. der Lebensqualität) unumgänglich sein wird. Ggf. könnte der elektive Eingriff BAA sollte als neuer Leistungsbereich in die BQS-Datenerhebung aufgenommen werden. Bei einer prospektiven Studie zur Frage der Definition von Mindestmengen beim elektiven Eingriff BAA könnte außerdem auf etablierte Strukturen der externen Qualitätssicherung der "Deutschen Gesellschaft für Gefäßchirurgie" zurückgegriffen werden. Eine prospektive Studie könnte das jetzige operative Vorgehen beim BAA adäquat abbilden und klären, ob möglicherweise Zielkonflikte bzw. trade-offs hinsichtlich verschiedener Ergebnisqualitätsindikatoren bestehen.

Kriteriengestützte Beurteilung für das Vorliegen eines Zusammenhangs "in besonderem Maße"

Im Evidenzbericht sollten nicht nur Begründungs- und Geltungsfragen analysiert, sondern auch Anwendungszusammenhänge berücksichtigt werden. Eine Bewertung des Zusammenhangs zwischen Leistungsmenge und Ergebnisqualität beim elektiven Eingriff BAA erfordert folglich auch eine kriteriengestützte Beurteilung, ob die nach der Literatur mögliche Beziehung tatsächlich als Grundlage für eine in Deutschland für das Jahr 2007 zu beschließende Mindestmenge dienen kann Es sollte also dargelegt werden, ob der Zusammenhang zwischen Leistungsmenge und Ergebnisqualität derart ausgeprägt ist und mit einem derart geringen Ausmaß an Unsicherheit angenommen werden kann, dass die nach SGB V notwendige Qualifikation erfüllt ist, wonach ein Zusammenhang "in besonderem Maße" besteht. Mögliche Kriterien hierfür wären z. B. Stärke und Konsistenz der Beziehung, Ausmaß der Varianzerklärung des Faktors Leistungsmenge für die Ergebnisqualität, Spezifität des Effekts, monoton verlaufende Mengen-Qualitäts-Kurve, Berücksichtigung bzw. Ausschluss alternativer Erklärungen, möglicher intervenierender Variablen und anderer Bias-Faktoren sowie von Periodeneffekten.

Berlin, den 13.02.2006