Kritische Kommentierung der Resultate der Metaanalyse von Kirsch et al. 2008 zur Wirksamkeit von SSRI


Hans-Jürgen Möller, München

Die Metaanalyse von Kirsch hat (leider!) viel zu viel Aufmerksamkeit in der Fachpresse und insbesondere in der Laienpresse bekommen und bedarf deshalb intensiver kritischer Kommentierung, um Fachwelt, Gesundheitsbehörden sowie Patienten und Angehörige nicht weiter zu verunsichern. Der speziellen Kommentierung dieser Metaanalyse sei ein kurzer allgemeiner kritischer Kommentar zur Aussagekraft von Metaanalysen vorangestellt. Die Ergebnisse von Metaanalysen sollten nicht zu naiv als die „Wahrheit“ im Sinne der Evidenz-basierten Psychopharmakotherapie interpretiert werden, sondern in ihrer Aussagekraft aus grundsätzlichen methodischen Gründen relativiert werden [6]. Insbesondere daraus abgeleitete Effektgrößen sind vorsichtig zu interpretieren.
Schlüsselwörter: Antidepressiva, Wirksamkeit, Metaanalysen
Psychopharmakotherapie 2008;15:164–8.

Den Ergebnissen von Metaanalysen wird zunehmend bei der Erstellung von Leitlinien und Lehrbüchern auf der Basis der Evidenz-basierten Medizin (EBM) besondere Bedeutung beigemessen [8] – möglicherweise weil die quantitative Ergebniszusammenfassung in Effektgrößen leichter zu vermitteln ist als differenzierende qualitative Schlussfolgerungen auf der Basis systematischer narrativer Reviews. In der Tat haben Metaanalysen im Vergleich zum systematischen Review den Vorteil, dass sie die Ergebnisse auf quantitative Kerngrößen (z. B. Effektgrößen) verdichten können, während Reviews lediglich qualitative Schlussfolgerungen ziehen. Trotzdem können Metaanalysen nicht die in narrativer Form dargestellten systematischen Reviews ersetzen, die den Vorteil haben, in differenzierter Weise den speziellen Gegebenheiten der einzelnen Studien hinsichtlich Studiendesign, Patientenselektion, Dosierung des Pharmakons usw. Rechnung tragen zu können. Gerade diese Detailanalyse verlangt hohen klinisch-psychopharmakologischen Sachverstand und eine detailreiche Darstellung.

Der so eindeutig und aussagekräftig erscheinende Zahlenwert der Effektgröße oder ähnlicher numerischer Kennwerte steckt voller Ambiguitäten, die aus grundsätzlichen methodischen Problemen der Metaanalysen resultieren. Der so griffig und bildhaft erscheinende Wert der Effektgröße kann nur zu leicht naiv vereinfachend oder gezielt tendenziös interpretiert werden, da die komplexe dahinter stehende Gemengelage klinischer Daten nicht mehr in Erscheinung tritt. Überinterpretationen der Effektgröße als letzte Entscheidungsinstanz, wie sie heute häufig zu lesen sind, sind angesichts verschiedener Grundprobleme der Metaanalyse unangemessen und müssen jeweils kritisch hinterfragt werden.

Wegen verschiedener grundsätzlicher methodischer Probleme sind Metaanalysen nicht der Königsweg, um Aussagen zur Wirksamkeit oder Verträglichkeit im Sinne der EBM zu machen, sondern sie sind nur ein Weg unter vielen und sollten komplementär mit anderen Ansätzen der Zusammenfassung empirischen Wissens, u. a. des systematischen Reviews, verwendet werden [8]. Zu warnen ist insbesondere davor, dass Ärzte oder Gesundheitspolitiker das Resultat einer Metaanalyse als die letzte „Instanz der Wahrheit“ ansehen oder daraus abgeleitete Effektgrößen überinterpretieren.

Es sei betont, dass die großen Zulassungsbehörden, wie die amerikanische FDA und die europäische EMEA, aus grundsätzlichen methodisch-statistischen Überlegungen zur konfirmativen Hypothesenprüfung Metaanalysen nicht als primäre Entscheidungsbasis für die Zulassung eines Arzneimittels anerkennen, sondern ihre Entscheidung auf das Ergebnis von methodisch adäquat durchgeführten Einzelstudien konfirmativen Charakters gründen. Die daraus resultierenden Konflikte sind absehbar: Eine zugelassene Substanz kann im Rahmen der EBM im Extremfall auf metaanalytischer Basis als unwirksam klassifiziert werden, da anders als im Rahmen der Zulassung nicht nur die zentralen Studien der Phase III bewertet werden, sondern auch andere mit unterschiedlichen Zielsetzungen, oft nicht primär zum Wirksamkeitsnachweis durchgeführte Studien einbezogen werden, oder da „failed studies“, im Gegensatz zur Praxis der Zulassungsbehörden, ein Erkenntniswert zugemessen wird.

Neue Erkenntnisse?

Die Metaanalyse von Kirsch et al. 2008 bringt, im Gegensatz zu der Darstellung in der Laienpresse, keine nennenswerten neuen Befunde. Die in dem Artikel dargestellte Plazebo-Verum-Differenz von 1,8 Punkten auf der Hamilton-Depressionsskala (HAMD) für den antidepressiven Effekt von neueren Antidepressiva (neben Studien zu SSRI waren auch 6 Studien zu Venlafaxin und 8 Studien zu Nefazodon eingeschlossen) ähnelt der aus anderen Publikationen, unter anderem einer früheren Metaanalyse von Kirsch et al. (2002), die einen Differenzwert von 2,0 HAMD-Punkten fand. Die damalige Metaanalyse wurde auch aus deutscher Sicht in dem Sinne kommentiert, dass nicht zu weitgehende Schlussfolgerungen daraus gezogen werden sollten [4].

Worum geht es?

Im Februar 2008 erschien in PloS Medicine (2008;5[2]:e45) die Arbeit „Initial severity and antidepressant benefits: a meta-analysis of data submitted to the food and drug administration“ von Irving Kirsch (Hull, UK) und fünf amerikanischen Koautoren. Gegenstand war eine Metaanalyse der Studiendaten zur Akutwirksamkeit von Antidepressiva mit dem Ziel, Zusammenhänge zwischen dem Schweregrad der Depression und der Wirksamkeit der Therapie aufzudecken. Um einen Publikationsbias auszuschließen, bezogen die Autoren sich auf die Daten, die der amerikanischen Food and Drug Administration (FDA) im Rahmen der Zulassungsanträge für neue Antidepressiva vorgelegt wurden. Für Citalopram und Sertralin lagen die Daten nicht vollständig vor. In der Metaanalyse wurden letztlich 35 vier- bis achtwöchige Studien zu Fluoxetin, Nefazodon, Paroxetin und Venlafaxin ausgewertet. Sie umfassten Daten von 5133 Patienten (3292 mit Verum, 1841 mit Plazebo).

Die Autoren fanden eine durchschnittliche Verbesserung des Hamilton-Depressionsscores (HAMD) um 9,60 Punkte mit Antidepressivum und um 7,80 Punkte mit Plazebo. Den Unterschied von 1,80 Punkten bewerten die Autoren als klinisch nicht relevant. Aus ihrer Sicht ist nur der Verum-Plazebo-Unterschied für schwer depressive Patienten (HAMD-Ausgangsscore >28 Punkte) klinisch relevant.

Trotz der Einbeziehung von nicht publizierten Studien ergibt sich in der Metaanalyse von Kirsch et al. ein Wert in der Größenordnung von 1,8 HAMD-Punkten, der wegen der hohen Fallzahl, die in diese Metaanalyse angeschlossen wurde, für einen statisch hochsignifikanten Effekt spricht. Dies sei betont, da die kürzlich erschienene Publikation von Turner et al. [15] die selektive Publikation von Antidepressiva-Studiendaten – vorrangig werden Studien mit positiven Ergebnissen publiziert – darstellte und kritisch eine mögliche Überbewertung der Effektgröße von Antidepressiva in Metaanalysen unterstellt.

Zu bedenken ist, dass Mittelwertsunterschiede einer Depressionsskala zwischen Plazebo- und Verum-Gruppen nicht die Wirksamkeit für spezielle Patientengruppen abbilden können. Diese kann wegen der hohen Varianz hinsichtlich verschiedener Patientengruppen, beispielsweise bei schweren Depressionen deutlich höher sein [9], als die dargelegten Mittelwertsunterschiede erkennen lassen. Dies wird auch von Kirsch et al. (2008) erwähnt, die den größten Effekt bei schwerer Depression gefunden haben, und zwar im Sinne einer Plazebo-Verum-Differenz von etwa 4 HAMD-Punkten. Es ist also aus prinzipiellen Gründen unzulässig, allein aus solchen allgemeinen Plazebo-Verum-Differenzen Aussagen über die klinische Relevanz abzuleiten, wie es die Autoren tun. Obendrein muss aus klinischer Sicht betont werden, dass die Wirksamkeit der Antidepressiva im klinischen Alltag in der Regel durch sequenzielle und kombinatorische Therapieansätze optimiert wird [3, 13].

Woran bemisst sich klinische Relevanz?

Ein statistisch signifikanter Unterschied zwischen Plazebo und Verum bedeutet nicht automatisch, dass die gefundenen Unterschiede klinisch relevant sind. Um die klinische Relevanz des gefundenen Unterschieds zu bewerten, griffen Kirsch et al. auf einen Vorschlag des NICE [11] zurück, der eine Plazebo-Verum-Differenz von 3 HAMD-Punkten als klinisch relevant ansieht. Basierend darauf, sprechen Kirsch et al. den gefundenen Effekten der SSRI generell die klinische Relevanz ab. Allenfalls sehen sie sie für die schwere Depression als klinisch relevant an. Dem ist entgegenzuhalten, dass das zitierte NICE-Kriterium völlig arbiträr ist und weder durch empirische Befunde noch durch Expertenmeinungen gestützt wird. Um dies zu untermauern, sei darauf hingewiesen, dass alle SSRI, die in die Metaanalyse aufgenommen wurden, unter anderem von der europäischen Zulassungsbehörde (EMEA) und der US-amerikanischen Zulassungsbehörde (FDA) zugelassen wurden und ihre Wirksamkeit somit offensichtlich als klinisch relevant angesehen wurde. Somit ergibt sich eine eigenartige Zirkularität der Argumentation von Kirsch et al., die beiläufig bemerkt keine klinische Erfahrung in der medikamentösen Depressionsbehandlung haben; man setzt ein hohes Relevanzkriterium an, um dann zu zeigen, dass die Effekte der Antidepressiva irrelevant sind.

Es gibt kein festgelegtes Kriterium für die klinische Relevanz von Antidepressiva-Effekten, sondern es gibt nur verschiedene Ansätze, diese zu bestimmen [10]. Aus der Sicht von Zulassungsbehörden ist unter anderem neben konsistenter Replikation von positiven Studienergebnissen sicherlich die Plazebo-Verum-Differenz der zugelassenen Antidepressiva (s. o.) von Bedeutung: diese liegt in der Größenordnung von 2,0 HAMD-Punkten. Eine solche Plazebo-Verum-Differenz ist demzufolge als klinisch relevant anzusehen.

Viel wichtiger zur Bestimmung der klinischen Relevanz (Tab. 1) sind aber Responder- und Remitter-Analysen, die die relative Häufigkeit dieser Kategorien zwischen Plazebo- und Verum-Gruppen vergleichen. Dieser Ansatz wird von den Zulassungsbehörden in Ergänzung zu den Mittelwertsanalysen verlangt, um den klinischen Nutzen der Therapie mit einem Antidepressivum für den Einzelfall zu bestimmen. Geht man von „Responder-Analysen“ aus, die Kirsch et al. leider nicht in die metaanalytische Betrachtung einbezogen haben, und zählt die Patienten, bei denen wenigstens 50 % des ursprünglichen Depressionswerts reduziert wurde, so ergeben sich Plazebo-Verum-Differenzen in der Größenordnung von 15 bis 20 %. Das entspricht einer NNT (Number needed to treat) von 5 bis 7. Eine solche NNT wird als mittelstarke bis starke Wirksamkeit angesehen und entspricht den diesbezüglichen Werten vieler Therapien, die in der inneren Medizin Standardtherapien sind (Tab. 1). Auch bei dieser Betrachtungsweise wird der klinisch relevante Effekt der SSRI, beziehungsweise der Antidepressiva, bestätigt.

Tab. 1. Klinische Relevanz von Antidepressiva [14]

20% Differenz Plazebo–Antidepressivum → NNT 5

15% Differenz Plazebo–Antidepressivum → NNT 7

Reduktion von Myokardinfarkten mit Acetylsalicylsäure: NNT = 40, mit Statinen: NNT = 20

Für sehr wirksame Behandlungen bewegen sich die NNTs ungefähr im Rahmen von 2–4.

NNTs von ≤10 zeigen eine starke Evidenz für klinisch relevante Wirksamkeit.

Alle Antidepressiva haben trotz der von Kirsch et al. als zu gering angesehenen Plazebo-Verum-Differenz die Zulassung erreicht. Diese Zulassung wurde sowohl von der amerikanischen Zulassungsbehörde wie auch von der europäischen Zulassungsbehörde ausgesprochen. Den SSRI oder allen Antidepressiva unzureichende Wirksamkeit zu unterstellen, ist deshalb eine fragwürdige und irreführende Argumentation, auch wenn Kirsch sich dabei an einem arbiträr von NICE eingeführten Kriterium einer Plazebo-Verum-Differenz von 3 HAMD-Punkten orientiert. Es sei betont, dass in Metaanalysen gezeigt wurde, dass einige Antidepressiva – beispielsweise trizyklische Antidepressiva (TZA), Venlafaxin, Escitalopram – eine höhere Wirksamkeit als die SSRI haben [1, 9, 10].

Die Bedeutung der Plazebo-Response

Die Interpretation der Kirsch-Gruppe, dass die höhere Plazebo-Verum-Differenz von SSRI bei schwereren Depressionsgraden „nur“ eine Konsequenz einer geringeren Plazebo-Response und nicht einer Zunahme der Pre-post-Differenz in der Verum-Gruppe ist, ist deskriptiv richtig, aber eine einseitig statistisch und obendrein tendenziöse Interpretation der Daten, die außer Acht lässt, dass die Wirksamkeit nur aus der Plazebo-Verum-Differenz abgeleitet werden kann. Somit ist es völlig irrelevant, ob man eine höhere Differenz durch Zunahme der Pre-post-Differenz der Verum-Gruppe oder durch Abnahme der Pre-post-Differenz in der Plazebo-Gruppe enthält. Die traditionelle Sichtweise, die „endogene Depression“ als die Indikation für Antidepressiva, damals TZA, zu sehen, passt gut zu dieser Datenanalyse: starke Verum-Effekte bei geringer Plazebo-Response. Durch die Einführung der breiten Indikation „depressive Episode“ ist eine Aufweichung erfolgt, die möglicherweise dazu geführt hat, dass auch die Wirksamkeit von Antidepressiva scheinbar ausgedünnt wird, wegen der höheren Plazebo-Response bei den leichten/mittelschweren Depressionsgraden.

Bei der Interpretation der Metaanalyse von Kirsch, wie auch einzelner Plazebo-kontrollierter Studien, sollte beachtet werden, dass der Plazebo-Arm in einer randomisierten Kontrollgruppenuntersuchung eines Antidepressivums mehr bedeutet, als dass die Patienten ein Scheinmedikament bekommen. Die Patienten beider Gruppen bekommen zusätzlich unter anderem supportive Psychotherapie oder/und Komedikation mit Benzodiazepinen/Hypnotika. Diesbezügliche differenzielle Unterschiede zwischen Plazebo- und Verum-Gruppe müssen in Betracht gezogen werden [7], da Patienten in der Plazebo-Gruppe wegen unzureichender Besserung gegebenenfalls einen größeren Bedarf an Zuwendung beziehungsweise Komedikation haben. Diese sowie andere methodische Probleme können dazu führen, dass in einer Plazebo-Verum-Studie die Wirksamkeit in der Verum-Gruppe nicht von der Plazebo-Gruppe unterschieden werden kann. Dies kommt häufiger vor als früher. Heutzutage hat nur etwa ein Drittel der Plazebo-kontrollierten randomisierten doppelblinden Antidepressiva-Studien ein positives Resultat; etwa ein Drittel der Studien ist negativ, das heißt, das geprüfte Antidepressivum unterscheidet sich nicht vom Plazebo, und rund ein weiteres Drittel sind „failed studies“, das heißt, weder das neue Antidepressivum noch das Standardantidepressivum unterscheidet sich vom Plazebo.

Negative Studie =/ „failed study“

Letztere „failed studies“ werden von den Zulassungsbehörden als nicht aussagekräftig angesehen, da sie offensichtlich an für Antidepressiva nicht sensitiven Stichproben (z.B. Antidepressiva-Nonrespondern) durchgeführt worden sind und somit nichts über die Wirksamkeit von Antidepressiva aussagen können. Es ist deshalb auch fragwürdig, solche „failed studies“ in eine Metaanalyse einzubeziehen. Es fehlt ihnen eine Grundvoraussetzung für den Wirksamkeitsnachweis, die „assay sensitivity“ [2, 5]. Dahinter verbirgt sich eine Reihe von methodischen Problemen, auf die im Einzelnen nicht eingegangen werden kann, unter anderem unter Einbeziehung von per Zeitungsannonce gesuchten „Symptomträgern“ (also nicht Patienten im engeren Sinne des Wortes) insbesondere in den USA, ein zu hohes Rating des Schweregrads der Depression vor Einschluss der Studie („overrating“, damit der Patient die Einschlusskriterien erfüllt), hohe Anteile von Patienten, die ein zusätzliches Psychopharmakon (Schlafmittel, Anxiolytikum) bekommen, oder „zu gute“ Standardbehandlung (z.B. sehr gute supportive Psychotherapieansätze). All diese Maßnahmen führen dazu, dass die Chance, das Verum vom Plazebo hinsichtlich der Wirksamkeit zu trennen, reduziert wird.

Bezieht man das Argument der „failed studies“ beziehungsweise der fehlenden „assay sensitivity“ in die hier vorgelegte Gesamtargumentation mit ein, so kann die Metaanalyse von Turner et al. [15] in ihrem kritischen Aussagegehalt etwas relativiert werden. Turner kritisiert, dass die zum Teil selektive Nicht-Publikation von nicht positiven Studien zu einer Überbewertung der Wirksamkeit der Antidepressiva führt. Dieser Effekt wird auch von ihm in der Metaanalyse dargestellt. Man sollte aber bei der Einbeziehung nicht publizierter Studien grundsätzlich differenzieren zwischen negativen Studien und „failed studies“. Lässt man aus guten Gründen die „failed studies“ aus Metaanalysen heraus, so wäre wahrscheinlich der von Turner kritisierte Artefakt durch den Publikationsbias deutlich geringer.

Vergleicht man verschiedene Metaanalysen von Antidepressiva, so können sich diese erheblich unterscheiden, je nachdem ob solche „failed studies“ mit einbezogen worden sind oder nicht. Gleiches gilt für negative Studien, also Studien, bei denen die experimentelle zu untersuchende Substanz sich nicht vom Plazebo unterschieden hat und, falls eine Standardvergleichssubstanz mitgeführt worden ist, die Standardsubstanz sich vom Plazebo unterschieden hat. Die Ergebnisse von Metaanalysen sind deshalb immer zu hinterfragen hinsichtlich der eingeschlossen Studien: Wurden nur Studien mit positiven Ergebnissen einbezogen? Wurden auch Studien mit negativen Ergebnissen oder „failed studies“ einbezogen? Die Einbeziehung letzterer führt natürlich zu einer verminderten Effektgröße in der Metaanalyse.

Die Tendenz, eher ungünstige Ergebnisse von Studien nicht zu publizieren, hat einen komplexen Hintergrund. Bei der pharmazeutischen Industrie besteht verständlicherweise eine Tendenz, zunächst die positiven Studien darzustellen. Die Negativstudien werden dann gegebenenfalls später, häufig lediglich in einer zusammenfassenden Übersicht, also nicht als Originalarbeit, publiziert. Gleiches gilt auch für „failed studies“, die aus Sicht einer pharmazeutischen Firma einen zu geringen Erkenntniswert haben und ebenso wie Studien mit negativen Ergebnissen ungern von Herausgebern wissenschaftlicher Zeitschriften zur Publikation angenommen werden. Seit einigen Jahren besteht die Pflicht, alle Psychopharmaka-Studien auf einer internationalen Datenbank anzumelden. Das gibt in der Zukunft die Möglichkeit, zu überprüfen, ob wirklich alle Hauptergebnisse von Studien publiziert worden sind. Dies ist sicherlich eine sehr gute Entwicklung, die die Möglichkeit gibt, den Publikationsbias weitgehend auszuschließen.

Theorie und Praxis

Insgesamt sind die Ergebnisse aus allen Antidepressiva-Studien doch so robust, dass alle Kritikpunkte das positive Gesamtergebnis nicht widerlegen können. Was wir aber gerade aufgrund der neueren Metaanalysen erkennen müssen, ist, dass die Plazebo-Verum-Differenz im Mittel nur etwa 2 Punkte der HAMD beträgt und deshalb nicht überschätzt werden sollte. Bei der Interpretation dieses Werts muss man berücksichtigen, dass es sich bei den Studienbedingungen um sehr künstliche und sehr verzerrungsanfällige Situationen handelt, die möglicherweise den eigentlichen Therapieeffekt des Antidepressivums unterbewerten. Im klinischen Alltag sehen wir die Wirksamkeit der Antidepressiva wesentlich positiver, insbesondere bei Patienten, die noch nicht vorbehandelt worden sind und nicht partielle Nonresponder sind.

Nicht Äpfel mit Birnen vergleichen

Nachdem auch zur Darstellung der empirischen Evaluation der Psychotherapie/psychosozialen Therapie zum Teil zunehmend Effektgrößen berechnet und Evidenzgraduierungen eingeführt werden, besteht prinzipiell die Möglichkeit, diese mit den Evidenzgrößen aus dem Bereich der Psychopharmakotherapie zu vergleichen. Dies führt zu der Gefahr, dass Effektgrößen und Evidenzgraduierungen, die auf einer unterschiedlichen Methodik der Therapieevaluation aufbauen [8], unsinnigerweise miteinander verglichen werden. Auch die Publikation von Kirsch et al. impliziert einen solchen unangemessenen Vergleich der Effektgrößen, wenn die Autoren alternative Therapien in Betracht ziehen. Die Evaluation der Psychotherapieverfahren wird nicht unter Plazebo-Bedingungen beziehungsweise Doppelblindbedingungen geprüft. Die unterschiedliche methodische Basis, auf der die Evidenzgraduierung in der Psychotherapie und in der Psychopharmakologie aufbaut, hat zur Folge, dass ein solcher direkter Vergleich unmöglich ist [12].

Wie reagieren die Patienten?

Die reißerische und tendenziöse Aufmachung der Artikel über Kirschs Metaanalyse in der Laienpresse hat leider zu einer starken Verunsicherung der Patienten geführt. Das ist bedauerlich, zumal bekannt ist, dass ohnehin viele Patienten, die eigentlich eine antidepressive Behandlung bräuchten, diese aus verschiedenen Einstellungsgründen und Befürchtungen vor Antidepressiva nicht annehmen.

Literatur

1. Anderson IM. Selective serotonin reuptake inhibitors versus tricyclic antidepressants: a meta-analysis of efficacy and tolerability. J Affect Disord 2000;58:19–36.

2. Baldwin D, Broich K, Fritze J, Kasper S, et al. Placebo-controlled studies in depression: necessary, ethical and feasible. Eur Arch Psychiatry Clin Neurosci 2003;253:22–8.

3. Bauer M, Bschor T, Pfennig A, Whybrow PC, et l. World Federation of Societies of Biological Psychiatry (WFSBP) Guidelines for Biological Treatment of Unipolar Depressive Disorders in Primary Care. World J Biol Psychiatry 2007;8:67–104.

4. Fritze J, Aldenhoff J, Bergmann F, Maier W, et al. Antidepressiva: Lebensgefährliche Plazebos? Arznei-Telegramm: fahrlässiges Journal? Psychoneuro 2005;31:480–4.

5. Fritze J, Möller HJ. Design of clinical trials of antidepressants. Should a placebo control arm be included? CNS Drugs 2001;15: 755–64.

6. Maier W, Möller HJ. Metaanalysen. Methoden zur Evidenzmaximierung von Therapiestudien. Nervenarzt 2007;78:1028–36.

7. Möller HJ. Methodik empirischer Forschung. In: Möller HJ, Laux G, Kapfhammer H-P (editors). Psychiatrie und Psychotherapie. 3. Aufl., Band 1. Heidelberg: Springer, 2008:346–67.

8. Möller HJ, Maier W. Probleme der „evidence-based medicine“ in der Psychopharmakotherapie. Problematik der Evidenzgraduierung und der Evidenzbasierung komplexer klinischer Entscheidungsprozesse. Nervenarzt 2007;78:1014–27.

9. Montgomery SA, Kasper S. Severe depression and antidepressants: focus on a pooled analysis of placebo-controlled studies on agomelatine. Int Clin Psychopharmacol 2007;22:283–91.

10. Montgomery SA, Möller HJ. The clinical relevance of the significant advantage of escitaloprom compared to other antidepressants. 2008. In Vorbereitung.

11. National Institute for Clinical Excellence. Depression: management of depression in primary and secondary care. Clinical practice guideline No 23. London: National Institute for Clinical Excellence, 2004.

12. Nutt DJ, Sharpe M. Uncritical positive regard? Issues in the efficacy and safety of psychotherapy. J Psychopharmacol 2008;22:3–6.

13. Rush AJ. STAR*D: what have we learned? Am J Psychiatry 2007;164:201–4.

14. Storosum JG, Elferink AJ, van Zwieten BJ, van den BW, et al. Short-term efficacy of tricyclic antidepressants revisited: a meta-analytic study. Eur Neuropsychopharmacol 2001;11:173–80.

15. Turner EH, Matthews AM, Linardatos E, Tell RA, et al. Selective publication of antidepressant trials and its influence on apparent efficacy. N Engl J Med 2008;358:252–60.

Prof. Dr. Hans-Jürgen Möller, Klinik und Poliklinik für Psychiatrie und Psychotherapie, Klinikum der Universität München, Nussbaumstraße 7, 80336 München, E-Mail: hans-juergen.moeller@psy.med.uni-muenchen.de

Critical comment on the results of the metaanalysis of Kirsch et al. 2008 regarding the efficacy of SSRIs

The metaanalysis of Kirsch has (unfortunately!) attracted too much attention in the specialized press and especially in the lay press. Therefore, intensive critical commenting is necessary to not further alarm experts and health authorities as well as patients and family members.

The specified commenting on these metaanalyses shall be prefaced with a short and critical commentary regarding the general significance of metaanalyses. The results of metaanalyses should not too naively be interpreted as the ‘truth’ as regards to the evidence based psychopharmacotherapy, but should be qualified in their significance due to principal methodological reasons [6]. In particular, effect sizes derived from these analyses should be interpreted carefully.

Key words: Antidepressants, effectiveness, meta-analyses

Psychopharmakotherapie 2008; 15(04)