Bibliographic Metadata

Title
Statistische Methoden in der Biopharmazie mit limitierten Datenpunkten : Vergleich den gleitenden Cpk vs. Western Electric Regeln
Additional Titles
Statistical Methods in the Biopharmacy with limited data points Comparison of rolling Cpk vs. Western Electric Rules
AuthorKnebl, Gerald
CensorIlk, Reinhard
Published2017
Date of SubmissionSeptember 2017
LanguageGerman
Document typeMaster Thesis
Keywords (DE)Prozessstabilität / Statistische Prozesskontrolle / rCpk / rolling Cpk / moving Cpk / General extreme Value Distribution / GEV / Datentransformation
Keywords (EN)Process stability / statistical process control / SPC / rCpk / rolling Cpk / moving Cpk / moving statistics / General extreme Value Distribution / GEV / data transformation
Restriction-Information
 _
Classification
Abstract (German)

Die Motivation dieser Studie war es eine Antwort auf die immer größer werdende Zahl an statistischen Kontrollkarten zu bekommen. Auch die ideale Stichprobengröße sollte dabei ermittelt werden. Die Anzahl an Kontrollkarten kann sehr schnell unübersichtlich werden, vor allem deshalb da jeder Prozess und Prozessschritt seine eigenen Variablen, mit definierter Einheit, Lage und Variation aufweist und diese unter einen Hut zu bringen nicht ganz einfach ist. Ein möglicher Ansatz ist es die Daten zu transformieren um sie auf eine einheitliche Skala zu bringen. Als Beispiel sei der Variationskoeffizient genannt.[1], [2]

So ein ähnlicher Ansatz wird bereits bei Boehringer Ingelheim verfolgt wobei der gleitende Cpk Wert zur Anwendung kommt. Eine der zentralen Herausforderungen war es eine Antwort auf die Frage nach der idealen Stichprobengröße zu finden, wobei in der Literatur für herkömmliche Shewart Kontrollkarten klare Anleitungen zu finden sind.[3] Nicht so für gleitende Cpk hier wurde lediglich für gruppenweises Auftragen des Cpk wertes eine Publikation gefunden. [4]

Diese Studie fasst drei Hauptfragen zusammen, welche es zu beantworten gilt:

1) Was ist die ideale Stichprobengröße vom gleitenden Cpk?

2) Was ist der Unterschied vom gleitenden Cpk zur klassischen Shewart Kontrollkarte mit Western Electric Regeln?

3) Was muss getan werden um den gleitenden Cpk Wert in einer statistischen Kontrollkarte monitoren zu können?

Methodisch wurde die Studie auf Monte Carlo Simulationen aufgebaut welche in Matlab® realisiert wurden. Zu diesem Zweck wurden drei Modelle untersucht mit jeweils drei verschiedenen Kontrollkarten. Die Modelle waren das Rohdaten Modell, das rohe gleitende Cpk Modell und das „unweighted batch-means“ und ARIMA Modell, wobei Letzteres mit den Rohdaten als auch den gleitenden Cpk Daten gefüttert wurden. Folgende Kontrollkarten wurden in jedem Modell angewendet: gleitende Mittelungskarte (EWMA) und die Individual-/gleitende Spannweitenkarte (I/MR). Die Western Electric Regeln kamen nur bei der Individualkarte zur Anwendung, je nach Setting waren es alle Regeln beim Screening und ausgewählte Regeln bei den Bestätigungsläufen. Weiters um die Leistung der Karten untersuchen zu können wurde ein Baseline Signal (Z0) generiert für die in-Kontrolle Situation und ein außer-Kontrolle Situation bei welcher dann fünf Störsignale mit definierter Länge und Amplitude an zufälliger Stelle im Baseline Signal eingefügt wurde.

Die Ergebnisse waren wie folgt. Die ideale Stichprobengröße für den rCpk waren abhängig von dem verwendeten Modell und Kontrollkarten Kombinationen. Als beste Kombination wurde die I/MR Karte mit der „generalized extreme value“ Verteilung gefunden. Die ideale Stichprobengröße für dieses Modell lag zwischen n = 6 und n = 25 Datenpunkten.

Um die Frage nach dem besseren Modell zu beantworten, sprich rCpk vs. Shewart Modell Letzteres hat eindeutig die bessere Performance gezeigt. Sowohl was die durchschnittliche Lauflänge (ARL), als auch die Anzahl an Datenpunkten bis eine Prozesslage Veränderung detektiert wurde. So wurden ARL von 150 Datenpunkten detektiert obwohl alle Western Electric Regeln angewendet wurden. Dementsprechend kurz war dann die Detektionszeit von lediglich 1-2 Datenpunkten bis eine Regelverletzung detektiert wurde.

Wie bereits festgestellt, die beste Datenmodell / Kontrollkarten Kombination des rCpk war das I/MR chart mit Limits basierend auf der GEV. Das ARIMA und das UBM waren nicht erfolgreich genug um ohne weitere Modifikationen als Monitoring Schema eingesetzt zu werden.

Für das gegenwärtig verwendete „run chart“ muss das Akzeptanzkriterium 0,5 Cpk unter dem gegenwärtigen Prozess Cpk liegen um zuverlässig einen Sprung von 2 σ zu detektieren.

Aus zwei Gründen wird eine Empfehlung gegen das gegenwärtige Monitoring Schema ausgesprochen, erstens eine Laufkarte ist keine statistische Kontrollkarte und daher müsste das Akzeptanzlimit ständig neu berechnet werden um annähernd dieselbe Performance einer Kontrolkarte zu erreichen. Zweitens die Potenziale zur Prozessverbesserungen können nicht genutzt werden, da das Limit nur die „Negativ“ Grenze überwacht nicht aber die „Positiv“ Grenze. Daher ist es sehr wahrscheinlich, dass man die Information übersieht, welche potenziell einen Prozess verbessern können, wenn dieser in seinem Optimum läuft.

Abstract (English)

The overall motivation of this study was to answer some questions about how to monitor a plethora of processes and sub-processes and determine the sample size needed. For example, a number of control charts for various sub-processes and measurements alike could be overwhelming if more than a few different product lines are to be produced with each variable having its own scale, level and variation to account for.

One possible answer is to normalize the data, hence transform the data to a common scale, e.g. monitoring the coefficient of variance (CV).[1], [2]

This was already established at Boehringer Ingelheim with a run chart with a single acceptance limit, and the underlying data transformation was a stepwise rolling Cpk.

For control charts, the recommendations given by Montgomery were very clear, for example, how many samples somebody needs to calculate control limits or at which subgroup size which control chart type should be used.[5]

But when it comes to rolling Cpk in control charts the textbook knowledge about it is practically non-existent. Only one paper was published by Robert Mitchell who somehow successfully monitored Cpk in a batch-wise setup. [4]

Nevertheless, no hint in the current literature could be found on stepwise rolling (or moving) Cpk or Ppk. So this study had three main questions to answer:

1) What is the ideal sample size of the stepwise rolling Cpk?

2) What is the difference in using the rCpk vs. raw measurement model with Western Electric rules applied?

3) What can be done to use the rCpk successfully in a control scheme for a process?

The methods used were Monte Carlo simulations realized in Matlab®, where the three different models with three different control charts were used. The models assessed were the raw data model, the raw rCpk, the unweighted batch-means and the ARIMA model for both the raw data and the rCpk. The control charts used were the exponentially weighted moving average (EWMA) and the individuals- moving range chart (I/MR). Further, the simulations were done with all Western Electric rules applied during the screening on the individual's chart. After screening two rules were chosen, which showed on at least one model low false alarm rates and a decent time to detect a special cause. The data sets exhibited a stationary signal depicted as Z0 and a signal with five randomly placed errors of defined length called Z1 were the starting point.

The Results were as follows. The ideal sample size for the rCpk depends on the control chart and the underlying model. As best control chart and model combination the individuals-/moving range chart with limits based on the generalized extreme value distribution was determined. The ideal sample size was between n = 6 and n = 25 for the aforementioned model/chart combination.

As for the question how the rCpk performs compared to the traditional Shewart model, the latter is still superior in terms of average run length and detecting large shifts in the process. With ARLs of around 150 samples though all WE rules were applied and therefore immediate detection of the shifts at only 1-2 samples needed for this purpose.

As already mentioned the best chart model combination was the alternative distribution based approach with the generalized extreme value distribution used. The ARIMA, as well as the unweighted batch-means approach, did not turn out to be successful enough to be useable as a monitoring scheme. As for the currently used run chart approach, the acceptance limit has to be 0.5 Cpk below the stable process Cpk. Otherwise, a shift of 2 σ was difficult to detect. Therefore it is advised against the use of the run chart as statistical monitoring tool except the acceptance limit was evaluated on a regular basis. But the information loss of process improvement opportunities makes the run chart still a bad choice.