|
Abstract (de): |
In der pharmazeutischen Industrie müssen Betriebe weltweit die GMP-Vorschriften befolgen. Um
sicherzustellen, dass Sensoren exakte Messwerte liefern, werden jährliche Kalibrierungen
durchgeführt. Dieser Prozess ist eine kosten- und zeitintensive Tätigkeit. In dieser Arbeit wird
untersucht, ob es durch den Einsatz von Machine Learning Algorithmen möglich ist, 75% der
auftretenden Fehlfunktion der Sensoren in Echtzeitnähe zu detektieren. Dafür wurden
Temperaturmesswerte von 50 Temperaturfühlern, die sich in Tief- und Kühlschränken befinden,
über ein 2 Jahre Zeitintervall aus einer historischen Datenbank bereitgestellt. Die systematischen
Fehler der Sensoren, die derzeit im Zuge der Kalibrierung bewertet werden, wurden mittels eines
Offsetwertes erstellt. Die Detektion der Fehlfunktion eines Sensors kann als binäres
Klassifizierungsproblem betrachtet und Klassifikationsmodelle, wie zum Beispiel Random Forest
und Support Vector Machine Modelle, entwickelt werden. Fensterbasierte Merkmale, die mit
Aggregationsfunktion wie Mittelwert, Minimum, Maximum berechnet wurden, wurden als
Eingabedatensatz für den Algorithmus des maschinellen Lernens verwendet. Danach wurde der
Datensatz auf zwei Teile aufgeteilt. 80% der Daten wurden für Training und 20% der Daten für
die Evaluierung der Modelle verwendet. Die Daten wurden mit einem Random Forest Modell
trainiert und evaluiert. Das Modell liefert eine hohe Genauigkeit von über 99%. Die berechnete
ROC-Kurve des Modells weist auf eine sehr gute Leistung hin. |
|
Abstract (en): |
In the pharmaceutical industry, companies around the world must follow GMP regulations. Annual
calibrations are performed to ensure sensors deliver accurate readings. This process is a costly
and time-consuming activity. This thesis examines whether it is possible to use machine learning
algorithms to detect 75% of sensor malfunctions near real time. For this purpose, temperature
readings from 50 temperature sensors located in freezers and refrigerators were provided over a
2-year time interval from a historical database. The systematic errors of the sensors, which are
currently being evaluated during the calibration, were created using an offset value. The detection
of a sensor malfunction can be viewed as a binary classification problem and classification models
such as Random Forest and Support Vector Machine models can be developed. Window-based
features calculated with aggregation function such as mean, minimum, maximum was used as
input data set for machine learning algorithm. After that, the data set was divided into two parts.
80% of the data was used for training and 20% of the data for evaluation of the models. The data
was trained and evaluated using a Random Forest model. The model delivers a high accuracy of
over 99%. The calculated ROC curve of the model indicate very good performance. |