RAG-Data & Test

Projektidee

Dieses Projekt bildet das Daten-Backend und die Qualitätssicherung für den KI-Chatbot der TFO Bozen. Ziel ist eine robuste Pipeline, die automatisiert Informationen und PDFs von der Schulwebsite extrahiert und für ein RAG-System (Retrieval-Augmented Generation) aufbereitet. Zusätzlich wurde ein automatisierter Selenium-Testbot entwickelt, der den finalen Chatbot kontinuierlich auf Korrektheit und Sicherheit (Jailbreaks) prüft. Dies liefert das Wissensfundament für die gesamte KI-Anwendung.

Funktionsweise

Crawler durchsucht die Schulwebsite und sammelt URLs
Scraper extrahiert saubere Texte und PDFs (umgeht Popups/Banner)
Skripte veredeln die Rohdaten (Keywords, Zusammenfassungen) für RAG
Dynamischer Export der Daten in eine strukturierte JSON-Wissensdatenbank
Selenium-Testbot simuliert reale Chat-Eingaben im Browser
E2E-Testing validiert die Chatbot-Antworten auf Fakten und Sicherheit

Daten und Fakten

Kerntechnologien: Python, BeautifulSoup, PyPDF2
Scraping: Headless-Selenium mit integrierter DOM-Bereinigung ("Popup-Killer")
Datenaufbereitung: Automatisierte Stopwort-Filterung und Metadaten-Generierung
Testing-Framework: Dynamische Wartezyklen für asynchrone Web-Frontends
Qualitätssicherung: E2E-Tests decken Fakten, Logik und Prompt-Injections (Jailbreaks) ab

Detaillierte Projektbeschreibung

Dieses Maturaprojekt bildet das essenzielle Fundament (Data Engineering & QA) für den großen KI-Chatbot der TFO Bozen. Während andere Teams an Frontend und Infrastruktur arbeiten, verantwortet dieses Projekt die komplette Datenaufbereitung und Test-Automatisierung. Zuerst sammelt eine Python-Pipeline per Headless-Selenium strukturiert Daten und PDF-Dokumente der Schulwebsite. Ein eigens entwickelter Algorithmus filtert dabei störende HTML-Elemente wie Banner heraus. Die Daten werden anschließend textuell veredelt und als RAG-Wissensdatenbank exportiert. Um die Zuverlässigkeit des gesamten Chatbot-Systems zu garantieren, wurde zudem ein End-to-End-Test-Framework implementiert. Dieses simuliert reale Nutzereingaben im Browser und überprüft die Antworten der KI vollautomatisiert auf Faktenwissen, logische Richtigkeit und Resistenz gegen böswillige "Jailbreak"-Versuche.

Fotos