RAG-Data & Test

Informatik
Projektteam
Alex Pizzedaz

Projektidee

Dieses Projekt bildet das Daten-Backend und die Qualitätssicherung für den KI-Chatbot der TFO Bozen. Ziel ist eine robuste Pipeline, die automatisiert Informationen und PDFs von der Schulwebsite extrahiert und für ein RAG-System (Retrieval-Augmented Generation) aufbereitet. Zusätzlich wurde ein automatisierter Selenium-Testbot entwickelt, der den finalen Chatbot kontinuierlich auf Korrektheit und Sicherheit (Jailbreaks) prüft. Dies liefert das Wissensfundament für die gesamte KI-Anwendung.

Funktionsweise

  • Crawler durchsucht die Schulwebsite und sammelt URLs
  • Scraper extrahiert saubere Texte und PDFs (umgeht Popups/Banner)
  • Skripte veredeln die Rohdaten (Keywords, Zusammenfassungen) für RAG
  • Dynamischer Export der Daten in eine strukturierte JSON-Wissensdatenbank
  • Selenium-Testbot simuliert reale Chat-Eingaben im Browser
  • E2E-Testing validiert die Chatbot-Antworten auf Fakten und Sicherheit

Daten und Fakten

  • Kerntechnologien: Python, BeautifulSoup, PyPDF2
  • Scraping: Headless-Selenium mit integrierter DOM-Bereinigung ("Popup-Killer")
  • Datenaufbereitung: Automatisierte Stopwort-Filterung und Metadaten-Generierung
  • Testing-Framework: Dynamische Wartezyklen für asynchrone Web-Frontends
  • Qualitätssicherung: E2E-Tests decken Fakten, Logik und Prompt-Injections (Jailbreaks) ab

Detaillierte Projektbeschreibung

Dieses Maturaprojekt bildet das essenzielle Fundament (Data Engineering & QA) für den großen KI-Chatbot der TFO Bozen. Während andere Teams an Frontend und Infrastruktur arbeiten, verantwortet dieses Projekt die komplette Datenaufbereitung und Test-Automatisierung. Zuerst sammelt eine Python-Pipeline per Headless-Selenium strukturiert Daten und PDF-Dokumente der Schulwebsite. Ein eigens entwickelter Algorithmus filtert dabei störende HTML-Elemente wie Banner heraus. Die Daten werden anschließend textuell veredelt und als RAG-Wissensdatenbank exportiert. Um die Zuverlässigkeit des gesamten Chatbot-Systems zu garantieren, wurde zudem ein End-to-End-Test-Framework implementiert. Dieses simuliert reale Nutzereingaben im Browser und überprüft die Antworten der KI vollautomatisiert auf Faktenwissen, logische Richtigkeit und Resistenz gegen böswillige "Jailbreak"-Versuche.

Fotos