Prof. Dr. Jana Schor

(geb. Hertel)

Leitung Data Science in der Bioinformatik

Helmholtz Zentrum für Umweltforschung - UFZ
Department Integrative Bioinformatik
Permoserstr. 15
04318 Leipzig
Gebäude: Gebäude 4.1 und 4.2
Raum: Raum 238
Phone: +49 341 6025 4779
Email: jana.schor@ufz.de


Curriculum Vitae

Aktuelle Position


Leitung Bio-Data Science Gruppe, Department Computational Biology & Chemistry

Professur


Bio-Data Science, Fakultät für Mathematik und Informatik, Universität Leipzig, Deutschland

Vergangene Position


Leitung Bioinformatik Gruppe, Department Integrative Bioinformatik

Wissenschaftliche Abschlüsse


  • Professur für Bio-Data Science (2024)
  • Dr. rer. nat. Informatik / Bioinformatik (2008)
  • Diplom Informatik (2005)

Forschung:

Meine Forschung entwickelt Bio-Data-Science- und KI-Methoden für die Umwelt- und Gesundheitsforschung weiter, mit einem besonderen Fokus auf transparente, glaubwürdige und praktisch nutzbare computergestützte Ansätze für komplexe wissenschaftliche Daten. Ich arbeite an der Schnittstelle von Datenintegration, maschinellem Lernen, graphbasierter KI und domänenspezifisch geerdeten großen Sprachmodellen, um neue Wege für die Analyse, Interpretation und Zugänglichmachung heterogener Daten in den Umwelt- und Lebenswissenschaften zu schaffen.

Ein zentrales Ziel meiner Arbeit ist es, fragmentierte und großskalige Daten in strukturierte, abfragbare und wissenschaftlich nutzbare Wissensbestände zu überführen. Dazu entwickle und nutze ich Methoden aus dem statistischen Lernen, dem maschinellen Lernen, dem Deep Learning und der Wissensrepräsentation, mit besonderem Schwerpunkt auf der Integration unterschiedlicher Datenquellen, Modalitäten sowie biologischer und umweltbezogener Organisationsebenen. Meine Forschung unterstützt sowohl die prädiktive Modellierung als auch die Generierung neuer Hypothesen, insbesondere in ökologischen, toxikologischen und gesundheitsbezogenen Kontexten.

Ein wichtiger Schwerpunkt meiner Arbeit liegt auf der Entwicklung vertrauenswürdiger KI. Deshalb lege ich großen Wert auf Erklärbarkeit, Unsicherheitsquantifizierung und reproduzierbare Forschungsworkflows, um sicherzustellen, dass computergestützte Ergebnisse transparent, robust und für Wissenschaft und Entscheidungsfindung nutzbar sind. In jüngerer Zeit arbeite ich zudem intensiv an agentischen KI-Systemen und domänenspezifischen Anwendungen großer Sprachmodelle, insbesondere dort, wo diese Modelle in strukturierte wissenschaftliche Wissensbestände eingebettet werden, um nachvollziehbare und zugängliche Schnittstellen zu komplexen Daten bereitzustellen.

  • Datenintegration, semantische Modellierung und Analyse mit Wissensgraphen und Graphdatenbanken
  • Graphenbasiertes maschinelles Lernen, einschließlich Graph Neural Networks für komplexe und vernetzte wissenschaftliche Daten
  • Erklärbare KI und Unsicherheitsquantifizierung für glaubwürdigere computergestützte Vorhersagen
  • Grounded LLMs und agentische KI für transparente, domänenspezifische Zugänge zu wissenschaftlichem Wissen
  • Reproduzierbare und skalierbare computergestützte Workflows für die Umwelt- und Lebenswissenschaften

Infrastruktur, Programme und Ansätze:

  • Hochleistungsrechencluster für die großskalige Datenverarbeitung.
  • KI-Training auf GPUs zur Beschleunigung der Modellleistung.
  • Graph- und andere neuronale Netzwerke für komplexe, vernetzte Datenstrukturen (für überwachte, unüberwachte und verstärkende Lernaufgaben).
  • Wissensgraphen und Graphdatenbanken zur Datenorganisation und semantischen Beziehungen.
  • Große Sprachmodelle zur Verbesserung der Interpretierbarkeit und Anwendungen in der Forschung.
  • Programmiersprachen wie R, Python, Shell-Scripting, Awk, Cypher und SQL für vielseitige Datenmanipulation und -analyse.

Lehre und Bildungsangebote:

Zusätzlich zu meiner Forschung widme ich mich der Ausbildung zukünftiger Datenwissenschaftler und Informatikstudierender. An der Universität Leipzig biete ich Kurse in statistischem Lernen, R-Programmierung und ein interaktives Data-Science-Curriculum an, das darauf abzielt, die Studierenden umfassend auf das Fachgebiet vorzubereiten. Diese Kurse umfassen:

  • Praktische Schulungen in R und Python,
  • Versionskontrolle mit Git,
  • Agile Projekt- und Selbstmanagement-Praktiken,
  • Storytelling mit Daten,
  • Erstellung überzeugender und repräsentativer Visualisierungen und
  • Entwicklung starker Präsentationsfähigkeiten.
  • Mein Ziel ist es, die Studierenden mit einem soliden, praxisorientierten Kompetenzset auszustatten, das sie auf eine erfolgreiche Karriere in realen Data-Science-Rollen vorbereitet.


Building a Better World With Connected Data
We have been offered to participate in Building a Better World With Connected Data via the Graphs4Good initiative by neo4j
Helmholtz AI - Artificial intelligence cooperation unit
Helmholtz AI associates extend the network for applied AI researchers within the Helmholtz Association to leverage the breadth of activities and strengths of our AI research.
HIDA - HH information & data science academy
The Helmholtz Information and Data Science Academy (HIDA) offers extensive training in Information and Data Science to doctoral researchers and postdocs.


Publikationen

Meine fünf wichtigen rezenten Publikationen sind nach Relevanz sortiert:

Inhalt:

Weiterführende Recherchen können Sie in unserem Publikationsverzeichnis durchführen.

2026 (2)

zum Inhalt

2025 (12)

zum Inhalt

2024 (5)

zum Inhalt

2023 (3)

zum Inhalt

2022 (5)

zum Inhalt

Inhalt:

Weiterführende Recherchen können Sie in unserem Publikationsverzeichnis durchführen.

2021 (2)

zum Inhalt

2020 (3)

zum Inhalt

2019 (3)

zum Inhalt

2018 (1)

zum Inhalt

2017 (2)

zum Inhalt

2016 (5)

zum Inhalt

Für ältere Publikationen entstanden an der Uni Leipzig und/oder Uni Wien unter meinem Mädchennamen Jana Hertel

Professur für Bioinformatik
Institut für Informatik
Universität Leipzig
Härtelstr. 16-18
D-04107 Leipzig

Institut für Theoretische Chemie
Universität Wien
Währinger Straße 17
A-1090 Wien

schauen Sie bitte in meinem ORCID Profil.