Azure-Förderungen – Archiv
Hier finden Sie die Forschungsprojekte von vorangegangenen Azure-Förderungen.
Geförderte Forschungsprojekte 2024
Organisationseinheit: Institut für Meteorologie und Geophysik
Abstract:
Flexpart (FLEXible PARTicle dispersion model) ist ein numerisches Modell, das die Ausbreitung von Gasen und Aerosolen in der Atmosphäre simuliert. Das Ziel dieses Projekts war, ein Web Service (FLEXWEB) entwickeln, bei dem Flexpart über eine Webseite laufen gelassen werden kann. Flexpart sollte mit Hilfe eines Kubernetes Clusters Trajektorien berechnen und den Usern diese Ergebnisse leicht zugänglich machen. Ein wichtiger Schritt dabei war die Containerisierung der Arbeitsschritte und diese mit den relativen großen Eingangsdaten abzustimmen. Eine erste Version von FLEXWEB haben wir erfolgreich zum Laufen gebracht, allerdings ist es uns nicht gelungen, das Service skalierbar zu machen, so dass mehrere User es gleichzeitig nutzen können.
Organisationseinheit: Forschungsgruppe Multimedia Information Systems, Fakultät für Informatik
Abstract:
FactCheck ist ein laufendes Forschungsprojekt der Forschungsgruppe Multimedia Information Systems der Fakultät für Informatik, das darauf abzielt, Konflikte innerhalb von Web-Daten zu identifizieren. Diese Informationen über Konflikte, die in textueller Form (z. B. Absätze in einem HTML-Dokument) oder in multimedialer Form (z. B. Nachrichtenbeiträge in einem Video) vorliegen können, sollen mithilfe einer Kombination von Ansätzen aus dem Semantic Web (z. B. strukturierte Daten) und modernen KI-Technologien und -Konzepten (z. B. Named Entity Recognition oder Entity Linking) extrahiert werden. Die Vergleichsprozesse für diese Informationen werden teilweise durch menschliche Intelligenz und menschliches Feedback gestützt, weshalb auch Ansätze für Benutzeridentitäten und Benutzerverwaltung (z. B. Azure Entra ID) untersucht werden. Für die Bereitstellung des FactCheck-Prototyps wird ein hybrider Ansatz in Betracht gezogen, der die Nutzung sowohl skalierbarer Azure-Dienste (z. B. kognitive Dienste wie AI Video Indexer oder Benutzerverwaltung) als auch vorhandener lokaler Infrastruktur (z. B. VMs oder Datenbanken) an der Universität Wien ermöglicht, um geeignete Kompromisse in Bezug auf Sicherheit, Datenschutz und Kosten zu erreichen. Um das Deployment hochgradig flexibel und modular zu halten, können Teile davon containerisiert werden, was den Prozess sowohl auf Azure als auch auf lokaler Infrastruktur vereinfacht.
Vollständiger Titel: Revolutionizing Olfactory Perception Mapping: A Contrastive Learning Graph Neural Network Approach
Organisationseinheit: Department für Pharmazeutische Wissenschaften
Abstract:
Diese Masterarbeit untersucht die Beziehung zwischen molekularer Struktur und Geruchswahrnehmung durch Graph Neural Networks (GNNs) und Self-Supervised Learning (SSL). Vier komplementäre Ansätze wurden entwickelt: (1) Eine Explainability-Analyse mittels Attribution-Perturbation, die molekulare Substrukturen identifiziert, die Geruchsprädiktionen maßgeblich beeinflussen, (2) Self-Supervised Learning durch Feinabstimmung eines MolCLR-Modells auf dem ZINC-Datensatz, (3) rezeptorzentrische Modellierung mit M2OR zur Simulation von Liganden-Rezeptor-Wechselwirkungen und (4) klassische Fingerprint-Methoden mit Ensemble-Modellen. Die Ergebnisse zeigen, dass AtomPairs-Fingerprints mit optimierten LightGBM-Modellen konkurrenzfähige Leistungen erbringen, während die Perturbations-Analyse wichtige atomare Treiber für spezifische Geruchslabels identifiziert. Die Rezeptor-Docking-Methode stellte aufgrund fehlender Bindungstaschendefinitionen in AlphaFold-Strukturen eine Herausforderung dar. Diese multidimensionale Herangehensweise liefert wertvolle Einblicke in die molekularen Grundlagen des Riechens.
Organisationseinheit: Institut Physik Funktioneller Materialien
Abstract:
Im Rahmen des Projekts wurde untersucht, wie gut sich die Microsoft Azure Cloud für wissenschaftliche Berechnungen im Bereich der Mikromagnetik eignet. Dafür wurden verschiedene virtuelle Maschinen getestet, sowohl mit Prozessoren als auch mit Grafikprozessoren. Ein besonderer Fokus lag auf der Nutzung von kostengünstigen Spot Instanzen, die jedoch gelegentlich unterbrochen werden können. Um die Arbeit mit den Simulationen zu vereinfachen, wurden hilfreiche Tools entwickelt, die Abläufe automatisieren und so Zeit sparen. Während des Projekts konnten außerdem mikromagnetische Simulationen zur Optimierung von magnonischen Geräten erfolgreich durchgeführt werden, die wertvolle Erkenntnisse lieferten. Anstelle ursprünglich geplanter Studien zur Nutzung mehrerer Grafikprozessoren lag der Schwerpunkt darauf, die Cloud-Lösungen umfassend zu bewerten. Zusätzlich wurde eine Bachelorarbeit verfasst, die zur Entwicklung der Automatisierungstools beitrug. Das Projektbudget von 2.000 EUR wurde fast vollständig genutzt, und die Ergebnisse zeigten, dass die Microsoft Azure Infrastruktur ein großes Potenzial für wissenschaftliche Anwendungen bietet.
Vollständiger Titel: selscape: Automated and Distributed Pipelines for Investigating the Landscape of Natural Selection from Large-scale Genomic Datasets
Organisationseinheit: Department für Evolutionäre Anthropologie
Abstract:
This project developed three Snakemake pipelines for detecting balancing selection, positive selection, and inferring the distribution of fitness effects. Azure Batch was tested for cloud deployment, and the first pipeline was successfully implemented in the cloud. The remaining pipelines are ready for deployment using insights gained from the first pipeline’s testing. Key results include contributions to three studies, showcasing the pipelines' effectiveness in analyzing genomes and exploring genetic diversity. Despite challenges with inadequate documentation for integrating Snakemake with Azure Batch, the project goals were partially achieved, with development carried out conservatively on local servers due to the novelty of cloud integration. Future work will focus on fully deploying all pipelines in the cloud and expanding their applications for large-scale genomic analyses.
Vollständiger Titel: MULTIREP – Multidimensional Representation: Enabling An Alternative Research Agenda on the Citizen-Politician Relationship
Organisationseinheit: Institut für Staatswissenschaft
Abstract:
The “MULTIREP” project aims to enable an alternative approach to studying the citizen-politician relationship. It focuses primarily on how citizens conceptualize representation. A mixed-methods approach combines qualitative methods (focus groups and one-to-one interviews with citizens) and quantitative methods in five countries (ca. 2.000 respondents in each), focusing on natural language processing approaches. In a multinational and multilingual mass survey in five countries, including 10.000 participants, we want to improve the current survey methodology by analyzing respondents’ answers to open-ended questions using different machine-learning approaches. During the funding period, the project team was able to conduct the survey, collecting rich text data from representative samples of the public. The team used the Azure infrastructure to analyze the open-ended text answers preliminary by prompting large-language models. These results complement a theoretically induced coding scheme, which will be used later in the analysis. Besides the already established dimensions of representation, the team found that citizens conceptualize representation very much in formalistic terms. The team plans to continue the usage of Microsoft Azure to thoroughly analyse the open-ended text answers, making use of not only large-language models but also more established natural language processing approaches.
Vollständiger Titel: Controlled Machine Translation with Large Language Models for the Technical Domain
Organisationseinheit: Zentrum für Translationswissenschaft
Abstract:
Large Language Models (LLMs) have shown promising results on machine translation for high resource language pairs and domains. However, in specialised domains (e.g. medical) LLMs have shown lower performance compared to standard neural machine translation models. The consistency in the machine translation of terminology is crucial for users, researchers, and translators in specialised domains. In this study, we compare the performance between baseline LLMs and instruction-tuned LLMs in the medical domain. In addition, we introduce terminology from specialised medical dictionaries into the instruction formatted datasets for fine-tuning LLMs. The instruction-tuned LLMs significantly outperform the baseline models with automatic metrics, and quality estimation. Moreover, the instruction-tuned LLMs produce fewer errors compared to the baseline based on automatic error annotation.