Infrastructure Engineer - Distributed Model Training & GPU Fleet Optimization

PyTorch Distributed Ray CUDA HPC networking InfiniBand RDMA GPU computing LLM training pipelines

Contracting 🌐 Englisch

Wir suchen einen erfahrenen Infrastructure Engineer zur Entwicklung und Optimierung von Infrastrukturen für verteiltes Machine Learning Training. In dieser Position arbeiten Sie an der Skalierung von Large Language Model (LLM) Training-Pipelines und der effizienten Verwaltung großer GPU-Flotten.

Ihre Hauptaufgaben umfassen den Aufbau robuster Infrastrukturen für distributed model training, die Optimierung von Compute-Scheduling-Systemen für umfangreiche GPU-Cluster sowie die kontinuierliche Verbesserung der Performance von LLM-Training-Pipelines. Sie werden eng mit Machine Learning Engineers und Data Scientists zusammenarbeiten, um skalierbare Lösungen für rechenintensive AI-Workloads zu entwickeln.

Technische Anforderungen: Fundierte Erfahrung mit PyTorch Distributed für paralleles Training, praktische Kenntnisse in Ray für verteilte Computing-Aufgaben, sowie CUDA-Programmierung für GPU-Optimierung. Zusätzlich sind Kenntnisse in High-Performance Computing (HPC) Networking, insbesondere InfiniBand und RDMA-Technologien, erforderlich.

Sie bringen idealerweise mehrjährige Erfahrung in der Entwicklung und Wartung von ML-Infrastrukturen mit, verstehen die Herausforderungen beim Training großer Sprachmodelle und haben bereits mit distributed computing frameworks gearbeitet. Kenntnisse in Container-Orchestrierung, Cloud-Plattformen und Performance-Monitoring-Tools sind von Vorteil.

Wir bieten eine spannende Gelegenheit, an der Spitze der AI-Infrastruktur-Entwicklung zu arbeiten und maßgeblich zur Skalierung modernster Machine Learning Systeme beizutragen.

Jetzt bewerben →

Als IT-Freelancer automatisch auf Projekte wie dieses bewerben

Nexus ist die KI-gestützte Plattform für IT-Freelancer, die täglich neue Projektausschreibungen analysiert und passgenaue Bewerbungstexte generiert – vollautomatisch, in Sekunden. Kein manuelles Schreiben mehr: Nexus liest die Ausschreibung, erkennt die gefragten Skills und erstellt einen individuellen Bewerbungstext, den du per Klick versendest.

✓ Projektausschreibungen direkt von Anbietern aus dem DACH-Raum
✓ KI-Bewerbungstext in unter 30 Sekunden – individuell auf jedes Projekt zugeschnitten
✓ Automatischer Versand per E-Mail + Anlage in Pipedrive
✓ Kostenlos starten – keine Kreditkarte erforderlich

Jetzt kostenlos testen →Alle IT-Projekte ansehen

Häufige Fragen zu Nexus

Was ist Nexus und für wen ist es geeignet?: Nexus richtet sich an selbstständige IT-Freelancer, die regelmäßig auf Projektausschreibungen antworten. Die Plattform automatisiert den gesamten Bewerbungsprozess – von der Analyse der Ausschreibung bis zum Versand der Bewerbung.
Wie schreibt Nexus den Bewerbungstext?: Nexus analysiert die Projektbeschreibung mit Claude (Anthropic) und gleicht die Anforderungen mit deinem hinterlegten Profil ab. Der generierte Text ist individuell, professionell und direkt versendbar – du kannst ihn vor dem Absenden noch anpassen.
Welche Projektplattformen werden unterstützt?: Nexus erhält Projekte direkt von Projektanbietern aus dem DACH-Raum – neue Ausschreibungen erscheinen automatisch in deiner Pipeline, ohne dass du Plattformen manuell durchsuchen musst.
Kostet Nexus etwas?: Der Einstieg ist dauerhaft kostenlos. Für professionelle Nutzung mit erweiterten Funktionen gibt es kostenpflichtige Pläne – ohne versteckte Kosten oder automatische Verlängerung.

Nie wieder Bewerbungen schreiben.

Nexus matcht deine Skills und schreibt Bewerbungen automatisch.

Kostenlos registrieren →

Keine Kreditkarte erforderlich

Tipp

Zeiterfassung & Projektverwaltung

Projekte, Stunden und Rechnungen in einer App. Flow ist die schlanke Lösung für IT-Freelancer und Agenturen – kostenlos starten.

Flow ausprobieren

Infrastructure Engineer - Distributed Model Training & GPU Fleet Optimization

Als IT-Freelancer automatisch auf Projekte wie dieses bewerben

Häufige Fragen zu Nexus

Ähnliche Projekte