Infrastructure Engineer - Distributed Model Training & GPU Fleet Optimization
Wir suchen einen erfahrenen Infrastructure Engineer zur Entwicklung und Optimierung von Infrastrukturen für verteiltes Machine Learning Training. In dieser Position arbeiten Sie an der Skalierung von Large Language Model (LLM) Training-Pipelines und der effizienten Verwaltung großer GPU-Flotten.
Ihre Hauptaufgaben umfassen den Aufbau robuster Infrastrukturen für distributed model training, die Optimierung von Compute-Scheduling-Systemen für umfangreiche GPU-Cluster sowie die kontinuierliche Verbesserung der Performance von LLM-Training-Pipelines. Sie werden eng mit Machine Learning Engineers und Data Scientists zusammenarbeiten, um skalierbare Lösungen für rechenintensive AI-Workloads zu entwickeln.
Technische Anforderungen: Fundierte Erfahrung mit PyTorch Distributed für paralleles Training, praktische Kenntnisse in Ray für verteilte Computing-Aufgaben, sowie CUDA-Programmierung für GPU-Optimierung. Zusätzlich sind Kenntnisse in High-Performance Computing (HPC) Networking, insbesondere InfiniBand und RDMA-Technologien, erforderlich.
Sie bringen idealerweise mehrjährige Erfahrung in der Entwicklung und Wartung von ML-Infrastrukturen mit, verstehen die Herausforderungen beim Training großer Sprachmodelle und haben bereits mit distributed computing frameworks gearbeitet. Kenntnisse in Container-Orchestrierung, Cloud-Plattformen und Performance-Monitoring-Tools sind von Vorteil.
Wir bieten eine spannende Gelegenheit, an der Spitze der AI-Infrastruktur-Entwicklung zu arbeiten und maßgeblich zur Skalierung modernster Machine Learning Systeme beizutragen.
Als IT-Freelancer automatisch auf Projekte wie dieses bewerben
Nexus ist die KI-gestützte Plattform für IT-Freelancer, die täglich neue Projektausschreibungen analysiert und passgenaue Bewerbungstexte generiert – vollautomatisch, in Sekunden. Kein manuelles Schreiben mehr: Nexus liest die Ausschreibung, erkennt die gefragten Skills und erstellt einen individuellen Bewerbungstext, den du per Klick versendest.
- ✓ Projektausschreibungen direkt von Anbietern aus dem DACH-Raum
- ✓ KI-Bewerbungstext in unter 30 Sekunden – individuell auf jedes Projekt zugeschnitten
- ✓ Automatischer Versand per E-Mail + Anlage in Pipedrive
- ✓ Kostenlos starten – keine Kreditkarte erforderlich
Häufige Fragen zu Nexus
- Was ist Nexus und für wen ist es geeignet?
- Nexus richtet sich an selbstständige IT-Freelancer, die regelmäßig auf Projektausschreibungen antworten. Die Plattform automatisiert den gesamten Bewerbungsprozess – von der Analyse der Ausschreibung bis zum Versand der Bewerbung.
- Wie schreibt Nexus den Bewerbungstext?
- Nexus analysiert die Projektbeschreibung mit Claude (Anthropic) und gleicht die Anforderungen mit deinem hinterlegten Profil ab. Der generierte Text ist individuell, professionell und direkt versendbar – du kannst ihn vor dem Absenden noch anpassen.
- Welche Projektplattformen werden unterstützt?
- Nexus erhält Projekte direkt von Projektanbietern aus dem DACH-Raum – neue Ausschreibungen erscheinen automatisch in deiner Pipeline, ohne dass du Plattformen manuell durchsuchen musst.
- Kostet Nexus etwas?
- Der Einstieg ist dauerhaft kostenlos. Für professionelle Nutzung mit erweiterten Funktionen gibt es kostenpflichtige Pläne – ohne versteckte Kosten oder automatische Verlängerung.
Nie wieder Bewerbungen schreiben.
Nexus matcht deine Skills und schreibt Bewerbungen automatisch.
Kostenlos registrieren →Keine Kreditkarte erforderlich
Ähnliche Projekte
- Computer Vision Engineer for Robotics Perception StackComputer visionSensor fusionLiDARCameras
- AI Hardware Security EngineerSecure firmwareHardware root of trustTrusted execution environmentsLow-level systems programming
- AI Inference Platform Engineer - Confidential ComputingKubernetesGPU clustersConfidential computingRust
- Confidential AI Systems Engineer with TEE expertiseTEEsSGXSEVTrustZone
- AI Engineer - LLM and RAG SystemsPythonLLMsRAGembeddings
- Senior NPU Kernel / Operator EngineerC/C++PythonTensor computationNeural network operators
- AI and Telco ArchitectOSSAssuranceFulfillmentInventory
- Senior GPU Systems / AI Infrastructure Engineer (NYC)CUDA programmingGPU kernel optimizationparallel computingdistributed systems
- AI Compute Cluster EngineerHPC networkingKubernetesGPU schedulingAI compute clusters
- AI Telco ArchitectOSSAssuranceFulfillmentInventory
- AI Fullstack EngineerReactTypeScriptJavaPython
- AI Spezialist (m/w/d) – AI SpecialistPythonRKI-ToolsMachine Learning
- Manager KI und Prozessautomatisierung (m/w/d)KIProzessautomatisierungMicrosoft CopilotPower Automate
- AI Data Engineer im Bereich Wissensmanagement BotsPostgreSQLPythonETL/ELT-PipelinesBig Data
- Machine Learning Engineer (m/w/d)Machine LearningTensorFlowPyTorchPython