Startseite

KI-Grundlagen für Entwickler:
LLMs, Transformer & Claude

Verteilte Systeme — Vorlesung 2

Prof. Dr. Alexandra Mikityuk · HTW Berlin · Sommersemester 2026

Master Interaktiv Hands-On

Warum lernen wir KI in diesem Kurs?

KI-Agenten SIND verteilte Systeme

  • Mehrere Prozesse laufen parallel und kommunizieren über Nachrichten
  • Agenten koordinieren sich über Protokolle — genau wie Prozesse in verteilten Systemen
  • MCP-Server = Microservices für KI — standardisierte Schnittstellen, lose Kopplung
  • Das lernen wir in den nächsten Vorlesungen im Detail

In der Industrie: KI ist Standard

  • KI-gestütztes Entwickeln ist längst Normalität in Unternehmen
  • Kein Arbeitgeber erwartet, dass Sie ohne KI-Werkzeuge coden
  • Aber: Arbeitgeber erwarten, dass Sie den Code verstehen und verantworten
  • KI-Kompetenz = Wettbewerbsvorteil auf dem Arbeitsmarkt

Für Ihr Semesterprojekt

Claude kann Ihnen beim Designen, Coden und Testen helfen — Sie arbeiten schneller und lernen dabei neue Patterns kennen.

Aber: Werkzeug, nicht Ersatz!

Sie müssen das System VERSTEHEN. Claude ist ein mächtiges Werkzeug — aber die Architekturentscheidungen und die Verantwortung liegen bei Ihnen.

Verbindung: MCP-Server = Microservices für KI. Wenn Sie verteilte Systeme verstehen, verstehen Sie auch, wie moderne KI-Agenten aufgebaut sind.

KI in Ihrem Semesterprojekt

Claude hilft beim Coden

  • Code generieren: Boilerplate, Server-Setup, Protokoll-Handler
  • Debuggen: Fehler finden und Fixes vorschlagen lassen
  • Erklären lassen: Unbekannte Bibliotheken oder Patterns verstehen
  • Tests schreiben: Unit-Tests und Integrationstests generieren

SIE treffen die Entscheidungen

  • Welche Architektur? Client-Server, P2P, Microservices?
  • Welches Protokoll? REST, gRPC, WebSockets?
  • Welche Datenstrukturen? Wie kommunizieren die Komponenten?
  • Welche Fehlerbehandlung? Was passiert bei Netzwerkausfall?

Bei der Präsentation fragen wir:

  • "Warum haben Sie diese Architektur gewählt?"
  • "Erklärt den Code — was passiert hier genau?"
  • "Was wäre eine Alternative gewesen?"

Claude-Output ohne eigenes Verständnis = nicht bestanden.

Projektidee (optional): Bauen Sie einen eigenen MCP-Server als Teil Ihres Semesterprojekts — ein Microservice, der Claude mit domänenspezifischen Tools erweitert.

Claude ist wie ein schneller Praktikant: produktiv, aber braucht klare Anweisungen und Code-Review von IHNEN.

Was ist ein Large Language Model (LLM)?

  • Neuronales Netz, trainiert auf riesigen Textmengen (Bücher, Code, Webseiten)
  • Sagt das nächste Token vorher — aber was ist ein Token?
  • Kein echtes "Verständnis" — statistische Muster auf sehr hohem Niveau

Token ≠ Wort

  • Ein Token ist ein Textfragment aus dem Vokabular des Modells (~100.000 Einträge)
  • Häufige Wörter = 1 Token: the, ist, and
  • Seltene/lange Wörter werden aufgeteilt: "Programmierung" → "Programm" + "ierung"
  • Deutsche Wörter werden häufiger zerlegt (Training war überwiegend Englisch)
  • Faustregel: 1 Token ≈ 4 Zeichen ≈ ¾ Wort

Beispiel: "Hallo Welt"

["Hal", "lo", " Welt"]

= 3 Tokens statt 2 Wörter

Warum? Der Tokenizer hat diese Fragmente aus den Trainingsdaten gelernt. "Hallo" ist seltener als englische Wörter und wird daher in Teilstücke zerlegt.

Was ist ein "Transformer"?

Ein Transformer ist eine Netzwerk-Architektur — ein Bauplan dafür, wie ein neuronales Netz intern aufgebaut ist.

Kein Algorithmus. Kein Microservice. Sondern die Struktur des Modells selbst.

Analogie: Gebäude

Stellen Sie sich ein neuronales Netz wie ein Gebäude vor. "Transformer" beschreibt, wie die Stockwerke, Räume und Verbindungen angeordnet sind.

Warum "Transformer"?

Weil er Eingabetext Schicht für Schicht in immer abstraktere Darstellungen transformiert (umwandelt), bis am Ende eine Vorhersage entsteht.

Jede Schicht berechnet die Relevanz zwischen allen Wörtern (Self-Attention) und verarbeitet das Ergebnis weiter. Claude, GPT, Gemini, LLaMA — alle sind Transformer. Gleicher Bauplan, unterschiedliche Größe und Trainingsdaten.

Vor dem Transformer: RNNs und LSTMs

RNN (Recurrent Neural Network)

Verarbeitet Text Wort für Wort, sequenziell — wie Lesen von links nach rechts.

Jedes Wort wird verarbeitet und ein "Gedächtnis" (Hidden State) wird weitergegeben.

Problem: Bei langen Texten "vergisst" das Netz die ersten Wörter. Wie stille Post — am Ende kommt nur noch Rauschen an.

LSTM (Long Short-Term Memory)

Verbesserte RNN mit einem "Notizbuch": Kann gezielt Informationen merken oder vergessen.

Hat "Gates" (Tore), die steuern, welche Infos behalten und welche verworfen werden.

Besser, aber: Immer noch sequenziell (langsam). Bei sehr langen Texten (>1000 Wörter) trotzdem Kontextverlust.

Beide Architekturen: sequenziell → Wort 1, dann Wort 2, dann Wort 3... → nicht parallelisierbar, langsam auf GPUs, Kontext geht verloren.

2017: Der Transformer-Durchbruch

Die Revolution: Alles gleichzeitig verarbeiten

Statt Wort für Wort: Der Transformer sieht ALLE Wörter auf einmal und berechnet für jeden neuen Satz live, welche Wörter füreinander relevant sind.

Self-Attention: Das Kernprinzip

Beispiel: "Die Katze saß auf der Matte, weil sie müde war"

→ Das Modell berechnet: "sie" hat hohe Relevanz zu "Katze", niedrige zu "Matte".

Woher weiß es das? Die Fähigkeit, Relevanz zu erkennen, kommt aus dem Training (Milliarden Sätze gelesen). Die konkrete Berechnung passiert live für jeden neuen Satz.

RNN/LSTM

Wort → Wort → Wort → ... (sequenziell, langsam, vergisst)

Transformer

Alle Wörter gleichzeitig (parallel, schnell, vergisst nichts)

Ohne Transformer: kein ChatGPT, kein Claude, kein modernes KI. Paper: "Attention Is All You Need" (Vaswani et al., 2017)

Wie wird ein LLM trainiert?

1. Pre-Training

Riesige Textmengen aus dem Internet (Bücher, Wikipedia, Code, Webseiten).

Das Modell lernt Sprache, Grammatik, Fakten und Muster.

Dauer: Wochen bis Monate auf Tausenden GPUs

2. Fine-Tuning

Spezialisierung auf bestimmte Aufgaben: Fragen beantworten, Code schreiben, Anweisungen befolgen.

Deutlich kleinerer, kuratierter Datensatz.

Dauer: Stunden bis Tage

3. RLHF

Reinforcement Learning from Human Feedback: Menschen bewerten Antworten (gut/schlecht).

Das Modell lernt, hilfreiche und sichere Antworten zu bevorzugen.

Daher: Claude lehnt gefährliche Anfragen ab

Vereinfacht: Lesen lernenAufgaben übenFeedback von Menschen

Open Source: OpenClaw (openclaw.org) — ein Open-Source-Projekt, das KI-Assistenten für alle Plattformen bereitstellt. Zeigt den Trend: KI-Entwicklung wird zunehmend offen und gemeinschaftlich.

KI-Landschaft 2026 — Die wichtigsten Modelle

Modell Unternehmen Typ Stärken
Claude (Opus, Sonnet, Haiku) Anthropic Cloud Coding, Analyse, Sicherheit, langes Kontextfenster
GPT-4o / o3 OpenAI Cloud Allrounder, breites Ökosystem, multimodal
Gemini Google Cloud Google-Integration, sehr langes Kontextfenster
LLaMA Meta Open Source Lokal nutzbar, starke Community, anpassbar
Mistral Mistral AI (EU) Open Source EU-basiert, effizient, DSGVO-freundlich
Copilot Microsoft / OpenAI Cloud Direkt in VS Code / GitHub integriert

Alle basieren auf der Transformer-Architektur. Die Unterschiede liegen in Trainingsdaten, Größe, Feinabstimmung und Lizenz.

LLM vs. SLM (Small Language Models)

LLM — Large Language Model

  • 100B+ Parameter (Milliarden)
  • Laufen in der Cloud (riesige GPU-Cluster)
  • Sehr mächtig, breites Wissen
  • Teuer in Betrieb und Nutzung
  • Hohe Latenz möglich

Beispiele: Claude Opus, GPT-4o, Gemini Ultra, LLaMA 405B

SLM — Small Language Model

  • 1–7B Parameter
  • Können lokal laufen (Laptop, Raspberry Pi)
  • Schneller, günstiger, privater
  • Weniger fähig, schmaleres Wissen
  • Ideal für spezifische Aufgaben

Beispiele: Phi-3, Gemma 2, LLaMA 7B, Mistral 7B

Wann welches? LLM für komplexe Aufgaben (Architektur-Entscheidungen, große Codebases). SLM für schnelle, einfache, private Aufgaben (Autovervollständigung, lokale Analyse).

Was kann ein LLM? Was nicht?

Das kann ein LLM

  • Code schreiben und erklären
  • Text zusammenfassen
  • Übersetzen (auch Programmiersprachen)
  • Konzepte erklären und Analogien finden
  • Muster in Daten erkennen
  • Bugs finden und Refactoring vorschlagen
  • Brainstorming und Ideenfindung

Das kann ein LLM NICHT

  • Zuverlässig rechnen (Mathe-Fehler möglich!)
  • Aktuelle Infos kennen (Wissenscutoff!)
  • Wirklich verstehen (statistische Muster)
  • Im Internet suchen (ohne Tools)
  • Dateien lesen/schreiben (ohne Tools)
  • Programme ausführen (ohne Sandbox)
  • Garantiert korrekt sein (Halluzinationen!)

Merke: Ein LLM ist ein extrem guter Textgenerator — kein allwissendes Orakel. Die "NICHT"-Spalte wird durch Tools und Agenten teilweise gelöst (nächste Vorlesung!).

Wichtige Konzepte für Entwickler

Context Window (Kontextfenster)

  • Wie viel Text das Modell "gleichzeitig sehen" kann
  • Claude: bis zu 200.000 Tokens (~150.000 Wörter)
  • Größeres Fenster = mehr Kontext = bessere Antworten
  • Aber: Kosten steigen mit der Länge

Temperature (Temperatur)

  • Steuert die "Kreativität" des Modells
  • 0.0 = deterministisch, immer gleiche Antwort
  • 1.0 = kreativ, variabel, mehr Zufall
  • Für Code: niedrig (0.0–0.3)
  • Für kreative Texte: höher (0.7–1.0)

Halluzinationen — Das größte Problem

  • LLMs "erfinden" manchmal Fakten, die plausibel klingen
  • Beispiele: Erfundene Bibliotheken, falsche API-Methoden, nicht existierende Papers
  • Warum? Das Modell optimiert auf "klingt richtig", nicht "ist richtig"
  • Gegenmaßnahmen:
    • Code immer testen!
    • Fakten unabhängig verifizieren
    • RAG nutzen (siehe nächste Slide)

Vertrauen Sie KI-generiertem Code NIEMALS blind — testen, reviewen, verstehen!

RAG — Retrieval-Augmented Generation

Das Problem:

Ein LLM kennt nur seine Trainingsdaten. Es weiß nichts über Ihre Firma, Ihre Codebasis oder aktuelle Ereignisse → Halluzination!

RAG = eine automatisierte Pipeline zwischen User und LLM

Nicht einfach "Datei in den Chat kopieren" — sondern ein System, das automatisch die richtigen Dokumente findet und dem LLM gibt.

Technischer Ablauf:

User-Frage Embedding Vektorsuche Kontext + Frage LLM Antwort
  1. Eigene Dokumente (PDFs, Code, Datenbanken) werden in Stücke zerlegt
  2. Jedes Stück wird als Zahlenvektor (Embedding) in einer Vector-Datenbank gespeichert
  3. Bei einer User-Frage: Frage wird auch zum Vektor → ähnlichste Dokument-Stücke werden gefunden
  4. Diese Stücke werden automatisch dem Prompt hinzugefügt
  5. LLM antwortet basierend auf echten Daten, nicht auf Raten

Ohne RAG:

"Was ist unsere Urlaubsregelung?" → Claude erfindet eine Antwort

Mit RAG:

System findet HR-Dokument → fügt es dem Prompt hinzu → Claude antwortet korrekt

Claude — Überblick

  • Entwickelt von Anthropic (San Francisco, gegründet 2021)
  • Aktuell: Claude 4 Familie (Opus, Sonnet, Haiku)
  • Stärken: Coding, Analyse, langes Kontextfenster, Sicherheit
  • Verfügbar über:
    • claude.ai (Web-Interface — kostenlos registrieren!)
    • API (für eigene Anwendungen)
    • Claude Code (Terminal & VS Code Extension)
  • Claude for Education: Spezielles Programm für Hochschulen

Warum Claude für diesen Kurs?

Unsere Gründe

  • Langes Kontextfenster (200K Tokens) — ideal für große Codebases
  • Starke Coding-Fähigkeiten — besonders bei Architektur und Debugging
  • Education-Programm — kostenloser Zugang für Studierende
  • Sicherheitsfokus — RLHF und Constitutional AI
  • Claude Code — direkt in VS Code integriert
  • API-Zugang — für eigene Projekte nutzbar

Ehrliche Einordnung

  • GPT-4o ist ebenfalls sehr gut — besonders als Allrounder
  • Gemini hat ein riesiges Kontextfenster (1M+ Tokens)
  • Copilot ist direkt in GitHub integriert
  • Alle diese Tools sind für Entwickler nützlich

Wir nutzen Claude, weil das Education-Programm und die Coding-Stärke am besten zu unserem Kurs passen.

Sie dürfen für Ihr Projekt auch andere Tools nutzen! Wichtig ist, dass Sie den Code verstehen — nicht welches Tool ihn erzeugt hat.

Claude for Education — Zugang für Studierende

Sofort loslegen

  • Registrieren Sie sich kostenlos auf claude.ai — das reicht für den Einstieg!
  • Kein spezielles Programm nötig, jeder kann sich individuell anmelden
  • Kostenloser Account bietet bereits Zugang zu Claude Sonnet

Volles Education-Programm

Für Learning Mode (führt durch Denkprozesse statt Antworten zu geben), API-Credits und campus-weiten Zugang: Die Universität muss Anthropic direkt kontaktieren.

anthropic.com/education

Zertifizierungen (kostenlos!)

Sie können selbstständig Kurse und Zertifikate absolvieren:

Claude 101, Claude Code 101, AI Fluency, MCP

anthropic.skilljar.com

Registrieren Sie sich kostenlos auf claude.ai — das reicht für den Einstieg!

Claude Code — Terminal & VS Code

Claude Code ist die KI-Engine für Entwickler — sie läuft in zwei Modi:

Modus 1: Im Terminal

# Claude Code starten
$ claude

# Beispiel-Prompts:
> Erkläre mir dieses Projekt
> Finde den Bug in server.py
> Schreibe Unit-Tests für api.py

Modus 2: In VS Code

  • Extension: "Claude Code" im VS Code Marketplace installieren
  • Gleiche Funktionalität, bequemere Oberfläche
  • Inline-Hilfe, Code-Generierung, Refactoring
  • Terminal-Integration eingebaut
  • Kann Dateien lesen, schreiben, erstellen und git-Befehle ausführen
  • Kann Tests schreiben und ausführen — versteht den gesamten Projekt-Kontext

Wenn Sie die VS Code Extension nutzen, nutzen Sie bereits Claude Code! Es ist dieselbe Engine.

Sie sind der Senior Developer, Claude ist Ihr Junior

NICHT so:

"Claude, schreibe mir alles"

  • Sie lernen nichts
  • Code ist nicht durchdacht
  • Keine Architektur-Entscheidungen
  • Können den Code nicht erklären

SONDERN so:

Sie designen, Claude implementiert

  • Sie entscheiden die Architektur
  • Sie definieren Datenstrukturen
  • Sie legen Schnittstellen fest
  • Sie reviewen jede Zeile

Claude ist wie ein sehr schneller Praktikant: produktiv, aber braucht klare Anweisungen und Code-Review.

Sie müssen VORHER wissen: Architektur, Datenstrukturen, Schnittstellen, Fehlerbehandlung.

Workflow eines Senior Developers mit Claude

1. ZUERST selbst denken: Systemarchitektur skizzieren — Welche Komponenten? Wie kommunizieren sie?

2. Variablen & Datenstrukturen definieren: Welche Daten? Welche Typen? Welches Format?

3. Schnittstellen festlegen: API-Endpunkte, Socket-Protokoll, Nachrichtenformat

4. DANN Claude beauftragen: Spezifische, kleine Aufgaben geben — nicht "mach alles"

5. Code REVIEWEN: Verstehe ich jede Zeile? Gibt es Sicherheitslücken? Edge Cases?

6. Testen & Iterieren: Fehler finden, Prompt verfeinern, erneut generieren lassen

Beispiel: Wetter-Dashboard planen

MEIN Systemdesign (bevor ich Claude frage):

MEIN SYSTEMDESIGN (bevor ich Claude frage):
├── Backend (Python, Flask)
│   ├── GET /api/weather?city=Berlin → Wetterdaten als JSON
│   ├── Daten von OpenWeatherMap API holen
│   └── Caching: Gleiche Stadt nur alle 10 Min neu abfragen
├── Frontend (HTML + JavaScript)
│   ├── Eingabefeld für Stadtname
│   ├── fetch() ruft Backend-API auf
│   └── Temperatur, Wind, Icon anzeigen
└── Datenmodell
    ├── Eingabe: {"city": "Berlin"}
    └── Ausgabe: {"temp": 18.5, "wind": 12, "desc": "bewölkt"}

Das ist die Arbeit des Senior Developers! Sie treffen die Entscheidungen über Architektur, API-Design und Datenformat — BEVOR Claude eine einzige Zeile schreibt.

So prompte ich Claude als Senior Developer

Guter Prompt (basierend auf Design)

Erstelle das Backend für mein
Wetter-Dashboard:
- Python mit Flask
- GET /api/weather?city=Berlin
- Daten von OpenWeatherMap holen
  (API-Key als Umgebungsvariable)
- Antwort als JSON:
  {"temp", "wind", "desc", "icon"}
- Caching mit Dictionary:
  gleiche Stadt nur alle 10 Min
  neu abfragen
- Fehlerbehandlung: Stadt nicht
  gefunden → 404 mit Meldung

Schlechter Prompt

"Schreibe mir eine Wetter-App"

→ Welches Framework?
→ Welche API?
→ Welches Datenformat?
→ Keine Fehlerbehandlung
→ Claude entscheidet alles
→ Sie verstehen den Code nicht

Je weniger Sie vorgeben, desto weniger verstehen Sie das Ergebnis!

Code-Review: Die wichtigste Fähigkeit

Was Sie bei KI-generiertem Code prüfen müssen:

  • Edge Cases: Was bei leerem Input? Was wenn die API nicht erreichbar ist?
  • Ressourcen: Sind Sockets geschlossen? Threads korrekt beendet?
  • Race Conditions: Mehrere Threads greifen auf gleiche Daten zu?
  • Eingabe-Validierung: Injection-Angriffe möglich?
  • Lesbarkeit: Sinnvolle Benennung? Klare Struktur?

Wenn Sie eine Zeile nicht erklären können, haben Sie den Code nicht verstanden!

Prompt Engineering — Grundlagen

  • Sei spezifisch: Sprache, Framework, Ziel benennen
  • Gib Kontext: Zielgruppe, Einschränkungen, Umgebung
  • Beispiele geben (Few-Shot): Zeige was du willst
  • Iteriere: Ergebnis → Feedback → Verbesserung

Schlecht

"Mach mir eine API"

Gut

"Erstelle einen REST-Server in
Python mit Flask:
- GET /api/sensors -> Liste (JSON)
- POST /api/sensors -> Hinzufügen
- Verwende SQLite
- Füge Error-Handling hinzu"

Prompt Engineering — Für Code

Tipps für bessere Prompts

  • Architektur beschreiben:
    "Client-Server mit Sockets, Server multithreaded"
  • Einschränkungen nennen:
    "Nur Standardbibliotheken, Python 3.10+"
  • Tests verlangen:
    "Schreibe auch Unit-Tests dazu"
  • Erklärung verlangen:
    "Erkläre jeden Abschnitt mit Kommentaren"

Beispiel-Prompt

# Guter Prompt für Claude Code:

Erstelle eine REST-API für eine
To-Do-Liste in Python mit Flask:
- GET /todos → alle Einträge
- POST /todos → neuen Eintrag
- DELETE /todos/<id> → löschen
- Daten in SQLite speichern
- Nur Standardbibliotheken + Flask
- Mit Docstrings und Typen
- Schreibe 3 Unit-Tests

Werkzeuge im Überblick

Was wir in diesem Kurs nutzen

  • claude.ai — Chat im Browser (kostenlos)
  • Claude Code in VS Code — KI direkt in der Entwicklungsumgebung

Was wir kennengelernt haben

  • RAG — eigene Dokumente als Wissensquelle für das LLM
  • MCP-Server — Werkzeuge für KI-Agenten (nächste VL)
  • Ollama — lokale Modelle, Daten bleiben auf dem Rechner

Zusammenfassung — VL 2

LLMs, Tokens & Transformer verstanden

RNN → LSTM → Transformer Evolution

KI-Landschaft 2026: Wer bietet was?

LLM vs. SLM — wann welches?

Training: Pre-Training → Fine-Tuning → RLHF

Halluzinationen erkennen & vermeiden

Claude & Claude Code einsetzen

Senior Developer Workflow mit KI

Prompt Engineering Grundlagen

Was LLMs können — und was nicht

Links & Ressourcen

Claude & Anthropic

Weitere Ressourcen

Vielen Dank!

Fragen?

Prof. Dr. Alexandra Mikityuk

Büro Raum 308

Tel +49 30 5019-2664

Nächste Woche: KI-Agenten, MCP & Sicherheit

1 / 29