KI-Grundlagen für Entwickler:
LLMs, Transformer & Claude

Verteilte Systeme — Vorlesung 2

Prof. Dr. Alexandra Mikityuk · HTW Berlin · Sommersemester 2026

Master Interaktiv Hands-On

Warum lernen wir KI in diesem Kurs?

KI-Agenten SIND verteilte Systeme

Mehrere Prozesse laufen parallel und kommunizieren über Nachrichten
Agenten koordinieren sich über Protokolle — genau wie Prozesse in verteilten Systemen
MCP-Server = Microservices für KI — standardisierte Schnittstellen, lose Kopplung
Das lernen wir in den nächsten Vorlesungen im Detail

In der Industrie: KI ist Standard

KI-gestütztes Entwickeln ist längst Normalität in Unternehmen
Kein Arbeitgeber erwartet, dass Sie ohne KI-Werkzeuge coden
Aber: Arbeitgeber erwarten, dass Sie den Code verstehen und verantworten
KI-Kompetenz = Wettbewerbsvorteil auf dem Arbeitsmarkt

Für Ihr Semesterprojekt

Claude kann Ihnen beim Designen, Coden und Testen helfen — Sie arbeiten schneller und lernen dabei neue Patterns kennen.

Aber: Werkzeug, nicht Ersatz!

Sie müssen das System VERSTEHEN. Claude ist ein mächtiges Werkzeug — aber die Architekturentscheidungen und die Verantwortung liegen bei Ihnen.

Verbindung: MCP-Server = Microservices für KI. Wenn Sie verteilte Systeme verstehen, verstehen Sie auch, wie moderne KI-Agenten aufgebaut sind.

KI in Ihrem Semesterprojekt

Claude hilft beim Coden

Code generieren: Boilerplate, Server-Setup, Protokoll-Handler
Debuggen: Fehler finden und Fixes vorschlagen lassen
Erklären lassen: Unbekannte Bibliotheken oder Patterns verstehen
Tests schreiben: Unit-Tests und Integrationstests generieren

SIE treffen die Entscheidungen

Welche Architektur? Client-Server, P2P, Microservices?
Welches Protokoll? REST, gRPC, WebSockets?
Welche Datenstrukturen? Wie kommunizieren die Komponenten?
Welche Fehlerbehandlung? Was passiert bei Netzwerkausfall?

Bei der Präsentation fragen wir:

"Warum haben Sie diese Architektur gewählt?"
"Erklärt den Code — was passiert hier genau?"
"Was wäre eine Alternative gewesen?"

Claude-Output ohne eigenes Verständnis = nicht bestanden.

Projektidee (optional): Bauen Sie einen eigenen MCP-Server als Teil Ihres Semesterprojekts — ein Microservice, der Claude mit domänenspezifischen Tools erweitert.

Claude ist wie ein schneller Praktikant: produktiv, aber braucht klare Anweisungen und Code-Review von IHNEN.

Was ist ein Large Language Model (LLM)?

Neuronales Netz, trainiert auf riesigen Textmengen (Bücher, Code, Webseiten)
Sagt das nächste Token vorher — aber was ist ein Token?
Kein echtes "Verständnis" — statistische Muster auf sehr hohem Niveau

                        Token ≠ Wort
                        Ein Token ist ein Textfragment aus dem Vokabular des Modells (~100.000 Einträge)
Häufige Wörter = 1 Token: the, ist, and
Seltene/lange Wörter werden aufgeteilt: "Programmierung" → "Programm" + "ierung"
Deutsche Wörter werden häufiger zerlegt (Training war überwiegend Englisch)
Faustregel: 1 Token ≈ 4 Zeichen ≈ ¾ Wort

                    

Beispiel: "Hallo Welt"

["Hal", "lo", " Welt"]

= 3 Tokens statt 2 Wörter

Warum? Der Tokenizer hat diese Fragmente aus den Trainingsdaten gelernt. "Hallo" ist seltener als englische Wörter und wird daher in Teilstücke zerlegt.

Was ist ein "Transformer"?

Ein Transformer ist eine Netzwerk-Architektur — ein Bauplan dafür, wie ein neuronales Netz intern aufgebaut ist.

Kein Algorithmus. Kein Microservice. Sondern die Struktur des Modells selbst.

Analogie: Gebäude

Stellen Sie sich ein neuronales Netz wie ein Gebäude vor. "Transformer" beschreibt, wie die Stockwerke, Räume und Verbindungen angeordnet sind.

Warum "Transformer"?

Weil er Eingabetext Schicht für Schicht in immer abstraktere Darstellungen transformiert (umwandelt), bis am Ende eine Vorhersage entsteht.

Jede Schicht berechnet die Relevanz zwischen allen Wörtern (Self-Attention) und verarbeitet das Ergebnis weiter. Claude, GPT, Gemini, LLaMA — alle sind Transformer. Gleicher Bauplan, unterschiedliche Größe und Trainingsdaten.

Vor dem Transformer: RNNs und LSTMs

RNN (Recurrent Neural Network)

Verarbeitet Text Wort für Wort, sequenziell — wie Lesen von links nach rechts.

Jedes Wort wird verarbeitet und ein "Gedächtnis" (Hidden State) wird weitergegeben.

Problem: Bei langen Texten "vergisst" das Netz die ersten Wörter. Wie stille Post — am Ende kommt nur noch Rauschen an.

LSTM (Long Short-Term Memory)

Verbesserte RNN mit einem "Notizbuch": Kann gezielt Informationen merken oder vergessen.

Hat "Gates" (Tore), die steuern, welche Infos behalten und welche verworfen werden.

Besser, aber: Immer noch sequenziell (langsam). Bei sehr langen Texten (>1000 Wörter) trotzdem Kontextverlust.

Beide Architekturen: sequenziell → Wort 1, dann Wort 2, dann Wort 3... → nicht parallelisierbar, langsam auf GPUs, Kontext geht verloren.

2017: Der Transformer-Durchbruch

Die Revolution: Alles gleichzeitig verarbeiten

Statt Wort für Wort: Der Transformer sieht ALLE Wörter auf einmal und berechnet für jeden neuen Satz live, welche Wörter füreinander relevant sind.

Self-Attention: Das Kernprinzip

Beispiel: "Die Katze saß auf der Matte, weil sie müde war"

→ Das Modell berechnet: "sie" hat hohe Relevanz zu "Katze", niedrige zu "Matte".

Woher weiß es das? Die Fähigkeit, Relevanz zu erkennen, kommt aus dem Training (Milliarden Sätze gelesen). Die konkrete Berechnung passiert live für jeden neuen Satz.

RNN/LSTM

Wort → Wort → Wort → ... (sequenziell, langsam, vergisst)

Transformer

Alle Wörter gleichzeitig (parallel, schnell, vergisst nichts)

Ohne Transformer: kein ChatGPT, kein Claude, kein modernes KI. Paper: "Attention Is All You Need" (Vaswani et al., 2017)

Wie wird ein LLM trainiert?

1. Pre-Training

Riesige Textmengen aus dem Internet (Bücher, Wikipedia, Code, Webseiten).

Das Modell lernt Sprache, Grammatik, Fakten und Muster.

Dauer: Wochen bis Monate auf Tausenden GPUs

2. Fine-Tuning

Spezialisierung auf bestimmte Aufgaben: Fragen beantworten, Code schreiben, Anweisungen befolgen.

Deutlich kleinerer, kuratierter Datensatz.

Dauer: Stunden bis Tage

3. RLHF

Reinforcement Learning from Human Feedback: Menschen bewerten Antworten (gut/schlecht).

Das Modell lernt, hilfreiche und sichere Antworten zu bevorzugen.

Daher: Claude lehnt gefährliche Anfragen ab

Vereinfacht: Lesen lernen → Aufgaben üben → Feedback von Menschen

Open Source: OpenClaw (openclaw.org) — ein Open-Source-Projekt, das KI-Assistenten für alle Plattformen bereitstellt. Zeigt den Trend: KI-Entwicklung wird zunehmend offen und gemeinschaftlich.

KI-Landschaft 2026 — Die wichtigsten Modelle

Modell	Unternehmen	Typ	Stärken
Claude (Opus, Sonnet, Haiku)	Anthropic	Cloud	Coding, Analyse, Sicherheit, langes Kontextfenster
GPT-4o / o3	OpenAI	Cloud	Allrounder, breites Ökosystem, multimodal
Gemini	Google	Cloud	Google-Integration, sehr langes Kontextfenster
LLaMA	Meta	Open Source	Lokal nutzbar, starke Community, anpassbar
Mistral	Mistral AI (EU)	Open Source	EU-basiert, effizient, DSGVO-freundlich
Copilot	Microsoft / OpenAI	Cloud	Direkt in VS Code / GitHub integriert

Alle basieren auf der Transformer-Architektur. Die Unterschiede liegen in Trainingsdaten, Größe, Feinabstimmung und Lizenz.

LLM vs. SLM (Small Language Models)

LLM — Large Language Model

100B+ Parameter (Milliarden)
Laufen in der Cloud (riesige GPU-Cluster)
Sehr mächtig, breites Wissen
Teuer in Betrieb und Nutzung
Hohe Latenz möglich

Beispiele: Claude Opus, GPT-4o, Gemini Ultra, LLaMA 405B

SLM — Small Language Model

1–7B Parameter
Können lokal laufen (Laptop, Raspberry Pi)
Schneller, günstiger, privater
Weniger fähig, schmaleres Wissen
Ideal für spezifische Aufgaben

Beispiele: Phi-3, Gemma 2, LLaMA 7B, Mistral 7B

Wann welches? LLM für komplexe Aufgaben (Architektur-Entscheidungen, große Codebases). SLM für schnelle, einfache, private Aufgaben (Autovervollständigung, lokale Analyse).

Was kann ein LLM? Was nicht?

Das kann ein LLM

Code schreiben und erklären
Text zusammenfassen
Übersetzen (auch Programmiersprachen)
Konzepte erklären und Analogien finden
Muster in Daten erkennen
Bugs finden und Refactoring vorschlagen
Brainstorming und Ideenfindung

Das kann ein LLM NICHT

Zuverlässig rechnen (Mathe-Fehler möglich!)
Aktuelle Infos kennen (Wissenscutoff!)
Wirklich verstehen (statistische Muster)
Im Internet suchen (ohne Tools)
Dateien lesen/schreiben (ohne Tools)
Programme ausführen (ohne Sandbox)
Garantiert korrekt sein (Halluzinationen!)

Merke: Ein LLM ist ein extrem guter Textgenerator — kein allwissendes Orakel. Die "NICHT"-Spalte wird durch Tools und Agenten teilweise gelöst (nächste Vorlesung!).

Wichtige Konzepte für Entwickler

Context Window (Kontextfenster)

Wie viel Text das Modell "gleichzeitig sehen" kann
Claude: bis zu 200.000 Tokens (~150.000 Wörter)
Größeres Fenster = mehr Kontext = bessere Antworten
Aber: Kosten steigen mit der Länge

Temperature (Temperatur)

Steuert die "Kreativität" des Modells
0.0 = deterministisch, immer gleiche Antwort
1.0 = kreativ, variabel, mehr Zufall
Für Code: niedrig (0.0–0.3)
Für kreative Texte: höher (0.7–1.0)

Halluzinationen — Das größte Problem

LLMs "erfinden" manchmal Fakten, die plausibel klingen
Beispiele: Erfundene Bibliotheken, falsche API-Methoden, nicht existierende Papers
Warum? Das Modell optimiert auf "klingt richtig", nicht "ist richtig"
Gegenmaßnahmen:
- Code immer testen!
- Fakten unabhängig verifizieren
- RAG nutzen (siehe nächste Slide)

Vertrauen Sie KI-generiertem Code NIEMALS blind — testen, reviewen, verstehen!

RAG — Retrieval-Augmented Generation

Das Problem:

Ein LLM kennt nur seine Trainingsdaten. Es weiß nichts über Ihre Firma, Ihre Codebasis oder aktuelle Ereignisse → Halluzination!

RAG = eine automatisierte Pipeline zwischen User und LLM

Nicht einfach "Datei in den Chat kopieren" — sondern ein System, das automatisch die richtigen Dokumente findet und dem LLM gibt.

Technischer Ablauf:
                        User-Frage
                        →
                        Embedding
                        →
                        Vektorsuche
                        →
                        Kontext + Frage
                        →
                        LLM
                        →
                        Antwort
                    
Eigene Dokumente (PDFs, Code, Datenbanken) werden in Stücke zerlegt
Jedes Stück wird als Zahlenvektor (Embedding) in einer Vector-Datenbank gespeichert
Bei einer User-Frage: Frage wird auch zum Vektor → ähnlichste Dokument-Stücke werden gefunden
Diese Stücke werden automatisch dem Prompt hinzugefügt
LLM antwortet basierend auf echten Daten, nicht auf Raten

Ohne RAG:

"Was ist unsere Urlaubsregelung?" → Claude erfindet eine Antwort

Mit RAG:

System findet HR-Dokument → fügt es dem Prompt hinzu → Claude antwortet korrekt

Claude — Überblick

Entwickelt von Anthropic (San Francisco, gegründet 2021)
Aktuell: Claude 4 Familie (Opus, Sonnet, Haiku)
Stärken: Coding, Analyse, langes Kontextfenster, Sicherheit
Verfügbar über:
- claude.ai (Web-Interface — kostenlos registrieren!)
- API (für eigene Anwendungen)
- Claude Code (Terminal & VS Code Extension)
Claude for Education: Spezielles Programm für Hochschulen

Warum Claude für diesen Kurs?

Unsere Gründe

Langes Kontextfenster (200K Tokens) — ideal für große Codebases
Starke Coding-Fähigkeiten — besonders bei Architektur und Debugging
Education-Programm — kostenloser Zugang für Studierende
Sicherheitsfokus — RLHF und Constitutional AI
Claude Code — direkt in VS Code integriert
API-Zugang — für eigene Projekte nutzbar

Ehrliche Einordnung

GPT-4o ist ebenfalls sehr gut — besonders als Allrounder
Gemini hat ein riesiges Kontextfenster (1M+ Tokens)
Copilot ist direkt in GitHub integriert
Alle diese Tools sind für Entwickler nützlich

Wir nutzen Claude, weil das Education-Programm und die Coding-Stärke am besten zu unserem Kurs passen.

Sie dürfen für Ihr Projekt auch andere Tools nutzen! Wichtig ist, dass Sie den Code verstehen — nicht welches Tool ihn erzeugt hat.

Claude for Education — Zugang für Studierende

Sofort loslegen

Registrieren Sie sich kostenlos auf claude.ai — das reicht für den Einstieg!
Kein spezielles Programm nötig, jeder kann sich individuell anmelden
Kostenloser Account bietet bereits Zugang zu Claude Sonnet

Volles Education-Programm

Für Learning Mode (führt durch Denkprozesse statt Antworten zu geben), API-Credits und campus-weiten Zugang: Die Universität muss Anthropic direkt kontaktieren.

anthropic.com/education

Zertifizierungen (kostenlos!)

Sie können selbstständig Kurse und Zertifikate absolvieren:

Claude 101, Claude Code 101, AI Fluency, MCP

anthropic.skilljar.com

Registrieren Sie sich kostenlos auf claude.ai — das reicht für den Einstieg!

Claude Code — Terminal & VS Code

Claude Code ist die KI-Engine für Entwickler — sie läuft in zwei Modi:

Modus 1: Im Terminal

# Claude Code starten
$ claude

# Beispiel-Prompts:
> Erkläre mir dieses Projekt
> Finde den Bug in server.py
> Schreibe Unit-Tests für api.py

                        Modus 2: In VS Code
                        Extension: "Claude Code" im VS Code Marketplace installieren
Gleiche Funktionalität, bequemere Oberfläche
Inline-Hilfe, Code-Generierung, Refactoring
Terminal-Integration eingebaut

                    

Kann Dateien lesen, schreiben, erstellen und git-Befehle ausführen
Kann Tests schreiben und ausführen — versteht den gesamten Projekt-Kontext

Wenn Sie die VS Code Extension nutzen, nutzen Sie bereits Claude Code! Es ist dieselbe Engine.

Sie sind der Senior Developer, Claude ist Ihr Junior

NICHT so:

"Claude, schreibe mir alles"

Sie lernen nichts
Code ist nicht durchdacht
Keine Architektur-Entscheidungen
Können den Code nicht erklären

SONDERN so:

Sie designen, Claude implementiert

Sie entscheiden die Architektur
Sie definieren Datenstrukturen
Sie legen Schnittstellen fest
Sie reviewen jede Zeile

Claude ist wie ein sehr schneller Praktikant: produktiv, aber braucht klare Anweisungen und Code-Review.

Sie müssen VORHER wissen: Architektur, Datenstrukturen, Schnittstellen, Fehlerbehandlung.

Workflow eines Senior Developers mit Claude

1. ZUERST selbst denken: Systemarchitektur skizzieren — Welche Komponenten? Wie kommunizieren sie?

2. Variablen & Datenstrukturen definieren: Welche Daten? Welche Typen? Welches Format?

3. Schnittstellen festlegen: API-Endpunkte, Socket-Protokoll, Nachrichtenformat

4. DANN Claude beauftragen: Spezifische, kleine Aufgaben geben — nicht "mach alles"

5. Code REVIEWEN: Verstehe ich jede Zeile? Gibt es Sicherheitslücken? Edge Cases?

6. Testen & Iterieren: Fehler finden, Prompt verfeinern, erneut generieren lassen

Beispiel: Wetter-Dashboard planen

MEIN Systemdesign (bevor ich Claude frage):

MEIN SYSTEMDESIGN (bevor ich Claude frage):
├── Backend (Python, Flask)
│   ├── GET /api/weather?city=Berlin → Wetterdaten als JSON
│   ├── Daten von OpenWeatherMap API holen
│   └── Caching: Gleiche Stadt nur alle 10 Min neu abfragen
├── Frontend (HTML + JavaScript)
│   ├── Eingabefeld für Stadtname
│   ├── fetch() ruft Backend-API auf
│   └── Temperatur, Wind, Icon anzeigen
└── Datenmodell
    ├── Eingabe: {"city": "Berlin"}
    └── Ausgabe: {"temp": 18.5, "wind": 12, "desc": "bewölkt"}

Das ist die Arbeit des Senior Developers! Sie treffen die Entscheidungen über Architektur, API-Design und Datenformat — BEVOR Claude eine einzige Zeile schreibt.

So prompte ich Claude als Senior Developer

Guter Prompt (basierend auf Design)

Erstelle das Backend für mein
Wetter-Dashboard:
- Python mit Flask
- GET /api/weather?city=Berlin
- Daten von OpenWeatherMap holen
  (API-Key als Umgebungsvariable)
- Antwort als JSON:
  {"temp", "wind", "desc", "icon"}
- Caching mit Dictionary:
  gleiche Stadt nur alle 10 Min
  neu abfragen
- Fehlerbehandlung: Stadt nicht
  gefunden → 404 mit Meldung

Schlechter Prompt

"Schreibe mir eine Wetter-App"

→ Welches Framework?
→ Welche API?
→ Welches Datenformat?
→ Keine Fehlerbehandlung
→ Claude entscheidet alles
→ Sie verstehen den Code nicht

Je weniger Sie vorgeben, desto weniger verstehen Sie das Ergebnis!

Code-Review: Die wichtigste Fähigkeit

Was Sie bei KI-generiertem Code prüfen müssen:

Edge Cases: Was bei leerem Input? Was wenn die API nicht erreichbar ist?
Ressourcen: Sind Sockets geschlossen? Threads korrekt beendet?
Race Conditions: Mehrere Threads greifen auf gleiche Daten zu?
Eingabe-Validierung: Injection-Angriffe möglich?
Lesbarkeit: Sinnvolle Benennung? Klare Struktur?

Wenn Sie eine Zeile nicht erklären können, haben Sie den Code nicht verstanden!

Prompt Engineering — Grundlagen

Sei spezifisch: Sprache, Framework, Ziel benennen
Gib Kontext: Zielgruppe, Einschränkungen, Umgebung
Beispiele geben (Few-Shot): Zeige was du willst
Iteriere: Ergebnis → Feedback → Verbesserung

Schlecht

"Mach mir eine API"

Gut

"Erstelle einen REST-Server in
Python mit Flask:
- GET /api/sensors -> Liste (JSON)
- POST /api/sensors -> Hinzufügen
- Verwende SQLite
- Füge Error-Handling hinzu"

Prompt Engineering — Für Code

Tipps für bessere Prompts

Architektur beschreiben:
"Client-Server mit Sockets, Server multithreaded"
Einschränkungen nennen:
"Nur Standardbibliotheken, Python 3.10+"
Tests verlangen:
"Schreibe auch Unit-Tests dazu"
Erklärung verlangen:
"Erkläre jeden Abschnitt mit Kommentaren"

Beispiel-Prompt

# Guter Prompt für Claude Code:

Erstelle eine REST-API für eine
To-Do-Liste in Python mit Flask:
- GET /todos → alle Einträge
- POST /todos → neuen Eintrag
- DELETE /todos/<id> → löschen
- Daten in SQLite speichern
- Nur Standardbibliotheken + Flask
- Mit Docstrings und Typen
- Schreibe 3 Unit-Tests

Werkzeuge im Überblick

Was wir in diesem Kurs nutzen

claude.ai — Chat im Browser (kostenlos)
Claude Code in VS Code — KI direkt in der Entwicklungsumgebung

Was wir kennengelernt haben

RAG — eigene Dokumente als Wissensquelle für das LLM
MCP-Server — Werkzeuge für KI-Agenten (nächste VL)
Ollama — lokale Modelle, Daten bleiben auf dem Rechner

Zusammenfassung — VL 2

✓ LLMs, Tokens & Transformer verstanden

✓ RNN → LSTM → Transformer Evolution

✓ KI-Landschaft 2026: Wer bietet was?

✓ LLM vs. SLM — wann welches?

✓ Training: Pre-Training → Fine-Tuning → RLHF

✓ Halluzinationen erkennen & vermeiden

✓ Claude & Claude Code einsetzen

✓ Senior Developer Workflow mit KI

✓ Prompt Engineering Grundlagen

✓ Was LLMs können — und was nicht

Links & Ressourcen

Claude & Anthropic

→ claude.ai — Kostenlos registrieren
→ anthropic.com/education — Claude for Education
→ anthropic.skilljar.com — Zertifizierung
→ docs.anthropic.com/claude-code — Claude Code Docs

Weitere Ressourcen

→ arxiv.org/abs/1706.03762 — "Attention Is All You Need"
→ ollama.com — Lokale Modelle
→ platform.openai.com/tokenizer — Token-Visualizer
→ lmsys.org — LLM-Vergleich (Chatbot Arena)

Vielen Dank!

Fragen?

Prof. Dr. Alexandra Mikityuk

Büro Raum 308

Tel +49 30 5019-2664

Nächste Woche: KI-Agenten, MCP & Sicherheit

KI-Grundlagen für Entwickler:LLMs, Transformer & Claude