Podcast-Produktion im Bundeskanzleramt

Jonas Zellner
3. Apr.
6 Min. Lesezeit

Podcast-Aufnahme im Bundeskanzleramt: Wie wir für Focus Online bei Olaf Scholz produziert haben.

Es gibt Produktionen, bei denen alles stimmen muss. Kein Soundcheck, der zu lang dauert. Kein Kabel, das fehlt. Kein Akku, der leer ist. Eine Aufnahme im Bundeskanzleramt ist so eine Produktion.

Für Focus Online produzieren wir den "MUT - Der Deutschland Talk" mit Tijen Onaran.

Ein Interview-Format, das Tijen mit den wichtigsten Köpfen der deutschen Politik zusammenbringt - Olaf Scholz, Robert Habeck, Friedrich Merz, Margot Friedländer und viele weitere. Jede Aufnahme ist mobil, jede Location anders, jedes Zeitfenster eng.

Die Aufnahme im Bundeskanzleramt war die Produktion, die alles auf die Probe gestellt hat. Hier ist die Geschichte dahinter.

Die Ausgangslage: 30 Minuten, kein Plan B

Bei einem Interview mit dem Bundeskanzler bekommst du kein 3-Stunden-Setup-Fenster. Du bekommst einen Raum, eine Uhrzeit und ein eng getaktetes Zeitfenster. Der Ablauf steht fest, die Sicherheitsvorkehrungen sind streng, und wenn du nicht ready bist, wenn der Kanzler den Raum betritt, gibt es keine zweite Chance.

Das bedeutet: Jede Minute Aufbauzeit zählt. Jedes Gerät muss beim ersten Einschalten funktionieren. Und das gesamte Setup muss so durchdacht sein, dass nichts schiefgehen kann - oder wenn doch, ein Backup greift.

Das Video-Setup: Drei Perspektiven, maximale Sicherheit

Für diese Produktion hatten wir drei Kameras im Einsatz:

Zwei Sony FX30 für die Close-Ups - eine auf den Kanzler, eine auf Tijen. Die FX30 ist für ihren Preis eine der besten Cinema-Kameras auf dem Markt: Kompakt, zuverlässiger Autofokus, sauberes 4K-Bild mit dem Super-35-Sensor. In einer Situation, wo du die Kameras aufstellst und dann nicht mehr anfassen kannst, weil du hinter der Regie sitzt, ist ein stabiler Autofokus entscheidend. Die FX30 hat das geliefert.

Eine Sony FX6 als Totale, die beide Gesprächspartner im Bild zeigt. Die FX6 ist die größere Schwester - Full-Frame-Sensor, bessere Low-Light-Performance, mehr Dynamikumfang. Als Totale hat sie den Raum eingefangen: die Deutschlandfahne, die EU-Flagge, das Gemälde im Hintergrund. Details, die dem Bild sofort Kontext geben.

Alle drei Kameras haben intern auf ihre eigenen Speicherkarten aufgezeichnet. Gleichzeitig liefen alle Feeds in den ATEM Mini Extreme ISO, der als Backup-Recorder fungierte und alle Perspektiven nochmal separat in 4K auf SD-Karte gesichert hat. Doppelte Aufnahme auf jedem Kanal. Wenn eine Karte ausfällt, gibt es immer noch das ATEM-Backup. Und umgekehrt.

Die mobile Regie: ATEM Mini Extreme ISO

Der ATEM Mini Extreme ISO ist das Herzstück unseres mobilen Setups. Auf dem Multiview-Monitor sehe ich alle Kameraperspektiven gleichzeitig - Preview und Program, plus die einzelnen Kamera-Feeds. In Echtzeit kann ich prüfen: Stimmt der Fokus? Ist der Bildausschnitt korrekt? Ist das Licht gleichmäßig?

Gleichzeitig zeichnet der ATEM jede einzelne Kamera als ISO-Datei auf. ISO bedeutet: Jede Kamera wird als separate Datei gespeichert, unabhängig davon, was ich im Live-Mix schneide. In der Post-Production habe ich dadurch vollen Zugriff auf jede Perspektive und kann den Schnitt komplett neu machen - unabhängig von den Live-Entscheidungen.

Der ATEM ist nicht unser primärer Recorder. Er ist die Versicherung. Die primäre Aufnahme läuft intern auf den Kameras. Aber in einer Produktion auf diesem Level ist "Versicherung" kein Luxus - es ist Pflicht.

Audio: SM7Bs und Zoom F8n Pro

Auf den Bildern sieht man die Mikrofone auf Schwenkarmen direkt vor den Gesprächspartnern. Wir haben bei dieser Produktion mit SM7Bs gearbeitet - dynamische Mikrofone, die Umgebungsgeräusche gut unterdrücken und auch dann konsistent klingen, wenn sich der Sprecher mal etwas vom Mikrofon entfernt.

Die Aufnahme lief über einen Zoom F8n Pro - ein 8-Kanal Field Recorder mit 32-Bit Float Recording. Jedes Mikrofon auf einer eigenen Spur, jede Spur einzeln in der Post-Production bearbeitbar. Der 32-Bit Float sorgt dafür, dass Pegelprobleme quasi ausgeschlossen sind. Auch wenn der Kanzler plötzlich lauter wird als im Soundcheck - die Aufnahme clippt nicht.

Die Text-to-Speech Funkstrecke: Das System, das ich selbst entwickelt habe

Und dann gibt es das Detail, das uns von jeder anderen Podcast-Produktion unterscheidet. Ein System, das es so nicht zu kaufen gibt - weil ich es mir selbst ausgedacht habe.

Das Problem: Bei einem politischen Interview muss die Moderatorin spontan auf Aussagen reagieren können. Die Redaktion hat im Vorfeld Fragen vorbereitet, aber ein gutes Interview lebt davon, dass auf das Gesagte eingegangen wird - mit Nachfragen, Fakten-Checks, konkreten Zahlen. Die Redaktion sitzt hinter der Kamera und sieht Dinge, die die Moderatorin im Gespräch nicht sehen kann.

Und hier kommt der entscheidende Punkt: Wir hatten keinen separaten Regieraum. Die gesamte Technik - Kameras, ATEM, Audio, Laptop - stand im selben Raum wie das Interview. Zwei Meter hinter den Kameras. Während Tijen mit dem Bundeskanzler spricht, sitze ich direkt dahinter an der Regie. Ich kann nicht sprechen. Kein Flüstern, kein Zurufen, kein klassisches Earpiece mit Live-Regie-Ansagen - jedes Geräusch von meiner Seite wäre auf den Mikrofonen gelandet.

Die klassische Lösung wäre ein Earpiece mit einem Redakteur in einem separaten Raum, der reinspricht. Aber einen separaten Raum hatten wir nicht. Und selbst wenn - ein Redakteur, der live reinspricht, ist ablenkend. Während du versuchst, deinem Gesprächspartner zuzuhören und gleichzeitig eine Stimme im Ohr hast, die durcheinander redet, leidet die Gesprächsqualität.

Meine Lösung: Text-to-Speech über eine Funkstrecke. Lautlos, aus dem selben Raum, in Echtzeit.

So funktioniert es: Tijen trägt einen kleinen, auf Kamera nahezu unsichtbaren In-Ear-Kopfhörer. Der ist über eine Funkstrecke mit meinem Laptop verbunden, auf dem eine Text-to-Speech-Software läuft. Die Redaktion - oder ich selbst - tippt Nachrichten ein: eine Nachfrage, eine Zahl, einen Hinweis, ein Stichwort. Die Software wandelt den Text in eine ruhige, gleichmäßige Stimme um, die Tijen im Ohr hört.

Warum Text-to-Speech besser ist als ein klassisches Earpiece:

Komplett lautlose Kommunikation. Ich tippe, sie hört. Kein Wort wird gesprochen. Im selben Raum, zwei Meter vom Mikrofon entfernt, ist das der einzige Weg, in Echtzeit mit der Moderatorin zu kommunizieren, ohne die Aufnahme zu ruinieren.

Kontrolle über den Zeitpunkt. Ein Redakteur, der live reinspricht, kann schlecht timen - er redet vielleicht genau dann, wenn die Moderatorin selbst spricht. Bei Text-to-Speech tippt die Redaktion den Hinweis ein, und die Moderatorin hört ihn im nächsten natürlichen Gesprächsmoment - wenn der Gast spricht und sie zuhört.

Gleichmäßige, ruhige Stimme. Kein hektisches Flüstern, kein aufgeregtes Reinreden. Die synthetische Stimme ist neutral und gleichmäßig, was deutlich weniger ablenkt als eine echte Person im Ohr.

Kein Blickkontakt-Verlust. Die Moderatorin muss nicht auf ein Display schauen, nicht auf Zettel blicken, nicht auf ein Handy. Sie hört die Information im Ohr und behält den Blickkontakt mit ihrem Gesprächspartner. Das ist bei einem Interview mit dem Bundeskanzler nicht verhandelbar - jede Ablenkung fällt auf.

Unsichtbar auf Kamera. Der In-Ear ist so klein, dass er im fertigen Video nicht zu sehen ist. Kein Kabel, kein sichtbares Earpiece, kein technisches Element, das vom Gespräch ablenkt.

Dieses System haben wir bei jeder Produktion des Deutschland Talks eingesetzt - nicht nur im Bundeskanzleramt, sondern bei allen Interviews mit Spitzenpolitikern. Es hat sich als einer der größten Vorteile erwiesen, die wir unseren Kunden bieten können.

Das Equipment im Überblick

Alles, was wir für diese Produktion mitgebracht haben, passt in Kamera-Taschen und Cases, die in einen Van passen.

Video: 2x Sony FX30, 1x Sony FX6, Objektive, Stative, externe Monitore. Regie: ATEM Mini Extreme ISO, Multiview-Monitor, Kabel-Set. Audio: SM7Bs, Schwenkarme, Zoom F8n Pro, Kopfhörer, XLR-Kabel. Licht: Godox mit Softbox, Stative, Sandsäcke. Kommunikation: Laptop mit Text-to-Speech, Funkstrecke, In-Ear-Monitore. Backup: Extra-Akkus, Extra-Speicherkarten, Extra-Kabel für jeden Anschlusstyp.

Aufbau: Unter 60 Minuten. Abbau: 30 Minuten. Das ist ein komplettes Broadcast-Setup, komprimiert auf die Größe eines Umzugs.

Wie das heute aussehen würde

Seit dieser Produktion hat sich unser Equipment weiterentwickelt. Wenn wir die gleiche Aufnahme heute machen würden:

Video: 3x RED-Kameras (V-Raptor X und XE) in 8K plus eine Sony Burano und eine Sony A1 II. 5 Perspektiven statt 3. 8K-Aufnahme für maximale Post-Production-Flexibilität - aus einer Perspektive werden durch Reframing mehrere Einstellungen. Dazu ein automatisierter Slider für langsame Kamerafahrten auf der Totale.

Audio: Sound Devices 833 statt Zoom F8n Pro. Deity Theos Funkstrecken. Und die Mikrofone? Nicht mehr SM7Bs - unsere aktuelle Wahl kommt in einem eigenen Post.

Licht: Neue Godox-Systeme mit mehr Leistung.

Was gleich bleibt: Der ATEM als Backup-Regie. Die Text-to-Speech Funkstrecke. Und der Anspruch, dass bei einer Produktion auf diesem Level nichts dem Zufall überlassen wird.

Was ich aus dieser Produktion gelernt habe

Jede Produktion lehrt dich etwas. Die Aufnahme im Bundeskanzleramt hat mir drei Dinge bestätigt:

Erstens: Redundanz ist nicht verhandelbar. Doppelte Aufnahme, doppelte Speicher, Backup-Akkus für alles. Bei einer Produktion, die du nicht wiederholen kannst, ist jedes fehlende Backup ein Risiko, das du nicht eingehen darfst.

Zweitens: Die Aufbauzeit bestimmt dein Setup. Du kannst das perfekte Equipment haben - wenn du es nicht in der verfügbaren Zeit aufbauen kannst, bringt es nichts. Jedes Gerät, das wir mitnehmen, muss in unter einer Minute einsatzbereit sein. Alles, was länger braucht, fliegt aus dem Kit.

Drittens: Unsichtbare Technik ist die beste Technik. Das Text-to-Speech-System, die versteckten In-Ears, die Kameras, die laufen ohne bedient zu werden - je weniger der Gast von der Technik mitbekommt, desto natürlicher wird das Gespräch. Und ein natürliches Gespräch ist das Ziel jeder Podcast-Produktion.

Du planst ein Interview oder eine Produktion auf höchstem Level - on location, mobil, ohne Kompromisse? Schreib uns und wir besprechen, was möglich ist.