Deutsches KI-Chip-Startup Tensordyne stellt Napier-System vor_Weltnachrichten

Deutsches KI-Chip-Startup Tensordyne stellt Napier-System vor

2026-06-21 17:05

Merken

de.wedoany.com-Bericht: Das deutsche KI-Chip-Startup Tensordyne hat ein neues System namens „Tensordyne Napier“ vorgestellt, das auf logarithmischer Mathematik basiert und herkömmliche Multiplizierer überflüssig macht. Bei der Ausführung von KI-Inferenzaufgaben liegt der Stromverbrauch bei etwa 300 Watt – deutlich weniger als die 1000 Watt vergleichbarer Chips von Nvidia.

Tensordyne mit Hauptsitzen in München und Sunnyvale wurde 2017 gegründet und beschäftigt rund 115 Mitarbeiter. Das Unternehmen hat den Chip bereits tape-outen lassen; gefertigt wird er von TSMC im 3-Nanometer-Verfahren. Kooperationen bestehen mit HPE Juniper Networks, Broadcom und TSMC. Die ersten rund 1000 Chips stammen aus Taiwan, die Leiterplatten werden ebenfalls dort produziert, und die Endmontage der Systeme erfolgt bei Flex in Malaysia.

Die Kerninnovation „TDN Math“ basiert auf der logarithmischen Rechenregel: Der Logarithmus von A multipliziert mit B entspricht dem Logarithmus von A plus dem Logarithmus von B. Dadurch wird die Multiplikation durch Addition ersetzt, und herkömmliche Multiplizierer werden überflüssig. Dies reduziert die reine Rechenfläche und den Stromverbrauch und schafft mehr Platz für Komponenten wie Speicher und Datenverbindungen. Derzeit beträgt die maximale Chipgröße etwa 800 Quadratmillimeter. Neben der Mathematik umfasst das System auch den eigens entwickelten KI-Prozessor „TDN AIP“ (mit integriertem SRAM und High-Bandwidth Memory auf dem Chip) sowie die chipübergreifende Verbindungstechnologie „TDN Link“ (mit einer Latenz von unter 1 Mikrosekunde).

Auf der Softwareseite unterstützt Tensordyne die Frameworks PyTorch und Triton und baut derzeit ein Modell-Repository auf Hugging Face auf. Große Mixture-of-Experts-Modelle wie DeepSeek, Qwen oder Kimi, die zuvor auf 64 Nvidia-Chips liefen, können direkt mit derselben Konfiguration eingesetzt werden. Der Unterschied liegt in der physischen Verbindung: Große Nvidia-Systeme nutzen zahlreiche Kabel, während Tensordyne die Kommunikation zwischen den Chips über die Gehäusetechnologie von HPE Juniper realisiert – vollständig kabellos und mit elektrischer Signalübertragung.

Technologieübersicht. (Bildquelle: Tensordyne)

Das Unternehmen hat bisher über 200 Millionen US-Dollar an Finanzierung eingeworben, darunter von Celesta Capital und dem Fonds von Intel-CEO Lip-Bu Tan. Eine Serie-D-Finanzierungsrunde ist für das vierte Quartal 2026 geplant. Tensordyne gibt an, bereits Vorbestellungen von mehreren „Neo-Cloud“-Anbietern erhalten zu haben und mit einem Hyperscaler (Name nicht genannt) eine gemeinsame Entwicklungsvereinbarung unterzeichnet zu haben. Einzelne Verträge belaufen sich auf etwa 10 bis 20 Millionen US-Dollar, und bis Jahresende wird ein Vorbestellungsvolumen von 100 Millionen US-Dollar erwartet.

Mitgründer Gilles Backhus erklärte, dass der Energieverbrauch von KI-Inferenzaufgaben aufgrund von Faktoren wie Videogenerierung drastisch steigen werde – ein einzelner 4K-Videostream in Echtzeit könne etwa 100 Kilowatt verbrauchen. Bei aktueller Nvidia-Hardware koste die Generierung einer Stunde KI-Videoinhalts über 1000 US-Dollar, während das Tensordyne-System die Kosten auf etwa 60 bis 100 US-Dollar pro Stunde senken könne – bei Echtzeitauslieferung und ohne Auflösungsverlust. Darüber hinaus könne die Antwortzeit für komplexe Abfragen durch die parallele Verarbeitung von 72 Chips auf 30 Sekunden verkürzt werden, und große Mixture-of-Experts-Modelle lieferten pro Benutzer und Sekunde bis zu 1000 Tokens aus. Die Kosten pro Million Tokens können auf der Website im „Tokenomics Calculator“ eingesehen werden. Backhus wies darauf hin, dass auch die Compiler-Qualität entscheidend sei – der Unterschied zwischen einem guten und einem exzellenten Compiler könne die Chip-Auslastung von 30 % auf 90 % steigern.

Backhus betonte, dass die wahre Innovation in der Architektur und Mathematik liege, nicht in der Materialauswahl. Die erste Generation von Chips im 7-Nanometer-Verfahren sei bereits mit logarithmischer Mathematik ausgestattet gewesen und habe in Dauertests rund zweieinhalb Jahre störungsfrei funktioniert. Der größte Engpass sei derzeit der High-Bandwidth Memory (HBM), der hauptsächlich von Samsung, Micron und SK Hynix produziert wird.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.