DOJO -- Tesla-Vorsprung durch Eigenentwicklung?

Auf Basis dieses Artikels …
Autonomes Fahren: Tesla erklärt Exaflops AI-Supercomputer Dojo - Golem.de

https://www.golem.de/news/autonomes-fahren-tesla-erklaert-exaflops-ai-supercomputer-dojo-2208-167822.html

kann hier darüber „gefachsimpelt“ werden …

Gruß

4 „Gefällt mir“

Einfach erklärt ist der Dojo kein allgemeingültiger Supercomputer, sondern wurde an manchen Stellen radikal vereinfacht (z.B. kein Virtual Memory), um Geschwindigkeit zu gewinnen oder spezialisiert (z.B. weniger Speicherbedarf für Gleitkommazahlen) um größere Anwendungen zu unterstützen.
Ansonsten hat man sich bemüht, nah an offenen Standards (z.B. RISC V) zu bleiben, um nicht überall das Rad neu erfinden zu müssen.
Insgesamt aber eine extrem beeindruckende Leistung.

Am Ende des Artikels wird noch angedeutet, dass noch etliche Probleme zu lösen sind vor einem produktiven Einsatz. Angesichts der Komplexität dieses Unterfangens liegt das auf der Hand.

2 „Gefällt mir“

Falls ich das richtig verstanden habe, ist Tesla hier wieder mal 2 Klassen voraus. Nicht nur dass man einen eigenen Rechner baut, man verwendet dazu auch eine eigens entwickelte CPU mit selbstentwickelter Software. Maximale vertikale Integration.

Währen andere Hersteller im besten Fall externe Rechenleistung zukaufen (müssen) und womöglich auch die Trainingssoftware.

Das ist schon ein gewaltiger Unterschied.

3 „Gefällt mir“

Klingt schon interessant. Ein etwas anderer, sehr radikaler Ansatz (wenngleich dadurch mit sehr stark eingeschränktem Einsatzgebiet).

Im Prinzip wurde die Hardware stark vereinfacht, wodurch die Software jedoch wieder deutlich komplizierter und aufwendiger sein muss. Steht ja auch am Ende des Artikels. Das kann schon auch ein Zeitfresser sein, speziell auch wenn man zukünftig Anpassungen an der Software vornimmt. Wenn man allerdings grad einen Softwarestand im Einsatz hat der problemlos läuft, gehts ab.

Wundert mich immer noch das Karpathy angesichts der anstehenden Inbetriebnahme des Computers gegangen ist. Aber vielleicht sieht er wesentlichen Forschungsbedarf auf KI-Gebieten die mit Dojo aufgrund des stark eingeschränkten Einsatzgebiets nicht abzudecken sind.

1 „Gefällt mir“

Nicht nur das, die haben auch neue Befehle und neue Zahlenformate entwickelt. Eben alles um möglichst schnell Matrizen durchzurechnen. Es ist ein Spezialcomputer, der für eine Aufgabe optimiert wurde, so wie die meisten Supercomputer für bestimmte Aufgaben (Simulationen) optimiert sind. Mit 1,1 ExaFlops setzt er sich an die Spitze der schnellsten Superrechner. TOP500 – Wikipedia.
Im Endausbau soll DOJO dann 20 ExaFlops erreichen.
Damit kann Tesla sehr große Mengen an Trainingsmaterial verarbeiten, die ja durch eine exponentiell wachsende Fahrzeugflotte auch exponentiell anwächst. Da hat EM vor 5 Jahren viel Weitblick gehabt, dass er so viel Geld, was ja damals noch nicht vorhanden war, in das Projekt steckt.

Peter

3 „Gefällt mir“

Elon hat es bereits erwähnt: ohne FSD zu lösen ist Tesla nichts wert.

Sie sind jedoch auf dem besten Weg FSD als erster und einziger Hersteller zu lösen.
Keine Party Tricks mit HD Maps und LIDAR, sondern eine echte AGI (Artificial General Intelligence).

Dies ermöglicht nicht nur FSD, sondern Robotaxi, Optimus und im nächsten Schritt SpaceX mit Optimus den Weltraum zu erobern.

Wer dies begreift kann sich gut vorstellen wo der Aktienkurs von Tesla und Co in den nächsten Jahrzehnten liegen wird.

9 „Gefällt mir“

Mit solchen Vergleichen sollten wir etwas vorsichtig sein. TOP500 basiert meines Wissens auf LINPACK mit 64bit Floating Point Datenworten, während die Tesla-Aussagen über Dojo für „kleinere“ Datentypen gemacht werden (CFloat16, CFloat8), so wie sie eben für das eigene ML-Anwendungsgebiet auch benötigt werden und eine höhere Effizienz erlauben. Da ist ein direkter Vergleich nicht möglich bzw. nicht wirklich aussagekräftig.

1 „Gefällt mir“

Magst du das erläutern? Wieso Partytrick?
Bezüglich AGI sagt dir sicherlich z.B. Deepmind Gato was, wo ist hier der Vorteil von Tesla (also nicht Ankündigungen, sondern tatsächlich was Vorzeigbares).

Das ist, was andere Hersteller betreiben.
GM Cruze setzt ihre Bolts nur in einem bestimmen Gebiet ein.
Selbiges mit ihren „normalen“ Autos nur auf bestimmten Highwayabschnitten.
Die Lösung von Mercedes ist ebenfalls nur auf Autobahn eingeschränkt.

Tesla versucht FSD generell auf allen Straßen in allen Fahrsituation zum laufen zu bekommen.
Quasi wie einen Fahrschüler, der fähig sein sollte, selbst fahren zu können.

So wie alle anderen Anbieter auch. Hier gibts keinen Unterschied im Ansatz. Das es einen Unterschied gäbe ist ein Mythos bei dem irgendwie niemand wirklich erklären kann woher der eigentlich kommt.

AV Myth #11: „Some autonomous vehicles are general, while others are specialized.“

Fact: There is no such distinction. All AV companies are pursuing the same ultimate goal. 1/n

The ultimate goal is an AV that can drive where most people want to go, for a price that most people are willing to pay, with better safety than most human drivers. 2/n

Some say that an AV that uses maps is „specialized,“ while an AV that doesn’t use maps is „general.“

This argument fails under light scrutiny, because maps are actually cheap and easy to make, and have never been a bottleneck for AV development. (https://twitter.com/warren_craddock/status/1565782559656517633) 3/n

Some say that AVs that use AI / ML / NNs are „general,“ while AVs that use „hard-coded rules“ are „specialized.“

This argument also fails under light scrutiny, because literally all AV companies use AI / ML / NNs – all of them, every single one! 4/n

Some say that AVs that use lidar or radar are „specialized,“ while AVs that use cameras are „general.“

This argument also fails, because every AV that uses lidar or radar also uses cameras.

If the use of cameras makes an AV „general,“ then all AVs are equally general. 5/n

Some say that „solving vision“ is what makes an AV general, but this isn’t a meaningful statement.

Vision can be decomposed into dozens of independent tasks, like detection, classification, segmentation, localization, etc. 6/n

Every AV has to do all of these vision tasks to make sense of any of its camera data. For example, you can’t do classification („what is in this image?“) and skip localization ("where is it in the world?).

All AVs use cameras, and all AVs must do all the same vision tasks. 7/n

Some say that a „specialized“ AV deployed in one area must be completely re-made to work in other areas.

This is just clearly false; after all, the main complaint that suburbia isn’t cool is, well, that suburbia alls looks pretty much the same. 8/n

Road users in one area look the same as road users in other areas, too. Honda cars look the same the world over.

And road users are the entire remaining challenge of AVs today. 9/n

In summary, all AVs are equally general. They’re all pursuing the same ultimate goal, and they all have to solve all the same problems.

Thanks for following along! 10/10

Es ist doch so, dass Tesla am meisten Trainingsdaten sammelt und deshalb muss auch der Trainingsrechner entsprechende Leistung aufweisen. Da ja beim KI Training massiv parallel gerechnet wird, ist eine spezielle Anpassung für die Aufgabe erfoderlich. Vor allem weil Tesla das labeling automatisiert hat, sind Menschen kein „Bottleneck“ mehr. Sobald Menschen aussen vor sind, ist der Geschwindigkeitszuwachs exponentiell.
Für DOJO hat Tesla nicht nur die CPUs für die Aufgabe (Lösen von extrem großem Matrizen) optimiert, sondern vor allem den Datenauschtausch optimiert und passend dazu die Compiler und Maschinenbefehlssätze neben neuen , eben optimalen Zahlenformaten für die Aufgabe eingeführt. Dieser ganzheitliche Ansatz ist einzigartig. Wahrscheinlich wird dieser Ansatz zum Standard für das Training von NN werden. Selbst Kritiker, bescheinigen, dass das Konzept optimal für NN ausgelegt ist aber eben schwer mit anderen Supercomputern vergleichbar ist, weil diese universeller ausgelegt sind.

Hier ist ein verhältnismäßig detailliertes Video zu DOJO von Ganesh Vetkataramanan (Leiter HW Entwicklung bei Tesla) und er beantwortet anschließend Fragen von Fachleuten. Leider verweist er auch auf AI Day, so dass wir für tiefere Info noch etwas warten müssen.
Das es bisher nur Ankündigungen und keine harten Fakten gibt, ist ja nicht verwunderlich, schließlich ist DOJO noch nicht im vollem Betrieb. Viele haben es lieber, wenn erst darüber gesprochen wird, wenn etwas fertig ist und nützen die bestehenden Unklarheiten gegen Tesla aus, aber wie immer, ist EM das egal. Tesla sagt öffentlich und damit auch der Konkurenz was es vor hat, es kann niemand später behaupten, dass hätten wir nicht ahnen können, dass man so etwas braucht um autonomes Fahren zu lösen.

Peter

4 „Gefällt mir“

Auto-labeling ist jetzt nichts was es nicht schon geben länger würde Looking to Speed Model Deployment? Reduce Data Labeling Time by 100x With AI Automation (Presented by Clarifai) | NVIDIA On-Demand
Aber bei der Sache bin ich bei dir, das hilft natürlich extrem und ein dafür spezialisierter Computer umso mehr.

Ich denke etwas Skepsis darf angebracht sein nach mehreren Jahren hintereinander „eigentlich ist es ja quasi fertig“, „solved problem“, „ready this year“ etc…

Hier ein passender Tweet (https://twitter.com/warren_craddock/status/1565142484660850688) dazu. Es geht nicht um nur die Fähigkeit, die ist einfach zu erreichen. Es geht um die Zuverlässigkeit. Im Blog bringt er die Analogie zu den Gebrüdern Wright und ihrem Flugzeug.

Let’s use an analogy: the Wright Brother’s first powered flight in Kitty Hawk, NC.

Their first flight clearly demonstrated capability. Their design, or something based on it, could clearly fly. Two bike repair guys had a stroke of genius!

Was the work done? Not even close.

The development of safe, reliable flight, available to the masses at economical prices, required a literal army of people.

Think of the millions of people who contributed to aircraft reliability over the decades: everything from metallurgy to engine design to avionics.

The AV industry is in a similar state in 2022.

If city streets were empty, just a static world of lanes and curbs and traffic lights, AVs would have been done 10 years ago.

If everyone on the road followed all the laws to the letter, AVs would have been done 5 years ago.

[…]

Making the AV reliable is the only remaining challenge in the AV industry.

„Making the AV reliable“ is 99.9% of the problem, just like it was with powered flight.

Das ist natürlich ein fettes Statement. Gefällt mir :D.
Kann am Ende in beide Richtungen los gehen, schließlich hats bisher noch keiner gelöst. Am Ende kanns genauso heißen, war doch klar dass man Lidar braucht, haben doch quasi alle benutzt. Wie konnte man das nicht sehen? Aber wird es so sein? Nobody knows. Vielleicht reicht die aktuell vorhandene Technik/Technologie am Ende auch einfach gar nicht aus und es muss noch irgendwas ganz Neues ausgedacht werden was bisher niemand auf dem Schirm hat (Hardware oder Software).

Auto labeling ist inzwischen zum Standard geworden. Die spannende Frage ist die Qualität des Labels und was alles auch erkannt, bzw. in einem Videofeed nicht erkannt wird. Die Qualität des NN hängt maßgeblich von der Labelqualität ab. Wir wissen allerdings auch nicht wie gut Tesla im Vergleich ist. Leistungsfähige Superrechner Ala DOJO sind eine notwendige Voraussetzung die enormen Datenmengen zu verarbeiten, auch wenn das nicht hinreichend ist.

Hie geht es ja um DOJO und da liegt er terminlich nicht so daneben wie beim Umsetzen des autonomen Fahrens. Das ist in der Tat ein langer Weg bis es genügend 9er an den 99% gibt.

Danke! Auch hier geht es um DOJO. Eine ausreichende Rechnerperformance ist eine absolute Voraussetzung, um das autonome Fahren zu ermöglichen. Die kann nie groß genug sein. Die NN werden immer größer und die HW Voraussetzungen werden immer höher um die NN schnell genug zu rechnen.
Da hatte aus meiner Sicht EM in 2016 eine gute Entscheidung getroffen, in die HW Entwicklung selber einzusteigen um nicht durch zu langsame Lieferanten gebremst zu werden. Zumindest kann Tesla niemand anders die Schuld geben als sich selber, wenn Sie es nicht hinbekommen. Deutsche Automobil CEOs können dagegen sich bequem zurücklegen und behaupten, die Technik sei noch nicht so weit und bringen alle 3 Jahre ein neues Modell mit geringfügig bessere Level2 Performance heraus. Die Frage ist doch wie lange dieses Geschäftsmodell noch funktioniert?

Ich bin auf jeden Fall auf den AI Tag gespannt was Tesla bezüglich DOJO und AI zeigen wird. Andere jedoch schlafen nicht, nur die klassischen Autohersteller haben die Zeichen der Zeit noch nicht erkannt, bzw. handeln nicht so wie sie es müssten. Das ist was mir Sorgen bereitet.

Peter

Rechenpower ist wichtig, klar. Aber drei der größten Mitbewerber auf dem Gebiet sind Google (Waymo), nvidia und Intel (Mobileye) da muss man sich um Rechenpower eher wenig Sorgen machen.
Die drei sind ja im Wesentlichen auch die Partner bei dem Thema für die deutschen Hersteller. Denke daher muss man sich um die auch keine Sorgen machen. Schon allein weil Mercedes (damals noch ohne Hilfe nvidia ist sonst groß Zulieferern) es geschafft hat, eins der ersten zertifizierten Level 3 Systeme auf den Markt zu bringen (also in gewissen Punkten das Thema mit den ganzen 9er hinter der 99 gelöst haben). Gerade Mercedes forscht schon so lange auf dem Gebiet, die haben da tiefgreifende Kenntnisse was das angeht. Letztlich weiß man am Ende nie was raus kommt.

Ich glaub es wird immer sehr viel erwartet, am Ende wird das ganze in Minischritten vorwärts gehen weil es immer härter wird die nächste 9 zu erreichen und bei jedem Anbieter werden immer wieder größere Änderungen die bisher niemand auf den Schirm hat eingebaut werden.
So wie man im FSD Teil des Forums liest arbeitet Tesla an der HW 4. Aber reicht das an Ende? Muss es nicht noch HW 5 und 6 geben und müssen vielleicht die Positionen der Kameras geändert werden? Das sind Dinge die nicht per OTA oder teilweise gar nicht gehen, im Prinzip schauen dann alle in die Röhre die ein altes Auto haben und davon ausgegangen sind dass das reicht.

Wo haben die viele neunen hinter der 99,? Das einzige wo ne 9 steht ist evtl. die hinter der 0,1 irgendwas, wenn es darum geht wo das System eingesetzt werden kann. Das einzige was Mercedes kann ist nem Fahrzeug hinterherzufahren. Wo sind die ganzen 99,99% Fahrzeuge von Mercedes in den Städten? Wenn die so weit wären, dann würde unser Stadtbild anders aussehen.

3 „Gefällt mir“

Es ist schon ein gewaltiger Unterschied ob man eine zukünftige Kernkompetenz selber macht oder zukauft und damit von einem Lieferanten abhängig ist.

Bei den Einschränkungen ist es aber kaum praxisrelevant, aber ja. Mercedes war der Erste.

Wer FSD gekauft hat, bekommt die nötige HW nachgerüstet, sollte sie nicht ausreichen. So wurde auch nachträglich auf HW3 aufgerüstet.

Peter

1 „Gefällt mir“