FSD Beta (USA) und zukünftige FSD-Versionen von Tesla (Teil 1)

Im Moment finde ich die Quelle nicht mehr. Soweit ich mich erinnere wurde dies als Voraussetzung für die Implementierung des Single Stack’s genannt.

Das glaube ich nicht, das macht wenig Sinn. Single Stack heißt nur, dass die für City Streets entwickelten NNs und Logik auf NoA, also Highways, übertragen werden. Und ggf. noch Summon. Sodass alle Bereiche die gleiche Basis benutzen und nicht zwischen unterschiedlichen Modulen gewechselt werden muss und alle Bereiche von den neuen Möglichkeiten profitieren können.

3 „Gefällt mir“

Ich habe bis heute nicht ganz verstanden, warum die Sensor-Fusion (Radar + Video) nicht auch im NN gemacht werden kann. Das Radar wäre einfach eine zusätzliche (2D?)-Matrix an Werten, die als zusätzlicher Input an das NN geht. Das NN kann sich dann selber durch Training so konfigurieren, in gewissen Situationen dem Radar die Oberhand zu geben und in anderen es zu ignorieren…

Ich sehe das vereinfacht so:
Das Kamerabild muss analysiert werden auf die enthaltenen relevanten Objekte. Mehrere Kameras bilden zusammen den 360 Grad Sicht (Rundumsicht).
Die Abfolge der Rundumsicht und deren Vorhersage führt zur 4D Sicht (Rundumsicht in der Zeit).
Der Radar liefert ein ortogonales Signal; wenn nun 4D sagt da is nix und Radar sieht was - wer hat dann Recht?
Das ist das grundsätzliche Problem des Radar Sensors.

2 „Gefällt mir“

Ich glaube es ist in manchen Situationen prinzipiell nicht möglich das Radarsignal eindeutig einem Objekt zuzuordnen. Auch nicht durch ein NN. Es ist einfach teilweise doppeldeutig und das lässt sich aus Mangel an Informationen nicht auflösen. So ist mein Verständnis zumindest.

Ich glaube @cooliopenguin kann das vielleicht kompetenter einschätzen und/oder erklären.

4 „Gefällt mir“

Ist das „Sehen“ binär oder eher probabilistisch? Falls der Identifikation eines Objekts eine gewisse Wahrscheinlichkeit unterliegt, dann könnte man die Information des Radars nur dann hernehmen, wenn der Wahrscheinlichkeitswert unter (oder über) einem gewissen Schwellenwert sinkt (oder steigt). D.h., wenn 4D sich „sicher“ ist, dass da ein Objekt ist, dann wird Radar nicht herangezogen. Wenn 4D sagt, da könnte was sein, aber ich bin mir nicht sicher, dann wird Ragar herangezogen. Wenn 4D nichts sieht, dann wird Radar auch ignoriert. Dann wäre klar geregelt, wer die „Oberhand“ hat.

1 „Gefällt mir“

Also so richtig super kompetent bin ich in dem Bereich auch nicht. Ich dilettiere da auch ziemlich.

Das ganze Thema „Zuordnen durch ein NN“ ist ja problematisch. Im Moment macht Tesla das ja nicht so. Man kann nicht alles einfach mit NNs erschlagen, je mehr verschiedene Inputs die gleichzeitig auswerten sollen, desto unzuverlässiger werden die Ergebnisse.
Deswegen schichtet man die ja auch.

Genau an dem Punkt scheint Tesla ja lange Probleme gehabt zu haben. Die ganze 4D-Objektkontinuitäts-Geschichte kommt ja daher. Sie hatten wohl vorher versucht, in jedem einzelnen Bild Objekte zu erkennen und die dann einender zuzuordnen und das hat nicht geklappt.
Dann war der erste komplette Rewrite, die Bilder erstmal zu einem einheitlichen Bildraum zusammenzufügen (das vermutlich noch rein geometrisch) und auf dem dann die Objekterkennung und -Klassifikation laufen zu lassen.
In diesen Objektraum passen aber die Radardaten nicht rein. Die kommen in einem anderen Format, sie kommen fertig klassifiziert vom Radar und sie haben geometrisch gesehen ganz andere Toleranzbereiche, eine andere zeitliche und räumliche Auflösung etc. Ich vermute mal, diese beiden Objektebenen haben sie genauso wenig zusammenbekommen, wie vorher die Objekte aus den einzelnen Kamerabildern. Deshalb - oder weil das Radar schlecht lieferbar war, wer weiß - haben sie das dann aufgegeben und sind auf Vision only.
Ein Problem weg, aber halt auch eine Informationsquelle weg.

Was man dabei aber halt nicht vergessen darf: die ganze Klassifiziererei ist ja nur die halbe Miete. Danach muss dann noch eine Entscheidungslogik her, wie man auf die Klassifikation reagiert. Und dann noch so Kleinigkeiten wie das Matchen mit der Karte. Da scheinen sie ja den umgekehrten Weg zu gehen (wenn man Green so verfolgt) und der Karte wieder eher mehr Gewicht zu geben, wahrscheinlich war die Erkennung von Straßen rein aus der Geometrie dann doch nicht so einfach in den ganzen Grenzfällen.

Es ist ja auch so: diese ganzen Positivfälle „oh das da kann das Auto aber schon gut“ sind ja vom Aussagelevel her relativ wertlos, interessant ist ja vor allem, was das Auto NICHT gut kann. Eine weitgehend menschenleere Straße autonom lang fahren ist ein seit (mindestens) 30 Jahren gelöstes Problem, mit den Grenzfällen klar zu kommen ist das, was seitdem die gesamte Entwicklung ausmacht.

Ich verstehe auch nicht ganz, was sich Tesla so sehr von Dojo verspricht. Ich finde den Ansatz dahinter zum Teil ein bisschen „von hinten durch die Brust ins Auge“. Da werden Dinge, die eigentlich algorithmisch beschrieben sind, künstlich über den Weg der Bild-Selektion bzw. sogar Simulation in ein NN eingespielt, das kann am Ende theoretisch nur schlechter werden (Informationsverlust auf dem Weg) als den Algorithmus direkt zu implementieren. Klar, man vereinheitlicht damit die Architektur, aber man gewinnt eigentlich keine neue Logik, die wird eigentlich nur unschärfer und fehleranfälliger.

3 „Gefällt mir“

Ich glaube die werden einfach als ein Tensor gestackt da reingefüttert. Heraus kommen dann je nach NN object detections, die birds eye view usw. Das ist also recht elegant eigentlich.

Man könnte jetzt halt naiv auf die Idee kommen das Radar da noch als zusätzlichen Input reinzufüttern, aber da wäre dann echt die Frage wie das genau aussehen sollte.

Ich finde Vision only als Konzept schon sehr schön und elegant. Noch ist es aber ein bisschen roh. Beispielsweise bremst das System heftig für jeden LkW der einem entgegen kommt. Da fragt man sich wieso, ohne Radar kann es da ja eigentlich keine Zuordnungsschwierigkeiten mehr geben. Der sieht doch auf welcher Spur der LKW fährt.

https://twitter.com/tesmed21/status/1464352911106838529?s=21

https://twitter.com/tesmed21/status/1464354328802566146?s=21

Nach meiner Ansicht wurde das Projekt 4D inklusive Radar eingestellt, weil innerhalb der Frist von ca. 6 Monaten, welche Karpathy von Musk gestellt wurde, zuwenig Fortschritte erzielt wurden.

Falls bei PureVision eine ähnliche Frist ab dem Projektstart im Mai 2021 vorhanden war, würden wir uns jetzt wieder einem kritischen Termin nähern. :wink:

Bei den Videos würde ich vermuten, der sieht den Schatten von dem LKW und ist sich evtl. unsicher, ob in dem Schatten noch Objekte sind. Bei den PKW davor ist der Schatten kürzer, da bekommt er das wahrscheinlich noch hin.

1 „Gefällt mir“

Ach wie praktisch wäre doch ein Radar oder LIDAR in der Situation. Aber das würde ja Geld kosten.

1 „Gefällt mir“

Die Twitter-Videos von TesMed zeigen Fahrten mit dem 2 Jahre alten Assistenzsystemen und ohne die FSD Beta (um die es hier in diesem Thread geht)!

2 „Gefällt mir“

Das stimmt ja so nicht, weil das Vision only ist. Und Stand heute ist das auf dem Highway der selbe Stack.

In City Streets gibt es auch viele Phantombremsungen, ist also legitim zu diskutieren wie das passieren kann. Aktuell gibt es gefühlt mit Vision mehr Phantombremsungen als mit Vision + Radar.

Also mir stellt sich das anders dar.

  1. Phantombremsungen (z.B. bei Lkw-oder Brückenschatten) treten derzeit mit AP/EAP bei manchen (nicht allen!) Teslas vor allem auf Autobahnen auf (vgl. FAQ und Diskussion hier im Forum).
  2. AP/EAP ist alter Code (aka Stack), der nicht mehr weiterentwickelt wird.
  3. Die FSD Beta in den USA ist neuer Code (KI-basiert, Vision-only, 4D) und derzeit nur für Städte und Landstraßen verfügbar. Phantombremsungen (wie unter 1.) habe ich in den vielen Videos der FSD Beta bisher nicht gesehen.
  4. Eine Verschmelzung des AP (2.) und FSD-Beta-Codes (3.) ist mit der FSD Beta 11 zu einem Single-Stack frühestens im Februar 2022 zu erwarten. Ich gehe davon aus, dass dann der AP-Code (2.) komplett durch FSD-Beta-Code (3.) ersetzt wird.

Tesla liefert in den USA Neufahrzeuge ohne Radar aus. Was dies für den mit diesen Fahrzeugen ausgelieferten AP-Code bedeutet ist (mir) unklar. Offensichtlich (vgl. Twitter-Videos von TesMed) hat dies keinen Einfluss auf die Phantombremsungen. Daraus schließe ich, dass der Code unverändert ist und kein FSD-Beta-Code verwendet wird. Zumal der FSD-Beta-Code ja noch im Testbetrieb und noch nicht freigegeben ist.

2 „Gefällt mir“

Es ist aber primär neuer zusätzlicher Code. Stand heute ist immer noch sehr viel mit dem alten Stack geteilt. Das wird auch nach V11 noch eine Weile weitergehen, bis wirklich alle NNs auf Surround usw. umgestellt sind.

KI basiert war das vorher natürlich auch.

Kommt vor.

Das bedeutet, dass die Funktion des Radars (Entfernungen, Geschwindigkeiten) durch eine neue Vision Komponente ersetzt wurde. Der Rest des Stacks bleibt davon unberührt. Das selbe NN dürfte auch in der FSD Beta eingesetzt werden, ich denke es kommt ursprünglich aus diesem Entwicklungszweig.

Doch, Phantombremsungen sind dramatisch schlimmer geworden. Bis zu dem Punkt dass Leute auf AP/TACC verzichten und Autotester das Model Y nicht empfehlen. Der Aufschrei bei Twitter und Co. war schwer zu übersehen.

Das wird Tesla aber schon in den Griff bekommen.

Wow, ich hatte von Anfang an Wenige… und an den Letzten kann ich mich zeitlich nicht mehr erinnern …
Diese enormen Varianzen erstaunen mich ja schon!

3 „Gefällt mir“

Ich habe auch quasi keine. Ich bin voll zufrieden. Aber wir haben hier eben auch Radar. Angeblich ist das ja so problematisch, tatsächlich funktioniert es aber ganz gut.

Die Probleme kamen in Nordamerika mit den Vision only Fahrzeugen ohne Radar. Deshalb hab ich Stand heute Angst davor, dass Tesla auch hier das Radar deaktiviert. Bis dahin müssen die das bitte noch ordentlich überarbeiten.

1 „Gefällt mir“

In einem der aktuellen Videos von Rocco Speranza sagt er, dass sich die Phantombremsungen mit 10.8 um (wahrscheinlich gefühlt) 90% reduziert haben. Finde die Stelle gerade nicht, aber es scheint jedenfalls besser zu werden.

2 „Gefällt mir“

Ah, sehr gut. Das habe ich noch nicht gesehen.

Wo fahrt ihr eigentlich her, sowas hatte ich noch nie?

1 „Gefällt mir“