Bbabo NET

Wissenschaft & Technologie Nachrichten

xAI entdeckt die Gewichte und Architektur des Grok-1-Sprachmodells

Illustration von Midjourney

Elon Musks Startup xAI hat den Quellcode des Grok-1-Sprachmodells unter der Apache 2.0-Lizenz geöffnet. Sie bieten den Download von 300 GiB-Dateien mit MoE-Modellgewichten mit 314 Milliarden Parametern als Torrent an.

In den letzten Monaten hat OpenAI im Bereich der künstlichen Intelligenz erheblich an Aufmerksamkeit gewonnen. Dieses Unternehmen wurde im Dezember 2015 als Forschungsorganisation gegründet und von vielen namhaften Persönlichkeiten der High-Tech-Branche mitbegründet. Unter ihnen war Elon Musk.

Im Jahr 2018 verließ Musk OpenAI aufgrund unterschiedlicher Zielsetzungen. Später argumentierte er, dass die Organisation gegen die Mission verstoßen habe, für die sie gegründet wurde. Konkrete Einzelheiten dieses Konflikts wurden in den letzten Wochen geklärt.

Elon gab den Versuch, an der KI zu arbeiten, jedoch nicht auf. Im vergangenen April versprach der Geschäftsmann, ein Startup zu gründen, um ein vorurteilsfreies Large Language Model (LLM) zu entwickeln. Einen Monat zuvor gründete Musk die X Corp., in die er das Twitter-Unternehmen umbenannte. Ebenso nannte er das neue Startup xAI, obwohl er es von X Corp trennte. Struktur.

Im November 2023 stellte das Startup xAI BYM Grok vor. Zunächst konnten nur wenige Auserwählte, die von Musk persönlich eingeladen wurden, den Chatbot nutzen. Dann erhielten Abonnenten von X Premium+ Zugang, einem teureren (16 US-Dollar pro Monat oder 168 US-Dollar pro Jahr statt 8 US-Dollar oder 84 US-Dollar für Premium) kostenpflichtigen Abonnementplan für den X-Microblogging-Dienst.

Am vergangenen Montag, dem 11. März 2024, versprach Musk, Grok als Open-Source-Lösung bereitzustellen. Ein konkreter Tag wurde nicht genannt, in dem lakonischen Tweet hieß es nur „diese Woche“.

Angesichts der Tatsache, dass die Woche in den Vereinigten Staaten am Sonntag beginnt, hielt Elon sein Versprechen nicht. Nur sechs Tage später, am Sonntag, dem 17. März, um 22:12 Uhr Moskauer Zeit, erschien der Eintrag „░W░E░I░G░H░T░S░I░N░B░I░O░“ auf der Projektseite Mikroblog.

Der Text des Tweets ist ein Witz über den grassierenden Spam mit Pornografie, über den sich Nutzer In diesem Fall führt der Link zu Dateien zum Starten von BYM.

Auch der Vertriebsstil des Modells ähnelt etwas. Zuvor war das Startup Mistral AI in der KI-Community für die Veröffentlichung von Modellen in Form von Tweets (1, 2) mit Magnetlinks zu Torrents mit Dateien in Erinnerung geblieben. Gleichzeitig erklärte Mistral AI nichts: Es gab keine Pressemitteilungen, keine Aussagen zur Leistung in Benchmarks oder zumindest eine Erklärung dessen, was drin war.

Inhalt der RELEASE-Datei

Im Fall von xAI gibt es noch eine kurze Beschreibung. Es wird angegeben, dass Grok-1 ein gemischtes Expertenmodell (8 Experten, davon 2 aktiv) mit 314 Milliarden Parametern ist, wobei es 86 Milliarden aktive Parameter gibt. xAI hat dieses BYM von Grund auf trainiert. Das veröffentlichte Modell ist grundlegend und bietet keine Feinabstimmung für eine bestimmte Aufgabe.

Da das Modell 314 Milliarden Parameter hat, hätte Musks exzentrischer Stil die Veröffentlichung der Dateien am vergangenen Donnerstag erforderlich gemacht. Tatsache ist, dass das Datum 14. März in der amerikanischen Tradition als 3/14 geschrieben wird, weshalb es der Tag der Zahl genannt wird. Es ist wahrscheinlich, dass Elon dies tun wollte und die xAI-Spezialisten einfach zu spät zur Frist kamen.

Fast 300 GiB an Dateien mit Grok-1-Skalen werden über eine Torrent-Datei auf der Academic Torrents-Website oder über einen Magnet-Link verteilt. Anweisungen zum Ausführen von BYM finden Sie im Repository github.com/xai-org/grok-1 und auf Hugging Face. Es ist klar, dass ein Modell dieser Größe eine beträchtliche Menge an Grafikkartenspeicher für die Schlussfolgerung benötigt.

xAI schreibt, dass das Modell auf einer bestimmten großen Menge an Textdaten trainiert wurde. Datenquellen für das Grok-1-Training sind nicht angegeben.

Sowohl der veröffentlichte Code als auch die Grok-1-Gewichte sind unter Apache 2.0 lizenziert. Dies bedeutet, dass abgeleitete Werke unter einer anderen Lizenz weiterverbreitet und sogar in ein proprietäres kommerzielles Produkt umgewandelt werden können.

Tatsächlich bedeutet dies, dass von nun an ein zusätzliches Training des Grok-1-Modells geeignet sein könnte, einen Konkurrenten für OpenAI und Anthropic zu schaffen. Wenn Sie keinen eigenen Vorzug erstellen müssen, könnten Sie möglicherweise Millionen von Dollar einsparen. Diese Annahme wurde vom Spezialisten für maschinelles Lernen Andrei Burkov gemacht.

Vielleicht rechnet xAI damit: Die Veröffentlichung des Modells wird durch den Wunsch „Fröhliches Codieren!“ unterstützt.

xAI entdeckt die Gewichte und Architektur des Grok-1-Sprachmodells