Google łączy siły z PyTorch firmy Meta, aby rzucić wyzwanie dominacji firmy Nvidia w dziedzinie sztucznej inteligencji

Ostatnia aktualizacja: 12/17/2025
  • Google pracuje nad technologią „TorchTPU”, która ma zapewnić pełną kompatybilność jego układów AI z PyTorch i ułatwić migrację z procesorów graficznych Nvidia.
  • Celem tego posunięcia jest uczynienie z układów TPU powszechnie stosowanej alternatywy w chmurze i na miejscu, zmniejszając zależność od ekosystemu CUDA firmy Nvidia.
  • Google ściśle współpracuje z firmą Meta, odpowiedzialną za PyTorch, i rozważa udostępnienie niektórych elementów pakietu jako oprogramowania typu open source w celu przyspieszenia wdrożenia.
  • Lepsze wsparcie dla PyTorch może obniżyć koszty i bariery techniczne dla przedsiębiorstw, które chcą zdywersyfikować swoją infrastrukturę AI.

Ekosystem sprzętu i oprogramowania AI

Google po cichu zmienia swój kształt strategia w wyścigu o obliczenia oparte na sztucznej inteligencjiPo kilku latach firma przywiązuje teraz dużą wagę do tego, aby jej układy AI bezproblemowo współpracowały z PyTorch, zestawem narzędzi typu open source, który stał się domyślnym wyborem większości programistów AI na całym świecie.

Sercem tej zmiany jest projekt znany wewnętrznie jako „TorchTPU”, inicjatywa mająca na celu zniwelowanie luki między sposobem budowy sprzętu Google a sposobem, w jaki klienci faktycznie budują swoje systemy AI. Dzięki udoskonaleniu obsługi PyTorch w swoich jednostkach przetwarzania tensorowego (TPU) do poziomu najwyższej klasy, Google chce stopniowo nadrobić zaległości. ogromna przewaga, jaką Nvidia zbudowała dzięki swojemu ekosystemowi oprogramowania CUDA.

Google sprawia, że ​​TPU stają się poważnym rywalem dla procesorów graficznych Nvidia

Od dawna uważa się, że TPU firmy Google to wysokowydajne układy dostosowane do obciążeń AI, ale nie dorównały one wszechobecności procesorów graficznych Nvidii. Jednym z głównych powodów jest to, że Nvidia przez lata dbała o to, aby PyTorch działał wyjątkowo dobrze na jej sprzęcie, podczas gdy Google koncentrowało się głównie na własnych narzędziach i wewnętrznych procesach.

W Alphabecie TPU stały się krytyczny silnik wzrostu dla Google CloudSprzedaż dostępu do tych chipów za pośrednictwem platformy chmurowej stanowi obecnie kluczowy element działań Google mających na celu udowodnienie inwestorom, że inwestycje w sztuczną inteligencję mogą przełożyć się na wymierne przychody, a nie tylko prestiż badań czy produkty eksperymentalne.

Jednak sam sprzęt nie przekona deweloperów. Przedsiębiorstwa rozważające zastosowanie TPU wielokrotnie informowały Google, że zgodność oprogramowania była punktem spornym:zespoły, które w dużym stopniu ujednoliciły środowisko PyTorch, nie chcą przeprojektowywać kodu ani przeszkalać personelu tylko po to, by wypróbować nowy układ.

Właśnie tu pojawia się TorchTPU. Inicjatywa ma na celu sprawić, aby z punktu widzenia programisty TPU wydawały się tak samo proste w obsłudze z PyTorch, jak dzisiejsze procesory graficzne NvidiaCelem jest przeniesienie istniejących modeli i potoków PyTorch przy minimalnych zmianach, co pozwoli znacząco obniżyć koszty i ryzyko eksperymentowania z układami TPU.

Rzecznik Google Cloud unikał wdawania się w szczegóły techniczne, ale potwierdził, że nadrzędnym celem jest zapewnienie klientom znacznie większa elastyczność w sposobie uruchamiania obciążeń AI, niezależnie od tego, jaki sprzęt wybiorą.

Co TorchTPU naprawdę zmienia dla programistów PyTorch

PyTorch, pierwotnie stworzony i promowany przez Meta, stał się de facto standardowe ramy do budowy nowoczesnych systemów AIWiększość inżynierów w Dolinie Krzemowej i poza nią nie pisze ręcznie kerneli dla układów Nvidia, AMD czy Google; zamiast tego polegają na PyTorch i podobnych frameworkach, które zapewniają warstwy wstępnie skompilowanych komponentów i narzędzi szkoleniowych.

Od momentu wydania w 2016 r. rozwój PyTorcha był ściśle powiązany z CUDA i otaczające ją biblioteki, stos oprogramowania, który wielu analityków z Wall Street uważa za najważniejszy strategiczny atut firmy Nvidia. Inżynierowie Nvidii zainwestowali znaczne środki, aby zapewnić maksymalną wydajność PyTorch na ich procesorach graficznych, dzięki czemu to połączenie stało się domyślnym wyborem do szkolenia i wdrażania modeli AI na dużą skalę.

Google natomiast przez lata wspierało Jax, kolejny framework oprogramowania preferowany zwłaszcza przez własne zespoły badawcze i produktowe. TPU opierały się na warstwie kompilatora zwanej XLA aby wydajnie uruchamiać kod oparty na Jax, a duża część wewnętrznego stosu oprogramowania AI i optymalizacji wydajności firmy Google została zbudowana wokół tej kombinacji.

W rezultacie nastąpiła rosnąca rozbieżność między jak sam Google wykorzystuje swoje chipy i jak preferuje pracę większość klientów zewnętrznych. Wiele przedsiębiorstw przeszło niemal całkowicie na platformę PyTorch, co oznacza, że ​​przejście na procesory TPU zazwyczaj wiązało się z rewolucyjną zmianą w zakresie narzędzi, kodu i umiejętności programistów.

Dzięki TorchTPU Google próbuje wyeliminować to tarcie. Projekt ma na celu dostarczenie pełne wsparcie PyTorch na układach TPUDzięki temu firmy mogą nadal korzystać ze znanych bibliotek, pętli szkoleniowych i wzorców wdrażania, zmieniając jedynie docelowy sprzęt. Może to znacznie zmniejszyć nakład pracy inżynierów i krzywą uczenia się dla zespołów, które chcą ocenić wydajność TPU lub korzyści kosztowe.

Więcej zasobów, otwarte oprogramowanie i głębsze zaangażowanie

Według osób znających tę inicjatywę, TorchTPU nie jest tylko kolejnym eksperymentem pobocznym. W przeciwieństwie do wcześniejszych prób uruchomienia PyTorcha na procesorach TPU, Google przypisał teraz większa uwaga organizacyjna, budżet i znaczenie strategiczne do tego przedsięwzięcia, traktując je jako centralny filar planu rozwoju infrastruktury AI, a nie jako niszowy projekt mający na celu zapewnienie kompatybilności.

Jednym z najbardziej znaczących elementów branych pod uwagę jest udostępnianie części stosu oprogramowania w formie kodu źródłowego Za TorchTPU. Udostępniając społeczności kluczowe komponenty, Google ma nadzieję przyspieszyć adopcję, przyciągnąć zewnętrznych współpracowników i zbudować zaufanie wśród dużych klientów, którzy oczekują przejrzystości i długoterminowej stabilności swoich platform AI.

To bardziej otwarte podejście ma również uspokoić firmy, które postrzegały wsparcie dla TPU jako zbyt ściśle powiązane z wewnętrznym sposobem działania Google. Udzielenie zewnętrznym programistom możliwości inspekcji, rozbudowy i debugowania komponentów TorchTPU mogłoby znacznie ułatwić TPU mniej przypominają zastrzeżoną wyspę i bardziej jak obywatel pierwszej klasy w szerszym ekosystemie PyTorch.

Dla przedsiębiorstw ma to praktyczne znaczenie. Jeśli TorchTPU odniesie sukces, może to znacząco obniż koszty migracji z procesorów graficznych Nvidia do procesorów TPU firmy Google, co ułatwia dywersyfikację infrastruktury obliczeniowej bez konieczności przeprowadzania wieloletniego przepisywania oprogramowania.

Klienci wielokrotnie informowali Google, że historyczny wymóg przejścia na Jax stanowił poważny czynnik odstraszający. PyTorch już dominuje wśród programistów AI, a na dynamicznie rozwijających się rynkach niewiele organizacji jest skłonnych wstrzymać plany rozwoju produktów, aby ich zespoły mogły przebudowa wokół nowych ram tylko po to, aby uzyskać dostęp do alternatywnego sprzętu.

Od sprzętu wewnętrznego do szerokiej oferty korporacyjnej

Przez długi czas Alphabet zachowywał większość swojej pojemności TPU dla do użytku wewnętrznego w Google, napędzając wyszukiwanie, tłumaczenia, systemy rekomendacji i wczesne badania nad sztuczną inteligencją. To stanowisko zaczęło się zmieniać w 2022 roku, kiedy dział przetwarzania w chmurze uzyskał większą kontrolę nad sposobem produkcji i sprzedaży TPU.

Od tego czasu dostępność TPU poprzez Google Cloud znacznie wzrósłWraz ze wzrostem zainteresowania przedsiębiorstw sztuczną inteligencją, Google pozycjonuje swoje układy jako sposób na umożliwienie klientom dostępu do zaawansowanych obliczeń bez konieczności zarządzania własnymi, ściśle powiązanymi klastrami GPU.

Niedawno Google poszło o krok dalej, sprzedaż układów TPU bezpośrednio do wdrożenia w centrach danych klientów, nie tylko poprzez chmurę publiczną. Ta zmiana pozwala większym organizacjom, które mają surowe wymagania regulacyjne lub dotyczące opóźnień, integrować procesory TPU z infrastrukturą lokalną, jednocześnie korzystając z planu rozwoju sprzętu Google.

Ta ekspansja zmienia również wewnętrzne priorytety Google. Firma potrzebuje pojemności TPU, aby prowadzić własne produkty AI—od chatbota Gemini po funkcje wyszukiwania oparte na sztucznej inteligencji — a także do obsługi zewnętrznych klientów Google Cloud, w tym znanych firm z branży sztucznej inteligencji, takich jak Anthropic, które polegają na wynajmowanej pojemności TPU.

Aby skoordynować to wszystko, Google podniosło rangę lidera w dziedzinie infrastruktury AI: doświadczony dyrektor Amin Vahdat został mianowany szefem infrastruktury AI i obecnie podlega bezpośrednio dyrektorowi generalnemu Sundar PichaiTa linia raportowania podkreśla, jak ważną rolę odgrywa sprzęt i oprogramowanie w szerszych ambicjach Google w zakresie sztucznej inteligencji.

Partnerstwo z Meta w celu wzmocnienia PyTorch na procesorach TPU

Google nie jest jedynym podmiotem zainteresowanym TorchTPU. Według osób znających rozmowy, firma ściśle współpracuje z Meta, twórca i zarządca PyTorch, aby przyspieszyć wsparcie dla TPU i uzgodnić kierunki techniczne korzystne dla obu partnerów.

Rozmowy między firmami obejmują ustalenia, które zapewniłyby Meta dostęp do większej pojemności TPUWcześniejsze propozycje rzekomo przedstawiały to jako usługi zarządzane: Google wdrażałoby swoje układy w środowiskach, w których Meta mogłaby uruchamiać własne oprogramowanie i modele, a Google ponosiłoby większość kosztów operacyjnych.

Dla Meta zapewnienie wydajnego działania PyTorcha na szerszej gamie sprzętu ma strategiczne znaczenie. Firma ma wyraźną motywację, aby… zmniejszyć koszty wnioskowania i zdywersyfikować się, rezygnując z wyłącznego polegania na procesorach graficznych Nvidia, aby obniżyć własne wydatki i wzmocnić swoją pozycję negocjacyjną podczas negocjacji przyszłych zakupów układów scalonych.

Współpracując z Google, Meta może pomóc zapewnić, że PyTorch pozostanie niezależny od sprzętu i szeroko zoptymalizowany, zamiast postrzegać go jako ściśle powiązanego z ekosystemem jednego dostawcy. To z kolei wzmacnia pozycję PyTorch jako standardu społecznościowego i sprawia, że ​​framework pozostaje atrakcyjny zarówno dla badaczy, jak i przedsiębiorstw.

Meta jak dotąd nie zgodziła się na publiczny komentarz w sprawie tych konkretnych ustaleń, ale zgodność interesów jest oczywista:gigant mediów społecznościowych i sztucznej inteligencji chce rozwiązań wykraczających poza technologię Nvidii, podczas gdy Google chce, aby PyTorch był natywny dla jego procesorów TPU, tak aby więcej klientów było chętnych do wypróbowania go.

Ograniczanie przewagi CUDA firmy Nvidia

Dominacja Nvidii w dziedzinie sztucznej inteligencji nie ogranicza się jedynie do dostarczania wydajnych procesorów graficznych. Przez wiele lat firma zbudowała rozbudowany stos oprogramowania, oparty na platformie PyTorch, który jest głęboko zintegrowany z frameworkami takimi jak PyTorch. To połączenie sprzętu i oprogramowania stało się domyślną platformą szkoleniową i wnioskowania dla najnowocześniejszych modeli sztucznej inteligencji.

Ze względu na tę ścisłą integrację wiele organizacji widzi odejście od Nvidii jest ryzykowne i kosztowneBazy kodów, przepływy pracy i kompetencje personelu są dostosowane do technologii CUDA, przez co alternatywne układy scalone wydają się potencjalnym źródłem problemów, nawet jeśli na papierze obiecują lepszą cenę lub wydajność.

Wysiłek Google'a w zakresie TorchTPU to bezpośrednia próba zniweczenia tej przewagi. Jeśli PyTorch będzie działał na procesorach TPU z podobnym poziomem łatwości i wydajności, jak na procesorach graficznych Nvidia, przedsiębiorstwa zyskają wiarygodna alternatywa dla dużych obciążeń AINa rynku, na którym popyt na rozwiązania z zakresu sztucznej inteligencji gwałtownie rośnie, a ograniczenia podaży są powszechne, posiadanie innej poważnej opcji może okazać się bardzo atrakcyjne.

Jednocześnie decyzja Google o udostępnieniu kluczowych elementów stosu TorchTPU w ramach open-source sygnalizuje odmienne podejście od bardziej zintegrowanego pionowo stylu Nvidii. Udostępniając większą część oprogramowania bazowego, Google dąży do budować zaufanie wśród programistów ceniących przejrzystość i przenośność.

Nic z tego nie gwarantuje, że układy TPU zastąpią układy GPU, ale zmienia to rachunek. Zamiast wybierać między dojrzałym ekosystemem Nvidii a alternatywą wymagającą pełnej migracji zestawu narzędzi, klienci mogliby rozważyć wydajność, koszt i dostępność pozostając w znajomym środowisku PyTorch.

W przypadku wdrożeń w chmurze i lokalnie ta zmiana może ułatwić organizacjom mieszaj i dopasowuj dostawców sprzętu z czasem, zamiast domyślnie przypisywać plany rozwoju sztucznej inteligencji pojedynczemu dostawcy.

W miarę jak Google pogłębia swoje zaangażowanie w PyTorch za pośrednictwem TorchTPU, zwiększa dostęp przedsiębiorstw do TPU i zacieśnia współpracę z Meta, krajobraz konkurencyjny wokół infrastruktury AI staje się coraz bardziej płynny. Przewaga Nvidii, zbudowana na latach integracji sprzętu i CUDA, jest nadal znacząca, ale klienci widzą teraz bardziej realistyczne ścieżki dywersyfikacji miejsc, w których uruchamiane są obciążenia AI, oraz wysokości opłat za podstawowe obliczenia.

Wyłącznik awaryjny
Podobne artykuł:
Nvidia odpiera oskarżenia o „wyłącznik awaryjny” i propozycje polityki dotyczącej układów AI
Powiązane posty: