Sztuczna Inteligencja – stracone szanse Microsoftu

Terminy „sztuczna inteligencja” czy „AI” (Artificial Intelligence) są wyjątkowo często nadużywane, przez co tracą na ostrości znaczenia. To worek, do którego wrzuca się między innymi algorytmy uczenia maszynowego, rozpoznawanie mowy, przetwarzanie języka naturalnego (NLP), sieci neuronowe czy algorytmy przetwarzania obrazu. Największe firmy prześcigają się w dopracowywaniu oprogramowania, które ma zautomatyzować wiele codziennych czynności i wprowadzić do naszego życia wirtualnych asystentów. Firmy takie jak Google, Microsoft, Amazon czy IBM wydają setki milionów dolarów na działy badawczo-rozwojowe, rojące się od utytułowanych naukowców zajmujących się algorytmiką czy sieciami neuronowymi.

To jednak nie zawsze wystarcza. A najlepszym tego przykładem jest Microsoft i jego dział MSR (Microsoft Research). Za czasów Ballmera, MSR miał pełną autonomię i swobodę działania. Zaledwie pojedyncze pomysły czy efekty badań trafiały do finalnych produktów. Z jednej strony sprzyja to pracy naukowej bez korporacyjnego pręgieża, ale z drugiej sprawia, że ponosi się ogromne koszty przy minimalnych rezultatach. Nowy prezes firmy, Satya Nadella, postanowił to zmienić i powołał do życia MSR NExT (New Experiences and Technologies) pod wodzą Petera Lee. Dział ten ma zajmować się nauką stosowaną i szybkim wprowadzaniem produktów u usług na rynek – tak jak do tej pory (od dawna) robiło to Google. Nową rolę dostał też inny znany manager z MSR, Harry Shum – został dyrektorem wykonawczym grupy badawczej zajmującej się sztuczną inteligencją (Artificial Intelligence and Research group). I tym razem, zespół ten ma skupić się na szybkim stosowaniem rezultatów badań w gotowych produktach. Na efekty tych zmian organizacyjnych będziemy jednak musieli poczekać.

Jednak to nie algorytmy czy brak szybkich rezultatów jest dla Microsoftu problemem. A wręcz przeciwnie. MSR od dawna wygrywa w wielu niezależnych konkursach na najlepsze algorytmy do rozpoznawania mowy czy obrazu. Dlaczego więc Cortana, wyszukiwarka Bing, Mapy, Zdjęcia, Bing Translator czy inne narzędzia i usługi od MS wydają się pozostawać w tyle za ich odpowiednikami od Google’a? Moim zdaniem odpowiedź jest jasna: źródła danych, społeczność i regionalizacja.

learning1. Zacznijmy od źródeł danych. Google rozpoczęło na dobre złote lata Internetu. I w ciągu kilku lat stało się monopolistą w dostarczaniu usług wyszukiwania fraz na stronach internetowych. Pomijając kwestię niezdrowego modelu biznesowego opartego w 100% (98%?) na reklamach, Google od strony technicznej wszystko wykonało tak jak należy. Dzięki ogromnej popularności mogło i dalej może stroić algorytmy, dostosowując je do swoich użytkowników. Firma zaproponowała też swoim użytkownikom inne usługi, takie jak mapy, serwis wideo, pocztę czy dysk w chmurze. Ogromna liczba użytkowników to ogromna liczba danych – danych, które mogą służyć do uczenia algorytmów… do uczenia maszynowego.

Jakość algorytmów od Goole’a nie wynika (tylko) z jakości kodu. W dużej mierze ich fenomen jest efektem ogromnej bazy danych o użytkownikach i otaczającym świecie. Microsoft po prostu nie ma takiej wiedzy o swoich użytkownikach, jaką ma Google. Firma z Mointuiain View, dzięki swojemu luźnemu podejściu do prywatności, wie bardzo dużo o naszych zainteresowaniach, zwyczajach zakupowych, obecnym położeniu geograficznym, preferencjach muzycznych, odwiedzanych stronach internetowych czy stylu pisania. Ba, czyta nasze maile, żeby wiedzieć o nas jeszcze więcej. Rozstrzygnięcie kwestii czy to dobrze czy źle zostawmy na inny raz – w tym tekście chciałbym skupić się na aspekcie technicznym. A finał historii jest taki, że Microsoft prawdopodobnie nigdy nie będzie miał dostępu do tak ogromnej bazy spersonalizowanych danych o użytkownikach. A bez tego, nawet najlepsze algorytmy nie pomogą.

2. Drugi czynnik, ściśle powiązany z pierwszym, to wpływ (ogromnej) społeczności na jakość danych i ich późniejszą analizę. W przypadku Google’a, dzięki użytkownikom, firma może aktualizować i poprawiać mapy dodając zmiany czy nowe POI. Może wyświetlać aktualne informacje o korkach, dzięki milionom osób, które w danym momencie korzystają z usług/nawigacji Google. Google Translate dzięki miliardom tłumaczeń, które są poprawiane przez użytkowników, jeszcze lepiej stroi i dostosowuje algorytmy, co bezpośrednio przekłada się na jakość tłumaczenia maszynowego. Miliardy maili trafiających na Gmaila i ręcznie oznaczanych jako spam przez użytkowników, pomagają aktualizować i ulepszać automatyczne filtry antysmpamowe.

Microsoft ma takie same, a może czasami lepsze narzędzia do tego samego – jednak nie ma ogromnej społeczności, która na bieżąco dostarczałaby nowych danych, weryfikując i zmieniając te istniejące. Microsoft jest w tym przypadku statyczny. Google – dynamiczny. To drugie podejście zawsze będzie wygrywać. I to nie tylko problem Microsoftu, ale też Apple’a, który już dawno został połknięty przez firmę z Mountain View, jeśli chodzi o ofertę usług konsumenckich i ich jakość.

3. Ostatnim czynnikiem jest regionalizacja. Google osiąga znakomite wyniki wyszukiwania regionalnego między innymi z powodów posiadania wielkiej bazy danych oraz… społeczności. Czyli punkty jeden i dwa. Ale to nie wszystko. Firma ta po prostu dużo mocniej rozwija swoje lokalne oddziały, a dzięki temu usługi takie jak Google Now dość szybko trafiają do poszczególnych krajów – w tym Polski. Oczywiście bez pełnej funkcjonalności, dostępnej użytkownikowi w Stanach Zjednoczonych, ale… lepsze to niż Cortana, która w Polsce nie jest dostępna w ogóle. I o ile dwa pierwsze czynniki wymienione w tym tekście są trudne do przeskoczenia dla Microsoftu, o tyle brak silnego rozwoju ważnych dla firmy usług na rynkach lokalnych to kwestia decyzji i nakładów finansowych. Być może ktoś w Microsofcie skalkulował, że taki rozwój i koszty nie zwróciłyby się, ale efektem takiego działania jest frustracja użytkowników i ich przechodzenie na konkurencyjne platformy – w szczególności Androida, który w pakiecie (wraz z kontem Google) daje dostęp do wszystkich usług tego ekosystemu.

satya-nadella_sitting_microsoft

Co dalej? Nie wiem jakie są plany Microsoftu. „Democratizing AI” powtarzane przez Nadellę brzmi chwytliwie, ale sprzedawanie algorytmów uczenia maszynowego jako usługi nie jest tak opłacalne jak używanie AI/ML do interakcji z użytkownikiem. Jedno jest jednak dla mnie pewne – ciągłe odgrzewanie kotleta jakim są aplikacje desktopowe Win32 to droga donikąd. Tak, tę krowę jaką jest Windows, będzie można doić w korporacjach jeszcze przez co najmniej 10 lat, ale jeśli Microsoft poważnie myśli o uratowaniu Windowsa i swojej bytności na rynku konsumenckim – będzie musiał zrobić coś więcej niż przypudrowane systemu operacyjnego, który pod maską ma nadal stare i (nie)dobre Win32.