Rozwiązanie proponowane przez firmę Amazon, tytułowa Alexa, to serwis przetwarzania mowy umieszczony w chmurze na serwerach Amazona. Nazwę Alexa wybrano na cześć starożytnej Biblioteki Aleksandryjskiej. Podobnie jak ona, Alexa także ma być skarbnicą wiedzy. Korzystając z Aleksy, możemy zapytać o wiadomości ze świata, o prognozę pogody, o wynik meczu naszej ulubionej drużyny sportowej. Możemy włączyć odtwarzanie muzyki, ustawić budzik czy też poprosić o podanie definicji z Wikipedii. Lista pytań oraz poleceń, które możemy skierować do Aleksy, jest naprawdę długa. Dodatkowo, Alexa obsługuje ponad 9500 umiejętności (Skills). Używając Aleksy możemy aktywować dowolną liczbę umiejętności i tym samym zwiększyć możliwości naszej asystentki. Dzięki dodatkowym umiejętnościom możemy zrobić zakupy, zamówić taksówkę, sprawdzić czas odprawy na lotnisku, przetłumaczyć tekst z języka angielskiego, zamówić pizzę, sprawdzić stan konta bankowego, sterować inteligentnym domem. W wypadku, gdy żadna z dostępnych umiejętności nie spełnia naszych oczekiwań, możemy zaprogramować własne!
Obecnie komunikacja z Aleksą odbywa się w dwóch językach: angielskim (amerykański, brytyjski) i niemieckim. W przyszłości jest planowane dodanie obsługi innych języków. Ponieważ oprogramowanie Aleksy jest rozwijane w polskim centrum R&D Amazona w Gdańsku, istnieje spora szansa, że w przyszłości będziemy mogli porozmawiać z Aleksą w języku ojczystym.
W celu promocji projektu asystentki głosowej firma Amazon zaprojektowała i wprowadziła do sprzedaży sprzęt elektroniczny z Aleksą. Najbardziej popularne produkty Amazona z wbudowaną asystentką to seria głośników: Amazon Echo, Amazon Tap, Echo Dot, najnowsze modele tabletów serii Fire oraz pozwalające na głosową obsługę telewizora urządzenia serii Fire TV.
Prawdziwym hitem okazały się głośniki z Aleksą. Z chmurą Amazona głośniki łączą się bezprzewodowo za pomocą Wi-Fi (2,4 GHz, ewentualnie 5 GHz). W trybie normalnej pracy głośniki pozostają w uśpieniu i nie przesyłają żadnych danych do serwisów Amazona. Żeby obudzić głośnik, należy wypowiedzieć słowo aktywacyjne „Alexa” albo wcisnąć przycisk na obudowie. Wówczas możemy rozpocząć komunikację głosową z Aleksą. Nasza mowa jest przesyłana do serwisów Amazona. W chmurze Amazona jest uruchamiany algorytm rozpoznawania mowy. Jeśli to, co powiedzieliśmy do Aleksy, zostanie poprawnie rozpoznane, to rozpoczyna się wykonanie polecenia. W wypadku niektórych poleceń, na przykład gdy zadaliśmy pytanie, jest przygotowywana odpowiedź. Jest ona przesyłana do naszego głośnika, który głosem asystentki Aleksy informuje nas o wykonaniu polecenia.
Najbardziej zaawansowanym z głośników Amazona jest Amazon Echo. Jest to urządzenia zasilane przewodowo (dedykowany zasilacz). Wewnątrz Amazon Echo zamontowano dwa głośniki audio: niskotonowy oraz wysokotonowy. Dodatkowo Amazon Echo można przyłączyć do zewnętrznego zestawu audio (wyjście AUX albo Bluetooth). Budowę głośnika pokazano na rysunku 1.
Mniejszą wersją głośnika Amazon Echo jest pokazany na rysunku 2 Echo Dot. Wyglądem i wymiarami ten głośnik przypomina krążek do hokeja, ale ma potężne możliwości. Urządzenie ma wbudowany głośnik przystosowany do odtwarzania mowy. Jeśli chcemy odtwarzać dźwięk w wysokiej jakości, przykładowo słuchać muzyki, to zaleca się przyłączenie Echo Dot do zewnętrznego zestawu audio. Podobnie jak Amazon Echo, głośnik Echo Dot jest zasilany przewodowo (z zasilacza lub poprzez interfejs USB komputera PC). Oba urządzenia, Amazon Echo i Echo Dot, mają zaprogramowaną funkcję pracy w sieciach typu „krata”. Dzięki temu możemy w domu umieścić kilka głośników, a jeśli wydamy polecenie, to odpowie nam ten głośnik, który jest najbliżej nas.
Trzecim z głośników Amazona jest Amazon Tap. Różni się od omawianych tym, że ma wbudowany akumulator. Według danych technicznych producenta czas pracy na akumulatorze wynosi ponad 8 godzin. Po tym czasie jest konieczne naładowanie akumulatora – w tym celu należy użyć sprzedawanej razem z urządzeniem ładowarki bezprzewodowej! Zastosowanie akumulatorów sprawiło, że głośnik Amazon Tap stał się urządzeniem przenośnym. Korzystając z głośnika możemy zabrać Aleksę do ogrodu, do parku czy też na plażę. Głośnik Amazon Tap obsługuje transmisję audio w trybie stereo. Nie może być przyłączany do zewnętrznego zestawu audio. Może natomiast być użyty w funkcji głośnik dla innego urządzenia, na przykład telefonu komórkowego (wejście AUX oraz interejs Bluetooth).
Jeśli nie mamy urządzenia z Aleksą, a chcemy przetestować działanie asystentki, to możemy skorzystać z symulatora internetowego. Symulator jest dostępny pod adresem http://echosim.io. Aby moc korzystać z symulatora, należy posiadać konto w serwisie Amazon. Po zalogowaniu się możemy używać Aleksy w wersji internetowej.
Poza rozwojem i produkcją własnych urządzeń z asystentką Alexa firma Amazon stawia na implementację Aleksy w produktach innych firm. Produkowane są urządzenia z wbudowaną, a także z zintegrowaną asystentką głosową. W urządzeniach z wbudowaną Aleksą jest umieszczany głośnik z funkcją obsługi Aleksy. W razie integracji urządzenia z Aleksą głośnik nie jest instalowany, ale urządzenie może być sterowane za pomocą dowolnego urządzenia obsługującego asystentkę głosową (przykładowo, przy użyciu jednego z głośników Amazon Echo, Echo Dot czy Amazon Tap). Obecnie na rynku dostępne są żarówki Philips Hue, w których można sterować oświetleniem za pomocą głosu, gniazda elektryczne WeMo Switch i TP-LINK HS100, które mogą załączać/wyłączać obciążenie po „usłyszeniu” komendy, głośniki Jam Voice, OnkyoVC-FLX1, Fabriq (odpowiedniki głośników produkowanych przez Amazona) i wiele innych urządzeń. Na ostatnich targach elektroniki konsumenckiej CES 2017 w Las Vegas zaprezentowano około 40 urządzeń z Aleksą. Asystentka głosowa Amazona była dostępna na stoiskach wielu firm. Przykładowo, LG zaprezentowało lodówkę z wbudowaną Aleksą oraz robota Jibo. Firma Huawei zaprezentowała smartfon Mate 9 z fabrycznie zainstalowanym oprogramowaniem do obsługi Aleksy. Z kolei Ford przedstawił nowe modele samochodów Ford Fusion oraz F150s z komputerem pokładowym obsługującym Aleksę. Również Volkswagen zapowiedział wprowadzenie Aleksy do wyposażenia samochodów. Firma Whirlpool poinformowała o integracji Aleksy z nowymi modelami produkowanych urządzeń (lodówki, suszarki, zmywarki, piekarniki), natomiast Samsung zaprezentował nowy model robota sprzątającego Roomba Powerbot VR7000 ze zintegrowaną obsługą asystentki Alexa (sterowanie robotem głosem). Prezentowane również były słuchawki, budziki, zegarki, zamki elektroniczne, lampki nocne i wiele innych urządzeń. Alexa była wszechobecna na targach. Pojawiły się również opinie, że produkt Amazona był największym pozytywnym zaskoczeniem całych targów CES 2017.
Liczba umiejętności (skills) rozszerzających funkcjonalność Aleksy to już prawie 10 tys. (co miesiąc jest publikowanych około tysiąca nowych). Umiejętności dla Aleksy tworzą producenci sprzętu i oprogramowania, ale możemy również rozszerzać funkcjonalność Aleksy samodzielnie. W tym celu firma Amazon przygotowała centrum rozwoju umiejętności dostępne pod adresem developer.amazon.com oraz narzędzia wspomagające tworzenia zaawansowanych umiejętności dla Aleksy, między innymi funkcję Lambda z pakietu Amazon Web Services. Aby ułatwić tworzenie nowych funkcji dla Aleksę, przygotowane zostały szablony dla trzech kategorii funkcjonalnych:
- custom skills, tj. obsługa dowolnego rodzaju polecenia, na przykład odpowiedź na zadane pytanie, integracja ze sklepami i serwisami internetowymi, gry interaktywne,
- smart home skills, tj. sterowanie urządzeniami, oświetleniem domu,
- flash briefing skills, tj. obsługa serwisów informacyjnych, integracja z kalendarzami użytkownika.
Co dalej ?
Asystentka głosowa Alexa jest rozwijana bardzo dynamicznie. Nadal jednak niektóre z funkcji wymagają dopracowania, a nowe powinny być dodane. W mojej opinii najważniejsza i najbardziej potrzebna jest obsługa większej liczby języków. Oczywistą sprawą jest, że komunikacja z Aleksą w ojczystym języku byłaby o wiele łatwiejsza i przyjemniejsza niż po angielsku czy niemiecku.
Kolejną kwestią, której należałoby się przyjrzeć, jest zwiększenie „inteligencji” Aleksy. Aktualnie asystentka głosowa nie jest w stanie odpowiedzieć na część zadanych pytań. Oczywiście, są dostępne dodatkowe umiejętności (skills), które możemy zainstalować, aby zwiększyć funkcjonalność Aleksy, jednak fajnie by było, gdyby Alexa radziła sobie z pytaniami bez konieczności instalowania dodatkowych funkcji. Ciekawym krokiem byłoby również dodanie możliwości identyfikacji osoby mówiącej. Teraz Alexa nie rozpoznaje, kto wydaje jej polecenia. Jeśli kilka osób korzysta z asystentki, konieczne jest przełączanie się pomiędzy profilami użytkowników. Po dodaniu funkcji identyfikacji użytkownika możliwe stałoby się wydawanie spersonalizowanych poleceń typu zagraj moją ulubioną melodię. Obserwując bardzo szybki rozwój asystentki głosowej Alexa i popularność, którą cieszy się produkt Amazona, można wnioskować, że nowe funkcje wkrótce zostaną wprowadzone.
Podsumowanie
Dzięki uprzejmości firmy Amazon otrzymaliśmy do testów głośnik Echo Dot (https://goo.gl/EcU50Q). W kolejnym artykule poświęconym asystentce głosowej Alexa zaprezentujemy, w jaki sposób skonfigurować głośnik. Pokażemy sposób instalacji umiejętności (skills) oraz praktyczne przykłady użycia Aleksy.
Łukasz Krysiewicz, EP