Sposoby startupów na tanie big data

sposoby startupow na tanie big data
Udostępnij:
W tym roku liczba danych krążących na świecie sięgnie 44 bilionów gigabajtów, jednak dostęp do nich jest kosztowny i ograniczony. Big data to podstawa, bez której po prostu nie mogłoby działać wiele aplikacji mobilnych i webowych. Jak więc z problemem dostępności danych radzą sobie startupy?

Polskie startupy mocno opierają się na big data. Jak podaje raport Startup Poland za 2020 rok,  52% z nich rozwija produkty cyfrowe, a wśród nich aż 81% to aplikacje. A aplikacje, aby działać sprawnie, potrzebują dużej liczby wsadowych danych: lokalizacyjnych, preferencji itd. Stąd wśród startupów ogromna potrzeba dostępu do big data. Skąd je czerpać? Jeżeli działasz np. w branży agritech lub tworzysz produkty nawigacyjne, z pewnością warto zainteresować się bazą danych europejskiego programu Copernicus. A jeżeli już posiadasz pewien zasób danych, to dzieląc się nimi, możesz uzyskać dostęp do tworzonej właśnie paneuropejskiej bazy Gaia-X. Możesz też spróbować pozyskiwać dane własnymi środkami, np. gromadząc je przy pomocy samych użytkowników Twoich produktów. Właśnie o tych wszystkich sposobach na niskokosztowe pozyskiwanie danych piszemy w dzisiejszym artykule.

Bezpłatne bazy danych Copernicus i Gaia-X

Na rynku znajdziemy wiele możliwości odpłatnego pozyskiwania danych, jednak ostatnie lata, przynajmniej w Unii Europejskiej, to starania o utworzenie bezpłatnych, otwartych dla wszystkich firm baz big data, celem przyspieszenia innowacyjności unijnej gospodarki. Przykładami takich baz jest prowadzony przez ESA (Europejska Agencja Kosmiczna) Copernicus oraz tworzona przez kilkadziesiąt firm niemieckich i francuskich Gaia-X.

Satelity – darmowa baza danych satelitarnych Copernicus

Baza danych Copernicus została utworzona przez ESA, gromadząc bezpłatnie dostępne dane z obrazów satelitarnych sieci Sentinel 2. O Copernicusie tak opowiadał w wywiadzie dla naszego portalu Jarosław Chojnacki, koordynator akceleratora KPT SpaceUp: – Program Copernicus został powołany po to, aby dzięki konstelacji satelitów Sentinel, monitorować naszą planetę, a zgromadzone dane udostępniać bezpłatnie szerokiej grupie odbiorców. Startupy, firmy, naukowcy i organizacje mogą czerpać korzyści z programu Copernicus i wykorzystywać je w sposób, który ma rzeczywisty wpływ na otoczenie.

O roli, jaką może odegrać Copernicus mówi Josef Aschbacher, Dyrektor EO Programs, ESA: - Copernicus może odegrać kluczową rolę w zmianie sytuacji na rynku. Dostępność danych w takiej skali, częstotliwości i jakości to prawdziwy przełom w obserwacji Ziemi. Obecnie dzięki Copernicusowi dostarczamy 15 terabajtów danych każdego dnia, które są darmowe i dostępne dla wszystkich. To naprawdę ogromna zmiana, która przynosi dostęp do danych dla praktycznie każdego na naszym globie.

Baza danych zanonimizowanych Gaia-X

Gaia-X to europejska baza darmowych danych, tworzona przez niemieckie i francuskie spółki, tworzona w przeciwwadze dla amerykańskiej konkurencji. Na stronie Gaia-X przeczytamy, że otwarty ekosystem danych jest konieczny dla zapewnienia konkurencyjności europejskich firm w skali globalnej. Czytając dalej zobaczymy, że jedną z trzech głównych korzyści z funkcjonowania bazy danych ma być dostępność danych: “Potrzebujemy bezpiecznej, godnej zaufania i transparentnej bazy danych, która może być używana do wymiany i przetwarzania danych. Tylko w ten sposób możemy uzyskać efekt ekonomii skali z ogromnych ilości danych, które posiadamy w Europie, zapewniając innowacyjność rozwiązań europejskich firm, a w konsekwencji ich konkurencyjność na globalnym rynku”.

Gaia-X odpowiada na aktualny problem firm Starego Kontynentu: obecnie dane gromadzone przez europejskie firmy nie są dostępne w jednym miejscu, z którego można by je w prosty sposób pobrać czy dodawać własne. Wymiana informacji, szczególnie pomiędzy branżami, jest utrudniona. Gaia-X zapewniając darmowy dostęp do danych, pomaga rozwiązać ten problem.

Waste Wizard: dane zbierane przez użytkowników, rozwiązanie gamingowe

Duńczycy ze startupu Waste Wizard, których rozwiązanie opisywaliśmy w tym artykule, uczą swój zautomatyzowany kosz do segregacji coraz trafniejszego doboru odpadów, wykorzystując element „engagement” kojarzący się zdecydowanie bardziej z branżą gamingową niż z gospodarka odpadami. Jak mówią sami twórcy: – Żeby móc wrzucić śmieci do śmietnika, najpierw trzeba nacisnąć jeden z przycisków, symbolizujących odpowiednie frakcje odpadów. Na tej podstawie wzmacnia się również algorytm naszego produktu. Opisany tutaj sposób to szeroko rozpowszechniony i dość dobry sposób na pozyskiwanie danych, jednak po pierwsze zdecydowanie długotrwały, a po drugie wymagający od użytkownika dodatkowego działania, co może zniechęcać do korzystania z produktu. Polskie startupy znalazły szybsze rozwiązanie. Jakie? Czytajcie dalej.

Yanosik: Dane dla produktu pozyskiwane przez inny produkt firmy

Sposobem na pozyskiwanie danych przez samych użytkowników, mogą pochwalić się np. firma Neptis i startup Reality Games. Neptis wykorzystuje w tym celu niezwykle popularną w Polsce aplikację Yanosik. Yanosik to nawigacja dla kierowców, która informuje o bieżącym ruchu na drodze, ograniczeniach prędkości i fotoradarach, wszystko za darmo. Jednak telefony użytkowników wykorzystywane są do zapewnienia wsparcia dla innej aplikacji, NotiOne (mikrolokalizatory na Bluetooth, które można zamontować np. u psiej obroży). Kluczem jest tutaj wykorzystanie połączenia Bluetooth, które ustala lokalizację osoby/przedmiotu przy pomocy lokalizacji telefonów znajdujących się w jej pobliżu; bez zezwolenia na połączenie Bluetooth dla Yanosika, aplikacja NotiOne nie mogłaby działać. W ten oto sposób firma przez produkt Yanosik pozyskuje konieczne dane dla działania produktu NotiOne.

Reality Games: dane zbierane przez użytkowników

Kolejna firma, z której pomysłem chcemy się z Wami podzielić, idzie o krok dalej niż Yanosik i o dwa kroki dalej niż Waste Wizard; to już następny level pozyskiwania i wykorzystywania danych. Startup Reality Games z Krakowa jest twórcą gry mobilnej Landlord Go, w której przemieszczając się z telefonem w realnym świecie, we własnym mieście, wyceniasz nieruchomości i konkurujesz o ich kupno z innymi użytkownikami. Liczba zebranych danych jest porażająca (ponad 400 milionów obiektów, budynki z każdego zakątka świata posegregowane na 12 głównych kategorii, które dzielą się na 900 typów) i tym bardziej godna podziwu, że dużą część tych danych startup pozyskał przy pomocy samych użytkowników aplikacji.

Zbigniew Woźnowski, CEO Reality Games, opowiada o tym, jak zbierane są dane i do czego startup je wykorzystuje: – Gracze przyzwyczaili się, że twórcy gier Free2play monetyzują swoje gry reklamami. Nasze pozyskiwanie danych polega na tym, że do części naszych użytkowników wysyłamy zamiast reklamy specjalną mini grę w rozszerzonej rzeczywistości. Zadaniem jest trafić celownikiem w dach i główne wejście budynku, a następnie wypełnić krótki formularz – w praktyce zajmuje to ok. 30 sekund. Inna grupa graczy w podobny sposób weryfikuje dane już przez nas uzyskane. W ten sposób zbieramy dane o budynkach do przyszłych rozwiązań AR. Wkrótce pojawią się okulary od Apple, pierwsza wersja nie będzie super rewolucyjna, bo system lidar ma ograniczenia do kilkudziesięciu metrów i bardziej to będzie modowy gadżet, ale kolejne wersje będą rewolucjonizować nasz sposób poruszania się po mieście. W AR jest nierozwiązany problem wysokości. Dzisiejsza nawigacja, mapy, były zbudowane przez satelity i samochody jeżdżące po ulicach. W związku z tym wszystkie dane geo, które wyglądają dobrze na ekranie płaskim w rzeczywistości mają straszny bałagan w rzeczywistości 3d. Na przykład ikonka, która powinna przedstawiać Pałac Kultury, realnie jest ukryta 50 m pod ziemią, koło peronu 4 na Dworcu Centralnym. I w tym momencie wchodzimy my – dzięki milionom naszych graczy możemy się porywać na dokładne lokalizowanie całych miast, milionów obiektów.


Dane przestrzenne obecnie – bez segregacji.


Dane przestrzenne zbierane przy pomocy gry mobilnej Landlord GO po segregacji, profilowane dla użytkownika, gotowe do przeglądania via okulary AR.

Kryptowaluta zachęci do zbierania danych?

W jaki jeszcze sposób można zachęcić użytkowników gier i nie tylko, do zbierania dla nas danych? Jak tłumaczy Zbigniew Woźnowski, kluczową rolę może odegrać rosnąca popularność kryptowaluty: – Większość nowych projektów z obszaru GEO, Big Data będzie powstawać w oparciu kryptowaluty. Pewnie możemy sobie wyobrazić, że np. jest 1 mld punktów POI na świecie, czyli jest skończona wartość takiej waluty. Teraz trzeba namówić kogoś, aby zbierał te dane, on pewnie się zgodzi, jeśli będzie nagrodzony. Można to łatwo zorganizować data contractem. Trzeba uruchomić jeszcze system weryfikacji, czy te dane są poprawne, czyli w praktyce Antek i Basia weryfikują Piotrka, który zaktualizował paczkomat w Katowicach. Znowu data contract. Społeczność nadzoruje i czuwa nad jakością danych. Uruchomienie tego projektu będzie stosunkowo łatwe, ale w skali małego miasta. W przypadku produktu globalnego to są inwestycje kilkuset milionów w samą infrastrukturę. Komercjalizacja też nie będzie trudna, bo jest bardzo duże zapotrzebowanie u klientów biznesowych na poprawne dane. Problemem jest zabezpieczenie tego przed nieautoryzowanym zbieractwem walut. Ale chyba największym problemem jest, żeby ktoś zainwestował w tak duży projekt. My jesteśmy skoncentrowani na tworzeniu technologii do naszych gier i jest to dla nas na razie śpiew przyszłości.

Dane przestrzenne – problemem jest nie tylko dostęp, ale i ich wiarygodność

Jak zaprezentować dane na mapie, gdy jest ich niewyobrażalnie dużo? Jak pokazać istotne informacje bez zakrzywiania rzeczywistości? Giganci, którzy zdominowali rynek, nie radzą, albo nie chcą sobie radzić z tym problemem. Jak mówi Zbigniew Woźnowski: – Wyobraźmy sobie naturalną potrzebę znalezienia miejsca wykonywania usługi, której szukamy w konkretnym miejscu. Niech to będzie zakład fryzjerski. W Google Maps na nasze zapytanie otrzymamy dwadzieścia wyników podzielonych na kilkanaście stron (mimo ze zakładów fryzjerskich w Warszawie jest pewnie z 2 tysiące), z czego pierwsze pięć to wynik opłaconej reklamy, a kolejne piętnaście opłaconego pozycjonowania – użytkownik dostaje zaburzona informacje. Ta informacja zaburza się dalej, przez próbę “naprawienia” tego przez rekomendacje, ale to niewiele pomaga. To jest świat zepsuty przez reklamy, przez kupowanie sobie pozycji, użytkownik dostaje niepełną informację. Dzisiaj to jeszcze nie jest zauważalny problem przez typowego Kowalskiego, ale gdy pojawi się nowy hardware – AR, to on po prostu nie będzie mógł dobrze działać.

I dodaje: – Żeby naprawić ten system prezentowania informacji, trzeba zbudować bazę wszystkich obiektów (konieczność aktualizacji) i wszystkie traktować równo (nie ma reklam, nie ma pozycjonowania). Po prostu wpisujesz w wyszukiwarce “fryzjer” i na mapie zapalają się tylko te budynki, w których jest zakład fryzjerski. Późniejszy etap to wprowadzenie cech indywidualnych np. fryzjer męski, zakres usług, ceny, a opinie są tylko od potwierdzonych transakcji. Jednak największy problem to aktualizacja tych danych. Nazwy budynków nie zmieniają się zbyt często, ale ich lokatorów już tak, to widać szczególnie przez Covid. Potrzeba do tego wielkiej armii kontrybutorów, którzy będą widzieli własny interes w aktualizowaniu tych danych. W małej skali ten problem rozwiązaliśmy, bo nasi gracze wiedzą, że realizując dla nas mikro zadania, poprawiają grę, którą kochają, a my dajemy im za to naszą wirtualną walutę.

źródła:
https://www.data-infrastructure.eu/GAIAX/Navigation/EN/Home/home.html
https://gdpr.pl/europejska-chmura-obliczeniowa
https://zaufanatrzeciastrona.pl/post/masz-yanosika-wiesz-ze-jestes-czescia-sieci-sensorow-lokalizatorow-bluetooth/
https://tech.wp.pl/nieznana-funkcja-yanosika-teraz-tworcy-sie-przyznaja-6271459640542849a