iDentifi – mladší bratr TapTapSee

Jednou z mnoha funkcí chytrých mobilů, které zrakově postiženým pomáhají v každodenním životě, je rozpoznávání předmětů. Stačí vyfotit obal s potravinami či jiné zboží nebo třeba kus oblečení, a příslušná aplikace obrázek zpracuje a přečte textový popisek, který více či méně přesně informuje o barvě oblečení nebo o zboží, které je třeba identifikovat.

Mezi speciálními aplikacemi pro rozpoznávání předmětů je nejznámější TapTapSee. Nyní se ale pod názvem iDentifi objevil její následovník, který zatím možná trpí některými dětskými neduhy, oproti TapTapSee ale také nabízí některé velmi zajímavé funkce. Než se pustíme do jejich popisu, podívejme se nejprve na okolnosti vzniku této aplikace, protože ty jsou stejně zajímavé jako aplikace samotná.

Jak vzniklo iDentifi

iDentifi je studentský projekt sedmnáctiletého středoškoláka z kanadského Toronta. Anmol Tukrel se zajímá o technologie a zejména o umělou inteligenci. Už ve dvanácti se naučil programovat a jako středoškolský student získal první praxi v začínající firmě, která se věnuje využití strojového vidění v reklamě. Tukrelovy návštěvy u jeho indické tety, která v Indii pracuje na oční klinice, jej přivedly na myšlenku využít technologii ku prospěchu právě zrakově postižených, a tak vznikl projekt iDentifi, se kterým se Tukrel přihlásil do studentské soutěže Canada-Wide Science Fair.

Vývoj aplikace představoval pro Tukrela více jak rok práce. Původně chtěl pro rozpoznávání obrázků vyvinout vlastní neuronovou síť, ale nakonec se rozhodl využít existující technologie. Výsledná aplikace iDentifi je už v App Storu. Každý se tedy může přesvědčit, že nejde jen o projekt, se kterým Tukrel slavil úspěchy na studentských soutěžích, ale i o opravdu užitečnou pomůcku.

Základy iDentifi

Aplikace je určena pro zařízení Apple se systémem iOS 9 a vyšší. Z App Storu ji lze získat zdarma a také její další provoz je bezplatný. iDentifi je v češtině, i když z textu položek je na první pohled zřejmé, že jde o nepříliš hezký, ale přesto srozumitelný strojový překlad. Aplikace ke čtení popisků obrázků využívá systémové hlasy. Ve výchozím stavu začne mluvit v češtině pomocí Zuzany.

Základní obrazovka aplikace je velmi jednoduchá, skládá se ze čtyř tlačítek. Vlevo dole je velké tlačítko „Zvolte fotka“, kterým se otevírá galerie fotografií, abychom mohli vybrat k rozpoznání jakýkoli obrázek z iPhonu. V pravém dolním rohu najdeme tlačítko „Vyfotit“, kterým zahájíme focení a rozpoznávání předmětů okolo sebe. V levém horním rohu je tlačítko „Nastavení“, které otvírá možnosti, jež si popíšeme později. V pravém horním rohu se nachází tlačítko „Instrukce“, po jehož aktivaci nás aplikace hlasem informuje o funkcích těchto čtyř tlačítek na základní obrazovce.

Fotíme a rozpoznáváme

Po stisku tlačítka „Vyfotit“ v pravém dolním rohu základní obrazovky se otevře obrazovka, která je prakticky shodná s obrazovkou systémové aplikace Fotoaparát. Tato obrazovka je bohužel v angličtině, její obsluha je ale jednoduchá. Kurzor stojí na tlačítku „Flash on“. Pokud má focený předmět lesklý povrch, může být vhodné poklepáním na toto tlačítko vypnout blesk. Dále už jen stačí kameru namířit na rozpoznávaný předmět a poklepat na tlačítko „Take picture“ dole uprostřed. Místo poklepání na toto tlačítko se dá také fotit stiskem postranních fyzických tlačítek pro regulaci hlasitosti.

Po vyfocení se otevře obrazovka s náhledem pořízené fotografie. Pokud tedy uživatel trochu vidí, může si zkontrolovat, zda je předmět vyfocený dobře. Jsou zde dvě tlačítka: „Retake“ pro nový pokus o lepší vyfocení předmětu a „Use foto“ pro rozpoznání obrázku.

Po stisku tohoto druhého tlačítka ohlásí aplikace hezky česky „Nakládání“, což je asi počítačový překlad anglického „Loading“. V tu chvíli je třeba internetové připojení, protože obrázek se odesílá ke zpracování na server. Po chvíli čekání nám hlas řekne např. „To znamená, růžová bunda“ a vrátíme se na základní obrazovku aplikace.

Přesnost rozpoznávání

Aplikace iDentifi má jednu zásadní výhodu oproti TapTapSee a sice možnost nastavit, jak podrobně má být obrázek analyzován a popsán. Když na základní obrazovce stiskneme tlačítko „Nastavení“ a na následné obrazovce tlačítko „Režim detail“, dostaneme se k výběru tří úrovní podrobností: „Obrázky – méně detailů“, „Obrázky – více informací“ a „Obrázky s textem“. Čím podrobnější režim vybereme, tím déle bude po vyfocení předmětu trvat zpracování obrázku, získáme tím ale podrobnější popis.

Pro ilustraci rozdílu mezi jednotlivými režimy jsem ve všech třech režimech zkusil rozpoznat fotku vakuovaného plátkového sýra, který byl už rozbalený, takže povrch plastového obalu byl trochu zvlněný. Pro jednotlivé režimy dopadlo rozpoznávání takto:

  • Režim Obrázky – méně detailů: Výsledný popisek byl „Je to žlutá.“
  • Režim Obrázky – více informací: Výsledný popisek byl „To znamená, že žlutá Lactum z Vysočiny Goudar 48% plast pack“.
  • Režim Obrázky s textem: Výsledný popisek byl „Laceum 48 Gouda plátkový sýr 48% tuku v sušine, 559% sušiny na 100g...“ a dále následovala spousta informací o složení, energetické hodnotě a výrobci.

Pro srovnání, TapTapSee vyhodnotí stejný snímek takto: „Na snímku je Lacrum Gouda 48%“.

Je tedy vidět, že nejméně podrobný režim se může hodit např. pro identifikaci barvy oblečení. Střední režim by měl být schopen rozumně rozpoznat předměty a jeho výsledky jsou srovnatelné nebo mírně podrobnější než u TapTapSee. Nejpodrobnější režim funguje i jako OCR – snaží se rozpoznat veškerý text ve snímku.

Dalo by se tedy iDentifi používat i ke čtení textů z běžných tiskovin? Zkoušel jsem v nejpodrobnějším režimu fotit knihy a časopisy. iDentifi nemá problém s rozpoznáváním českých znaků s diakritikou. OCR ale bohužel neumí rozpoznávat sloupce nebo dělit vyfocenou dvoustranu na jednotlivé stránky. Pokud se tedy vyfotí jen jedna strana souvislého textu, iDentifi ji poměrně dobře rozpozná a přečte, když je ale rozložení stránky trochu složitější, slévá se text z jednotlivých bloků stránky dohromady. iDentifi lze potom použít jen ke zběžnému zjištění, o čem přibližně vyfocený text je. Použitelnost OCR je dost limitována i tím, že rozpoznaný text je jen jednorázově přečten, není ale nikde v aplikaci dostupný, aby se k němu člověk následně mohl vrátit a postupně si ho procházet. I tak je ale rozpoznávání textu daleko před tím, co zvládá TapTapSee.

Závěr

U aplikace iDentifi bych měl výhrady k uživatelskému rozhraní. iDentifi má oproti TapTapSee o trochu zdlouhavější proceduru focení. Zatímco TapTapSee je absolutně přímočaré, jen se poklepe na tlačítko Vyfotit, a pak už se jen čeká na výsledek, tak u iDentifi se stiskem stejnojmenného tlačítka dostaneme jen do obrazovky fotoaparátu, tam vyfotíme a následně ještě musíme rozpoznání fotky potvrdit. Uživatelské rozhraní je navíc částečně v angličtině a částečně v češtině pořízené strojovým překladačem, kdežto TapTapSee je přeloženo do češtiny bez chyb. V uživatelském rozhraní postrádám místo, kde by byl zobrazen rozpoznaný text, aby se dal následně procházet, kopírovat do schránky apod. Tvůrce Anmol Tukrel ale tvrdí, že se aplikaci bude dál věnovat a prioritou dalšího vývoje je právě zlepšení uživatelské zkušenosti na základě odezvy od uživatelů.

Drobné nedostatky uživatelského rozhraní jsou ale bohatě vyváženy velmi kvalitním rozpoznáváním předmětů na snímcích a to i s možností jednoduchého OCR. Skvělá je také možnost nastavit si úroveň podrobností, které mají být v obrázku rozpoznávány. Můj první dojem z této aplikace je tedy velmi pozitivní. I když jde jen o studentský projekt, doufám, že jej bude jeho tvůrce udržovat a dál rozvíjet, protože iDentifi rozhodně patří k aplikacím, které dokáží zrakově postiženým pomoci.

Autor: Jan Šnyrych

Další zdroje informací

Štítky