Rozčuľuje vás CAPTCHA?
Či už sa chcete registrovať vnejakej službe, alebo chcete anonymne poslať komentár niekde na webovej stránke, skôr či neskôr kvám CAPTCHA prehovorí. Drvivá väčšina ľudí ju vníma veľmi negatívne apristupuje knej snenávisťou. Pravda je však taká, že ide omimoriadne užitočný nástroj, ktorý sa okrem svojej primárnej funkcie navyše využíva aj naďalšie šľachetné účely. Čo je vlastne CAPTCHA ačo všetko sa za ňou skrýva?
CAPTCHA je najčastejšie používaný bezpečnostný
mechanizmus, určený na zabránenie zneužitiu poskytovaných webových služieb
automatickými nástrojmi. Typický príklad je poskytovanie bezplatných
e-mailových adries, kde na získanie stačí jednoduchá registrácia. Človek, ktorý
by takúto službu chcel zneužiť, by mohol naprogramovať automatický softvérový
nástroj, ktorý by registráciu vykonával autonómne stále dokola srôznymi
menami.
Poľahky abezprácne by získal vkrátkom čase tisíce či
desaťtisíce adries, ktoré by mohol používať napríklad na rozposielanie spamu.
Účelom CAPTCHA je rozpoznať, či službu chce použiť človek alebo práve takýto
automatický nástroj. Presne toto stojí aj za jej menom, pričom ide
oskratku Completely Automated
Public Turing test to tell Computers and Humans Apart, čo je
vpreklade Verejný a kompletne automatický Turingov test určený na
rozlíšenie počítača odčloveka. Označenie Turingov test sa vzťahuje na
matematika, logika, kryptoanalytika ajedného zo zakladateľov počítačovej
vedy Alana Turinga, ktorý vroku 1950 vo svojej významnej práci Výpočtové
stroje ainteligencia navrhol postup (dnes známy ako Turingov test), ktorý
by pomocou imitačnej hry dokázal rozhodnúť, či sú inteligenčné schopnosti
stroja porovnateľné sčlovekom alebo nie.
Tejto komplexnej téme sme sa podrobne venovali vdvojdielnom článku Budeme vysokú inteligenciu vytvárať počítačom? (PC REVUE č. 9 a10/2013). Vrámci CAPTCHA ide ojednoduchú formu Turingovho testu, pri ktorej je používateľovi služby predložená úloha, sktorej splnením majú aktuálne počítačové systémy problémy. Ide napríklad o rozpoznávanie tvarov,deformovaných písmen alebo identifikovanie zvierat aosôb zfotografií. Mechanizmus CAPTCHA vzáklade predpokladá, že sním komunikuje robot, ato až dovtedy, kým mu nie je úspešným splnením testu dokázaný opak. Cieľom návrhárov testu je, aby jeho splnenie nerobilo človeku žiadny problém, zatiaľ čo pre automatický nástroj pôjde o prakticky neprekonateľnú prekážku. Voboch prípadoch však vrealite nastávajú komplikácie.
Odkiaľ sa CAPTCHA vzala?
Základná idea použiť jednoduchý Turingov test na zamedzenie
zneužitia on-line služieb sa po prvýkrát objavila vroku 1996 vpráci
izraelského informatika Moni Naora, profesora Weizmannovho vedeckého inštitútu.
Naor vo svojej akademickej práci navrhol používanie mechanizmov, vktorých
ľudia excelujú, zatiaľ čo počítače sa nedokážu priblížiť ani schopnostiam batoľaťa.
Konkrétne šlo orozpoznávanie pohlavia osoby, porozumenie výrazom tváre
ačítanie textu písaného rukou.
Vpriebehu nasledujúcich rokov sa
vtýchto oblastiach dosiahol obrovský progres, ale základná myšlienka
zostala zachovaná. Prvé reálne použitie mechanizmov tohto typu sa objavilo
vroku 1997 na vtedy veľmi populárnom vyhľadávači AltaVista. Vývojový tím
sa snažil zabrániť tomu, aby záškodníci mohli odosielať veľké množstvo svojich
stránok do indexovania automaticky. Na stránku na odoslanie požiadavky tak
vložili formulár, ktorý vyžadoval odpísanie textu z obrázkov. Pri ich tvorbe sa
inšpirovali manuálom skenera, ktorý na čo najlepšie automatické rozpoznanie textu
(OCR) odporúčal, aby tmavé písmo rovnakej veľkosti bolo na svetlom jednofarebnom
podklade.
Navrhli tak obrázky, ktoré boli presne opačné, atak zabránili ich automatickému čítaniu strojmi OCR. Výraz CAPTCHA však náleží vývojovému tímu zuniverzity Carnegie Mellon vPittsburghu, ktorý vroku 2000 navrhol dnes dobre známy mechanizmus pokrútených textov pre spoločnosť Yahoo. Yahoo bol vtom čase najväčším poskytovateľom bezplatných e-mailových adries, pričom neprestajne čelil útokom automatických webových robotov (alebo skrátene aj botov). Tie umožňovali registráciu tisícok e-mailov za minútu a službu zneužívali vo veľkom rozsahu. Vďaka použitiu systému CAPTCHA dokázala spoločnosť Yahoo významne redukovať pokusy tohto typu bez výrazných zásahov do svojich služieb. Tím zuniverzity Carnegie Mellon publikoval výsledky svojej práce spolu srôznymi technickými riešeniami vroku 2003 v akademickej tlači včlánku CAPTCHA: Používanie problému silnej UI na účely zabezpečenia, vďaka čomu sa týmto systémom dostalo veľkej pozornosti zo strany webových vývojárov.
Textová CAPTCHA môže mať rôzne podoby
Predurčená na nenávisť
Pokiaľ si prečítate na internete akúkoľvek diskusiu
súvisiacu sCAPTCHA, je zvyčajne plná veľmi nahnevaných ľudí, ktorí vo
veľkých počtoch prejavujú nenávisť ktýmto systémom. Je pritom ľahké
snimi sympatizovať. S nevyhnutnosťou splnenia testu CAPTCHA sa stretávame
vmnohých službách, pričom jeho úspešné absolvovanie nemusí byť vždy
jednoduché. Najznámejšia anajpoužívanejšia metóda je odpisovanie
pokrúteného, preškrtaného či inak úmyselne poškodeného textu. Jeho prečítanie
nielenže často vyžaduje veľké sústredenie, ale občas aj trochu šťastia.
Niektoré znaky sú totiž deformované natoľko, že ich prakticky nemožno prečítať.
Preto aj ľudia neraz vskúške zlyhajú asú nútení test CAPTCHA vyplňovať
vpozmenenej podobe niekoľkokrát za sebou. No ak sčítaním majú
problém aj zdraví ľudia, je ľahké si domyslieť, aké musí byť toto odpisovanie
frustrujúce pre ľudí so zrakovými chybami, ktoré nemajú na rozdiel od klasickej
krátkozrakosti alebo ďalekozrakosti možnosť korekcie pomocou okuliarov či kontaktných
šošoviek. Vprípade úplne slepej osoby, ktorá používa internet
prostredníctvom automatických čítacích mechanizmov, je absolvovanie testu CAPTCHA
vobrazovej podobe nemožné, pretože je špeciálne navrhnutý tak, aby sa
nedal jednoducho rozpoznať strojovo pomocou OCR.
Ak si chce takáto osoba vytvoriť účet napríklad na Gmaile či Skype, musí požiadať opomoc inú osobu alebo použiť vstavaný zvukový mechanizmus, ktorý mnohé testy CAPTCHA obsahujú. Ide oalternatívny Turingov test, pri ktorom sa nepoužíva poškodený alebo pozadím ovplyvnený text, ale konkrétny zvuk prehrávaný na rušnom alebo zašumenom pozadí. Zvyčajne ide očísla, ktoré treba prepísať do textovej podoby. Podobne ako vprípade textu ani tu to nie je jednoduché, pretože systém je navrhnutý tak, aby ho nebolo možné rozpoznať pomocou systémov na rozpoznávanie reči. Predstavte si napríklad, že stojíte na veľmi rušnej ulici alebo vbare zahltenom zvukom, kde vám vedľa stojaca osoba takmer nepočuteľne a celkom monotónne diktuje sériu čísel. Keďže systémy na rozpoznávanie rečí sú rovnako ako systémy na rozpoznávanie znakov (OCR) stále pokročilejšie, musia byť aj tieto testy čoraz zložitejšie aaj pre človeka náročnejšie.
Mnohých ľudí vie nečitateľná CAPTCHA priviesť do šialenstva
Vminulom roku upútala pozornosť petícia snázvom
Je načase konečne zabiť CAPTCHA,
ktorú iniciovali austrálski občania so zrakovým postihnutím. Nazberali sa pod
ňou tisícky podpisov abola adresovaná najvyšším predstaviteľom významných
internetových aIT spoločností, ako je Facebook, Google, Microsoft, Yahoo,
eBay aTwitter. Petícia opísala systém CAPTCHA ako frustrujúci prvok webu,
ktorý obťažuje denne milióny ľudí amnohým zabraňuje vpoužívaní
rôznych služieb.
Zároveň sa posťažovala na to, že je nezriedkavo neprekonateľnou
prekážkou pre zrakovo postihnutých ľudí, ktorým sa nedarí prejsť zvukovým
testom ani na desiaty či dvadsiaty pokus, a tak im zabraňuje vúspešnom
používaní webu. Nech už je váš súkromný postoj k mechanizmom CAPTCHA akýkoľvek,
je ťažké spodobne trpiacimi ľuďmi nesúcitiť. Výkriky „zabite CAPTCHA“ sa
však len ťažko stretnú spozitívnym ohlasom vo významných spoločnostiach.
Bez CAPTCHA alebo nejakej rovnako účinnej fungujúcej náhrady by totiž mnohé
významné webové služby nebolo možné prevádzkovať.
To si mnohí ľudia, ktorí
CAPTCHA zduše nenávidia, neuvedomujú, pretože buď nie sú oboznámení
sjej prioritným účelom,alebo nechápu mechanizmy používané útočníkmi
snažiacimi sa webové služby zneužiť. Napríklad uvedená petícia navrhuje
nahradiť mechanizmy CAPTCHA podľa nich jasne lepším riešením, ktorým je
jednoduchý e-mail saktivačným odkazom. Problém je, že takýto systém sa
nedá úspešne použiť všade. Pri veľkých službách,lákavých pre útočníkov,
aktivačný odkaz nepredstavuje žiadnu prekážku.
Vjednoduchej ilustrácii si môžeme predstaviť softvérový robot, ktorý dostane do vienka jednu e-mailovú adresu. Následne sa zaregistruje na Gmaile, kde by mu bol namiesto testu CAPTCHA odoslaný aktivačný odkaz. Na odkaz, ktorý mu príde, automaticky klikne ae-mail aktivuje, pričom svoju novú adresu použije na aktiváciu ďalšej atď. Druhá možnosť je spustiť vlastný poštový server, na ktorom sa vytvorí veľké množstvo dočasných aliasov (typický príklad dostupný pre verejnosť je www.10minutemail.com), ktoré by útočník použil na automatickú aktiváciu. Podľa spoločnej domény použitej pri aktivácii by ho síce neskôr bolo možné dohľadať ajeho e-mailové schránky na Gmaile vymazať, ale až po tom, čo by zrejme rozposlal milióny e-mailov z „bezpečnej“ gmailovej adresy, ktorú do hromadných blacklistov nikdy nikto nepridá. Očividným problémom aktivačného riešenia by, samozrejme, bolo aj to, že by vznikla nepríjemná ťažkosť pre nových používateľov, ktorí žiadny e-mail ešte nemajú.
Priehrštie druhov CAPTCHA
Vrámci CAPTCHA nie je pokrivený alebo inak
skreslený text jediný používaný systém. Jeho výhodou je však ľahké generovanie
rozličných testov vo veľkom počte, pričom jednoduchosťou výroby sa mu rovná
zrejme len zvukové skreslenie čítaných čísel prehrávaných na zašumenom či inak
rušenom pozadí. Práve preto sa tieto dve metódy (druhá menovaná ako doplnok pre
zrakovo postihnutých ľudí) najčastejšie používajú. Predstavte si softvér, ktorý
najprv generuje náhodnú postupnosť znakov avykreslí ju spoužitím
niekoľkých skresľovacích mechanizmov snáhodne zvoleným nastavením. Takýto
obrázok sa vrámci testu ukáže používateľovi, pričom program pozná správnu
hodnotu, ktorú vyžaduje ako odpoveď.
Zcelého konceptu vidieť, že takýto
program by nové testy mohol generovať donekonečna. Mnoho vývojárov však chápe
frustráciu používateľov avie, že šanca na nesprávne prečítanie človekom
je vysoká. Už od prvého použitia testov CAPTCHA vroku 1997 sa tak snažia
prísť s rôznymi alternatívami ktextovému riešeniu. Azda najviac
preskúmavaný variant je použitie
obrázkov objektov, zvierat či ľudí. Jedno zprvých praktických riešení
bola CAPTCHA KittenAuth zroku 2005. Vrámci tohto testu treba
zniekoľkých fotografií zvierat vybrať tie, na ktorých sú mačky. Test
tohto typu však možno upraviť na iné zvieratá či objekty.
Na obrázku si môžete
všimnúť, že test obsahoval dovedna deväť obrázkov, pričom štyri znich
boli mačky. Keďže stroje ztakýchto náhľadov nedokázali úspešne zvieratá
rozpoznávať, išlo teoreticky oveľmi účinnú ochranu. Človek navyše chápe
koncept charakteristických postavičiek anerobí mu problém identifikovať
mačku aj vprípade obrázka kresleného Toma zo známej rozprávky Tom
aJerry. Problémom bolo, že KittenAuth vzáklade obsahoval obrázky
len 42 mačiek. Vzhľadom na to, že obrázky boli stále rovnaké, útočník ich mohol
všetky stiahnuť pomocou skriptu, identifikovať mačky za pár minút ručne
azačleniť ich do svojho automatického programu (v podobe ich hašovej
hodnoty).
Vroku 2007 sa tento problém pokúsil vyriešiť Microsoft vo svojom projekte ASSIRA, ktorý bol vyvinutý vrámci jeho divízie Microsoft Research. Vývojový tím nadviazal spoluprácu so stránkou Petfinder.com, ktorá sa zaoberá možnosťou adoptovania psov amačiek zútulkov vUSA a Kanade. Stránka obsahuje viac ako 300000 fotografií zvierat, ktoré sa navyše neustále menia (zviera, ktoré si ľudia adoptujú, zdatabázy zmizne, nové narodené alebo nájdené zas pribudne). CAPTCHA vpodobe projektu ASSIRA zobrazuje dvanásť náhodných obrázkov mačiek apsov ztejto databázy, pričom systém má záznam otom, zktorého inzerátu sú, takže pozná správnu odpoveď. Vybranie mačiek zniekoľkých obrázkov nerobí používateľom problém atakmer nikdy sa nezmýlia. Úlohy takéhoto mechanizmu CAPTCHA pritom nevyžadujú veľké sústredenie ačasto sú aj zábavné. Zrejmá nevýhoda takéhoto testu je v tom, že je celkom nedostupný pre ľudí svážnym zrakovým postihnutím.
Obrázková CAPTCHA, vktorej treba označiť fotografie mačiek
Ďalší azhľadiska konceptu mimoriadne účinný
variant CAPTCHA sú testy na základe
logickej úlohy, respektíve otázky. Ťažia ztoho, že jednoduché
programy používané na automatické registrácie nedokážu pochopiť zadania
skrývajúce sa vo významoch viet. Typický príklad je otázka: Aký deň nasleduje
po štvrtku? Automatický systém pri vypĺňaní formulára vyplní meno, priezvisko
či e-mailovú adresu, ale na otázku odpovedať nedokáže, pokiaľ na ňu nemá už preddefinovanú
reakciu. Keby otázka bola stále rovnaká, nebolo by ťažké takúto odpoveď
nastaviť. Očividný problém je, že tieto otázky musí niekto vymyslieť, pričom
ich počet je zdôvodu časovej investície konečný.
Ide ozjavnú nevýhodu vporovnaní súplne automatickým anáhodným generovaním textu, ktorý môže byť vnových variantoch tvorený donekonečna. Na druhej strane, ak je dostupný dostatočne veľký projekt tohto typu, jednotliví prevádzkovatelia môžu túto prácu poľahky využiť. Tak je to aj vprípade projektu TextCAPTCHA , ktorý obsahuje viac ako 180 miliónov jednoduchých otázok. Typické príklady: Aké je tretie písmeno vslove „matematika“? Koľko je 1+3? Ktoré číslo zradu 3, osemnásť, 29, 70, sedem je najmenšie? Zjavná výhoda takéhoto testu je , že ho dokáže vyriešiť aj nevidiaci človek. Nástroju na čítanie totiž nerobí žiadny problém prečítať obyčajnú vetu. Je to práve človek, ktorý význam vety pochopí apatrične reaguje. TextCAPTCHA je veľmi dobré riešenie, ktoré mnoho ľudí víta. Pokiaľ sa totiž pri odpovedi dáva pozor, úspešnosť je takmer stopercentná. Odpadne tak rozčuľovanie, ktoré je časté pri čítaní skresleného textu, pretože človek vtýchto prípadoch nezriedkavo test splní až na druhý či tretí pokus.
Zrejmá nevýhoda tohto riešenia je, že otázky sú určené
pre človeka hovoriaceho po anglicky. Na zachovanie prístupnosti si teda
viných štátoch musia tvoriť samostatné otázky, čím sa stráca význam
jednej spoločnej obrovskej databázy (ktorá je uzavretá). To je problém najmä v
rámci služieb veľkých spoločností, ako sú napríklad Google či Microsoft,
pretože by nemohli jeden test používať naprieč všetkými jazykovými mutáciami
(na rozdiel od pokrivených textov, ktoré treba len odpísať). A hoci obyčajné
roboty určené na registrácie sú zvyčajne celkom „hlúpe“, neznamená to, že to
tak je privšetkých systémoch.
Projekty umelej inteligencie založené na pokročilých neurálnych sieťach dokážu tieto jednoduché otázky rozšifrovať, analyzovať asprávne na ne odpovedať. Typický príklad je on-line systém Wolfram Alpha, voľne dostupný na stránke www.wolframalpha.com. Ten okrem pokročilých algebrických ainých matematických úloh dokáže odpovedať aj na zadania vbežnom jazyku, pričom bez problémov zvládne odpovedať aj na otázky typu: „Aká stará bola kráľovná Alžbeta II. vroku 1981?“ Jednoduché určovanie, ktoré číslo je najmenšie, či triviálne súčty azoraďovanie dní týždňa mu nerobia nijaký problém. Čoraz dostupnejší sú aj hlasoví asistenti založení na rovnakom princípe. Najznámejšími predstaviteľmi sú Apple Siri či nová apokročilejšia Cortana od Microsoftu. Špecializované stroje na analýzu otázok, ako je napríklad IBM Watson, dokážu dokonca poraziť aj najlepších súťažiacich vhre, ktorá je unás známa ako Riskuj.
Veľmi zaujímavý typ CAPTCHA sú herné mechanizmy pozostávajúce zvykonania jednoduchých úloh. Ako
príklad možno uviesť PlayThru CAPTCHA (pozri obrázok). Pri teste sa zobrazí
jednoduchá interaktívna plocha, na ktorej treba vykonať nejakú úlohu.
Zobjektov treba napríklad vybrať kvety adať ich do vázy, umiestniť
na tvár oči, úsmev anos alebo vybrať ingrediencie na pizzu. Napríklad
vprípade hry spizzou poletujú vrámci plochy rajčiny,
šampiňóny, kladivá atričká, pričom úlohou človeka je lietajúce šampiňóny
arajčiny chytiť apremiestniť ich na pizzu. Ide oveľmi
elegantné riešenie, ktoré je veľmi náročné vykonať strojom (pokiaľ je variácia
hier dostatočne vysoká).
Naopak, človek problémy nemá azvyčajne trafí na prvý pokus. Prekážkou môže byť jazyková bariéra, pretože zadanie úlohy je vangličtine abez jeho porozumenia sa občas ťažko dedukuje, čo od vás hra požaduje. Týmto problémom netrpí obdobné riešenie, ktorým je kreslenie tvarov. To je dostupné napríklad vpodobe projektu MotionCAPTCHA. Na interaktívnej ploche sa zobrazí nejaký tvar, napríklad vlnovka či kruh, aúlohou človeka je obkresliť ho (ľudsky nedokonale, ale zároveň dostatočne presne). Keďže je zadanie stále rovnaké (obkresli tvar), možno ho poľahky preložiť do všetkých jazykov. Vtýchto hravých variantoch CAPTCHA je však očividná slabina, ktorá je rovnaká, ako vprípade rozlišovania obrázkov. Pre nevidiacich ľudí sú totiž úplne neriešiteľné.
CAPTCHA môže mať aj podobu jednoduchých hier
Špecifický variant CAPTCHA sú skryté polia, ktoré vôbec nevyžadujú interakciu používateľa. Vrámci formulára to môže byť prvok, ktorý sa na úrovni prehliadača používateľovi vôbec nezobrazí zdôvodu špeciálneho naprogramovania. Keďže to robot netuší, políčko vo formulári vyplní. Výsledkom je, že takéto registrácie môžu byť vylúčené. Tieto metódy majú účinok zvyčajne len vprípade, že sa používajú raritne. Keby šlo obežnú vec, ktorú by uplatnila nejaká populárna stránka, robot by sa na túto situáciu vopred patrične upravil. Toto je typická situácia, ktorú si nie každý uvedomuje. Mnohé varianty CAPTCHA pôsobia mimoriadne dobre aoveľa lepšie ako klasické čítanie pokrúteného textu, no ich použitie je možné len na malých amenej významných stránkach. Zaručujú dobrú ochranu proti robotom, ktoré prehľadávajú internet asnažia sa prispieť alebo registrovať kdekoľvek. Nehodia sa na použitie vo veľkých službách, pre ktoré sa útočníkovi oplatí písať riešenie priamo na mieru.
Sekundárny účel CAPTCHA pre dobro spoločnosti
Tím zuniverzity Carnegie Mellon, ktorý stál nielen
za názvom CAPTCHA, aleaj za jedným zprvých ačasom aj
najpoužívanejších praktických riešení, vyrukoval vroku 2008
sodhadom, že ľudia na celom svete vyplnia okolo 200 miliónov testov CAPTCHA
denne. Jeden zčlenov tímu, guatemalský informatik Luis von Ahn, si pritom
uvedomil, že spoločne skolegami vytvoril systém, ktorý denne plytvá
miliónmi hodín práce toho najcennejšieho „stroja“ – vedomej ľudskej
intelektuálnej činnosti. Výsledkom bol projekt reCAPTCHA, sktorým sa dá
dnes stretnúť na miliónoch webových stránok. Jeho slogan znie: „Zastav SPAM,
čítaj knihy.“
Tento nový systém podobne ako ten starý zobrazuje ľuďom
deformovaný text so zhoršenou čitateľnosťou. Rozdiel je v tom, že tento text
nie je generovaný náhodne, ale je prebratý znaskenovaných dokumentov.
Existuje niekoľko projektov, ktoré sa zameriavajú na digitalizáciu starších
kníh anovinových článkov pochádzajúcich zpreddigitálnej éry. Cieľom
je, aby sa takéto texty zdlhodobého hľadiska zachovali azároveň
vnich bolo možné jednoducho vyhľadávať. Projekt reCAPTCHA vo svojom
počiatku začal spolupracovať siniciatívou na digitalizáciu novín New York
Times (od roku 1851 až dodnes) asmasívnym projektom knižnej
digitalizácie vpodobe Google Books.
Texty sú skenované arozpoznávané pomocou dvoch nezávislých programov OCR. Vplyvom chýb skenovania alebo poškodenia predlohy sú však niektoré slová alebo celé pasáže strojovo horšie čitateľné apotrebujú kontrolu. Programy OCR na základe vlastných posudkov označia text, sktorého čítaním majú problémy, apokiaľ majú niektoré výsledky vysokú mieru neistoty alebo sa ich význam v programoch rozchádza, sú takéto oblasti z textu vyňaté akonvertované do reCAPTCHA.
Vtýchto testoch je potom text zobrazovaný ľuďom po
celom svete. Kým vstarých apoškodených textoch môžu programy OCR zlyhať
až v20 % prípadov, ľudia sú vrámci krížovej kontroly (pri ktorej sa
porovnáva výsledok z viacerých čítaní od rôznych ľudí) schopní dosiahnuť
presnosť nad 99 %. Ako však dokáže systém reCAPTCHA zhodnotiť, že človek
prešiel testom, ak výsledné hodnoty predkladaného textu nepozná? Riešením je
kombinácia. Test zvyčajne zobrazuje dve slová vnáhodnom poradí, pričom
výsledok jedného je známy adruhého nie.
Ak človek úspešne prečíta deformovaný text, ktorý je známy, systém automaticky predpokladá, že dobre prečítaná je aj neznáma možnosť. Takémuto „testovanému“ slovu potom priradí pol bodu azobrazí ho vďalšom teste. Vokamihu, ako slovo nazbiera 2,5 bodu, predpokladá sa, že jeho prečítanie je správne. Následne sa môže stať slovom, ktorého význam je známy, prípadne sa vyradí zo systému. Negatívny dôsledok takejto schémy je taký, že občas sa do testu dostanú aj slová, ktoré sú úplne nečitateľné. No vzhľadom na to, že nebránia vúspešnom prejdení testu, nepredstavujú prekážku. Takéto nečitateľné slovo síce zbiera body (zúčastní sa na úspešnom rozpoznaní známeho slova), ale výsledky čítania preň sú zvyčajne medzi ľuďmi odlišné (alebo ignorované), a tak systém rozpozná, že ide oneriešiteľný prípad. Spoločnosť Google odkúpila projekt reCAPTCHA vroku 2009 avsúčasnosti je financovaný zjej prostriedkov (je poskytovaný zadarmo).
Okrem štandardného účelu má reCAPTCHA ešte aj druhú úlohu – rozpoznávanie zle čitateľných slov vnaskenovaných dokumentoch (vľavo) ačísel ulíc adomov na Google Street View (vpravo)
Projekt digitalizácie New York Times bol vďaka reCAPTCHA úspešne dokončený vminulom roku adnes možno vtýchto starších novinových článkoch vyhľadávať na domovskej stránke novín. Od roku 2012 Google okrem stále pokračujúceho projektu digitalizácie kníh (dnes už viac ako 30 miliónov publikácií) začal využívať systém reCAPTCHA aj na zlepšovanie svojich mapových služieb. Vtestoch sa tak začali objavovať snímky čísel domov aulíc nafotené vrámci služby Google Street View. Google sa tým snaží spresniť vyhľadávanie adries.
Strojové akupované prekonávanie
Útočníci snažiaci sa zneužiť webové služby nesedia so
založenými rukami. Vpriebehu rokov boli vykonané útoky na mnohé varianty
CAPTCHA amnohé boli prelomené súspešnosťou 30 až 100 %. Jeden zo
známych verejných projektov na prekonávanie úloh CAPTCHA je PWNtcha. Na úspešné
prelomenie sa používa niekoľko krokov (pozri obrázok). Prvý z nich je
predspracovanie predlohy, pri ktorom dôjde spomocou rôznych algoritmov
krozoznaniu pozadia obrázka ajeho odstráneniu (čo je uľahčené, ak
je pozadie jednoliate).
Nasleduje segmentácia, pri ktorej dôjde k rozlíšeniu jednotlivých prvkov (písmen alebo čísel), pričom najčastejšie sa používa technika CFS (Color Filling Segmentation), pri ktorej dochádza kvyplňovaniu spoločnej časti farbou. Tento proces je dobre známy zbežných programov na prácu sgrafikou, kde je obyčajne reprezentovaný nástrojom s ikonkou plechovky farby. Táto metóda dobre oddelí aj znaky, ktoré sú pokrivené. Nasleduje doplnková úprava, pri ktorej sa znaky rozdelia avyrovná sa ich rozdiel vo veľkosti. Po tejto úlohe je obrázok pripravený na prečítanie programom OCR, ktorý text svysokou úspešnosťou prečíta, pričom prípadné chyby niektorých znakov sú opravené pomocou porovnania slova s obsahom slovníka (pokiaľ nejde onáhodne generované znaky). Touto metódou bolo prelomené veľké množstvo typov deformácie písmen, čo umožňuje útočníkom zastarané testy CAPTCHA prekonávať.
Niektoré mechanizmy CAPTCHA (A) sú dnes už prekonané. Pri ich prelomení sa používa niekoľko krokov, vktorých sa najprv rozpozná (B) anásledne odstráni pozadie (C), pokračuje sa segmentáciou jednotlivých prvkov (D), rozdelením aodoslaním do programu OCR (E)
Moderná CAPTCHA používa pri textoch spojenie (dotyk)
písmen aich prekrývanie náhodne generovanými čiarami. Takéto opatrenia
zabraňujú segmentovaniu, pričom veľmi dobre je na tom hlavne reCAPTCHA. Tá je
proti takýmto postupom prakticky imúnna. Existuje však ešte jeden spôsob
prekonávania, proti ktorému už zprincípu žiadna CAPTCHA nemôže byť
chránená. Ide ohromadné prekonávanie ľudskou silou.
Jedna zmetód sa objavuje napríklad na niektorých stránkach spornografickým obsahom, ktoré umožňujú prístup kvideu len po prečítaní CAPTCHA. To sa však nečíta na danej stránke, ale vskutočnosti na stránke, na ktorú sa zameriava útočník. Takéto metódy sú však menej časté, pretože stránka pre svoju nepohodlnosť rýchlo stráca na popularite. Konkurencia je vtejto oblasti veľmi veľká. Častejšie sú postupy, pri ktorých sa čítanie zverí lacnej pracovnej sile (v Čine, Indii či iných ázijských krajinách). Typický príklad je služba Death by Captcha (www.deathbycaptcha.com), na ktorej možno objednať služby takýchto „pracovníkov“. Vzáklade takíto špekulanti objednajú prácu stoviek či tisícov nevinných ľudí, ktorí sú vďační za každú prácu. Títo nešťastnici sedia celý deň pred počítačom avyplňujú stránku zloženú zo stále dopĺňajúcich sa testov CAPTCHA. Za akú sumu?
Na stránke si môžete objednať vyriešenie 5000 testov za 5 eur či rovno 100000 za 100 eur. Keďže väčšina zisku ide určite špekulantom, ktorí službu prevádzkujú, priam vyráža dych, akú platbu spomínaní „pracovníci“ musia dostávať. Vniektorých prípadoch takíto špekulanti pritom dokážu zapriahnuť do práce aj ľudí zbohatších krajín, ato dokonca celkom zadarmo. Stačí vytvoriť lákavú ponuku „práce na doma“, ktorá namiesto obvyklého podvodu sklikaním na reklamy pozostáva zriešenia testov CAPTCHA. Ľudia, ktorí sa na tieto podvody nachytajú, nezriedkavo dokážu pracovať zadarmo aj niekoľko týždňov, kým si uvedomia, že ide o podvod. Ztakýchto snáh dobre vidieť, aké sladké a lákavé je pre útočníkov zneužívanie webových služieb, pred ktorým CAPTCHA zveľkej časti chráni.