Jul 22, 2007

Stop spam, read books!

Objavljeno na: B92 / Tehnopolis / Free

Skoro svaki dan trošimo delić našeg vremena rešavajući CAPTCHA upite. Univerzitetski projekt reCAPTCHA koristi ovu činjenicu za pomaganje digitalizacije knjiga.
Ako ste ikada poslali komentar na npr. B92 stranu onda ste se susreli sa CAPTCHA principom. Pre slanja komentara, od vas se traži unošenje slova i brojeva istovetnih onima koji su u jednom prozorčiću ispisani šarenim i iskrivljenim fontovima različite veličine, a sve to sa ciljem sprečavanja ostavljanja kompjuterski generisanog spama. Naime, tako napisani znakovi nisu lako automatski čitljivi, pa ‘zagađivanje’ automatski generisanim spamom nije moguće. Po procenama tima sa Carnegie Mellon University korisnici interneta reše dnevno oko 60 miliona CAPTCHA upita. Svako od nas u proseku potroši na to oko 10 sekundi, a svi zajedno utrošimo neverovatnih 150 000 sati dnevno. Ovaj tim došao je na ideju da iskoristi taj ogroman radni potencijal i kreirao projekt naziva reCAPTCHA.
U svetu trenutno ima više incijativa u okviru kojih se vrši digitalizacija knjiga odštampanih pre kompjuterske ere. Milioni knjiga se pretvaraju u digitalni tekst kako bi se učinile lakše dostupnim i pretraživim. Međutim "Optical Character Recognition" (OCR) programi, koji se koriste pri prepoznavanju odštampanog teksta, nisu savršeni i u određenom broju slučaja prave greške. Srećom u većini slučajeva OCR programi su svesni potencijalnih grešaka i šalju obaveštenje kada je sumnjiva reč primećena. Mnogi sati ljudskog rada troše se na manuelno proveravanje i rešavanje tih sumnjivih situacija. Upravo tu reCAPTCHA priskače u pomoć, koristeći sve reči koje su nejasne OCR-u kao CAPTCHA reči na sajtovima koji već i onako zahtevaju rešavanje CAPTCHA pitalica.
Ceo članak je dostupan na B92 / Tehnopolis / Free

No comments: