Spamvédelem segít a régi iratok digitalizálásában
2008. augusztus 25. 10:06
A kutatók most új módszert találtak ki azoknak a szavaknak az azonosítására, amelyeket számítógéppel már nem lehet feldolgozni: ez a kifejezések CAPTCHA-val történő felismerése.
Korábban
Azt a Carnegie Mellon kutatói vették észre, hogy a CAPTCHA-k és a beszkennelt szövegek problémás szavai között párhuzam figyelhető meg: a szavak mindkét esetben oly mértékben torzultak, hogy a számítógép nem képes az adott szó felismerésére. Így létrehoztak egy olyan rendszert, a reCAPTCHA-t, amelyben a betűfelismerő szoftver által fel nem ismert, eltorzult szavakat CAPTCHA-kká alakítják. A Science című tudományos folyóirat legutóbbi száma a módszer sikeréről számolt be.
A szerzők szerint az ember naponta több mint 100 millió CAPTCHA-t képes kezelni. "Ez a mentális teljesítmény igen értékes, mivel a CAPTCHA-k megfejtése olyan feladat, amellyel a számítógép nem tud megbirkózni" - írják. A kutatók automatikus rendszere ezt az értékes emberi tulajdonságot próbálja meg kiaknázni. A beszkennelt szöveget két optikai karakterfelismerő program elemzi; ha az egyik program megtorpan, a kérdéses szót átalakítják CAPTCHA-vá. Ezt aztán egy azonosított kontrolszóval együtt (olyan esetekre, ahol a bot megpróbálja feltörni a CAPTCA-t) a részt vevő weboldalakra továbbítják. Jelenleg több mint 40 ezer oldal használja a reCAPTCHA-t.
A számítógépes programmal végzett azonosítás 0,5 pont értékű, míg az emberi értelmezés teljes pontot ér. Ha egy megadott azonosítás 2,5 szavazatot kap, a szó megfejtettnek tekintendő. Azokat a szavakat, amelyekre az ember folyamatosan ugyanazt a megoldást adja, kontrolszóként használják fel.
A kutatók úgy tesztelték a rendszert, hogy 250, különböző korszakból származó New York Times cikkből véletlenszerűen kiválasztottak egy mintát, ahol minden egyes szó azonosítását két független írásszakértő is megerősítette. Mindegyik OCR-szoftver 84%-os pontossággal dolgozott, de amikor az eredményeket reCAPTCHA-rendszerrel kombinálták, a találati pontosság 99,1 %-ra nőtt. Mindez a profi írásszolgáltatásokon belül, amelyek két független szakértőt használnak másolatok készítésére, amelyeket aztán egy harmadik fél is megvizsgál. A néhány megmaradt probléma abból adódott, hogy az OCR-szoftver nem érzékelte a szótörést.
A szerzők a CAPTCHA-k feltörésére tervezett szoftvert is tesztelték a reCAPTCHA-val készült képekkel szemben, de nem jártak sikerrel. Az eredményt azzal magyarázzák, hogy a szkennelt képek karakterei olyan torzulásokat tartalmaznak, amelyek nem tisztán matematikai átalakításból származnak. A felhasználói válaszidőt is lemérték, de nem volt számottevő különbség a hagyományos rendszereket és a reCAPTCHA-t használó felhasználók válaszideje között.
A rendszernek azonban még mindig vannak korlátai; a rövid szavak felismerése nem elég pontos, az angolt második nyelvként használó országok eredményei és a nem angol nyelvű billentyűzet hibaforrást jelent, a felhasználók pedig nagyon esetlegesen alkalmazzák a nagybetűket, az írásjeleket és a helyesírást. Jó hír a reCAPTCHA-rendszert használó oldalak számára, hogy a felhasználók szeretik, mivel a folyamat sokkal több, mint egy értelmetlen biztonsági intézkedés. Nagyszerű dolog látni, hogy a "kihasználatlan emberi feldolgozó-képesség" alkalmazása miként teszi a processzorokat csupán közreműködővé.
Támogasd a szerkesztőségét!
történelmi magazin
legújabb számát?
kedvezményes előfizetés 1 évre (5 szám)
bankkártyás fizetés esetén 20% kedvezménnyel.
Az éves előfizetés már tartalmazza az őszi különszámot.
Az első 500 előfizetőnek.
12. A középkor és a kora újkor kultúrája
III. Egyén, közösség, társadalom, munkaügyi ismeretek
- Nem volt elragadtatva a ferences szerzetes, aki a tatárjárás után a mongolok fővárosába látogatott
- A felnőttek több mint tizede szenvedhetett rákos megbetegedésben a középkori Angliában
- A középkorban sem volt mindig stigma „bűnben élni”
- „Legnagyobb ellensége” fejezte be a Szent Péter bazilika tervezőjének életművét
- Valóban annyira mocskosak voltak a középkori emberek?
- Habár meggazdagodott műveiből, munka közben csak kenyeret és vizet fogyasztott Michelangelo
- Miért hordtak röhejesen hosszú orrú cipőket a középkorban?
- Donatello híres Dávid-szobrát eredetileg a firenzei dómba szánták
- 10 tény a Mona Lisáról
- Súlyos társadalmi problémákra hívta fel a figyelmet regényeiben Aldous Huxley tegnap
- Sokszor napokig viselte ugyanazt a ruhát Hetty Green, a milliárdos üzletasszony tegnap
- Többször vezette ki Franciaországot a válságból Charles de Gaulle tegnap
- Tutanhamon sírjának felfedezésével mindenkit lenyűgözött Howard Carter tegnap
- Olümpiasz sem tudta megakadályozni fia, Nagy Sándor dinasztiájának bukását tegnap
- Inspiráló nőknek is otthont adott a tiszadobi Andrássy-kastély tegnap
- Egyetlen hete maradt, hogy a forradalom hősévé váljon Gérecz Attila 2024.11.21.
- Alattvalói joviális öregúrként és zsarnokként egyaránt tekintettek Ferenc Józsefre 2024.11.21.