Mathias írta: ↑2019.10.14., hétf. 12:50
Aszpirin írta: ↑2019.10.14., hétf. 11:44
A "tanítók" pedig lehetnek sokan (egy mintahalmaz alapján fog a tanulóalgoritmus következtetéseket levonni, és minél nagyobb a minta, annál jobb a következtetés helyességének valószínűsége.
És pont ez a nehézsége a dolognak. Nagyon oda kell figyelni hogy tanítjuk az AI-t. Hallottam olyan példát, hogy tanították az algoritmust hogy meg tudja mondani, hogy egy képen kutya van-e vagy farkas. (lehoakonak: ez úgy működik, hogy tanulás fázisban mutatnak egy képet és azt mondják, hogy ez kutya, majd mutatnak farkast és rámondják hogy farkas, mindezt sok képpel, tehát ember mondja meg mi a helyes és az algoritmus találja ki mire is kell figyelni, hogy ha majd kap egy képet akkor ő is meg tudja mondani mi az) És egész jól is működött, de volt egy husky "portré" amire azt mondta farkas. És elkezdték nézni hogy mit is néz az AI és hát igazából azt nézte van-e hó a képen. Ha van, akkor farkas, ha nincs akkor kutya. A husky portrén pedig a sarokban lévő fehér szőrt hónak nézte. Nyilván ez egy tanítási hiba, de nagyon kell(ene) figyelni.
Igen, ez pontosan így van.
Lehoako-nak:
a fenti példa is mutatja, hogy a programozó nem tudja előre, hogy mi alapján fog következtetést levonni a tanulóalgoritmus. A tanulóalgoritmusok egyik jelemző paradigmája az ún pattern recognition (ismétlődő jellegzetességek megtalálása). A neurális hálózatok fantasztikusan hatékonyan használhatóak erre a módszerre, ezért használják őket nagyon gyakran a pattern recognition köré épített "felismerő" feladatokra. Tehát például, a mi esetünkben: adott tíz érzelemkategória, és adott egy nagy halom hangminta. A tanítás folyamán különböző valódi emberek fogják rámondani a hangmintákra, hogy melyik érzelemkategóriába sorolható szerintük. A kategóriák lehetnek diszjunktak, vagy nem (vagyis: egy hangminta hordozhat egyszerre csak egy, vagy egyszerre több érzelmet). Ha beszédre specializálunk, akkor a minták nem (csak) a PCM-ben kódolt "nyers" hangot jelentik, hanem néhány olyan, bonyolult matematikai számításokkal elvégzett "előfeldolgozás" eredményét is, amelyeket a beszédfelismerésben már használnak, végül pedig a felismert szöveget is, ha van (a beszédfelismerés csak részben számít AI feladatnak). Ha így csináljuk, akkor ezek összességében a tanulóalgoritmus keresi meg, hogy mik a közös "patternek" az egyes kategóriákon belül, a korábbi minták alapján. De a programozó azt nem fogja tudni előre, hogy mi lesz ez. Lehet emelkedő hangerő, vagy jellemző felharmonikusok, vagy bármi, ami a hangot jellemezheti, az előfeldolgozás lehetővé teszi az analízisét, és felismerhető mintákat talál benne a hálózat. Aztán, ha beadsz neki egy új mintát, akkor ő megnézi, hogy ezek a kategóriákra vonatkozó jellegzetességek mennnyire vannak jelen az új mintában, és ez alapján az új minta adott kategóriákba tartozásához valószínűségeket számol, és ezeket csökkenő valószínűségi sorrendbe rakja. A legnagyobb valószínűségűt pedig megadja válaszként. De ezt az ember jóváhagyhatja vagy felülbírálhatja. Minden új minta így bekerül ebbe a "körjátékba", és hozzájárul a rendszer "tanításához".
Ezért nem determinisztikus ez a módszer. A fenti példában a rossz "betanítás" azt okozta, hogy a "husky" kategóriához a leggyakoribb ismétlődő jellegzetességnek a rendszer a képen látható havat találta. Ez a "tanítók" hibája, de egy ilyen hibát lényegében azonnal korrigálni lehet.
De ez az egésznek nagyon az alapja. Amikor specializálnak a feladatra, akkor a speciális előfeldolgozás nagyon lényeges, plusz egyes jellegzetességeket előre programozottan súlyozni tudjuk, másokat pedig egész egyszerűen el tudunk tüntetni a tanulóalgoritmus "szeme elől", hogy ne zavarjanak be.
A módszer nem mindenre alkalmazható, de pl. ujjlenyomatok felismerésére, arcfelismerésre már telefonokban is elképesztő pontossággal működik, és úgy tűnik, alapvető érzelmek hang és kép alapján való felismerésére (kép alapján az ún facial emotion recognition) is egészen jó pontossággal működik. És ez a specializálási terület is egyre jobb és jobb lesz.
Egyébként az alapkérdés az volt, hogy "mérhetőek-e" a beszédhang-felvételekben közvetített érzelmek, és erre még mindig az a válasz, hogy igen, azokat az érzelmeket, amelyeket minden ember nagy pontossággal felismer, egy megfelelően tanított speciális neurális hálózat is nagy pontossággal fel fog ismerni, sőt valószínűségeket (tehát mérőszámokat) fog hozzájuk rendelni.
(A grafológiával mellesleg azért nem teljesen korrekt az összevetés, mert amíg az érzelmeket hang alapján bárki meglehetős pontossággal felismeri, addig az emberi személyiségjegyek grafológia segítségével való felismerése hosszas és alapos képzést igényel, és bizonytalanabb is, még a szakemberek számára is).
Na, bocs a hosszú szövegért, bravó annak, aki elolvasta