Supervised Theses

A szakdolgozatok megtekintéséhez hozzáférés szükséges a Debreceni Egyetem Elektronikus Archívum (DEA) rendszeréhez! (To view theses, you need access to the Electronic Archive (DEA) system of the University of Debrecen.)

Dokumentáció feldolgozása GPT alapú modellel

A szakdolgozat célja az LLM-ek, azaz nagy nyelvi modellek szerepének és jelentőségének bemutatása a dokumentációk feldolgozásában. A dolgozat áttekinti a nyelvi modellek működési elvét, valamint a lokálisan futtatható nyelvi modellek működését. Emellett részletesen foglalkozok az adatvédelmi aggályokkal, és bemutatja a PrivateGPT-t, mint biztonságos és hatékony eszközt dokumentációk feldolgozáshoz. A teszteredmények alapján összehasonlítja különböző modellek teljesítményét különböző dokumentációk esetén, mint például technikai, jogi, vagy orvosi szövegek. Végül következtetéseket és ajánlásokat fogalmaz meg jövőbeli kutatások és fejlesztések szempontjából.

Mesterséges Intelligencia tesztelése képgenerálás segítségével

Szakdolgozatom központi eleme egy képgenerálási folyamat, amely saját rajzaim mellett más alkotók munkáin tanul. Az adathalmaz eloszlását fokozatosan változtatom, míg csupán 5%-át teszik ki a saját képeim. Célzott utasításokkal, úgynevezett promptokkal, tesztelem a számítógépet, hogy különböző eloszlásoknál vissza tudja-e adni az elvárásaimnak megfelelő képet. A végső kérdés az, hogy marad-e egyáltalán befolyása az én képeimnek a tanulás után, ha az adathalmazban elenyésző arányban szerepelnek. Dolgozatom ezen teszten vezet végig. Annak előkíszületeit, a végeredményhez elvezető utat és lépéseket taglalja. Lezárás képpen megválaszolom a felmerült kérdéseket a keletkezett képek elemzésével.

Piaci trendek meghatározása a gépi tanulás nlp módszereivel

A dolgozatomban piaci, gazdasági hírek elemzését és feldolgozását választottam. Ezek a hírek mozgatják napjaink pénzügyi világát, ezért megértésük és elemzésük sokat segíthet nem csak a szakembereknek, de a témában kevésbé jártasaknak is. A Twittert választottam forrásnak, ahonnan négy híroldal üzeneteiből állítottam össze adathalmazokat. Arra kerestem a választ, hogy milyen mértékben képesek árfolyammozgásokat generálni a hírek. Ehhez az NLP nyújtotta hangulatelemző modelleket használtam. Az adathalmazokat elemeztem és megtisztítottam az előfeldolgozás különböző lépései során. Ezután a hangulatelemző modellek eredményeit elemeztem és összevetettem egymással. Végül az eredményeket különböző árfolyamokkal hasonlítottam össze és megállapítottam a konklúziómat.

Mesterséges Intelligencia alkalmazása az ESport területén

A dolgozatom témája a mesterséges intelligencia felhasználása valamint alkalmazása az esport területén. A dolgozatban feltárom az alkalmazási területeit a mesterséges intelligenciának az esportban, valamint egy példán keresztül be is mutatom azt. Egy szimulátor szoftverben egy mesterséges intelligencia ágens valamint a hozzá tartozó környezet és függelékek összessége kerül bemutatásra, implementálásra. A dolgozathoz tartozó kód pythonban íródott, mely főbb elemei bemutatásra kerülnek. Bemutatásra kerülnek az általam alkalmazott technológiák a megerősítéses tanulással kapcsolatban. Bemutatásra kerülnek a feltanított ágens által elért eredmények, valamint a fejlesztéssel járó buktatók és nehézségek is említésre kerülnek.

Nyelvtanulás OCR segítségével applikáció formájában

A szakdolgozat olyan automatizált megoldást mutat be, amely szótárfüzet-szerű struktúrában tárolt idegen nyelvű kifejezések hatékony elsajátítását teszi lehetővé. Az informatikával kapcsolatos szakmai ismeretek mellett az “active recall” tanulási metódus is előtérbe kerül. A dokumentum továbbá részletesen elemzi mind a backend, mind a frontend kódokat, valamint részletes betekintést nyújt az Amazon Web Services (AWS) infrastruktúrájába. Emellett ismerteti a képfeldolgozás során alkalmazott transzformációkat, amelyek az optikai karakterfelismerés hatékonyságának növekedését célozzák. Az alkalmazás egy React alapú weboldalon érhető el, ahol a felhasználó, autentikáció után, képes feltölteni képeit, ezek alapján tanulókártyákat létrehozni, valamint a már beszkennelt adatokat a felhőbe menteni. Az alkalmazás hibái és jövőbeli lehetőségei zárják a dolgozatot.

Szövegosztályozó modellek hatákonyságának összehasonlítása

Szakdolgozatom készítésekor Anaconda disztribúción, Spyder környezetben készítettem két Python kódot szövegosztályozási feladatok elvégzéséhez. Az első kódban Scikit-Learn Python csomagot használtam, a másik kódban TextBlob NLP feladatokra használt csomaggal valósítottam meg ugyanazokat a szövegosztályozási feladatokat. Adatcsomag mindkét esetben a Scikit-Learn egyik beépített csomagját, a 20newsgroups adathalmazt használtam. Az adathalmaz különböző hírcsoportokból származó bejegyzéseket tartalmaz, amelyeket a kódok célja szerint 20 különböző kategóriába kell osztani. Az adatok előkészítése során a kódok eltávolítják a stopszavakat és a TfidfVectorizer segítségével vektorizálják a szövegeket. Ezt követően három osztályozó modellt hoznak létre és értékelnek: Multinomial Naive Bayes, K-Nearest Neighbor és Stochastic Gradient Descent (SGD) Classifier. A modellek teljesítményét pontosság, F1-score és tévesztési mátrixok alapján összevetettem.A különbségek szemléltetése céljából vizuális ábrákat készítetem a modellek teljesítményéről, bemutatva a pontosság és F1-score értékeket, valamint a tévesztési mátrixokat.

Discord chatrobot

Szakdolgozatom témájának a kérdés-válasz alapú chatrobotokat választottam, azon belül is a Discord nevű alkalmazás chatrobotjait. A téma, a Discord elterjedésével egyre relevánsabb lett, mivel a felhasználói élményt nagyban javítják. Az alkalmazás külön lehetőséget ad a feltörekvő Discord fejlesztőknek különböző kiegészítő funkciók létrehozására. Ezáltal hoztam létre egy Discord zenebotot, ami képes a felhasználók számára kommunikáció közben zenét lejátszani. Különböző parancsok vannak hozzá melyek segítenek használni a botot.

Multimodális gépi tanulás

Dolgozatunkban a mesterséges intelligencia egy feltörekvő ágát mutatjuk be, a többféle modalitáson történő gépi tanulást. Alapjául szolgál a Transformer architektúra, ilyen modellekből kellett választanunk egy képi, valamint egy magyar nyelven minél jobban teljesítő szövegmodellt. Döntésünket kifejtjük, valamint az alapul szolgáló, és híresebb modelleket ismertetjük. Ezek alapján egy CLIP (kép-szöveg társító) modellt hoztunk létre, melyet különböző, általunk feldolgozott adathalmazokon tanítottunk. Ennek felépítését és eredményeit tárgyaljuk továbbiakban.

Sportmérkőzések vizsgálata a gépi tanulás NLP módszereivel

A dolgozatomban arra keresem a választ, hogy meglehet-e jósolni közösségi média hozzászólások alapján egy sportmérkőzés győztesét. Erre a problémára az NLP segítségével próbáltam választ találni, hangulatelemző modellek segítségével. A Twitter segítségével összegyűjtöttem a szükséges adatokat az NBA mérkőzésekről. Ezeket az előfeldolgozás segítségével megtisztítottam, hogy ne szennyezzék a szótárunkat a felesleges szavak. Majd a TextBlob és VADER hangulatelemző modelleket kipróbáltam rájuk. Ezeket a lépéseket részletesebben elemeztem pár specifikus mérkőzéssel, hogy jobban megérthessük a lezajló folyamatokat egy-egy meccsnél. Végezetül alkalmaztam a modellemet az összes letöltött mérkőzésemhez, és megállapítottam a konklúziómat.

Hangulatelemző chat robot fejlesztése gépi tanulás segítségével

A chatrobotok manapság már a mindennapjaink részét képzik és előreláthatólag ez a terület rendkívüli mértékben fog fejlődni közeljövőben. Szakdolgozatomban a működésüket tanulmányoztam és létrehoztam egy Q&A tudás alapú chatrobotot a gépi tanulás és az NLP legkorszerűbb módszerei segítségével. Ez a modell a kérdés megválaszolása mellett azt is el tudja dönteni, hogy az adott kérdés mennyire tetszett neki, ezáltal összebarátkozhatunk vele. Ez a funkció úgymond személyiséget is ad a chatrobotnak, hiszen el tudja dönteni, hogy mit szeret és mit nem. Nem találtam hasonló felépítésű modellt a kutatásaim során, ezért egyedi és bonyolult probléma megoldásán kezdődött el a kutatás.

Információ kinyerése online kommentekből a gépi tanulás NLP módszereivel

Manapság a különböző online médiatartalmak, közösségi média bejegyzések alatt a hozzászólások olyan méretet öltöttek, hogy a teljes kommentszekció véleményének, hangulatának megítélése szinte lehetetlenné vált automatizáció nélkül. Dolgozatomban egy olyan természetes szövegfeldolgozó modellt próbáltam felépíteni, amely hangulatelemzés segítségével képes hasznos információkat kinyerni online médiatartalmak hozzászólásaiból a tartalomkészítők és felhasználók számára egyaránt. A dolgozatban tárgyalt közösségi média a YouTube. Bemutatásra kerül az adatgyűjtés és az adatelemzés részletei. Továbbá a szöveges adatok előfeldolgozásának lépései. Majd a kommentszekcióból kinyerhető információk kerülnek felsorolásra. Végezetül megvizsgálásra kerül a felépített modell alkalmazhatósága a gyakorlatban.

Felhasználói értékelések hangulatának és hitelességének elemzése gépi tanulás módszereivel

Napjainkban egyre nagyobb problémát jelent a Fake News (álhírek) megfelelő módon való kiszűrése az interneten. Ezek az információk megtéveszthetik és félrevezethetik a laikus olvasókat, ezért nagyon fontos ezen információk minél hatékonyabb szűrése. Dolgozatomban egy videojáték online szöveges felhasználói értékelései közül igyekeztem kiszűrni a félrevezető és irreleváns írásokat. Ehhez a gépi tanulás (NLP) legkorszerűbb lehetőségeit vettem igénybe. Négy különböző hangulatelemző modell eredményeit és egyéb tényezőket figyelembe véve igyekeztem hatékony szűréseket végrehajtani az adathalmazon. Célom az volt, hogy a szűrés által a felhasználók hitelesebb képet kaphassanak az alkotásról, egyúttal a játékról alkotott közvéleményt is javítsam.