Text Cleaning

B.Sc course, University of Debrecen, Department of Data Science and Visualization, 2024

Huggingface

IMDB dataset: hf://datasets/scikit-learn/imdb/IMDB Dataset.csv

Whitespace kezelése (Handling Whitespaces)

Hungary: A felesleges szóközök, tabulátorok, sortörések eltávolítása vagy normalizálása, hogy a szöveg homogén legyen.

English: Removing or normalizing unnecessary spaces, tabs, line breaks, so that the text is homogeneous.

Speciális karakterek eltávolítása (Removing Special Characters)

Hungary: Speciális karakterek, mint például @, #, %, eltávolítása, amelyek általában nem relevánsak a szöveg értelmezésében.

English: Removing Special Characters: Removing special characters such as @, #, %, which are generally not relevant to the interpretation of the text.

HTML címkék eltávolítása (Removing HTML Tags)

Hungary: Webes szövegek esetén a HTML tag-ek eltávolítása, amelyek nem tartoznak a tényleges szöveghez.

English: In the case of web texts, removing HTML tags that do not belong to the actual text.

Kontrakciók kibontása (Expanding Contractions)

Hungary: Az olyan rövidítések kibontása, mint a “don’t” → “do not”, hogy egyértelműbb legyen a szöveg jelentése.

English: Expanding abbreviations such as “don’t” → “do not” to make the meaning of the text clearer.

Ékezetek és diakritikus jelek eltávolítása (Removing Accents and Diacritics)

Hungary: Az ékezetes és diakritikus jelek eltávolítása vagy normalizálása, például „á” → „a”, hogy egységesebb legyen a szöveg.

English: Removing or normalizing accents and diacritics, such as “á” → “a”, to make the text more consistent.

Szólisták használata (Using Wordlists)

Hungary: Olyan speciális szólisták használata, amelyek alapján kiszűrhetőek bizonyos nem kívánt szavak vagy szószerkezetek.

English: Using special wordlists that filter out certain unwanted words or word structures.

Róbert Lakatos