Magyar Tudományos Akadémia Nyelvtudományi Intézet

www.nytud.hu

Nyelv- és beszédtechnológiához kapcsolódó tevékenységei
A Nyelvtudományi Intézet alapfeladata a magyar nyelvészet, az általános és alkalmazott nyelvészet, az uráli nyelvészet és a fonetika területén tudományos kutatásokat végezni, a magyar irodalmi és köznyelv nagyszótárát elkészíteni, archív anyagát gondozni, valamint a magyar nyelv különböző változatait és az országon belül és kívül beszélt kisebbségi nyelveket vizsgálni, beleértve az európai integráción belüli nyelvpolitikai kérdéseket is. További feladatként nyelvi korpuszok és adatbázisok létrehozásával, számítógépes alkalmazások nyelvészeti alapjainak megalkotásával, valamint közönségszolgálati tevékenységgel, szakértői vélemények készítésével is foglalkozik.

Kutatásban betöltött szerepe
A Nyelvtechnológiai és Élőnyelvi Osztály jelentős kutatási tapasztalatot halmozott fel és eredményeket ért el a nyelvtechnológia, ezen belül különösen a nyelvi erőforrások kifejlesztése területén. Számos olyan sikeres nemzetközi projektumban vett részt, amelyek célja egyrészt a nyugati nyelvekre kidolgozott, de facto sztenderdként elfogadott eljárások adaptálása volt (Multext-East, Gramlex), másrészt nyelvi erőforrások létrehozására irányuló új szabványok kidolgozása (elektronikus szótári adatbázisok, CONCEDE). Az osztály munkatársai a projektumok során kifejlesztett és felhasznált számítógépes nyelvfeldolgozó eszközök és technológiák alapos ismeretére is szert tettek, ezek magyar nyelvre történő adaptálásában aktív szerepet játszottak.

A Nyelvtechnológiai és Élőnyelvi Osztályon készült el a Magyar Nemzeti Szövegtár (MNSZ) első változata. Ez a magyar nyelv legújabb, írott nyelvhasználatot tükröző, 181,3 millió szavas reprezentatív korpusza, mely 2005 novemberében a határon túli nyelvváltozatokkal kiegészülve vált valóban nemzetivé. A Szövegtár eddigi feldolgozása során már sikerrel alkalmazott eljárások, programok (tokenizáló, statisztikai egyértelműsítő), a nemzetközi projektumokban alkalmazott, a lexikai adatbázis építésében használatos technológiák (SGML/XML editorok, validáló programok és leíró nyelvtanok) felhasználásának köszönhetően az osztály munkatársainak alkalma volt számos alapvető nyelvtechnológiai szoftvereszköz tesztelésére, fejlesztésére is.

A Nyelvtechnológiai és Élőnyelvi Osztályon folyó szociolingvisztikai kutatások a magyarországi és a budapesti magyar nyelv variabilitását és változásait vizsgálják, de kiterjednek a környező országokban és a tengeren túl beszélt magyar nyelvváltozatok vizsgálatára is. Kutatások folynak továbbá a nyelvcseréről és a hazánkban élő kisebbségek kétnyelvűségéről.

A Fonetikai Osztály a beszéddel artikulációs, akusztikai-fonetikai és percepciós megközelítésben foglalkozik; azokat a folyamatokat vizsgálja, amelyek a kiejtéstől a megértésig biztosítják az emberi kommunikációt. A fonetikai osztály kutatásai illeszkednek a nemzetközi tudományos irányvonalhoz, kutatói a beszédkutatás számos jelentős kérdésével foglalkoznak, mindenekelőtt a magyar beszéd nyelvspecifikus sajátosságainak figyelembevételével. A tudományos feladatok egyfelől alapkutatások, másfelől alkalmazott kutatások. Némely esetben a kettő elválasztása nehéz, és nem is feltétlenül szükséges, ilyen például a beszélő személy azonosítása a beszéde alapján. Az osztályon kutatott egyik fő téma a spontán beszéd akusztikai-fonetikai és percepciós vizsgálata. Nyilvánvaló, hogy az ún. laboratóriumi beszéd és a természetes verbális kommunikáció között jelentős különbségek vannak. Kutatási célunk a beszéd szegmentális és szupraszegmentális szerkezetének mind pontosabb megismerése; annak a vizsgálata, hogy az emberek hangos közléseiben miként módosul a beszédhangok kiejtése, miként hatnak egymásra a szomszédos hangok, mi befolyásolja a beszédtempó alakulását, a beszéddallam vagy a hangsúlyozás sajátosságait; hogyan írható le az egyéni hangszínezet (stb.). Az elemzések az elméleti alapokról indulva a kísérleti adatok feldolgozásán át, az artikuláció, az akusztikai szerkezet és az észlelés összefüggéseire irányulnak. A kutatás folyamán igyekszünk modellálni az artikulációs működéseket, az akusztikai következményeket, és a percepciós kísérletekkel ellenőrizni a nyelvi relevanciájukat.

A Fonetikai Osztály jelenlegi főbb kutatási területei között szerepel a hangszalagműködés vizsgálata a beszéd létrehozásában; a beszédhangok variabilitásának és egymásra hatásuknak az elemzése (adatbázis jellegű megközelítések); a koartikuláció újabb vizsgálatai (nazalitás, hiátustöltés, zöngésülés stb.); a magyar beszédhangok időtartam-meghatározási előrejelzésére alkalmas modell kidolgozása; a beszéddallam és a mondatfajták összefüggéseinek meghatározása; a spontán beszéd diszharmóniás jelenségeinek kutatása; a nyelvbotlás-korpusz folyamatos fejlesztése (gyűjtés, adatolás, osztályozás, elemzés); spontánbeszéd-adatbázis kialakítása; a beszélő személy azonosításának fonetikai alapú vizsgálata; a beszédpercepció fejlődésének kísérleti vizsgálata; a nem tipikus beszédképzés (gyermekkorban és felnőttkorban) artikulációs, akusztikai és percepciós elemzése.

Az Elméleti Nyelvészeti Osztály vizsgálódásai a grammatika minden részrendszerére (fonológia, morfológia, szintaxis, szemantika, lexikon) és azok illeszkedési lehetőségeinek (az interfész-kérdéseknek) a megismerésére terjednek ki – mind elméleti, mind leíró, mind pedig számítógépes nyelvészeti szempontból. A grammatika határain túl olyan területek vizsgálata kerül a kutatások középpontjába, amelyek lényegi felismerésekkel kecsegtetnek az előbbi területek vonatkozásában, mint például a pragmatika, a kognitív megközelítések, vagy a nyelvtipológia. A leíró munka tárgya, az elméleti újítások forrása zömmel – de nem kizárólag – a magyar nyelv jelenséganyaga.

Oktatásban betöltött szerepe
Az Elméleti Nyelvészeti Osztály kutatógárdája hozta létre és működteti az MTA–ELTE Elméleti Nyelvészeti Szakcsoportot, azaz munkatársaink látják el az egyetemi szak, az arra épülő doktori program és a nem szakos hallgatók által látogatott önálló programok oktatói teendőit.

A szervezet nem piaci tevékenysége
▪ Magyar Irodalmi és Köznyelv Nagyszótárának korpusza / Magyar Történeti Korpusz
▪ Magyar Nemzeti Szövegtár
▪ E-Szókincs - Oktatási segédanyag
▪ Hunglish magyar-angol párhuzamos korpusz
▪ Beszédarchívum: Nyelvjárási hangfelvételek Hegedűs Lajos gyűjtéséből
▪ Adatbázis a magyar szavak hangidőtartam-képeinek bemutatására
▪ Beszédadatbázis a magyar mássalhangzó-kapcsolódások szerkezeti bemutatására
▪ Beszédadatbázis a magyar beszédhang-kapcsolódások szerkezeti bemutatására
▪ “Mazsola” – eszköz a magyar igék bővítményszerkezetének vizsgálatára
▪ Nyelvi tanácsadás

Jelentősebb pályázatok, szerződéses munkák 2005 óta
Folyó munkák:
▪ European Federation of National Institutions for Language – 2008–
▪ EFNILEX– 2008–
▪ Common Language Resources and Technology Infrastructure – 2007–2009
▪ Cross-Language Access to Catalogues and On-line Libraries – 2007–2009
▪ Nemzeti és etnikai identitás vizsgálata történelmi eseményekre vonatkozó szövegek narratív alakzatainak számítógépes tartalomelemzése révén – 2006–2008

Befejezett projektek:
▪ Magyar Ontológia Építése és alkalmazása információkinyerő rendszerekben – 2005–2007
▪ Magyar-angol gépi fordítórendszer – 2004–2007
▪ Magyar Egységes Ontológia – 2004–2006

Dolgozóinak száma: 120 fő