Az orosz nyelv szerepe a számítógépes nyelvészetben. Mi a számítógépes nyelvészet? Szovjet és orosz tudósok: Alekszej Ljapunov, Igor Melcsuk, Olga Kulagina, Yu.D.

Számítógépes nyelvészet: módszerek, források, alkalmazások

Bevezetés

Term számítógépes nyelvészet(CL) az elmúlt években egyre gyakoribbá vált a különféle alkalmazásszoftver-rendszerek, köztük a kereskedelmi szoftvertermékek fejlesztése kapcsán. Ennek oka a szöveges információk gyors növekedése a társadalomban, így az interneten is, valamint a természetes nyelvű (NL) szövegek automatikus feldolgozásának szükségessége. Ez a körülmény serkenti a számítógépes nyelvészet mint tudományterület fejlődését, valamint új információs és nyelvi technológiák fejlődését.

A több mint 50 éve létező számítógépes nyelvészet keretein belül (más néven gépi nyelvészet, automatikus szövegfeldolgozás NL nyelven) számos ígéretes módszert és ötletet javasoltak, de még nem mindegyik talált kifejezést a gyakorlatban használt szoftvertermékekben. Célunk, hogy jellemezzük e kutatási terület sajátosságait, megfogalmazzuk főbb feladatait, jelezzük kapcsolatait más tudományokkal, rövid áttekintést adjunk a főbb megközelítésekről és forrásokról, valamint röviden jellemezzük a CL meglévő alkalmazásait. E kérdések részletesebb bemutatásához könyveket tudunk ajánlani.

1. Számítógépes nyelvészet problémái

A számítógépes nyelvészet olyan tudományok metszéspontjában jött létre, mint a nyelvészet, a matematika, a számítástechnika (Computer Science) és a mesterséges intelligencia. A CL eredete a híres amerikai tudós, N. Chomsky kutatásaihoz nyúlik vissza a természetes nyelv szerkezetének formalizálása terén; fejlesztése az általános nyelvészet (nyelvészet) területén elért eredményeken alapul. A nyelvészet a természetes nyelv általános törvényszerűségeit – szerkezetét és működését – tanulmányozza, és a következő területeket foglalja magában:

Ø Fonológia– tanulmányozza a beszédhangokat és kapcsolódásuk szabályait a beszédképzés során;

Ø Morfológia– foglalkozik a beszédszavak belső szerkezetével, külső formájával, ideértve a beszédrészeket és azok kategóriáit is;

Ø Szintaxis– vizsgálja a mondatok szerkezetét, a mondatban lévő szavak összeegyeztethetőségének és sorrendjének szabályait, valamint általános tulajdonságait, mint nyelvegységet.

Ø Szemantikaés pragmatika– szorosan összefüggő területek: a szemantika a szavak, mondatok és más beszédegységek jelentésével, a pragmatika pedig e jelentés kifejezésének sajátosságaival foglalkozik konkrét kommunikációs célok kapcsán;

Ø Lexikográfia leírja egy adott NL lexikonát - annak egyes szavait és nyelvtani tulajdonságaikat, valamint a szótárkészítés módszereit.

N. Chomsky eredményei, amelyeket a nyelvészet és a matematika metszéspontjában szereztek, megalapozták a formális nyelvek és nyelvtanok elméletét (gyakran ún. generatív, vagy generáló nyelvtanosok). Ez az elmélet most érvényes matematikai nyelvészetés nem annyira NL, hanem mesterséges nyelvek, elsősorban programozási nyelvek feldolgozására használják. Ez természeténél fogva teljesen matematikai tudományág.

A matematikai nyelvészet is magában foglalja kvantitatív nyelvészet, amely a nyelv gyakorisági jellemzőit - szavakat, azok kombinációit, szintaktikai szerkezetét stb. vizsgálja, és a statisztika matematikai módszereit alkalmazza, így ezt a tudományágat nevezhetjük statisztikai nyelvészetnek.

A CL szorosan kapcsolódik egy olyan interdiszciplináris tudományterülethez is, mint a mesterséges intelligencia (AI), amelyen belül az egyes intellektuális funkciók számítógépes modelljeit fejlesztik. Az egyik első működő program az AI és a CL területén T. Winograd híres programja, amely megértette a legegyszerűbb emberi parancsokat a kockák világának megváltoztatására, az NL korlátozott részhalmazán megfogalmazva. Megjegyzendő, hogy a CL és a mesterséges intelligencia területén végzett kutatások nyilvánvaló metszéspontja ellenére (mivel a nyelvtudás az intellektuális funkciókhoz kapcsolódik), az AI nem veszi fel az összes CL-t, mivel megvan a maga elméleti alapja és módszertana. A közös ezekben a tudományokban a számítógépes modellezés, mint a kutatás fő módszere és végső célja.

Így a CL feladat úgy fogalmazható meg, mint az NL nyelvű szövegek automatikus feldolgozására szolgáló számítógépes programok fejlesztése. És bár a feldolgozást meglehetősen tágan értjük, nem minden típusú feldolgozás nevezhető nyelvinek, a megfelelő feldolgozók pedig nyelvinek. Nyelvi processzor A nyelv egyik vagy másik formális modelljét kell használnia (még egy nagyon egyszerűt is), ami azt jelenti, hogy valamilyen módon nyelvfüggőnek kell lennie (azaz egy adott NL-től kell függnie). Így például a Mycrosoft Word szövegszerkesztőt nevezhetjük nyelvinek (már csak azért is, mert szótárakat használ), de a Jegyzettömb szerkesztőjét nem.

A CL feladatok összetettsége abból adódik, hogy az NL egy összetett többszintű jelrendszer, amely az emberek közötti információcsere érdekében keletkezett, az emberi gyakorlati tevékenység során alakult ki, és e tevékenységgel összefüggésben folyamatosan változik. A CL-módszerek fejlesztésének másik nehézsége (és az NL nyelvtudományi keretein belüli tanulmányozásának nehézsége) a természetes nyelvek sokféleségéhez kapcsolódik, a szókincsük, a morfológiájuk, a szintaxisuk jelentős különbségei ugyanazt a jelentést különböző módon fejezik ki .

2. Az NL rendszer jellemzői: szintek és csatlakozások

A nyelvi feldolgozók tárgya az NL szövegek. Szöveg alatt minden beszédmintát értünk – szóbeli és írásbeli, bármilyen műfajú, de a CL elsősorban az írott szövegeket tekinti. A szöveg egydimenziós, lineáris szerkezetű, és bizonyos jelentést is hordoz, míg a nyelv az átvitt jelentés szöveggé alakításának eszköze (beszédszintézis) és fordítva (beszédelemzés). A szöveg kisebb egységekből épül fel, és többféleképpen is lehetséges a szöveg különböző szintekhez tartozó egységekre való felosztása (felosztása).

A következő szintek létezése általánosan elfogadott:

· javaslatok (kijelentések) szintje – szintaktikai szint;

· Lexikomorfológiai a homonímia (a leggyakoribb típus) akkor fordul elő, ha két különböző lexéma szóalakja egybeesik, pl. vers– ige egyes számban, hímnemben és főnév egyes számban, névelőben),

· Szintaktikai homonímia a szintaktikai struktúra kétértelműségét jelenti, ami többféle értelmezéshez vezet: Lvov diákjai Kijevbe mentek,Repülő repülőgépek tud legyen veszélyes(Chomsky híres példája) stb.

3. Modellezés a számítógépes nyelvészetben

A nyelvi processzor (LP) fejlesztése magában foglalja a feldolgozott NL-szöveg nyelvi tulajdonságainak leírását, és ez a leírás a következőképpen szerveződik. modell nyelv. Akárcsak a modellezésnél a matematikában és a programozásban, a modell alatt egy bizonyos rendszert értünk, amely a modellezett jelenség (azaz SE) számos lényeges tulajdonságát jeleníti meg, és ezért szerkezeti vagy funkcionális hasonlóságot mutat.

A CL-ben használt nyelvi modellek általában a nyelvészek által különféle szövegek tanulmányozása során megalkotott elméletek és nyelvi intuíciójuk (introspekció) alapján épülnek fel. Melyek a CL modellek sajátosságai? A következő jellemzőket lehet megkülönböztetni:

· A formalitás és végső soron az algoritmizálhatóság;

· Funkcionalitás (a modellezés célja egy nyelv funkcióinak „fekete dobozként” való reprodukálása anélkül, hogy az emberi beszédszintézis és -elemzés pontos modelljét építené fel);

· A modell általánossága, azaz meglehetősen nagy szöveghalmazt vesz figyelembe;

· Kísérleti érvényesség, amely magában foglalja a modell tesztelését különböző szövegeken;

· A szótárak használata, mint a modell kötelező összetevője.

Az NL összetettsége, leírása és feldolgozása ahhoz vezet, hogy ezt a folyamatot a nyelv szintjei szerint külön szakaszokra osztják fel a legtöbb modern LP moduláris típusú, amelyben a nyelvi elemzés vagy szintézis minden szintje egy különálló szintnek felel meg. processzor modul. A szövegelemzés esetében az egyes LP-modulok különösen a következőket hajtják végre:

Ø Graphematikai elemzés, azaz szóalakok kiemelése a szövegben (áttérés szimbólumokról szavakra);

Ø Morfológiai elemzés – átmenet a szóalakról azokba lemmák(lexémák szótári alakjai) ill alapok(a szó nukleáris részei, mínusz a ragozásos morfémák);

Ø Szintaktikai elemzés, azaz szövegmondatok nyelvtani szerkezetének azonosítása;

Ø Szemantikai és pragmatikai elemzés, amely meghatározza a kifejezések jelentését és annak a rendszernek a megfelelő reakcióját, amelyen belül az LP működik.

Ezeknek a moduloknak a kölcsönhatására különböző sémák lehetségesek (szekvenciális működés vagy párhuzamos szakaszos elemzés), azonban az egyes szintek - morfológia, szintaxis és szemantika - továbbra is eltérő mechanizmusokkal dolgoznak fel.

Az LP tehát többlépcsős konverternek tekinthető, amely szövegelemzés esetén minden mondatát jelentésének belső reprezentációjává fordítja, szintézis esetén pedig fordítva. A megfelelő nyelvi modell hívható szerkezeti.

Bár a teljes CL-modellek megkövetelik a nyelv összes fő szintjének figyelembevételét és a megfelelő modulok jelenlétét, néhány alkalmazott probléma megoldása során meg lehet tenni az egyes szintek LP-ben való megjelenítése nélkül. Például a korai kísérleti CL programokban a feldolgozott szövegek nagyon szűk problémakörbe tartoztak (korlátozott szókészlettel és azok szigorú sorrendjével), így kezdőbetűikkel szavakat lehetett felismerni, kihagyva a morfológiai és szintaktikai szakaszokat. elemzés.

A redukált modell másik példája, amelyet ma már meglehetősen gyakran használnak, a szimbólumok és kombinációik (bigramok, trigramok stb.) gyakoriságának nyelvi modellje egy adott NL szövegeiben. Ilyen statisztikai modell nyelvi információkat jelenít meg a szöveg karaktereinek (betűinek) szintjén, és ez elegendő például a szöveg elírási hibáinak azonosítására vagy nyelvi azonosságának felismerésére. Hasonló modellt használnak, amely az egyes szavak és szövegekben való együttes előfordulásuk statisztikáján alapul (a szavak bigramjai, trigramjai) például a lexikális többértelműség feloldására vagy egy szó beszédrészének meghatározására (olyan nyelveken, mint az angol ).

Vegye figyelembe, hogy lehetséges szerkezeti-statisztikai modellek, amelyben az NL egyes szintjei ábrázolásakor figyelembe vesznek egy-egy statisztikát - szavakat, szintaktikai szerkezeteket stb.

A moduláris típusú LP-ben a szövegelemzés vagy -szintézis minden szakaszában egy megfelelő modellt (morfológia, szintaxis stb.) használnak.

A CL-ben létező szóalakok elemzésére szolgáló morfológiai modellek főként a következő paraméterekben térnek el egymástól:

· a munka eredménye - egy adott szóalak morfológiai jellemzőinek halmazával (nem, szám, eset, aspektus, személy stb.) rendelkező lemma vagy tő;

· elemzési módszer - valamely nyelv szóalakjainak szótárán vagy alapismeretek szótárán, vagy szótár nélküli módszeren alapul;

· a szótárban nem szereplő lexéma szóalakjának feldolgozásának képessége.

A morfológiai szintézisben a kiindulási adat a lexéma kért szóalakjának sajátos morfológiai jellemzői, kérhető egy adott lexéma összes alakjának szintézise is. Mind a morfológiai elemzés, mind a szintézis eredménye általában nem egyértelmű.

A szintaxis CL keretein belüli modellezésére számos különféle ötletet és módszert javasoltak, amelyek különböznek a nyelv szintaxisának leírásában, ezen információk felhasználásában egy NL mondat elemzésében vagy szintézisében, pl. valamint a mondat szintaktikai szerkezetének ábrázolási módja. Meglehetősen konvencionálisan három fő megközelítést különböztethetünk meg a modellalkotásban: a generatív megközelítést, amely a Chomsky-i elképzelésekre megy vissza, egy megközelítést, amely I. Melchuk gondolataira megy vissza, és amelyet a „jelentés-szöveg” modell képvisel, valamint egy olyan megközelítés, amelyen belül bizonyos kísérleteket tesznek az első két megközelítés, különösen a szintaktikai csoportok elméletének korlátainak leküzdésére.

A generatív megközelítésen belül a szintaktikai elemzést általában formális kontextusmentes nyelvtan alapján végezzük, amely a mondat frázisszerkezetét írja le, vagy a kontextusmentes nyelvtan valamilyen kiterjesztése alapján. Ezek a nyelvtanok a mondat következetes lineáris felosztásán alapulnak (szintaktikai konstrukciók, például főnévi kifejezések), ezért egyszerre tükrözik a mondat szintaktikai és lineáris szerkezetét. Leírjuk az elemzés eredményeként kapott NL mondat hierarchikus szintaktikai szerkezetét alkatrészek fája, melynek levelei a mondat szavait tartalmazzák, a részfák a mondatban foglalt szintaktikai szerkezeteknek (kifejezéseknek) felelnek meg, az ívek pedig a szerkezetek egymásba ágyazott kapcsolatait fejezik ki.

A vizsgált megközelítés tartalmazhat hálózati nyelvtanokat, amelyek egyrészt egy nyelvi rendszer leírására szolgáló berendezés, másrészt egy véges állapotú gép, például az ATN kiterjesztett átmeneti hálózat koncepciója alapján mondatelemzési eljárást határoznak meg.

A második megközelítésben egy vizuálisabb és általánosabb módszert alkalmaznak a mondat szintaktikai szerkezetének ábrázolására - függőségi fák. A fa csomópontjai tartalmazzák a mondat szavait (a gyökér általában igei állítmány), és a fa minden egyes íve, amely csomópontpárt köt össze, szintaktikaiként értelmeződik alárendelő kapcsolat közöttük, és a kapcsolat iránya megfelel az adott ív irányának. Mivel ebben az esetben a szavak szintaktikai összefüggései és a szavak sorrendje a mondatban elválik, így az alárendeltségi fák alapján megtört ill. nem projektív szabad szórendű nyelvekben meglehetősen gyakran előforduló konstrukciók.

A komponensfák alkalmasabbak a nyelvek merev szórendben való leírására, amelyek segítségével a törött és nem projektív konstrukciókat ábrázolják, a használt nyelvtani formalizmus bővítését igényli. De ennek a megközelítésnek a keretein belül természetesebben íródnak le a nem alárendelő viszonyokkal rendelkező konstrukciók. Ugyanakkor mindkét megközelítés közös nehézsége a mondat homogén tagjainak ábrázolása.

A szintaktikai modellek minden megközelítésben igyekszenek figyelembe venni a nyelvi egységek beszédbeli összekapcsolására vonatkozó korlátozásokat, miközben így vagy úgy a vegyérték fogalmát használják. Vegyérték- ez egy szó vagy más nyelvi egység azon képessége, hogy bizonyos szintaktikai módon összekapcsoljon más egységeket; aktáns egy szó vagy szintaktikai szerkezet, amely kitölti ezt a vegyértéket. Például az orosz ige átadni három fő vegyértéke van, amelyek a következő kérdő szavakkal fejezhetők ki: WHO? kinek? Mi? A generatív megközelítés keretében a szavak (elsősorban az igék) vegyértékeit főleg speciális keretek formájában írják le ( alkategorizálás keretek) , illetve a függőségi fákon alapuló megközelítés keretein belül - hogyan menedzsment modellek.

A nyelvi szemantikai modellek a CL keretein belül a legkevésbé fejlettek. Mondatok szemantikai elemzéséhez, úgynevezett esetnyelvtanok ill szemantikai esetek(valencia), amely alapján egy mondat szemantikáját mind a főszó (ige) szemantikai aktánsaival való kapcsolatain, azaz szemantikai eseteken keresztül írják le. Például ige átadni szemantikai esetekkel írják le adva(ügynök), címzettÉs átviteli objektum.

Egy teljes szöveg szemantikájának ábrázolására általában két logikailag ekvivalens formalizmust használnak (mindkettőt részletesen leírják az AI keretein belül):

· Képletek tulajdonságokat, állapotokat, folyamatokat, cselekvéseket és kapcsolatokat kifejező predikátumok kiszámításához;

· A szemantikus hálózatok címkézett gráfok, amelyekben a csúcsok fogalmaknak, a csúcsok pedig a köztük lévő kapcsolatoknak felelnek meg.

Ami a pragmatika és a diskurzus modelljeit illeti, amelyek nemcsak az egyes mondatok, hanem a szöveg egészének feldolgozását is lehetővé teszik, ezek megalkotására elsősorban Van Dyck ötleteit használják fel. Az egyik ritka és sikeres modell a koherens szövegek diszkurzív szintézisének modellje. Az ilyen modelleknek figyelembe kell venniük az anaforikus utalásokat és más diskurzusszintű jelenségeket.

A nyelvi modellek CL keretein belüli jellemzését lezárva, térjünk ki egy kicsit részletesebben a „Jelentés-Szöveg” nyelvi modellek elméletére, amelynek keretében számos gyümölcsöző ötlet jelent meg, amelyek megelőzték korukat és ma is aktuális.

Ennek az elméletnek megfelelően az NL-t egy speciális transzformátornak tekintik, amely adott jelentéseket megfelelő szövegekké, adott szövegeket pedig megfelelő jelentéssé dolgozza fel. A jelentést a szöveg minden szinonim transzformációjának invariánsaként értjük. A beszéd koherens töredékének tartalma frázisokra és szóalakokra bontás nélkül egy speciális szemantikai reprezentáció formájában jelenik meg, amely két összetevőből áll: szemantikai gráfés információkat kommunikatív jelentésszervezés.

Fel kell tüntetni az elmélet megkülönböztető jegyeit:

o a szövegek szintézisére való orientáció (a nyelvi kompetencia fő kritériumának a helyes szövegalkotás képességét tekintjük);

o a modell többszintű, moduláris jellege, a nyelv főbb szintjei felületes és mélyszintekre oszlanak: különböznek pl. mély(szemantizált) és felület("tiszta") szintaxis, valamint felszínmorfológiai és mélymorfológiai szintek;

o a nyelvi modell integrál jellege; az egyes szinteken a megfelelő modul által bemutatott információk tárolása, az erről a szintről a következőre történő átmenet végrehajtása;

o a szintaktika leírásának speciális eszközei (az egységek összekapcsolásának szabályai) minden szinten; egy halmazt javasoltak a lexikális kompatibilitás leírására lexikális funkciók, melynek segítségével megfogalmazódnak a szintaktikai parafrázis szabályai;

o a szókincs hangsúlyozása a nyelvtan helyett; a szótár a nyelv különböző szintjeivel kapcsolatos információkat tárol; különösen a szintaktikai és szemantikai vegyértékeiket leíró szóvezérlő modelleket használják a szintaktikai elemzéshez.

Ezt az elméletet és nyelvi modellt az ETAP gépi fordítórendszer testesíti meg.

4. Nyelvi források

A nyelvi feldolgozók fejlesztése megköveteli a feldolgozott nyelvre vonatkozó nyelvi információk megfelelő reprezentációját. Ezek az információk számos számítógépes szótárban és nyelvtanban jelennek meg.

Szótárak a lexikális információ megjelenítésének leghagyományosabb formája; egységeikben (általában szavak vagy kifejezések), szerkezetükben és szókincs-lefedettségükben különböznek (egy adott problémakör kifejezési szótárai, általános szókincs szótárai stb.). A szókincsegység ún szótári bejegyzés, információt nyújt a tokenről. A lexikális homonimák általában különböző szótári bejegyzésekben jelennek meg.

A CL-ben a legelterjedtebbek a morfológiai elemzésre használt morfológiai szótárak, szótári bejegyzésük morfológiai információkat tartalmaz a megfelelő szóról - szófajról, ragozási osztályról (a ragozási nyelveknél), a szójelentések listájáról stb. A szótár felépítésétől függően; nyelvi processzor a szótárban nyelvtani információk is hozzáadhatók, például szóvezérlő modellek.

Vannak olyan szótárak, amelyek szélesebb körű információkat nyújtanak a szavakról. Például a „Jelentés-Szöveg” nyelvi modell jelentősen támaszkodik magyarázó kombinatorikus szótár, melynek szótári bejegyzésében a morfológiai, szintaktikai és szemantikai információkon (szintaktikai és szemantikai vegyértékek) kívül e szó lexikai kompatibilitására vonatkozó információk is szerepelnek.

Számos nyelvi processzort használnak szinonima szótárak. Egy viszonylag új típusú szótár - paroníma szótárak, azaz külsőleg hasonló szavak, amelyek jelentésükben különböznek, pl. idegenÉs idegen, szerkesztésÉs referencia .

A lexikális források másik típusa az kifejezés adatbázisok, amelyben az adott nyelv legtipikusabb kifejezései vannak kiválasztva. Ez az orosz nyelvű kifejezések adatbázisa (körülbelül egymillió egység) képezi a CrossLexica rendszer magját.

A lexikális források összetettebb típusai tezauruszok és ontológiák. A tezaurusz egy szemantikai szótár, azaz olyan szótár, amelyben a szavak szemantikai összefüggései – szinonim, genus-típusú kapcsolatok (néha fent-alul kapcsolatnak is nevezik), rész-egész, asszociációk – kerülnek bemutatásra. A tezauruszok terjesztése információ-visszakeresési problémák megoldásához kapcsolódik.

A tezaurusz fogalmához szorosan kapcsolódik az ontológia fogalma. Az ontológia egy bizonyos tudásterület fogalmainak és entitásainak összessége, amelyek a különféle feladatokhoz való újrafelhasználásra irányulnak. Ontológiák létrehozhatók egy nyelvben meglévő szókincs alapján - ebben az esetben ezeket nevezzük nyelviÉs.

Hasonló nyelvi ontológiának tekintik a WordNet rendszert - egy nagy lexikális forrást, amelyben angol szavakat gyűjtenek: főneveket, mellékneveket, igéket és határozószavakat, valamint ezek különböző típusú szemantikai kapcsolatait. A beszéd minden egyes meghatározott részéhez a szavak szinonimacsoportokba vannak csoportosítva ( synsets), amelyek között létrejönnek az antonímia, hiponímia (nemzetség-faj kapcsolat), meronímia (rész-egész kapcsolat) kapcsolatok. A forrás hozzávetőleg 25 ezer szót tartalmaz, a nemzetség-faj kapcsolat hierarchiaszintjei átlagosan 6-7, esetenként elérik a 15-öt. A hierarchia legfelső szintje egy általános ontológiát - a világról szóló alapfogalmak rendszerét - alkot.

Az angol WordNet séma alapján más európai nyelvekhez hasonló lexikális forrásokat építettek, amelyeket EuroWordNet általános néven egyesítettek.

Egy teljesen más típusú nyelvi forrás az NL nyelvtan, melynek típusa a processzorban használt szintaktikai modelltől függ. Első közelítéssel a nyelvtan a szavak és szócsoportok általános szintaktikai tulajdonságait kifejező szabályok összessége. A nyelvtani szabályok teljes száma a szintaktikai modelltől is függ, több tíztől több százig terjedhet. Lényegében itt egy probléma a nyelvtan és a szókincs kapcsolata egy nyelvi modellben: minél több információ szerepel a szótárban, annál rövidebb lehet a nyelvtan, és fordítva.

Vegyük észre, hogy a számítógépes szótárak, tezauruszok és nyelvtanok készítése terjedelmes és munkaigényes munka, esetenként még munkaigényesebb, mint egy nyelvi modell és a megfelelő processzor kidolgozása. Ezért a CL egyik alárendelt feladata a nyelvi erőforrások felépítésének automatizálása.

A számítógépes szótárak gyakran közönséges szöveges szótárak konvertálásával jönnek létre, de ezek elkészítése gyakran sokkal összetettebb és alaposabb munkát igényel. Ez általában akkor fordul elő, ha szótárakat és szinonimaszótárakat készítenek gyorsan fejlődő tudományterületekhez - molekuláris biológia, számítástechnika stb. A szükséges nyelvi információk kinyerésének forrása gyűjtemények és szöveges korpuszok.

A szövegkorpusz a reprezentativitás bizonyos elve szerint (műfaj, szerzőség stb. szerint) összegyűjtött szövegek gyűjteménye, amelyben minden szöveg meg van jelölve, azaz valamilyen nyelvi jelöléssel (annotációval) ellátva - morfológiai, hangsúlyos, szintaktikai stb. n. Jelenleg legalább száz különböző korpusz létezik - Oroszországban a leghíresebb az orosz nyelvű korpusz.

A feliratozott korpuszokat nyelvészek készítik, és mind nyelvészeti kutatásra, mind pedig a CL-ben használt modellek és processzorok hangolására (tanítására) használják a gépi tanulás jól ismert matematikai módszereivel. Így a gépi tanulást a lexikális többértelműség feloldásának, a beszédrészek felismerésének és az anaforikus hivatkozások feloldásának módszereinek konfigurálására használják.

Mivel a korpuszok és szöveggyűjtemények a bennük reprezentált nyelvi jelenségek tekintetében mindig korlátozottak (és ráadásul a korpuszok létrehozása meglehetősen hosszú időt vesz igénybe), az utóbbi időben az internetes szövegek egyre inkább teljesebb nyelvi forrásnak számítanak. Természetesen az Internet a legreprezentatívabb forrása a modern beszédmintáknak, de korpuszként való felhasználása speciális technológiák fejlesztését igényli.

5. Számítógépes nyelvészet alkalmazásai

A számítógépes nyelvészet alkalmazási területe folyamatosan bővül, ezért itt az eszközeivel megoldott legismertebb alkalmazott problémákat jellemezzük.

Gépi fordítás– a CL legkorábbi alkalmazása, amellyel maga ez a terület is keletkezett és fejlődött. Az első fordítóprogramok több mint 50 évvel ezelőtt készültek, és egy egyszerű, szóról-szóra fordítási stratégián alapultak. Gyorsan felismerték azonban, hogy a gépi fordításhoz olyan teljes nyelvi modellre van szükség, amely a nyelv minden szintjét figyelembe veszi, egészen a szemantikáig és a pragmatikáig, ami többször is hátráltatta e terület fejlődését. Meglehetősen teljes modellt használnak a hazai ETAP rendszerben, amely a tudományos szövegeket franciáról oroszra fordítja.

Megjegyzendő azonban, hogy rokon nyelvre történő fordítás esetén, például spanyolról portugálra vagy oroszról ukránra fordítva (amelyeknek szintaxisában és morfológiájában sok a közös), a processzor egy egyszerűsített változat alapján is megvalósítható. modell például ugyanazon a szóról szóra fordítási stratégián alapul.

Jelenleg a számítógépes fordítórendszerek egész sora létezik (változó minőségű), a nagy nemzetközi kutatási projektektől a kereskedelmi automata fordítókig. Jelentős érdeklődésre tartanak számot a többnyelvű fordítási projektek, amelyek egy olyan köztes nyelvet használnak, amelybe a lefordított kifejezések jelentése kódolva van. Egy másik modern irány a statisztikai fordítás, amely a szavak és kifejezések fordítási statisztikáin alapul (ezeket az ötleteket például a Google kereső fordítója valósítja meg).

De az ezen az egész területen végzett sok évtizedes fejlesztés ellenére a gépi fordítás problémája általában még mindig nagyon messze van a teljes megoldástól.

A számítógépes nyelvészet másik meglehetősen régi alkalmazása az információkeresésés a kapcsolódó dokumentumok indexelési, kivonatolási, osztályozási és rubrikálási feladatai.

A dokumentumok teljes szöveges keresése nagy (elsősorban tudományos, műszaki, üzleti) dokumentumadatbázisokban általában azok alapján történik. képek keresése, ami alatt halmazt értünk kulcsszavakat– a dokumentum fő témáját tükröző szavak. Eleinte csak az NL egyes szavait tekintették kulcsszavaknak, és a keresést anélkül hajtották végre, hogy figyelembe vették volna a ragozásukat, ami nem kritikus a gyengén ragozott nyelveknél, például az angolnál. A ragozott nyelveknél, például az orosznál, olyan morfológiai modellt kellett alkalmazni, amely figyelembe veszi a ragozást.

A keresési lekérdezést szókészletként is bemutattuk, a lekérdezés és a dokumentum keresési képe alapján határoztuk meg a megfelelő (releváns) dokumentumokat. Egy dokumentum keresési képének létrehozása magában foglalja indexelés szövegét, vagyis a kulcsszavak kiemelését benne. Mivel nagyon gyakran egy dokumentum témáját és tartalmát nem az egyes szavak, hanem kifejezések tükrözik sokkal pontosabban, a kifejezéseket kulcsszavaknak kezdték tekinteni. Ez jelentősen megnehezítette a dokumentumok indexelésének eljárását, mivel a statisztikai és nyelvi kritériumok különféle kombinációira volt szükség a jelentősebb kifejezések kiválasztásához a szövegben.

Valójában az információkeresés elsősorban használ vektor szöveg modell(néha hívják táska a szavak– zsák szavak), amelyben egy dokumentum a kulcsszavainak vektoraként (halmazaként) jelenik meg. A modern internetes keresők is ezt a modellt alkalmazzák, a szövegeket a bennük használt szavak alapján indexelik (ugyanakkor nagyon kifinomult rangsorolási eljárásokat alkalmaznak a releváns dokumentumok visszaadására).

A megadott szövegmodellt (néhány bonyodalommal) az alábbiakban tárgyalt kapcsolódó információ-visszakeresési problémákban is használják.

Összefoglaló szöveg– mennyiségének csökkentése és összefoglaló beszerzése – absztrakt (sűrített tartalom), ami gyorsabbá teszi a keresést a dokumentumgyűjteményekben. A témához kapcsolódó több dokumentumhoz is összeállítható egy általános absztrakt.

Az automatikus absztrahálás fő módszere továbbra is az absztrahált szöveg legjelentősebb mondatainak kiválasztása, amelyhez általában először a szöveg kulcsszavait és a szövegmondatok szignifikancia együtthatóját számítják ki. A szignifikáns mondatok kiválasztását nehezítik a mondatok anaforikus kapcsolatai, amelyek törése nem kívánatos - ennek a problémának a megoldására bizonyos mondatkiválasztási stratégiákat dolgoznak ki.

Az absztrakcióhoz közeli feladat az annotáció a dokumentum szövege, azaz a megjegyzés elkészítése. A legegyszerűbb formájában az absztrakt a szöveg azon főbb témáinak listája, amelyek azonosítására indexelési eljárások használhatók.

Nagy dokumentumgyűjtemények létrehozásakor a következő feladatok relevánsak: osztályozásokÉs klaszterezés szövegeket a témához kapcsolódó dokumentumosztályok létrehozása érdekében. Az osztályozás azt jelenti, hogy minden dokumentumot egy adott osztályhoz rendelünk korábban ismert paraméterekkel, a klaszterezés pedig azt, hogy egy dokumentumkészletet klaszterekre, azaz tematikusan hasonló dokumentumok részhalmazaira osztunk. E problémák megoldására gépi tanulási módszereket alkalmaznak, ezért ezeket az alkalmazott problémákat szövegbányászatnak nevezik, és az adatbányászatként ismert tudományos irányzathoz tartoznak.

A probléma nagyon közel van az osztályozáshoz rubrikálás szöveg - a korábban ismert tematikus címsorok valamelyikéhez való hozzárendelése (általában a címsorok a témakörök hierarchikus fáját alkotják).

Az osztályozási probléma egyre inkább elterjedt, megoldódik például a spam felismerésben, és viszonylag új alkalmazás a mobil eszközökön lévő SMS-ek osztályozása. Az információkeresés általános problémájának új és releváns kutatási iránya a többnyelvű dokumentumkeresés.

Az információkereséshez kapcsolódó másik viszonylag új feladat az kérdésekre adott válaszok generálása(Kérdés válasz) . Ezt a problémát úgy oldjuk meg, hogy meghatározzuk a kérdés típusát, keresünk olyan szövegeket, amelyek potenciálisan tartalmazzák a választ erre a kérdésre, és ezekből a szövegekből kinyerjük a választ.

Egy teljesen más alkalmazási terület, amely lassan, de folyamatosan fejlődik az előkészítés és a szerkesztés automatizálása szövegek az EA-ban. Az egyik első ilyen irányú alkalmazás a szókötőjelek automatikus meghatározására szolgáló programok és a szöveges helyesírási programok (helyesírások vagy automatikus javítóprogramok) voltak. Az átviteli probléma látszólagos egyszerűsége ellenére számos nyelv (például angol) helyes megoldása megköveteli a megfelelő nyelv szavak morfémikus szerkezetének ismeretét, és ezért a megfelelő szótárt.

A helyesírás-ellenőrzést régóta alkalmazzák kereskedelmi rendszerekben, és megfelelő szótárra és morfológiai modellre támaszkodik. Hiányos szintaktikai modellt is alkalmaznak, amely alapján az összes elég gyakori szintaktikai hibát azonosítják (például szóegyezési hibák). Ugyanakkor az automatikus javítóprogramok még nem valósították meg az összetettebb hibák, például az elöljárószók helytelen használatának észlelését. Sok lexikális hibát szintén nem észlelünk, különösen az elírásból vagy hasonló szavak helytelen használatából eredő hibákat (pl. súly súlyos helyett). A modern CL-kutatás módszereket javasol az ilyen hibák, valamint néhány más típusú stilisztikai hiba automatikus felismerésére és kijavítására. Ezek a módszerek statisztikákat használnak a szavak és kifejezések előfordulásáról.

A szövegkészítés támogatásához közeli alkalmazott feladat az természetes nyelvoktatás Ennek az iránynak a keretében gyakran fejlesztenek számítógépes rendszereket nyelvoktatásra - angol, orosz stb. (hasonló rendszerek találhatók az interneten). Ezek a rendszerek jellemzően a nyelv egyes aspektusainak (morfológia, szókincs, szintaxis) vizsgálatát támogatják, és megfelelő modelleken, például a morfológiai modellen alapulnak.

Ami a szókincs elsajátítását illeti, ehhez a szövegszótárak elektronikus analógjait is használják (amelyek lényegében nem rendelkeznek nyelvi modellekkel). Ugyanakkor olyan többfunkciós számítógépes szótárakat is fejlesztenek, amelyek nem rendelkeznek szöveganalógokkal, és a felhasználók széles körét célozzák meg - például az orosz kifejezések Crosslexics szótára. Ez a rendszer a szókincs – szavak és elfogadható szóösszetételek – széles skáláját fedi le, emellett segítséget nyújt a szókezelési modellekhez, szinonimákhoz, antonimákhoz és a szavak egyéb szemantikai korrelációihoz, ami egyértelműen nemcsak az orosz nyelvet tanulók számára hasznos, hanem anyanyelvi beszélőknek is.

A következő alkalmazási terület, amelyet érdemes megemlíteni automatikus generálás szövegek az EA-ban. Ez a feladat elvileg a fentebb már tárgyalt gépi fordítási feladat részfeladatának tekinthető, azonban az irányzat keretein belül számos konkrét feladat található. Ilyen feladat a többnyelvű generálás, azaz speciális dokumentumok automatikus felépítése több nyelven - szabadalmi képletek, műszaki termékek vagy szoftverrendszerek kezelési utasításai, azok specifikációi alapján hivatalos nyelven. A probléma megoldására meglehetősen részletes nyelvi modelleket használnak.

Egyre relevánsabb alkalmazott probléma, amelyet gyakran szövegbányászatnak neveznek, az információ kinyerése szövegekből, vagy Information Extraction, amely a gazdasági és termelési elemzési problémák megoldásához szükséges. Ennek érdekében az NL tesztben azonosítanak bizonyos objektumokat - elnevezett entitásokat (nevek, személyiségek, földrajzi nevek), a hozzájuk kapcsolódó kapcsolataikat és eseményeket. Ez általában a szöveg részleges elemzése alapján valósul meg, ami lehetővé teszi a hírügynökségek hírfolyamainak feldolgozását. Mivel a feladat nem csak elméletileg, de technológiailag is meglehetősen összetett, a kereskedelmi cégeken belül megvalósítható jelentős rendszerek létrehozása a szövegekből való információ kinyerésére.

A Szövegbányászat területhez tartozik még két kapcsolódó feladat – a véleménybányászat (Opinion Mining) és a hangulatelemzés (Sentiment Analysis), amelyek egyre több kutató figyelmét hívják fel. Az első feladat a termékekről és egyéb tárgyakról szóló felhasználói vélemények felkutatása (blogokban, fórumokon, online áruházakban stb.), valamint ezek elemzése. A második feladat közel áll a tömegkommunikációs szövegek tartalomelemzésének klasszikus feladatához, az állítások általános hangvételét értékeli.

Egy másik alkalmazás, amelyet érdemes megemlíteni párbeszéd támogatása a felhasználóval az EA-n bármely információs szoftverrendszer keretein belül. Leggyakrabban ezt a problémát speciális adatbázisoknál oldották meg - ebben az esetben a lekérdezési nyelv meglehetősen korlátozott (lexikailag és nyelvtanilag), ami lehetővé teszi az egyszerűsített nyelvi modellek használatát. Az adatbázishoz NL nyelven megfogalmazott lekérdezéseket lefordítják formális nyelvre, majd megkeresik a szükséges információkat és összeállítják a megfelelő válaszmondatot.

Utolsóként a CL-alkalmazások listáján (de nem utolsósorban fontos) jelezzük beszédfelismerés és szintézis. Az e feladatok során óhatatlanul felmerülő felismerési hibákat a szótárak és a morfológiai nyelvi ismeretek alapján automatikus módszerekkel korrigálják. Ezen a területen a gépi tanulást is alkalmazni fogják.

Következtetés

A számítógépes nyelvészet egészen kézzelfogható eredményeket mutat fel az automatikus szövegfeldolgozás különböző alkalmazásaiban NL-ben. További fejlődése mind az új alkalmazások megjelenésétől, mind a különböző nyelvi modellek önálló fejlesztésétől függ, amelyekben számos probléma még nem megoldott. A legfejlettebb modellek a morfológiai elemzés és szintézis. A szintaktikai modelleket a javasolt formalizmusok és módszerek nagy száma ellenére még nem hozták a stabil és hatékony munkamodulok szintjére. Még kevésbé tanulmányozott és formalizált modellek a szemantika és pragmatika szintjén, bár a diskurzus automatikus feldolgozása már számos alkalmazásban szükséges. Megjegyzendő, hogy maga a számítógépes nyelvészet már meglévő eszközei, a gépi tanulás és a szövegkorpusok alkalmazása jelentősen előmozdíthatja e problémák megoldását.

Irodalom

1. Baeza-Yates, R. és Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley, 1999.

2. Bateman, J., Zock M. Natural Language Generation. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (szerk.). Oxford University Press, 2003, 304. o.

3. Biber, D., Conrad S. és Reppen D. Corpus Linguistics. A nyelv szerkezetének és használatának vizsgálata. Cambridge University Press, Cambridge, 1998.

4. Bolshakov, I. A., Gelbukh putational Linguistics. Modellek, erőforrások, alkalmazások. Mexikó, IPN, 2004.

5. Brown P., Pietra S., Mercer R., Pietra V. A statisztikai gépi fordítás matematikája. // Computational Linguistics, Vol. 19(2): 263-3

6. Carroll J R. Elemzés. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (szerk.). Oxford University Press, 2003, p. 233-248.

7. Chomsky, N. Szintaktikai szerkezetek. Hága: Mouton, 1957.

8. Grishman R. Információ kinyerés. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (szerk.). Oxford University Press, 2003, p. 545-559.

9. Harabagiu, S., Moldovan D. Kérdésválasz. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (szerk.). Oxford University Press, 2003, p. 560-582.

10. Hearst, M. A. WordNet kapcsolatok automatizált felfedezése. In: Fellbaum, C. (szerk.) WordNet: An Electronic Lexical Database. MIT Press, Cambridge, 1998, 131-151.

11. Hirst, G. Ontológia és lexikon. In.: Kézikönyv az ontológiákról az információs rendszerekben. Berlin, Springer, 2003.

12. Jacquemin C., Bourigault D. Term extrakció és automatikus indexelés // Mitkov R. (szerk.): Handbook of Computational Linguistics. Oxford University Press, 2003. p. 599-615.

13. Kilgarriff, A., G. Grefenstette. Bevezetés a speciális kérdésbe a weben, mint feltételezett nyelvészetbe, V. 29. sz. 3, 2003, p. 333-347.

14. Manning, Ch. D., H. Schütze. A statisztikai természetes nyelvi feldolgozás alapjai. MIT Press, 1999.

15. Matsumoto Y. Lexikai tudásszerzés. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (szerk.). Oxford University Press, 2003, p. 395-413.

16. The Oxford Handbook on Computational Linguistics. R. Mitkov (szerk.). Oxford University Press, 2005.

17. Oakes, M., Paice C. D. Term extrakció az automatikus absztrakcióhoz. A számítástechnikai terminológia legújabb eredményei. D. Bourigault, C. Jacquemin és M. L'Homme (szerk.), John Benjamins Publishing Company, Amszterdam, 2001, 353-370.

18. Pedersen, T. A biggramok döntési fája a szóérzékek pontos előrejelzője. Proc. A NAC ACL 2. éves találkozója, Pittsburgh, PA, 2001, p. 79-86.

19. Samuelsson C. Statisztikai módszerek. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (szerk.). Oxford University Press, 2003, p. 358-375.

20. Salton, G. Automatic Text Processing: the Transformation, Analysis and Retrieval of Information by Computer. Reading, MA: Addison-Wesley, 1988.

21. Somers, H. Gépi fordítás: Legújabb fejlesztések. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (szerk.). Oxford University Press, 2003, p. 512-528.

22. Strzalkowski, T. (szerk.) Natural Language Information Retrieval. Kluwer, 19p.

23. Woods W. A. Transition Network Grammers for Natural Language Analysis/ Communications of the ACM, V. 13, 1970, N 10, p. 591-606.

24. Word Net: elektronikus lexikai adatbázis. / Christiane Fellbaum. Cambridge, MIT Press, 1998.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Automatic Collocation Suggestion in Academic Writing // Proceedings of the ACL 2010 Conference Short Papers, 2010.

26. és mások az ETAP-2 rendszer nyelvi támogatása. M.: Nauka, 1989.

27. stb. Adatelemzési technológiák: adatbányászat, vizuális bányászat, szövegbányászat, OLAP – 2. kiadás. – Szentpétervár: BHV-Petersburg, 2008.

28. Bolshakov, Lexika - egy nagy elektronikus szótár az orosz szavak kombinációiból és szemantikai kapcsolataiból. //Összeáll. nyelvészet és intelligencia. technológia: Proceedings of int. Konf. "Párbeszéd 2009". Szám: Orosz Állami Bölcsészettudományi Egyetem, 2009, 45-50.

29. Bolshakova E.I., Bolshakov észlelése és az orosz malapropizmusok automatizált korrekciója // NTI. Ser. 2, 2007. 5. szám, 27-40.

30. Wang, Kinch V. Stratégia egy összefüggő szöveg megértéséhez // Új a külföldi nyelvészetben. Vol. XXIII– M., Haladás, 1988, p. 153-211.

31. Vasziljev V. G., Krivenko M. P. Az automatizált szövegfeldolgozás módszerei. – M.: IPI RAS, 2008.

32. Vinograd T. Természetes nyelvet értő program - M., Mir, 1976.

33. Sima természetes nyelvi struktúrák automatizált kommunikációs rendszerekben. – M., Nauka, 1985.

34. Gusev, V. D., Salomatina dictionary of paronyms: version 2. // NTI, Ser. 2, 7. szám, 2001, p. 26-33.

35. Zakharov - a tér mint nyelvi korpusz // Számítógépes nyelvészet és intellektuális technológiák: Proceedings of the International. Konferencia Párbeszéd ‘2005 / Szerk. , – M.: Nauka, 2005, p. 166-171.

36. Az általános nyelvészet Kasevicsa. - M., Nauka, 1977.

37. Leontief szövegértés: Rendszerek, modellek, források: Tankönyv - M.: Akadémia, 2006.

38. Nyelvi enciklopédikus szótár / Szerk. V. N. Yartseva, M.: Szovjet Enciklopédia, 1990, 685 p.

39. , Salium automatikus indexeléshez és kategorizáláshoz: fejlesztés, felépítés, karbantartás. // NTI, Ser. 2, 1996. 1. szám.

40. Luger J. Mesterséges intelligencia: stratégiák és módszerek összetett problémák megoldására. M., 2005.

41. McQueen K. Discursive strategies for text synthesis in natural language // Újdonság az idegen nyelvészetben. Vol. XXIV. M.: Haladás, 1989, 311-356.

42. Melchuk nyelvi modellek elmélete „SZÖVEG JELENTÉSE”. - M., Nauka, 1974.

43. Orosz nyelv nemzeti korpusz. http://*****

44. Khoroshevsky V. F. OntosMiner: a többnyelvű dokumentumgyűjteményekből származó információk kinyerésére szolgáló rendszerek családja // Kilencedik nemzeti konferencia a mesterséges intelligenciáról nemzetközi részvétellel KII-2004. T. 2. – M.: Fizmatlit, 2004, 573-581.

Timofeeva Maria Kirillovna
A filológia doktora, tudományos főmunkatárs az elnevezett Matematikai Intézet Logikai Rendszerek Laboratóriumában. S.L. Soboleva SB RAS, az NSU Humanitárius Intézete Fundamentális és Alkalmazott Nyelvészeti Osztályának vezetője. A Novoszibirszki Állami Egyetem Bölcsészettudományi Karának Matematikai Nyelvészeti Tanszékén végzett.
Tudományos érdeklődési kör: a nyelvtudomány filozófiai és módszertani alapjai, a természetes nyelv szemantikai és pragmatikai logikai problémái, a természetes nyelv funkcionális matematikai modelljei, természetes és formális nyelvek.

Stukachev Alekszej Iljics
elnevezett Matematikai Intézetben a fizikai és matematikai tudományok kandidátusa, egyetemi docens, tudományos főmunkatárs. S.L. Sobolev SB RAS, az NSU Mechanikai és Matematikai Karának Diszkrét Matematika és Informatika Tanszékének docense, az NSU Humanitárius Intézete Fundamentális és Alkalmazott Nyelvészeti Tanszékének docense
Kutatási területei: matematikai logika, kiszámíthatóságelmélet (általánosított kiszámíthatóság, kiszámíthatóság megengedett halmazokban, HF-számíthatóság), modellelmélet (konstruktív modellek, rendszerek hatékony reprezentációi, reprezentálhatósági fokok), kiszámítható elemzés. Matematikai nyelvészet: formális szemantika, Montague szemantika, disztributív szemantika.

Barakhnin Vlagyimir Boriszovics
Az SB RAS Számítási Technológiai Intézet Információs Erőforrások Laboratóriumának vezető kutatója, az NSU Mechanikai és Matematikai Karának Matematikai Modellezés Tanszékének professzora, az Informatikai Kar Számítástechnikai Rendszerek és Általános Informatika Tanszékének professzora Az NSU technológiái.
Tudományos érdeklődési kör: elosztott információs rendszerek modelljeinek építése, félig strukturált szöveges dokumentumok feldolgozására szolgáló algoritmusok készítése, költői szövegek komplex elemzésének automatizálása, számítástechnikai módszertani kérdések.

Bruches Elena Pavlovna
elnevezett Informatikai Rendszerek Intézetének posztgraduális hallgatója. A. P. Ershova SB RAS, az NSU Humanitárius Intézetének Fundamentális és Alkalmazott Nyelvészeti Tanszékének asszisztense, számítógépes nyelvész az OnPositive cégnél.
Tudományos érdeklődési kör: természetes nyelvi feldolgozás, gépi tanulás, mesterséges intelligencia.

Pavlovszkij Jevgenyij Nyikolajevics
a fizikai és matematikai tudományok kandidátusa, a Novoszibirszki Régió Kormánya alatt működő Fiatal Tudósok és Szakemberek Tanácsának tagja, a Novoszibirszki Akadémiák Technoparkja Szakértői Tanácsának tagja, a Szibériai Adattudományi Szimpózium szervezőbizottságának elnöke és Mérnöki konferencia.
Szakmai cél: az üzleti követelmények formalizálását célzó megközelítések rendszerezése big data projektekben.

Palchunov Dmitrij Jevgenyevics
elnevezett Matematikai Intézet vezető kutatója. S. L. Soboleva SB RAS, az NSU Általános Informatikai Tanszékének vezetője, az NSU Mechanikai és Matematikai Karának "Diszkrét Matematikai és Informatikai Intézete" tanszékének vezetője.
Tudományos érdeklődési kör: Alapvető eredmények születtek a megkülönböztetett ideálokkal rendelkező Boole-algebrák (I-algebrák) vizsgálatáról.

Sviridenko Dmitrij Ivanovics
Az SB RAS és NSU Matematikai Intézetének alkalmazottja, üzletember, az információs, kommunikációs és digitális technológiák területén dolgozó high-tech cégek szervezője és társtulajdonosa. Részt vesz a szemantikai modellezéssel kapcsolatos kutatásban, amelyet az Orosz Tudományos Alapítvány támogatásával finanszíroz.
Tudományos érdeklődési kör: filozófia, módszertan, alkalmazott matematikai logika. A szemantikai modellezés koncepciójának és matematikai elméletének szerzője, S. S. Goncharov és Yu. L. Ershov RAS akadémikusaival közösen terjesztették elő a múlt század 80-as éveiben. Jelenleg továbbra is aktívan fejleszti ennek a fogalomnak a módszertanát és matematikai elméletét, és foglalkozik ennek a koncepciónak a különböző területeken történő alkalmazásával. A szemantikai intelligens tranzakciók és szerződések módszertanának, matematikai elméletének és nyelvének megalkotásán dolgozik, alkalmazva a szemantikai modellezés gondolatait a TRIZ és más területek vonatkozásában.

Savostyanov Alekszandr Nyikolajevics
Az Élettani és Fundamentális Orvostudományi Kutatóintézet Differenciálpszichofiziológiai Laboratóriumának vezető kutatója, az SB RAS Citológiai és Genetikai Intézet Pszichológiai Genetikai Laboratóriumának vezetője, az NSU Információs Technológiai Kar Általános Informatikai Tanszékének professzora , az NSU Humanitárius Intézetének Fundamentális és Alkalmazott Nyelvészeti Tanszékének professzora.
Tudományos érdeklődési kör: neurofiziológia, pszichogenetika, neurolingvisztika, biológiai jelek számítógépes feldolgozásának módszerei. A kutatás célja az affektív patológiák kialakulásának és kialakulásának kockázati tényezőinek azonosítása emberekben, az élet társadalmi és éghajlati viszonyaitól függően. A kutatás részeként expedíciókat folytatnak Oroszország különböző régióiba (Novoszibirszk régió, Tyva, Jakutia, Altáj Köztársaság) és a szomszédos országokba (Mongólia, Kína) biológiai anyagok gyűjtése és EEG-felvételek gyűjtése különböző kísérleti körülmények között. A kutatás célja olyan diagnosztikai rendszerek létrehozása, amelyek lehetővé teszik az emberi viselkedés érzelmi szabályozásának megzavarásának kockázatát fokozott stressz esetén.

A nyelvi informatika az információs szolgáltatások elméletének része. Az információs szolgáltatások elmélete a beszéd számítógépesítésével, vagyis a számítógépek nyelvi információk rögzítésének, elszámolásának és tárolásának eszközeként történő használatával kapcsolatban merült fel. A technológiának köszönhetően lehetővé vált a könyvtár, az archívum és az iroda funkcióinak összekapcsolása.

A szövegek nagy csoportjainak feldolgozása automatikus összegzéssel történik. A folyamatosan bővülő tudományos és műszaki információk mennyisége, amelyek keresése egyre munkaigényesebb, felvetette az úgynevezett másodlagos szövegek keresésének gondolatát, amelyek egy elsődleges dokumentumból: bibliográfiai leírásból származó sűrített információk. , absztrakt, absztrakt, tudományos fordítás.

Az elsődleges szöveg összecsukása tömörítéssel történik. Speciális módszereket fejlesztettek ki az elsődleges szöveg összecsukására:

a) a statisztikai-elosztó módszerek a leginkább informatív mondatok azonosításából állnak, amelyekben az adott szövegre vonatkozó legjelentősebb nyelvi jelek koncentrálódnak;

b) a szemantikai mutatók használatának módszerei, amikor a szöveg legjelentősebb „pontjait” jegyezzük meg - a kutatás tárgyát, célját, módszereit, relevanciáját, terjedelmét, következtetéseit, eredményeit; c) a szövegkapcsolatok módszere, amely abból áll, hogy a mondatközi kapcsolatok figyelembevétele holisztikussá teszi az absztraktot.

3. Gyakorlati terminológia.
A gyakorlati terminológia a következő részeket tartalmazza:

a) lexikográfiai terminológia, amely a speciális szótárak létrehozásának elméletével és gyakorlatával, a terminusrendszerek egységesítésével, a kifejezések fordításával, a terminológiai adatbankok létrehozásával, tárolásuk és feldolgozásuk automatizálásával foglalkozik.

b) maga a lexikográfia az alkalmazott nyelvészet tárgyává vált, mint a gyakorlati nyelvészet egyik legmunkaigényesebb fajtája. A szótárakat évtizedek óta készítik. Ezért érthető a tudósok azon vágya, hogy automatizálják a lexikográfiai tevékenységeket. Megjelentek az automatikus szótárak. Céljuk a munka termelékenységének növelése a szövegekkel végzett munka, a különböző nyelvi egységek gyűjtése, tárolása és feldolgozása során. Az ilyen típusú szótárakat az automatikus szövegfeldolgozó rendszerekben használják.

Automatikus fordítás.

Az automatikus vagy gépi fordítás azon a feltételezésen alapul, hogy lehetséges a tipológiailag eltérő nyelvi szerkezetek (szókincs, szórend, ragozás, szintaktikai struktúrák) összehangolása. A fordítás nyelvi elve két vagy több olyan nyelv nyelvi egységeinek összehasonlítása, amelyek jelentésükben egyenértékűek.

Az automatikus fordítórendszerek fejlesztésének két szakasza van. Az első szakaszban a gépi fordítás olyan alapvető problémáit oldották meg, mint az automatikus szótárak létrehozása, a közvetítő nyelv kialakítása, a nyelvtan formalizálása, a homonímia leküzdése, az idiomatikus formációk feldolgozása. A második szakaszban a nyelvtan halmazelméleti modelljei, a függőségi nyelvtani modellek, a direkt összetevők és a generatív nyelvtan modelljei továbbra is meglehetősen gyümölcsözően dolgoznak és a gyakorlatban valósulnak meg. Ebben az időszakban a „jelentés - szöveg” modell szerinti szemantika egyre inkább bevonódik az alkalmazott nyelvészetbe. A hazai és külföldi egyetemeken kialakult alkalmazott nyelvészeti központok gépi fordítási stratégiákat dolgoznak ki. Ezek közé tartozik a Szentpétervári Egyetem matematikai nyelvészeti laboratóriuma, az Orosz Tudományos Akadémia Alkalmazott Matematikai Intézetében; All-Union Fordítóközpont; „Beszédstatisztika” csoport a Leningrádi Pedagógiai Intézetben Raymond Genrikhovich Piotrovsky vezetésével; csoport a „jelentés - szöveg” szintaktikai modellezésének tanulmányozására Igor Aleksandrovich Melchuk vezetésével.

A gépi fordítás fejlesztésének új szakasza egy közvetítő nyelv – egy tudásreprezentációs nyelv – használatához kapcsolódik. A bemeneti mondat megértésével kapott mondat jelentésének elemzésén alapul, kiegészítve és jelölve a tudásbázisból származó információk segítségével és annak kifejezéseiben. A fordítási folyamat az X nyelv bemeneti mondatának átalakítása az Y nyelv kimeneti struktúrájává. Más szóval, a gépi fordítás eredménye nem maga a fordítás, hanem a forrásszöveg (X) újramondása. A fordítás minősége a tudásreprezentációs nyelv hatékonyságától függ. A magas színvonalú gépi fordítás csak megbízható nyelvi alapok és szoftvereszközök létrehozásával biztosítható az automatizált lexikonokon alapuló, hatékony szemantikai hálózatok kiépítéséhez.

IV. Etnolingvisztika.

Az etnolingvisztika (etnosemantika, antropolingvisztika) a nyelvészetnek egy olyan területe, amely a nyelvet egy adott etnikai csoport kultúrájával való kapcsolatában vizsgálja. Az etnolingvisztika alapjait Franz Boas és Edward Sapir munkássága fektette le a 20. század első negyedében. A 20. század második felében. Az etnolingvisztika a nyelvészet önálló ágává vált. A 20. század második felének etnolingvisztikai tanulmányai. olyan jellemzőkkel jellemezhető, mint: kísérleti pszichológiai módszerek alkalmazása; különböző nyelvek szemantikai modelljeinek összehasonlítása; néprendszertani problémák tanulmányozása; paralingvisztikai kutatás; a szellemi etnikai kultúra rekonstrukciója nyelvi adatok alapján; a folklór iránti figyelem felélesztése.

Az etnolingvisztika központi eleme két egymással szorosan összefüggő probléma, amelyeket „kognitív” és „kommunikatív” néven nevezhetünk:

1. Hogyan, milyen eszközökkel és milyen formában tükröződik a nyelvben az ezen a nyelven beszélők kulturális (hétköznapi, vallási, társadalmi stb.) elképzelései az őket körülvevő világról és az ember e világban elfoglalt helyéről?

2. Milyen kommunikációs formák és eszközök - elsősorban a nyelvi kommunikáció - jellemzőek egy adott etnikai vagy társadalmi csoportra?

E problémáknak megfelelően az etnolingvisztikában két irányvonal alakult ki: a kognitív orientáltságú etnolingvisztika és a kommunikatív orientált nyelvészet.

a) Kognitív orientációjú etnolingvisztika.

A kognitív orientációjú etnolingvisztika jellemző az amerikai nyelvészetre. Antropológiai nyelvészetnek hívják. Az antropológiai nyelvészet kezdetben az európaiaktól élesen eltérő népek, elsősorban az amerikai indiánok kultúrájának vizsgálatára irányult. Az e nyelvek közötti családi kapcsolatok kialakítása és jelenlegi állapotuk leírása e népek kultúrájának átfogó leírásának és történelmük rekonstrukciójának volt alárendelve, beleértve a migrációs útvonalakat is. A hétköznapi és folklórszövegek rögzítése és értelmezése az antropológiai leírás szerves része volt.

Franz Boas nyomán az antropológiai nyelvészet úgy véli, hogy egy nyelvben a valóság osztályozásának töredékesebb töredékei egy adott kultúra fontosabb aspektusainak felelnek meg. Ahogy Harry Heuer amerikai nyelvész és antropológus megjegyzi: „A vadászó-gyűjtögető népek, mint például az amerikai délnyugati apacs törzsek, kiterjedt szókinccsel rendelkeznek az állatok, növények és természeti jelenségek elnevezésére. Azok a népek, amelyek fő megélhetési forrása a halászat (különösen a Csendes-óceán északi partvidékén élő indiánok), szótárukban részletes halneveket, valamint halászati eszközöket és technikákat tartalmaznak.

Az etnolingvisták legnagyobb figyelmét az olyan taxonómiai rendszerek keltették fel, mint a testrészek megjelölése, a rokonsági kifejezések, az úgynevezett etnobiológiai osztályozások, vagyis a növények és állatok nevei (B. Berlin angol tudós, Anna Vezhbitskaya), - és különösen a színjelölések (B. Berlin és P .Kay, A.Vezhbitskaya).

A modern antropológiai etnolingvisztikában feltételesen megkülönböztethetünk „relativisztikus” és „univerzalista” irányokat: az első számára a kulturális és nyelvi sajátosságok tanulmányozása a beszélő világképében a prioritás, a második számára az univerzális tulajdonságok keresése. a természetes nyelvek szókincse és nyelvtana.

Az etnolingvisztika relativisztikus irányának kutatására példa Jurij Derenikovics Apresyan, Nina Davidovna Arutyunova, Anna Vezhbitskaya, Tatyana Vyacheslavovna Bulygina, Alexey Dmitrievich Shmelev, E. S. Yakovleva, akik az orosz világ sajátosságainak szentelték. Ezek a szerzők olyan szavak jelentését és használatát elemzik, amelyek vagy olyan egyedi fogalmakat jelölnek, amelyek nem jellemzőek a világ más nyelvű fogalmi felfogására (talán melankólia és merészség, és feltételezem), vagy megfelelnek más kultúrákban létező fogalmaknak, de különösen jelentősek az orosz kultúra számára, vagy különleges értelmezést kapnak (igazság és igazságosság, szabadság és akarat, sors és sors). Példaként hozzunk egy részletet a „talán” szó leírásából T. V. Bulygina és A. D. Shmelev „A világ nyelvi felfogása” című könyvéből:

«<...>Talán egyáltalán nem ugyanazt jelenti, mint egyszerűen „esetleg” vagy „talán”.<...>leggyakrabban a talán a figyelmetlenség egyfajta igazolására szolgál, amikor nem annyira arról van szó, hogy valami kedvező esemény bekövetkezik, hanem hogy elkerülhető valami rendkívül nem kívánatos következmény. Egy sorsjegyet vásárló személyről nem mondják, hogy véletlenül cselekszik. Tehát inkább elmondható egy olyan személyről, aki<...>pénzt takarít meg azzal, hogy nem vesz egészségbiztosítást, és reméli, hogy nem történik semmi rossz<...>Ezért a véletlenre vetett remény nem csak a szerencse reménye. Ha a szerencse szimbóluma a rulett, akkor a véletlen reményét szimbolizálhatja az „orosz rulett”.

Az etnolingvisztika univerzalista irányú kutatásának példája Anna Wierzbicka lengyel tudós munkája, amely a nyelvi jelentések leírásának elveivel foglalkozik. A. Vezsbitskaja és követői sokéves kutatásának célja az úgynevezett „szemantikai primitívek”, univerzális elemi fogalmak halmazának felállítása, amelyek kombinálásával minden nyelv végtelen számú, egy adott nyelvre jellemző konfigurációt hozhat létre, kultúra. A szemantikai primitívek lexikai univerzálék, más szóval olyan elemi fogalmak, amelyekre bármely nyelvben létezik egy szó, amely jelöli őket. Ezek a fogalmak minden nyelvet beszélő számára intuitív módon világosak, és ezek alapján bármilyen bonyolult nyelvi egység értelmezését fel lehet építeni. A világ genetikailag és kulturálisan különböző nyelveiről származó anyagokat tanulmányozva, beleértve a pápua új-guineai nyelveket, az ausztronéz nyelveket, az afrikai nyelveket és az ausztrál őslakosokat, A. Vezhbitskaya folyamatosan finomítja a szemantikai primitívek listáját. „Az érzelmi fogalmak értelmezése” című munkájában a következő lista található:

„szubsztanciák” – én, te, valaki, valami, emberek;
„meghatározók és kvantorok” – ez, ugyanaz, ugyanaz, a másik, egy, kettő, sok, minden/egész;
„mentális predikátumok” - gondolkodni (róla), beszélni, tudni, érezni, akarni;
„cselekmények és események” – megtörténik, előfordul/megtörténik;
„értékelések” – jó, rossz;
„leírók” – nagy, kicsi;
„idő és hely” – mikor, hol, után/előtt, alatt/fölött;
„metapredikátumok” – nem/nem/tagadás, mert/mert, ha, lehet;
„intenzifier” – nagyon;
„taxonómia és partonómia” – faj/fajta, rész;
„laxness/prototype” – hasonló/mint.

A. Vezhbitskaya szemantikai primitívekből, például „építőkockákból” még olyan finom fogalmak értelmezését is összeállítja, mint az érzelmek. Sikerül például bemutatnia az amerikai kultúra „boldog” szóval jelölt fogalma és az orosz „boldog” szóval (és a hasonló lengyel, francia és német jelzőkkel) jelölt fogalom közötti finom különbséget. A „boldog” szó, ahogy A. Vezsbitszkaja írja, bár általában az angol „happy” szótári megfelelőjének tartják, az orosz kultúrában szűkebb jelentése van, „általában ritka, teljes boldogság vagy teljes állapotok megjelölésére használják. az olyan komoly dolgokból származó elégedettség, mint a szerelem, a család, az élet értelme stb. Így fogalmazódik meg ez a különbség a szemantikai primitívek nyelvén (a B értelmezés azon összetevőit, amelyek az A értelmezésben hiányoznak, nagybetűvel emeljük ki).

A értelmezés: X boldognak érzi magát
X érez valamit
valami jó történt velem
ezt akartam
Nem akarok mást
X valami hasonlót érez

B értelmezés: X boldog
X érez valamit
néha valaki ilyesmire gondol:
valami NAGYON jó történt velem
ezt akartam
MINDEN RENDBEN
NEM AKAROK mást
szóval ez a személy valami jót érez
X valami hasonlót érez

A. Vezhbitskaya kutatási programja szempontjából alapvető, hogy az univerzális szemantikai primitívek keresése empirikusan, terepnyelvészeti technikák segítségével történjen – egy adatközlővel együttműködve: először is, minden egyes nyelvben az adott fogalom szerepe a másik nyelv értelmezésében. A fogalmak tisztázásra kerülnek, és másodszor, minden egyes fogalom esetében azonosítanak egy olyan nyelvet, amelyben ez a fogalom lexikalizálódik, vagyis van egy speciális szó, amely kifejezi ezt a fogalmat.

B) Kommunikatív orientációjú etnolingvisztika.

A kommunikációs orientációjú etnolingvisztika legjelentősebb eredményei a „beszédetnográfiának” vagy a „kommunikáció etnográfiájának” nevezett irányzathoz köthetők. A 60-as évek elején javasolták a beszéd etnográfiáját, mint elméletet és módszert a nyelvhasználat szociokulturális kontextusban történő elemzésére. D. Himes és John J. Gumperz munkáiban, valamint Aron Cicurel, J. Bauman, A.W. amerikai tudós munkáiban fejlesztették ki. Corsaro. Egy megnyilatkozást csak olyan beszéddel vagy kommunikációs eseménnyel kapcsolatban tanulmányozunk, amelynek keretein belül keletkezik. Minden beszédesemény (prédikáció, bírósági tárgyalás, telefonbeszélgetés stb.) kulturális feltételessége hangsúlyos. A nyelvhasználat szabályait jelen megfigyelés (beszédeseményben való részvétel), spontán adatok elemzése, valamint az adott nyelv anyanyelvi beszélőinek megkérdezése révén alakítják ki.

Ennek az iránynak a keretében tanulmányozzák az adott kultúrában, egy adott etnikai vagy társadalmi csoportban elfogadott beszédviselkedési modelleket. Így például a „közép-európai színvonal” kultúrájában a több ember kötetlen beszélgetése a közösségben elfogadott jó modor szabályai szerint azt feltételezi, hogy a résztvevők nem szakítják meg egymást, mindenki lehetőséget kap. felváltva beszélni, a beszélni akaró ezt általában „megjegyzem”, „kérjem” stb. szavakkal jelzi. Aki ki akar szakadni a beszélgetésből, az „sajnos mennem kell”, „el kell mennem egy időre” stb. szavakkal jelenti be szándékát. A nyilvános beszéd viselkedésének teljesen eltérő normái elfogadottak például számos ausztrál őslakos kultúrában. A beszélgetés egyes résztvevői egyéni jogainak tiszteletben tartása ezekben a közösségekben nem kötelező szabály: egyszerre több beszélgetőtárs is beszélhet, nem szükséges reagálni mások kijelentésére, a beszélő úgy szólal meg, hogy nem szól konkrétan senkinek, a a beszélgetőpartnerek esetleg nem néznek egymásra stb. A beszédviselkedés ezen modellje azon a kiinduló feltevésen alapul, hogy minden megnyilatkozás valamilyen módon felhalmozódik a környező világban, és ezért az üzenet „befogadása” nem feltétlenül kell, hogy közvetlenül kövesse az „átvitelét”.

A kommunikáció néprajzában is releváns téma a beszélgetőpartnerek relatív társadalmi státuszának nyelvi kifejeződésének vizsgálata: a beszélgetőpartner megszólításának szabályai, ideértve a címhasználatot, a név-, vezeték-, kereszt- és családnévi megszólításokat, szakmai megszólítások (például „orvos”, „őrnagy elvtárs”, „professzor”), az „önnek” és „neked” címzés megfelelősége stb. Különös figyelmet fordítanak azokra a nyelvekre, amelyekben a beszélő és a hallgató társadalmi helyzete közötti kapcsolat nemcsak a szókincsben, hanem a nyelvtanban is rögzített. Példa erre a japán nyelv, ahol az ige nyelvtani formájának megválasztása attól függ, hogy a hallgató magasabb vagy alacsonyabb a beszélőnél a társadalmi hierarchiában, valamint attól is, hogy a beszélő és a hallgató ugyanannak a társadalmi egységnek a része-e vagy sem. . Emellett figyelembe veszik a beszélő és az érintett személy kapcsolatát is. E korlátozások összetett hatásának következtében ugyanaz a személy az ige különböző alakjait használja a beosztott és a felettes megszólításakor, amikor megszólít egy munkatársat és amikor megszólít egy idegent, amikor megszólítja feleségét és szomszédja feleségét. .

A nyelvtan a japán beszéd-etikett olyan jellemzőjét is tükrözi, mint az a vágy, hogy elkerüljék a behatolást a beszélgetőpartner gondolatainak és érzéseinek szférájába. A japán nyelvben az igének van egy speciális nyelvtani formája - az úgynevezett „opcionális hangulat”. A –tai kívánatos hangulati utótag használatával a beszélő kifejezi az eredeti ige által jelzett művelet végrehajtásának vágyát: „olvasni” + tai = „olvasni akarok”, „elhagyni” + tai = „el akarok menni”. A kívánt hangulat formái azonban csak akkor lehetségesek, ha a beszélő leírja saját vágyát. A beszélgetőpartner vagy egy harmadik fél vágya egy speciális konstrukcióval fejeződik ki, ami hozzávetőlegesen azt jelenti, hogy „külső jelekből arra lehet következtetni, hogy X személy Y akciót akar végrehajtani”. Így a nyelvtan követelményeinek megfelelően a japán beszélő csak a saját szándékairól tud ítéletet mondani. A nyelv egyszerűen nem teszi lehetővé, hogy közvetlen kijelentéseket tegyen egy másik személy belső állapotáról, például vágyairól. Mondhatod, hogy „akarok...”, de nem mondhatod, hogy „Te akarod...” vagy „Ő akar...”, hanem csak azt, hogy „Számomra úgy tűnik (az a benyomásom), hogy szeretnéd... ” vagy „Nekem úgy tűnik (az a benyomásom), hogy azt akarja...”

A kommunikáció etnográfiája a beszédetikett normái mellett az egyes kultúrákban ritualizált beszédhelyzeteket is vizsgálja, mint például bírósági tárgyalás, szakdolgozat védése, kereskedelmi ügylet és hasonlók; a nyelvválasztás szabályai a nyelvközi kommunikációban; nyelvi konvenciók és klisék, amelyek azt jelzik, hogy egy szöveg egy bizonyos műfajhoz tartozik ("egyszer régen" - a mesékben "hallgattak és döntöttek" - az ülés jegyzőkönyvében).

A modern etnolingvisztika szorosan kapcsolódik a szociológiához, a pszichológiához és a szemiotikához. Az orosz etnolingvisztikában különleges helyet foglal el az etnolingvisztika, a folklorisztika és az összehasonlító történeti nyelvészet metszéspontjában folyó kutatás. Ez mindenekelőtt a szláv népek (Nikita Iljics Tolsztoj, Szvetlana Mihajlovna Tolsztaja, Vlagyimir Nyikolajevics Toporov) etnolingvisztikai és etnokulturális történetének szentelt kutatási program. A program keretében etnolingvisztikai atlaszokat állítanak össze, rituálékat, hiedelmeket, folklórt térképeznek fel; egyes műfajú, kodifikált szláv szövegek szerkezetét tanulmányozzák, ideértve a helyesírási szövegeket, találós kérdéseket, temetési és építkezési szertartásokat stb., összefüggésben az összehasonlító történeti és régészeti kutatások adataival.

Nyelvtudományi rendszerezés és a világ népeinek nyelvi osztályozása

A nyelvek és a beszédformák szociolingvisztikai (vagy funkcionális) osztályozása

SZÁMÍTÓGÉPES NYELVÉSZET (calque az angol számítógépes nyelvészetből), az alkalmazott nyelvészet egyik területe, amelyben számítógépes programokat, adatok rendszerezésére és feldolgozására szolgáló számítógépes technológiákat fejlesztenek és használnak a nyelv tanulmányozására, a nyelv működésének modellezésére bizonyos körülmények, helyzetek és problémák esetén. területeken. Másrészt ez a számítógépes nyelvi modellek alkalmazási területe a nyelvészetben és a kapcsolódó tudományágakban. A számítógépes nyelvészet, mint speciális tudományos irányzat az 1960-as években öltött testet az európai kutatásban. Mivel az angol computational jelző „számítógépes”-nek is fordítható, a „computational linguistics” kifejezés is megtalálható a szakirodalomban, de az orosz tudományban szűkebb jelentést kap, megközelítve a „kvantitatív nyelvészet” fogalmát.

A „kvantitatív nyelvészet” kifejezést gyakran számítógépes nyelvészetnek is nevezik, amely az alkalmazott kutatások interdiszciplináris irányát jellemzi, ahol a kvantitatív vagy statisztikai elemzési módszereket használják a nyelv és a beszéd tanulmányozásának fő eszközeként. Néha a kvantitatív (vagy kvantitatív) nyelvészetet szembeállítják a kombinatorikus nyelvészettel. Ez utóbbiban a domináns szerepet a „nem kvantitatív” matematikai apparátus - halmazelmélet, matematikai logika, algoritmuselmélet stb. - tölti be. Elméleti szempontból a statisztikai módszerek nyelvtudományi alkalmazása lehetővé teszi a kiegészítést a nyelv strukturális modellje valószínűségi komponenssel, azaz elméleti strukturális-valószínűségi modell létrehozása jelentős magyarázó potenciállal. Az alkalmazott területen a kvantitatív nyelvészetet mindenekelőtt ennek a modellnek a töredékeinek felhasználása jelenti, amelyek a nyelv működésének nyelvi nyomon követésére, a kódolt szöveg visszafejtésére, a szöveg engedélyezésére/hozzárendelésére stb.

A „számítógépes nyelvészet” kifejezést és e terület problémáit gyakran a kommunikáció modellezésével, mindenekelőtt a számítógéppel való emberi interakció természetes vagy korlátozott természetes nyelven történő biztosításával társítják (erre speciális természetes nyelvi feldolgozó rendszereket hoznak létre). ), valamint az információs technológia elméletével és gyakorlatával (IRS). A személy és a számítógép közötti kommunikáció természetes nyelven történő biztosítását néha „természetes nyelvi feldolgozásnak” nevezik (a Natural Language Processing kifejezés angol fordítása). A számítógépes nyelvészetnek ez a területe az 1960-as évek végén jelent meg külföldön, és a mesterséges intelligencia nevű tudományos és technológiai tudományág keretein belül fejlődött ki (R. Schenk, M. Lebowitz, T. Winograd stb. munkái). Jelentésében a „természetes nyelvi feldolgozás” kifejezésnek ki kell terjednie minden olyan területre, ahol a számítógépeket nyelvi adatok feldolgozására használják. A gyakorlatban azonban a fogalom szűkebb értelmezése érvényesült – olyan módszerek, technológiák és specifikus rendszerek fejlesztése, amelyek biztosítják az emberi kommunikációt a számítógéppel természetes vagy korlátozott természetes nyelven.

A számítógépes nyelvészet bizonyos mértékig magában foglalhatja a hipertext-rendszerek létrehozásának területén végzett munkát, amelyet a szövegrendezés sajátos módjának, sőt alapvetően új típusú szövegnek tekintenek, számos tulajdonságában szembeállítva a Gutenberg-hagyományban kialakult hétköznapi szöveggel. a nyomtatás (lásd Gutenberg).

A számítógépes nyelvészet kompetenciájába tartozik az automatikus fordítás is.

A számítógépes nyelvészet keretein belül egy viszonylag új irány alakult ki, amely az 1980-90-es évek óta aktívan fejlődik - a korpusznyelvészet, ahol a nyelvi adatkorpusok (különösen a szövegkorpusok) modern számítógépes technológiák segítségével történő létrehozásának általános elveit dolgozzák ki. . A szövegkorpusok könyvekből, folyóiratokból, újságokból stb. speciálisan kiválasztott szövegek gyűjteményei, amelyek számítógépes adathordozóra kerülnek át és automatikus feldolgozásra szolgálnak. Az egyik első amerikai angol szövegkorpusz a Brown Egyetemen (ún. Brown Corpus) készült 1962-63-ban W. Francis vezetésével. Oroszországban a 2000-es évek eleje óta az Orosz Tudományos Akadémia V. Vinogradov Orosz Nyelvi Intézete fejleszti az orosz nyelvű nemzeti korpuszt, amely orosz nyelvű szövegek reprezentatív mintájából áll, körülbelül 100 milliós mennyiségben. szóhasználatok. A korpusznyelvészet az adatkorpusok tulajdonképpeni felépítése mellett olyan számítógépes eszközök (számítógépes programok) készítésével foglalkozik, amelyek a szövegkorpusokból különféle információk kinyerésére szolgálnak. A felhasználó szemszögéből nézve a szövegkorpusokra a reprezentativitás (reprezentativitás), a teljesség és a gazdaságosság követelményei vonatkoznak.

A számítógépes nyelvészet aktívan fejlődik Oroszországban és külföldön egyaránt. A kiadványok áramlása ezen a területen igen nagy. A tematikus gyűjtemények mellett a Computational Linguistics folyóirat 1984 óta negyedévente jelenik meg az Egyesült Államokban. Sok szervezési és tudományos munkát végez a Számítógépes Nyelvészeti Szövetség, amelynek regionális struktúrái vannak szerte a világon (különösen egy európai kirendeltséggel). A nemzetközi COLINT konferenciákat kétévente rendezik (2008-ban Manchesterben tartották a konferenciát). A számítógépes nyelvészet fő irányairól a „Párbeszéd” éves nemzetközi konferencián is szó esik, amelyet az Orosz Mesterséges Intelligencia Kutatóintézet, a Moszkvai Állami Egyetem Filológiai Kara, a Yandex és számos más szervezet szervez. A releváns kérdések széles körben képviseltetik magukat a mesterséges intelligenciával foglalkozó nemzetközi konferenciákon is, különböző szinteken.

Lit.: Zvegintsev V. A. Elméleti és alkalmazott nyelvészet. M., 1968; Piotrovsky R. G., Bektaev K. B., Piotrovskaya A. A. Matematikai nyelvészet. M., 1977; Gorodetsky B. Yu. Az alkalmazott nyelvészet aktuális problémái // Új a külföldi nyelvészetben. M., 1983. szám. 12; Kibrik A. E. Alkalmazott nyelvészet // Kibrik A. E. Esszék a nyelvészet általános és alkalmazott kérdéseiről. M., 1992; Kennedy G. Bevezetés a korpusznyelvészetbe. L., 1998; Bolshakov I.A., Gelbukh A. Számítógépes nyelvészet: modellek, források, alkalmazások. Mekh., 2004; Az orosz nyelv nemzeti korpusza: 2003-2005. M., 2005; Baranov A. N. Bevezetés az alkalmazott nyelvészetbe. 3. kiadás M., 2007; Számítógépes nyelvészet és intellektuális technológiák. M., 2008. szám. 7.

Novoselova Irina

Miért nem minden gépi fordítás tökéletes? Mi határozza meg a fordítás minőségét? Van-e elegendő tudása a szerzőnek a meglévő számítógépes szótárak használatához, bővítéséhez? A szerző ezekre a kérdésekre igyekezett választ adni művében. A témával kapcsolatos beszámoló a csatolt fájlban, a projekt tevékenység terméke az iskolai portálon

Letöltés:

Előnézet:

Nyitott

Nemzetközi

kutatás

konferencia

középiskolások és diákok

"Oktatás. Tudomány. Szakma"

„Idegen nyelvészet” szekció

"Számítógépes nyelvészet"

Előadó: Novoselova Irina

Városi oktatási intézmény tornaterme 39. „Klasszikus”

10 "B" osztály

Tudományos témavezetők:

Chigrinyova Tatyana Dmitrievna,

A legmagasabb kategóriájú angoltanár

Osipova Svetlana Leonidovna,

legmagasabb kategóriájú informatika tanár

Otradny

2011

Angol szavak az IKT-ban

Nézd meg a honlapon

Az én kísérletem

Az egyik feladat egy kísérlet lebonyolítása, melynek során össze kell hasonlítani a különböző számítógépes nyelvi szótárak képességeit az angolról oroszra történő pontosabb és közelítő fordítás érdekében.

A következő oldalakat tesztelték:

http://translate.eu/
http://translate.google.ru/#ru
http://www.langinfo.ru/index.php?div=6
http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

A kísérlet tisztasága érdekében a stilisztikai fordítás különböző bonyolultságú mondatait választottam. A beviteli kifejezések a következők:

1. Egy új jelentés szerint a mai tinédzserek önzőbbek, mint 20 évvel ezelőtt

(Az új jelentés szerint a tinédzserek ma önzőbbek, mint 20 évvel ezelőtt)

2. Úgy véli, a videojátékok és az internet a legnagyobb oka ennek a megnövekedett önzésnek.

(Úgy véli, hogy a videojátékok és az internet a legjelentősebb oka ennek a növekvő önzésnek)

3. Jobbak akarnak lenni, mint mások

(jobbak akarnak lenni, mint a többiek)

4. Úgy találta, hogy a nagy növekedés 2000-től kezdődött, amikor is az erőszakos videojátékok váltak igazán népszerűvé.

(2000-től kezdődően nagy növekedést tapasztalt, amikor az erőszakos videojátékok igazán népszerűvé váltak)

Miután lefordítottam ezeket a mondatokat az online fordítói oldalakon, a következő eredményeket kaptam:

http://translate.eu/

Előző cikk: Mekkora a fénysebesség Következő cikk: Harmonikus rezgések Az oszcillációs frekvencia fizikai képlete

Az orosz nyelv szerepe a számítógépes nyelvészetben. Mi a számítógépes nyelvészet? Szovjet és orosz tudósok: Alekszej Ljapunov, Igor Melcsuk, Olga Kulagina, Yu.D.

Letöltés:

Előnézet:

Angol szavak az IKT-ban

Az én kísérletem