itthon » Előkészítés és tárolás » Számítógépes nyelvészet és a nyelv formális modelljei. Nyelvi számítástechnika

Számítógépes nyelvészet és a nyelv formális modelljei. Nyelvi számítástechnika

TANFOLYAM MUNKA

az "informatika" tudományágban

témában: „Számítógépes nyelvészet”


BEVEZETÉS

1. A számítógépes nyelvészet helye és szerepe a nyelvészeti kutatásokban

2. Modern interfészek a számítógépes nyelvészet számára

KÖVETKEZTETÉS

IRODALOM


Bevezetés

Az automatizált információs technológiák fontos szerepet játszanak a modern társadalom életében. Idővel fontosságuk folyamatosan növekszik. De az információs technológia fejlődése nagyon egyenetlen: ha a számítástechnika és a kommunikáció modern szintje elképesztő, akkor az információ szemantikai feldolgozása terén a sikerek sokkal szerényebbek. Ezek a sikerek mindenekelőtt az emberi gondolkodás folyamatainak tanulmányozásában elért eredményektől, az emberek közötti verbális kommunikáció folyamataitól és ezen folyamatok számítógépen történő modellezésének képességétől függenek.

Ígéretes információs technológiák létrehozásánál a természetes nyelveken bemutatott szöveges információk automatikus feldolgozásának problémái kerülnek előtérbe. Ezt az a tény határozza meg, hogy az ember gondolkodása szorosan összefügg a nyelvével. Ráadásul a természetes nyelv a gondolkodás eszköze. Ez egyben az emberek közötti kommunikáció univerzális eszköze is - az információ észlelésének, felhalmozásának, tárolásának, feldolgozásának és továbbításának eszköze. A számítógépes nyelvészet tudománya a természetes nyelv automatikus információfeldolgozó rendszerekben való használatának problémáival foglalkozik. Ez a tudomány viszonylag nemrégiben jelent meg - a múlt század ötvenes és hatvanas éveinek fordulóján. Az elmúlt fél évszázadban jelentős tudományos és gyakorlati eredmények születtek a számítógépes nyelvészet területén: szövegek gépi fordítására szolgáló rendszerek egyik természetes nyelvről a másikra, automatizált információ-visszakereső rendszerek a szövegekben, rendszerek a szóbeli szövegek automatikus elemzésére és szintézisére. beszédet, és még sok mást hoztak létre. Ez a munka egy optimális számítógépes interfész felépítésére irányul a számítógépes nyelvészet felhasználásával a nyelvészeti kutatások során.


A modern világban a számítógépes nyelvészetet egyre gyakrabban használják különféle nyelvészeti tanulmányok végzésekor.

A számítógépes nyelvészet a természetes nyelven bemutatott információk automatikus feldolgozásának problémáinak megoldásával kapcsolatos tudásterület. A számítógépes nyelvészet központi tudományos problémái a szövegek jelentésmegértési folyamatának modellezésének problémája (átmenet a szövegről a jelentés formalizált megjelenítésére), valamint a beszédszintézis problémája (átmenet a jelentés formalizált reprezentációjáról a természetes szövegekre). nyelv). Ezek a problémák számos alkalmazott probléma megoldása során merülnek fel, különösen a szövegek számítógépre történő bevitelekor fellépő hibák automatikus észlelésének és kijavításának, a szóbeli beszéd automatikus elemzésének és szintézisének, a szövegek egyik nyelvről a másikra történő automatikus fordításának, a kommunikáció természetes nyelvű számítógép, szöveges dokumentumok automatikus osztályozása, indexelése, automatikus absztrahálása, dokumentumok keresése teljes szöveges adatbázisokban.

A számítógépes nyelvészetben létrehozott és használt nyelvi eszközök két részre oszthatók: deklaratív és procedurális. A deklaratív rész a nyelvi és beszédegységek szótárait, szövegeket és különféle nyelvtani táblázatokat tartalmazza, az eljárási rész a nyelvi és beszédegységek, szövegek és nyelvtani táblázatok kezelésének eszközeit tartalmazza. A számítógépes interfész a számítógépes nyelvészet eljárási részét jelenti.

A számítógépes nyelvészet alkalmazott problémáinak megoldásának sikere mindenekelőtt a deklaratív eszközök számítógépes memóriában való megjelenítésének teljességétől és pontosságától, valamint a procedurális eszközök minőségétől függ. A mai napig ezeknek a problémáknak a megoldásához még nem sikerült elérni a szükséges szintet, bár a számítógépes nyelvészet területén a világ minden fejlett országában (Oroszország, USA, Anglia, Franciaország, Németország, Japán stb.) folyik a munka. ).

Mindazonáltal komoly tudományos és gyakorlati eredmények figyelhetők meg a számítógépes nyelvészet területén. Így számos országban (Oroszország, USA, Japán stb.) kiépítettek kísérleti és ipari rendszereket szövegek gépi fordítására egyik nyelvről a másikra, számos kísérleti rendszert építettek ki a számítógépekkel természetes nyelven történő kommunikációra. , terminológiai adatbankok, tezauruszok, két- és többnyelvű gépi szótárak (Oroszország, USA, Németország, Franciaország, stb.), a szóbeli beszéd automatikus elemzésére és szintézisére szolgáló rendszerek kiépítése folyamatban van (Oroszország, USA, Japán stb.) .), kutatások folynak a természetes nyelvi modellek megalkotása terén.

Az alkalmazott számítógépes nyelvészet egyik fontos módszertani problémája az automatikus szöveginformáció-feldolgozó rendszerek deklaratív és procedurális komponensei közötti szükséges kapcsolat helyes felmérése. Mit érdemes előnyben részesíteni: a viszonylag kis szókincsrendszereken alapuló hatékony számítási eljárásokat gazdag nyelvtani és szemantikai információkkal, vagy egy erőteljes deklaratív komponenst, viszonylag egyszerű számítógépes felületekkel? A legtöbb tudós úgy véli, hogy a második módszer előnyösebb. A gyakorlati célok gyorsabb megvalósításához vezet, hiszen kevesebb lesz a zsákutca és a nehezen leküzdendő akadály, és itt lehetőség nyílik a számítógépek nagyobb léptékű felhasználására a kutatás-fejlesztés automatizálására.

Az erőfeszítések mozgósításának szükségességét mindenekelőtt az automatikus szöveginformáció-feldolgozó rendszerek deklaratív komponensének fejlesztésére támasztja alá a számítógépes nyelvészet fejlesztésében szerzett fél évszázados tapasztalat. Hiszen itt a tudomány tagadhatatlan sikerei ellenére az algoritmikus eljárások iránti szenvedély nem hozta meg a várt sikert. Még az eljárási eszközök lehetőségeiben is volt némi csalódás.

A fentiek fényében ígéretesnek tűnik a számítógépes nyelvészet egy olyan fejlődési útjának kidolgozása, amikor a fő erőfeszítések a nyelvi és beszédegységek erőteljes szótárainak létrehozására, szemantikai-szintaktikai szerkezetük tanulmányozására és a morfológiai alapeljárások megalkotására irányulnak. szövegek szemantikai-szintaktikai és fogalmi elemzése és szintézise. Ez lehetővé teszi számunkra, hogy a jövőben az alkalmazott problémák széles körét megoldjuk.

A számítógépes nyelvészetnek mindenekelőtt az információgyűjtési, -felhalmozási, -feldolgozási és -visszakeresési folyamatok nyelvi támogatásának feladatai vannak. Ezek közül a legfontosabbak:

1. Gépi szótárak összeállításának és nyelvi feldolgozásának automatizálása;

2. A szövegek számítógépbe történő bevitele során előforduló hibák észlelésének és kijavításának folyamatainak automatizálása;

3. Dokumentumok és információigénylések automatikus indexelése;

4. Dokumentumok automatikus osztályozása és kivonatolása;

5. Információkeresési folyamatok nyelvi támogatása egy- és többnyelvű adatbázisokban;

6. Szövegek gépi fordítása egyik természetes nyelvről a másikra;

7. Olyan nyelvi processzorok építése, amelyek biztosítják a felhasználói kommunikációt automatizált intelligens információs rendszerekkel (különösen szakértői rendszerekkel) természetes nyelven vagy a természeteshez közeli nyelven;

8. Tény információk kinyerése informális szövegekből.

Foglalkozzunk részletesen a kutatási téma szempontjából leginkább releváns problémákkal.

Az információs központok gyakorlati tevékenysége során meg kell oldani a szövegekben előforduló hibák automatikus felismerésének és kijavításának problémáját a számítógépbe történő beíráskor. Ez az összetett feladat feltételesen három feladatra osztható - a szövegek helyesírási, szintaktikai és szemantikai ellenőrzésére. Közülük az első egy morfológiai elemzési eljárással oldható meg, amely a szótövek meglehetősen erős referenciagépi szótárát használja. A helyesírás-ellenőrzés során a szöveg szavait morfológiai elemzésnek vetjük alá, és ha alapjukat a referenciaszótár alapjaival azonosítjuk, akkor helyesnek tekintjük; ha nem azonosíthatók, akkor mikrokontextus kíséretében egy személynek megtekintésre bemutatják őket. Egy személy észleli és kijavítja a torz szavakat, és a megfelelő szoftverrendszer elvégzi ezeket a javításokat a javított szövegben.

A szövegek szintaktikai ellenőrzésének feladata a hibák felderítése érdekében sokkal nehezebb, mint a helyesírás-ellenőrzés. Egyrészt azért, mert kötelező elemeként tartalmazza a helyesírás-ellenőrzés feladatát, másrészt azért, mert az informális szövegek szintaktikai elemzésének problémája még nem teljesen megoldott. A szövegek részleges szintaktikai ellenőrzése azonban teljesen lehetséges. Itt kétféleképpen járhatunk el: vagy meglehetősen reprezentatív gépi szótárakat állítunk össze a referencia szintaktikai struktúrákról, és hasonlítsuk össze az elemzett szöveg szintaktikai struktúráit velük; vagy dolgozzon ki egy komplex szabályrendszert a szövegelemek nyelvtani konzisztenciájának ellenőrzésére. Az első út ígéretesebbnek tűnik számunkra, bár természetesen nem zárja ki a második út elemeinek alkalmazását. A szövegek szintaktikai szerkezetét a szavak grammatikai osztályaiban (pontosabban a szavak nyelvtani információkészleteinek sorozataiban) kell leírni.

A szövegek szemantikai ellenőrzésének feladatát a bennük lévő szemantikai hibák felderítése érdekében a mesterséges intelligencia feladatok osztályába kell sorolni. Teljes egészében csak az emberi gondolkodás folyamatainak modellezése alapján oldható meg. Ebben az esetben nyilvánvalóan szükség lesz hatékony enciklopédikus tudásbázisok és szoftvereszközök létrehozására a tudásmanipulációhoz. Mindazonáltal a korlátozott témakörök és a formalizált információk esetében ez a feladat teljesen megoldható. A szövegek szemantikai-szintaktikai ellenőrzésének problémájaként kell feltenni és megoldani.

nyelvészet statisztikai nyelvészeti szoftver

A számítógépes nyelvészet fejlődéstörténete

A modern nyelvészet, mint a természetes nyelv tudományának kialakulásának és kialakulásának folyamata a nyelvi tudás hosszú történeti fejlődését jelenti. A nyelvi tudás olyan elemeken alapul, amelyek a szóbeli beszéd szerkezetének kialakulásához, az írás kialakulásához, továbbfejlesztéséhez és javításához, az írástanuláshoz, valamint a szövegek értelmezéséhez és dekódolásához elválaszthatatlanul összefüggő tevékenységek során keletkeztek.

A természetes nyelv mint a nyelvészet tárgya központi helyet foglal el ebben a tudományban. A nyelvfejlődés során az ezzel kapcsolatos elképzelések is változtak. Ha korábban nem tulajdonítottak különösebb jelentőséget a nyelv belső szerveződésének, és azt elsősorban a külvilággal való kapcsolat összefüggésében tekintették, akkor a 19. század végétől - a 20. század elejétől kezdődően kiemelt szerepet kapott a belső nyelv. a nyelv formális szerkezete. Ebben az időszakban a híres svájci nyelvész, Ferdinand de Saussure kidolgozta az olyan tudományok alapjait, mint a szemiológia és a szerkezeti nyelvészet, és részletesen kifejtette „A Course in General Linguistics” (1916) című könyvében.

A tudós azzal az ötlettel állt elő, hogy a nyelvet egyetlen mechanizmusnak, integrált jelrendszernek tekintse, ami viszont lehetővé teszi a nyelv matematikai leírását. Saussure volt az első, aki a nyelv strukturális megközelítését javasolta, nevezetesen: a nyelv leírását az egységei közötti kapcsolatok tanulmányozásával. Egységek vagy „jelek” alatt olyan szót értett, amely a jelentést és a hangot is egyesíti. A svájci tudós által javasolt koncepció a nyelv mint jelrendszer elméletén alapul, amely három részből áll: nyelv (a francia langue), beszéd (a francia parole) és beszédtevékenység (a francia nyelvből).

Maga a tudós úgy határozta meg az általa létrehozott tudományt, a szemiológiát, mint „olyan tudományt, amely a jelek életét a társadalom életének keretein belül vizsgálja”. Mivel a nyelv jelrendszer, Saussure arra a kérdésre keresve a választ, hogy milyen helyet foglal el a nyelvészet a többi tudomány között, amellett érvelt, hogy a nyelvészet a szemiológia része. Általánosan elfogadott, hogy a svájci filológus fektette le a nyelvtudomány új irányának elméleti alapjait, a modern nyelvészet megalapítójává és „atyjává”.

Az F. de Saussure által előterjesztett koncepciót számos kiváló tudós munkája fejlesztette tovább: Dániában - L. Hjelmslev, a Cseh Köztársaságban - N. Trubetskoy, az USA-ban - L. Bloomfield, Z. Harris, N. Chomsky. Ami hazánkat illeti, itt a szerkezeti nyelvészet megközelítőleg a nyugatival egyidőben - a 19-20. század fordulóján - indult ki. - F. Fortunatov és I. Baudouin de Courtenay munkáiban. Meg kell jegyezni, hogy I. Baudouin de Courtenay szorosan együttműködött F. de Saussure-ral. Ha Saussure fektette le a strukturális nyelvészet elméleti alapjait, akkor Baudouin de Courtenay tekinthető annak, aki megalapozta a svájci tudós által javasolt módszerek gyakorlati alkalmazását. Ő volt az, aki a nyelvészetet statisztikai módszereket és funkcionális függőségeket használó tudományként határozta meg, és választotta el a filológiától. A matematikai módszerek nyelvtudományi alkalmazásának első tapasztalata a fonológia – a nyelv hangjainak szerkezetének tudománya.

Megjegyzendő, hogy F. de Saussure posztulátumai tükröződhettek a 20. század közepén aktuális nyelvtudományi problémákban. Ebben az időszakban volt egyértelmű tendencia a nyelvtudomány matematizálására. Szinte minden nagy országban megindul a tudomány és a számítástechnika rohamos fejlődése, ami viszont egyre újabb nyelvi alapokat igényelt. Mindennek az eredménye volt az egzakt tudományok és a bölcsészettudományok gyors közeledése, valamint a matematika és a nyelvészet aktív kölcsönhatása, amely gyakorlati alkalmazásra talált a sürgető tudományos problémák megoldásában.

A 20. század 50-es éveiben, az olyan tudományok találkozásánál, mint a matematika, a nyelvészet, a számítástechnika és a mesterséges intelligencia, egy új tudományág alakult ki - a számítógépes nyelvészet (más néven gépi nyelvészet vagy automatikus szövegfeldolgozás természetes nyelven). Ennek az iránynak a fejlődésének fő állomásai a mesterséges intelligencia módszerek fejlődésének hátterében zajlottak. A számítógépes nyelvészet fejlődésének erőteljes ösztönzése volt az első számítógépek megalkotása. Azonban a számítógépek és a programozási nyelvek új generációjának megjelenésével a 60-as években e tudomány fejlődésének alapvetően új szakasza kezdődik. Azt is meg kell jegyezni, hogy a számítógépes nyelvészet eredete a híres amerikai nyelvész, N. Chomsky, a nyelv szerkezetének formalizálásával kapcsolatos munkáihoz nyúlik vissza. A nyelvészet és a matematika metszéspontjában szerzett kutatási eredményei alapozták meg a formális nyelvek és nyelvtanok (generatív vagy generatív nyelvtanok) elméletének kidolgozását, amelyet széles körben használnak természetes és mesterséges leírásra egyaránt. nyelvek, különösen programozási nyelvek. Pontosabban, ez az elmélet egy teljesen matematikai tudományág. Az alkalmazott nyelvészet olyan irányában, mint a matematikai nyelvészet az elsők között tekinthető.

A számítógépes nyelvészet első kísérletei és fejlesztései a gépi fordítórendszerek, valamint az emberi nyelvi képességeket modellező rendszerek létrehozásához kapcsolódnak. A 80-as évek végén, az Internet megjelenésével és aktív fejlődésével az elektronikus formában elérhető szöveges információk mennyisége gyorsan növekedett. Ez oda vezetett, hogy az információ-visszakereső technológiák fejlődésük minőségileg új szakaszába érkeztek. Felmerült az igény a természetes nyelvű szövegek automatikus feldolgozására, teljesen új feladatok, technológiák jelentek meg. A tudósok a strukturálatlan adatok hatalmas folyamának gyors feldolgozásának problémájával szembesülnek. A probléma megoldása érdekében nagy jelentőséget tulajdonítottak a statisztikai módszerek kidolgozásának és alkalmazásának az automatikus szövegfeldolgozás területén. Segítségükkel lehetővé vált olyan problémák megoldása, mint a szövegek felosztása egy közös téma által egyesített klaszterekre, a szöveg egyes töredékeinek kiemelése stb. Emellett a matematikai statisztika és a gépi tanulás módszereinek alkalmazása lehetővé tette a beszédfelismerés és a keresőmotorok létrehozásának problémáinak megoldását.

A tudósok nem álltak meg az elért eredményeknél: továbbra is új célokat tűztek ki maguk elé, új technikákat és kutatási módszereket fejlesztettek ki. Mindez oda vezetett, hogy a nyelvészet alkalmazott tudományként kezdett működni, számos más tudományt ötvözve, amelyek között a matematika volt a vezető szerep a kvantitatív módszerek sokféleségével és a jelenségek mélyebb megértésére való felhasználásának képességével. tanulmányozás alatt áll. Így kezdődött a matematikai nyelvészet kialakulása és fejlődése. Jelen pillanatban ez egy meglehetősen „fiatal” tudomány (mintegy ötven éve létezik), azonban nagyon „fiatal kora” ellenére a tudományos ismeretek már kialakult területét képviseli, számos sikeres teljesítménnyel.

Számítógépes nyelvészettel foglalkozó új mesterképzést indít a Közgazdasági Felsőoktatási Iskola Filológiai Kara: várják a bölcsész-matematikai alapfokú végzettséggel rendelkező jelentkezőket, valamint mindazokat, akik érdeklődnek az egyik legígéretesebb tudományág problémamegoldásában. . Igazgatója, Anastasia Bonch-Osmolovskaya az Elméletek és gyakorlati szakembereknek elmondta, mi az a számítógépes nyelvészet, miért nem váltják fel a robotok az embereket, és mit tanítanak majd az EBK számítógépes nyelvészet mesterképzésében.

Ez a program szinte az egyetlen ilyen jellegű Oroszországban. Hol tanultál?

A Moszkvai Állami Egyetemen tanultam a filológiai fakultás elméleti és alkalmazott nyelvészet szakán. Nem jutottam el egyből, először az orosz szakra kerültem, de aztán komolyan érdekelt a nyelvészet, és vonzott az a légkör, ami a mai napig megmaradt a tanszéken. A legfontosabb a tanárok és a diákok közötti jó kapcsolat és kölcsönös érdeklődés.

Amikor gyerekeim voltak, és meg kellett keresnem a megélhetést, a kereskedelmi nyelvészet területére mentem. 2005-ben nem volt nagyon világos, hogy mi is ez a tevékenységi terület. Különböző nyelvi cégeknél dolgoztam: egy kis céggel kezdtem a Public.ru oldalon - ez egyfajta médiakönyvtár, ahol elkezdtem nyelvi technológiákkal foglalkozni. Aztán egy évig dolgoztam a Rosnanotechnél, ahol felmerült egy elemző portál létrehozásának ötlete, hogy a rajta lévő adatok automatikusan strukturálódjanak. Aztán az Avicomp cég nyelvészeti osztályát vezettem - ez már komoly produkció a számítógépes nyelvészet és a szemantikai technológiák területén. Ezzel egy időben a Moszkvai Állami Egyetemen tanítottam egy számítógépes nyelvészeti kurzust, és igyekeztem modernebbé tenni.

Két forrás egy nyelvész számára: - nyelvészek által az orosz nyelvvel kapcsolatos tudományos és alkalmazott kutatásokhoz létrehozott oldal. Ez az orosz nyelv modellje, amelyet különféle műfajokból és időszakokból származó szövegek hatalmas tömbjével mutatnak be. A szövegek nyelvi jelöléssel vannak felszerelve, amelyek segítségével információkat szerezhet az egyes nyelvi jelenségek gyakoriságáról. A Wordnet az angol nyelv hatalmas lexikális adatbázisa, a Wordnet fő gondolata, hogy nem szavakat, hanem azok jelentését kapcsolja össze egy nagy hálózatba. A Wordnet letölthető és felhasználható saját projektjeihez.

Mit csinál a számítógépes nyelvészet?

Ez a leginkább interdiszciplináris terület. A legfontosabb itt az, hogy megértsd, mi történik az elektronikus világban, és kik fognak segíteni konkrét dolgokban.

Nagyon sok digitális információ vesz körül bennünket, sok olyan üzleti projekt van, amelyek sikere az információfeldolgozáson múlik, ezek a projektek vonatkozhatnak a marketing, a politika, a gazdaság és bármi más területére. És nagyon fontos, hogy ezeket az információkat hatékonyan tudd kezelni – nem csak az információfeldolgozás sebessége a lényeg, hanem az is, hogy a zajok kiszűrése után milyen könnyedséggel tudd megszerezni a szükséges adatokat és létrehozni egy teljes kép belőle.

Korábban néhány globális elképzelés a számítógépes nyelvészethez kapcsolódott, például: az emberek azt hitték, hogy a gépi fordítás váltja fel az emberi fordítást, hogy emberek helyett robotok dolgoznak. Most azonban utópiának tűnik, és a gépi fordítást használják a keresőkben, hogy gyorsan keressenek egy ismeretlen nyelven. Vagyis manapság a nyelvészet ritkán foglalkozik elvont problémákkal - többnyire apró dolgokkal, amiket be lehet illeszteni egy nagy termékbe, és pénzt lehet vele keresni.

A modern nyelvészet egyik nagy feladata a szemantikai web, amikor a keresés nem csak szavak, hanem jelentés alapján történik, és minden oldalt így vagy úgy szemantika jelöl. Ez hasznos lehet például minden nap írt rendőrségi vagy orvosi jelentéseknél. A belső kapcsolatok elemzése sok szükséges információval szolgál, de ezek manuális kiolvasása és kiszámítása hihetetlenül időigényes.

Dióhéjban ezer szövegünk van, ezeket csoportokba kell rendezni, minden szöveget szerkezet formájában bemutatni és kapni egy táblázatot, amivel már tudunk dolgozni. Ezt nevezik strukturálatlan információfeldolgozásnak. Másrészt a számítógépes nyelvészet foglalkozik például mesterséges szövegek létrehozásával. Van egy cég, amely kitalált egy olyan mechanizmust, amellyel szövegeket generálhat olyan témákról, amelyekről az ember unalmas írni: ingatlanárak változásai, időjárás-előrejelzések, riportok futballmérkőzésekről. Sokkal drágább ezeket a szövegeket embernek megrendelni, az ilyen témájú számítógépes szövegek pedig koherens emberi nyelven készülnek.

A Yandex aktívan részt vesz a strukturálatlan információ keresésének fejlesztésében Oroszországban; Valaki a piacon próbál valami újat kitalálni a számítógépes nyelvészet területén?

**Számítógépes nyelvészetről szóló könyvek:**

Daniel Jurafsky, Beszéd- és nyelvfeldolgozás

Christopher Manning, Prabhakar Raghavan, Heinrich Schuetze, "Bevezetés az információkeresésbe"

Yakov Testelets, „Bevezetés az általános szintaxisba”

A legtöbb nyelvi fejlesztés a nagyvállalatok tulajdona, szinte semmi nem található a nyilvánosságban. Ez lassítja az ipar fejlődését, nincs szabad nyelvi piacunk vagy csomagolt megoldásaink.

Emellett hiányoznak az átfogó információs források. Van egy ilyen projekt, mint az Orosz Nyelv Nemzeti Korpusza. Ez a világ egyik legjobb nemzeti épülete, amely gyorsan fejlődik, és hihetetlen lehetőségeket nyit a tudományos és alkalmazott kutatások számára. A különbség nagyjából ugyanaz, mint a biológiában – a DNS-kutatás előtt és utána.

De sok forrás nem létezik oroszul. Így nincs analógja egy olyan csodálatos angol nyelvű forrásnak, mint a Framenet - ez egy olyan fogalmi hálózat, ahol egy adott szó minden lehetséges kapcsolatát más szavakkal formálisan bemutatják. Például ott van a „repülni” szó - ki tud repülni, hol, milyen előszóval használják ezt a szót, milyen szavakkal kombinálják, és így tovább. Ez az erőforrás segít összekapcsolni a nyelvet a valós élettel, vagyis nyomon követni, hogyan viselkedik egy adott szó a morfológia és a szintaxis szintjén. Nagyon hasznos.

Az Avicomp cég jelenleg egy beépülő modult fejleszt a hasonló tartalmú cikkek keresésére. Vagyis ha érdekli egy cikk, gyorsan áttekintheti a cselekmény történetét: mikor merült fel a téma, mit írtak és mikor volt az érdeklődés csúcsa ebben a problémában. Ennek a beépülő modulnak a segítségével például egy szíriai eseményeknek szentelt cikktől kezdve nagyon gyorsan megtekinthető, hogyan alakultak az ottani események az elmúlt évben.

Hogyan épül fel a tanulási folyamat a mesterképzésben?

Az EBK-n a nyugati egyetemekhez hasonlóan külön modulokba szerveződik az oktatás. A diákokat kis csapatokra, mini-startupokra osztják majd, vagyis a végén több kész projektet is kapunk. Valódi termékeket szeretnénk kapni, amelyeket aztán megnyitunk az emberek előtt, és közkinccsé hagyunk.

A hallgatók közvetlen projektmenedzserei mellett szeretnénk kurátorokat találni számukra a potenciális munkaadóik közül – például ugyanattól a Yandextől, akik szintén ezzel a játékkal játszanak, és tanácsokat adnak a hallgatóknak.

Remélem, hogy a mesterképzésre sokféle területről érkeznek érdeklődők: programozók, nyelvészek, szociológusok, marketingesek. Számos adaptációs tanfolyamunk lesz nyelvészetből, matematikából és programozásból. Ezután két komoly nyelvészeti szakunk lesz, amelyek a legaktuálisabb nyelvészeti elméletekhez kapcsolódnak, azt szeretnénk, hogy a végzett hallgatóink el tudják olvasni és megértsék a modern nyelvészeti cikkeket. Ugyanez a helyzet a matematikával. A „Számítógépes nyelvészet matematikai alapjai” című kurzust tartjuk, amely felvázolja a matematikának azokat az ágait, amelyekre a modern számítógépes nyelvészet épül.

A mesterképzésre való felvételhez nyelvi felvételi vizsgát és portfólióversenyt kell teljesíteni.

A fő kurzusok mellett lesz egy sor választható tantárgy is. Több ciklust is terveztünk – ezek közül kettő az egyes témakörök elmélyültebb tanulmányozására irányul, amelyek között szerepel például a gépi fordítás és a korpusznyelvészet. és az egyik, éppen ellenkezőleg, a kapcsolódó területekhez kapcsolódik: például a közösségi hálózatokhoz, a gépi tanuláshoz vagy a digitális humán tudományokhoz – egy kurzus, amelyet reményeink szerint angolul fognak tanítani.

Nyelvészet (latin lingua -
nyelv), nyelvészet, nyelvészet - tudomány,
nyelveket tanulni.
Ez általában a természetes emberi nyelv tudománya
és a világ összes nyelvéről, mint az övé
egyéni képviselők.
A szó tágabb értelmében a nyelvészet
tudományos és gyakorlati részekre osztva. Gyakrabban
mit értünk nyelvtudományon pontosan az
tudományos nyelvészet. A szemiotika része, mint
a jelek tudománya.
A nyelvészetet szakszerűen nyelvtudósok tanulmányozzák.

Nyelvészet és számítástechnika.
Az automatizált rendszerek fontos szerepet játszanak a modern társadalom életében.
információs technológia. De az információs technológia fejlődése zajlik
nagyon egyenetlenül: ha a számítástechnika modern szintje és
kommunikációs eszközök ámulatba ejtik a képzeletet, majd a szemantikai feldolgozás területén
információk, a sikerek sokkal szerényebbek. Ezek a sikerek mindenekelőtt azon múlnak
eredmények az emberi gondolkodási folyamatok, beszédfolyamatok tanulmányozásában
az emberek közötti kommunikáció és ezen folyamatok számítógépen történő szimulálása. Ez pedig rendkívül összetett feladat, ha ígéretes alkotásról van szó
informatika, majd az automatikus szövegfeldolgozás problémái
a természetes nyelveken közölt információk kerülnek előtérbe.
Ezt az a tény határozza meg, hogy az ember gondolkodása szorosan összefügg a nyelvével. Több
Ráadásul a természetes nyelv gondolkodási eszköz. Ő is
az emberek közötti kommunikáció univerzális eszköze - az észlelés eszköze,
információk felhalmozása, tárolása, feldolgozása és továbbítása.
A természetes nyelv használatának problémái automatikus rendszerekben
A számítógépes nyelvészet tudománya információfeldolgozással foglalkozik. Ez a tudomány
viszonylag nemrégiben – az ötvenes-hatvanas évek fordulóján – keletkezett
múlt század. Eleinte, megalakulásakor különféle volt
címek: matematikai nyelvészet, számítógépes nyelvészet, mérnöki tudomány
nyelvészet. De a nyolcvanas évek elején ezt a nevet adták hozzá
számítógépes nyelvészet.

A számítógépes nyelvészet a problémamegoldással kapcsolatos tudásterület
természetes nyelven bemutatott információk automatikus feldolgozása.
A számítógépes nyelvészet központi tudományos problémái jelentik a problémát
a szövegek jelentésének megértésének folyamatának modellezése (átmenet szövegről
jelentésének formalizált ábrázolása) és a beszédszintézis problémája (átmenet a
szövegek jelentésének formalizált megjelenítése természetes nyelven). Ezek a problémák
számos alkalmazott probléma megoldása során merülnek fel:
1) a hibák automatikus felismerése és kijavítása szövegek számítógépbe történő bevitelekor,
2) a szóbeli beszéd automatikus elemzése és szintézise,
3) szövegek automatikus fordítása egyik nyelvről a másikra,
4) kommunikáció számítógéppel természetes nyelven,
5) szöveges dokumentumok automatikus osztályozása és indexelése, azok
automatikus absztrahálás, dokumentumok keresése teljes szöveges adatbázisokban.
Az elmúlt fél évszázad során a számítógépes nyelvészet területén szereztek
jelentős tudományos és gyakorlati eredmények: géprendszereket hoztak létre
szövegek fordítása egyik természetes nyelvről a másikra, automatizált rendszerek
információk keresése szövegekben, a szóbeli beszéd automatikus elemzésére és szintézisére szolgáló rendszerek és
sok más. De voltak csalódások is. Például a gépi fordítás problémája
Az egyik nyelvről a másikra szövegek átadása sokkal nehezebbnek bizonyult, mint azt elképzelték
a gépi fordítás úttörői és követőik. Ugyanez elmondható róla
automatizált információkeresés a szövegekben és a szóbeli elemzés és szintézis feladata
beszéd. A tudósoknak és mérnököknek láthatóan sokkal többet kell dolgozniuk
elérni a kívánt eredményeket.

természetes nyelvi feldolgozás;
morfológiai, szemantikai szövegelemzés). Ez a következőket is tartalmazza:
Korpusznyelvészet, elektronikus szövegkorpusok létrehozása és használata
Elektronikus szótárak, tezauruszok, ontológiák készítése. Például a Lingvo. Szótárak
például automatikus fordításra és helyesírás-ellenőrzésre használható.
Szövegek automatikus fordítása. Népszerű az orosz fordítók körében
a Promt. Az ingyenesek közé tartozik a Google Fordító.
Tények automatikus kinyerése szövegből (információ kinyerése)
kinyerés, szövegbányászat)
Automatikus szövegösszegzés. Ez a funkció engedélyezve van
például a Microsoft Wordben.
Tudásmenedzsment rendszerek kiépítése. Lásd: Szakértői rendszerek
Kérdés válaszoló rendszerek létrehozása.
Optikai karakterfelismerés (OCR). Például a FineReader program
Automatikus beszédfelismerés (ASR). Vannak fizetős és ingyenes szoftverek
Automatikus beszédszintézis

SZÁMÍTÓGÉPES NYELVÉSZET (calque az angol számítógépes nyelvészetből), az alkalmazott nyelvészet egyik területe, amelyben számítógépes programokat, adatok rendszerezésére és feldolgozására szolgáló számítógépes technológiákat fejlesztenek és használnak a nyelv tanulmányozására, a nyelv működésének modellezésére bizonyos körülmények, helyzetek és problémák esetén. területeken. Másrészt ez a számítógépes nyelvi modellek alkalmazási területe a nyelvészetben és a kapcsolódó tudományágakban. A számítógépes nyelvészet, mint speciális tudományos irányzat az 1960-as években öltött testet az európai kutatásban. Mivel az angol computational jelző „számítógépes”-nek is fordítható, a „computational linguistics” kifejezés is megtalálható a szakirodalomban, de az orosz tudományban szűkebb jelentést kap, megközelítve a „kvantitatív nyelvészet” fogalmát.

A „kvantitatív nyelvészet” kifejezést gyakran számítógépes nyelvészetnek is nevezik, amely az alkalmazott kutatások interdiszciplináris irányát jellemzi, ahol a kvantitatív vagy statisztikai elemzési módszereket használják a nyelv és a beszéd tanulmányozásának fő eszközeként. Néha a kvantitatív (vagy kvantitatív) nyelvészetet szembeállítják a kombinatorikus nyelvészettel. Ez utóbbiban a domináns szerepet a „nem kvantitatív” matematikai apparátus - halmazelmélet, matematikai logika, algoritmuselmélet stb. - tölti be. Elméleti szempontból a statisztikai módszerek nyelvtudományi alkalmazása lehetővé teszi a kiegészítést a nyelv strukturális modellje valószínűségi komponenssel, azaz elméleti strukturális-valószínűségi modell létrehozása jelentős magyarázó potenciállal. Az alkalmazott területen a kvantitatív nyelvészetet mindenekelőtt ennek a modellnek a töredékeinek felhasználása jelenti, amelyek a nyelv működésének nyelvi nyomon követésére, a kódolt szöveg visszafejtésére, a szöveg engedélyezésére/hozzárendelésére stb.

A „számítógépes nyelvészet” kifejezést és e terület problémáit gyakran a kommunikáció modellezésével, mindenekelőtt a számítógéppel való emberi interakció természetes vagy korlátozott természetes nyelven történő biztosításával társítják (erre speciális természetes nyelvi feldolgozó rendszereket hoznak létre). ), valamint az információs technológia elméletével és gyakorlatával (IRS). A számítógéppel való emberi kommunikáció természetes nyelven történő biztosítását néha „természetes nyelvi feldolgozásnak” nevezik (a Natural Language Processing kifejezés angol fordítása). A számítógépes nyelvészetnek ez a területe az 1960-as évek végén jelent meg külföldön, és a mesterséges intelligencia nevű tudományos és technológiai tudományág keretein belül fejlődött ki (R. Schenk, M. Lebowitz, T. Winograd stb. munkái). Jelentésében a „természetes nyelvi feldolgozás” kifejezésnek ki kell terjednie minden olyan területre, ahol a számítógépeket nyelvi adatok feldolgozására használják. A gyakorlatban azonban a fogalom szűkebb értelmezése érvényesült – olyan módszerek, technológiák és specifikus rendszerek fejlesztése, amelyek biztosítják az emberi kommunikációt a számítógéppel természetes vagy korlátozott természetes nyelven.

A számítógépes nyelvészet bizonyos mértékig magában foglalhatja a hipertext-rendszerek létrehozásának területén végzett munkát, amelyet a szövegrendezés sajátos módjának, sőt alapvetően új típusú szövegnek tekintenek, számos tulajdonságában szembeállítva a Gutenberg-hagyományban kialakult hétköznapi szöveggel. a nyomtatás (lásd Gutenberg).

A számítógépes nyelvészet kompetenciájába tartozik az automatikus fordítás is.

A számítógépes nyelvészet keretein belül egy viszonylag új irány alakult ki, amely az 1980-90-es évek óta aktívan fejlődik - a korpusznyelvészet, ahol a nyelvi adatkorpusok (különösen a szövegkorpusok) modern számítógépes technológiák segítségével történő létrehozásának általános elveit dolgozzák ki. . A szövegkorpusok könyvekből, folyóiratokból, újságokból stb. speciálisan kiválasztott szövegek gyűjteményei, amelyeket számítógépes adathordozóra vittek át és automatikus feldolgozásra szántak. Az egyik első szövegkorpusz az amerikai angol számára készült a Brown Egyetemen (az úgynevezett Brown Corpus) 1962-63-ban W. Francis vezetésével. Oroszországban a 2000-es évek eleje óta az Orosz Tudományos Akadémia Vinogradov Orosz Nyelvi Intézete fejleszti az Orosz Nyelv Nemzeti Korpuszát, amely orosz nyelvű szövegek reprezentatív mintájából áll, körülbelül 100 millió szóhasználattal. A korpusznyelvészet az adatkorpusok tulajdonképpeni felépítése mellett olyan számítógépes eszközök (számítógépes programok) készítésével foglalkozik, amelyek célja a szövegkorpusokból különböző információk kinyerése. A felhasználó szemszögéből nézve a szövegkorpusokra a reprezentativitás (reprezentativitás), a teljesség és a gazdaságosság követelményei vonatkoznak.

A számítógépes nyelvészet aktívan fejlődik Oroszországban és külföldön egyaránt. A kiadványok áramlása ezen a területen igen nagy. A tematikus gyűjtemények mellett a Computational Linguistics folyóirat 1984 óta negyedévente jelenik meg az Egyesült Államokban. Sok szervezési és tudományos munkát végez a The Association for Computational Linguistics, amelynek regionális struktúrái vannak szerte a világon (különösen egy európai kirendeltséggel). Kétévente rendeznek nemzetközi COLINT konferenciákat (2008-ban Manchesterben tartották a konferenciát). A számítógépes nyelvészet főbb irányairól a „Párbeszéd” éves nemzetközi konferencián is szó esik, amelyet az Orosz Mesterséges Intelligencia Kutatóintézet, a Moszkvai Állami Egyetem Filológiai Kara, a Yandex és számos más szervezet szervez. A releváns kérdések széles körben képviseltetik magukat a mesterséges intelligenciával foglalkozó nemzetközi konferenciákon is, különböző szinteken.

Lit.: Zvegintsev V. A. Elméleti és alkalmazott nyelvészet. M., 1968; Piotrovsky R. G., Bektaev K. B., Piotrovskaya A. A. Matematikai nyelvészet. M., 1977; Gorodetsky B. Yu. Az alkalmazott nyelvészet aktuális problémái // Új a külföldi nyelvészetben. M., 1983. szám. 12; Kibrik A. E. Alkalmazott nyelvészet // Kibrik A. E. Esszék a nyelvészet általános és alkalmazott kérdéseiről. M., 1992; Kennedy G. Bevezetés a korpusznyelvészetbe. L., 1998; Bolshakov I.A., Gelbukh A. Számítógépes nyelvészet: modellek, források, alkalmazások. Mekh., 2004; Az orosz nyelv nemzeti korpusza: 2003-2005. M., 2005; Baranov A. N. Bevezetés az alkalmazott nyelvészetbe. 3. kiadás M., 2007; Számítógépes nyelvészet és intellektuális technológiák. M., 2008. szám. 7.



Előző cikk: Következő cikk:

© 2015 .
Az oldalról | Kapcsolatok
| Oldaltérkép