shtëpi » Përgatitja dhe ruajtja » Përdoret për të përkthyer informacionin në gjuhën e makinës. Përkthimi me makinë: Kapërcimi i barrierave gjuhësore

Përdoret për të përkthyer informacionin në gjuhën e makinës. Përkthimi me makinë: Kapërcimi i barrierave gjuhësore

Instituti i Aviacionit në Moskë

(Universiteti Teknik Shtetëror)

“Instituti i Gjuhëve të Huaja MAI”

Departamenti I-01

"Teoria dhe praktika e gjuhës angleze"

Ese

"Përkthimi me makinë"

Moskë 2012

Përkthimi me makinë dhe pse nevojitet……………………………………………………………………………………3 Klasifikimi i sistemeve të përkthimit me makinë…………………… …………………………………………………………………..4 Si kryhet përkthimi me makinë…………………………………………………… …………………………………………………..7 Historia e zhvillimit të sistemeve të përkthimit makinerik……………………………………………………………… ……………………………… njëmbëdhjetë Gjendja e tanishme përkthimi me makinë i bazuar në Yandex.Translation……………………………..18 Përfundim……………………………………………………………………………… ………………………………………………………………………………………………… 20

Lista e referencave……………………………………………………………………………………………..21

Përkthimi me makinë dhe pse është i nevojshëm

Kohët e fundit njohja e gjuhëve të huaja mund të jetë e nevojshme jo vetëm kur udhëtoni ose kur pranoni mysafirë nga jashtë, por edhe në shtëpinë tuaj, për shembull, kur shikoni filma të njohur të Hollivudit, kur lexoni udhëzime për përdorimin e mallrave jashtë shtetit ose faqeve të internetit. Kështu, rezulton se edhe pa lënë muret tona amtare, ne kemi nevojë për shërbimet e një përkthyesi. Megjithatë ndihmën e nevojshme Një kompjuter në shtëpi mund të jetë në gjendje të na ndihmojë. Sistemet e përkthimit makinerik (MT) kanë pushuar së qeni një kuriozitet. Ata dalin gradualisht që në foshnjëri dhe, në vend të llafeve jokoherente të foshnjave, fillojnë të shprehen në një gjuhë krejtësisht të kuptueshme, "njerëzore". Deri kohët e fundit, programe të tilla nuk ishin vetëm shumë të shtrenjta, të dytat për nga çmimi vetëm pas sistemeve të fuqishme grafike dhe botuese, por edhe shumë komplekse dhe kapriçioze në funksionim. Dhe tani u shfaqën përkthyesit e parë të përshtatshëm për t'u përdorur në një kompjuter në shtëpi. Le t'i njohim më mirë dhe të zbulojmë se për çfarë janë të aftë.

Klasifikimi i sistemeve të përkthimit me makinë

Përkthim plotësisht i automatizuar me makinë.

Ky lloj përkthimi me makinë është ajo që mendojnë shumica e njerëzve kur flasin për përkthimin me makinë. Kuptimi këtu është i thjeshtë: teksti në një gjuhë futet në kompjuter, ky tekst përpunohet dhe kompjuteri shfaq të njëjtin tekst në një gjuhë tjetër. Fatkeqësisht, zbatimi i këtij lloji të përkthimit automatik përballet me pengesa të caktuara që ende duhen kapërcyer.

Problemi kryesor është kompleksiteti i vetë gjuhës. Merrni, për shembull, kuptimet e fjalës "mund". Përveç kuptimit themelor të një foljeje ndihmëse modale, fjala "mund" ka disa kuptime formale dhe zhargone si emër: "mund", "banjo", "burg". Për më tepër, ekziston një kuptim arkaik i kësaj fjale - "të njohësh ose të kuptosh". Duke supozuar se gjuha e daljes ka një fjalë të veçantë për secilin prej këtyre kuptimeve, si mund t'i dallojë një kompjuter midis tyre?

Siç rezulton, është bërë njëfarë progresi në zhvillimin e programeve të përkthimit që dallojnë kuptimin bazuar në kontekst. Studimet më të fundit mbështeten më shumë në teoritë e probabilitetit kur analizojnë tekste. Megjithatë, përkthimi plotësisht i automatizuar me makinë i teksteve me lëndë të gjerë është ende një detyrë e pamundur.

Përkthim i automatizuar me makinë me pjesëmarrje njerëzore.

Ky lloj përkthimi me makinë tani është plotësisht i realizueshëm. Kur flasim për përkthimin me makinë me ndihmën e njeriut, zakonisht nënkuptojmë redaktimin e teksteve para dhe pasi ato të përpunohen nga një kompjuter. Përkthyesit njerëzorë ndryshojnë tekstet në mënyrë që ato të jenë të kuptueshme për makinat. Pasi kompjuteri të ketë bërë përkthimin, njerëzit përsëri redaktojnë përkthimin e përafërt me makinë, duke e bërë tekstin në gjuhën e daljes të saktë. Përveç kësaj procedure funksionimi, ka sisteme MT që gjatë përkthimit kërkojnë praninë e vazhdueshme të një përkthyesi njerëzor për të ndihmuar kompjuterin të përkthejë struktura veçanërisht komplekse ose të paqarta.

Përkthimi me makinë me ndihmën e njeriut është i zbatueshëm në një masë më të madhe për tekstet me një fjalor të kufizuar dhe një temë ngushtësisht të kufizuar.

Efektiviteti i kostos së përdorimit të përkthimit makinerik të asistuar nga njeriu është ende një çështje e diskutueshme. Vetë programet zakonisht janë mjaft të shtrenjta dhe disa prej tyre kërkojnë pajisje speciale për t'u ekzekutuar. Redaktimi para dhe pas kërkon një kurbë mësimi dhe nuk është një punë e këndshme. Krijimi dhe mirëmbajtja e bazave të të dhënave të fjalëve është një proces që kërkon punë intensive dhe shpesh kërkon aftësi të veçanta. Megjithatë, për një organizatë që përkthen vëllime të mëdha teksti në një fushë lëndore të përcaktuar mirë, përkthimi me makinë me ndihmën e njeriut mund të jetë një alternativë mjaft ekonomike ndaj përkthimit tradicional njerëzor.

Përkthimi kryhet nga një person që përdor një kompjuter.

Në këtë qasje, përkthyesi njerëzor vendoset në qendër të procesit të përkthimit, ndërsa programi kompjuterik konsiderohet si një mjet që e bën procesin e përkthimit më efikas dhe përkthimin më të saktë. Këta janë fjalorë të zakonshëm elektronikë që ofrojnë përkthimin e fjalës së kërkuar, duke i vendosur përgjegjësinë personit për zgjedhjen e opsionit të dëshiruar dhe kuptimin e tekstit të përkthyer. Fjalorë të tillë lehtësojnë shumë procesin e përkthimit, por kërkojnë që përdoruesi të ketë një njohuri të caktuar të gjuhës dhe të shpenzojë kohë për zbatimin e saj. E megjithatë vetë procesi i përkthimit është dukshëm më i shpejtë dhe më i lehtë.

Ndër sistemet që ndihmojnë një përkthyes në punën e tij, vendin më të rëndësishëm e zënë të ashtuquajturat sisteme të kujtesës së përkthimit (TM). Sistemet TM janë një mjet ndërveprues për grumbullimin e çifteve të segmenteve ekuivalente të tekstit në gjuhën origjinale dhe përkthimin në një bazë të dhënash me mundësinë e kërkimit dhe redaktimit të tyre të mëvonshëm. Këto produkte softuerike nuk janë të destinuara për t'u përdorur shumë inteligjente teknologjitë e informacionit, por përkundrazi, bazohen në përdorimin e potencialit krijues të përkthyesit. Në procesin e punës, vetë përkthyesi krijon një bazë të dhënash (ose e merr atë nga përkthyes të tjerë ose nga klienti), dhe si më shumë njësi ai përmban, aq më i madh është kthimi nga përdorimi i tij.

Këtu është një listë e sistemeve më të famshme TM:

Transit nga kompania zvicerane Star,

Trados (SHBA),

Menaxher përkthimi nga IBM,

Eurolang Optimizer nga kompania franceze LANT,

DejaVu nga ATRIL (SHBA),

WordFisher (Hungari).

Sistemet TM bëjnë të mundur eliminimin e përkthimit të përsëritur të fragmenteve identike të tekstit. Përkthimi i një segmenti kryhet nga përkthyesi vetëm një herë, dhe më pas çdo segment pasues kontrollohet për një përputhje (të plotë ose të paqartë) me bazën e të dhënave dhe nëse gjendet një segment identik ose i ngjashëm, ai ofrohet si opsion përkthimi. .

Aktualisht, zhvillimet janë duke u zhvilluar për të përmirësuar sistemet TM. Për shembull, bërthama e sistemit Transit të Starit zbatohet bazuar në teknologjinë e rrjetit nervor.

Pavarësisht gamës së gjerë të sistemeve TM, ato ndajnë disa karakteristika të përbashkëta:

Funksioni i shtrirjes. Një nga avantazhet e sistemeve TM është aftësia për të përdorur materiale të përkthyera tashmë për një temë të caktuar. Baza e të dhënave TM mund të merret duke krahasuar segment pas segmenti të skedarëve origjinal dhe të përkthimit.

Disponueshmëria e filtrave të importit dhe eksportit. Kjo veçori siguron përputhshmërinë e sistemeve TM me një sërë përpunuesish teksti dhe sistemesh botuese dhe i jep përkthyesit pavarësi relative nga klienti.

Një mekanizëm për kërkimin e ndeshjeve të paqarta ose të plota. Është ky mekanizëm që përfaqëson avantazhin kryesor të sistemeve TM. Nëse gjatë përkthimit të një teksti, sistemi has në një segment që është identik ose i afërt me atë të përkthyer më parë, atëherë segmenti tashmë i përkthyer i ofrohet përkthyesit si opsion për përkthimin e segmentit aktual, i cili mund të korrigjohet. Shkalla e përputhjes së paqartë përcaktohet nga përdoruesi.

Mbështetje për fjalorët tematikë. Kjo veçori e ndihmon përkthyesin t'i përmbahet fjalorit. Si rregull, nëse një fjalë ose frazë nga një fjalor tematik shfaqet në një segment të përkthyer, ajo theksohet me ngjyra dhe sugjerohet përkthimi i saj, i cili mund të futet automatikisht në tekstin e përkthyer.

Mjete për kërkimin e fragmenteve të tekstit. Ky mjet është shumë i përshtatshëm kur redaktoni përkthime. Nëse gjatë procesit të punës është gjetur një opsion më i suksesshëm përkthimi për një fragment teksti, atëherë ky fragment mund të gjendet në të gjitha segmentet TM, pas së cilës ndryshimet e nevojshme bëhen në mënyrë sekuenciale në segmentet TM.

Natyrisht, si çdo produkt softuerik, sistemet TM kanë avantazhet dhe disavantazhet e tyre, si dhe fushëveprimin e tyre të aplikimit. Megjithatë, në lidhje me sistemet TM, disavantazhi kryesor është kostoja e tyre e lartë.

Është veçanërisht i përshtatshëm për të përdorur sistemet TM kur përkthen dokumente të tilla si manualet e përdoruesit, udhëzimet e funksionimit, dokumentacioni i projektimit dhe biznesit, katalogët e produkteve dhe dokumentacione të tjera të ngjashme me sasi e madhe rastësi.

Si funksionon përkthimi me makinë?

Ai bazohet në një algoritëm përkthimi - një sekuencë veprimesh të përcaktuara qartë dhe rreptësisht në tekst për të gjetur përputhje në një palë gjuhë të caktuar L1 - L2 për një drejtim të caktuar përkthimi (nga një gjuhë specifike një tjetër). Fjalorët dhe gramatikat konvencionale të gjuhëve të ndryshme nuk janë të zbatueshme për përkthimin me makinë, pasi ato përshkruajnë kuptimet e fjalëve dhe modeleve gramatikore në një formë të lirshme që nuk është aspak e pranueshme për përdorim "makine". Prandaj duhet një gramatikë formale e gjuhës, d.m.th. logjikisht e qëndrueshme dhe e shprehur qartë (pa asnjë të nënkuptuar apo nënkuptuar). Sapo filluan të shfaqen përshkrime formale të fushave të ndryshme të gjuhës - kryesisht morfologjia dhe sintaksa - u bë përparim në zhvillimin e sistemeve të përkthimit automatik. Për të funksionuar me sukses, një sistem përkthimi me makinë përfshin, së pari, fjalorë dygjuhësh të pajisur me informacionin e nevojshëm (morfologjik, që lidhet me format e fjalëve, sintaksor, mënyra përshkruese të kombinimit të fjalëve në një fjali dhe semantik, d.m.th. përgjegjës për kuptimin) dhe së dyti. - mjetet e analizës gramatikore, të cilat bazohen në një nga formale, d.m.th. i rreptë, gramatikor. Më e zakonshme është sekuenca e mëposhtme e operacioneve formale që ofrojnë analiza dhe sintezë në një sistem përkthimi me makinë.

1. Në fazën e parë, futet teksti dhe kërkon format e fjalëve hyrëse (fjalë në një specifikë forma gramatikore, për shembull, shumësi dhanor) në fjalorin e hyrjes (fjalori i gjuhës nga e cila është bërë përkthimi) me analizë morfologjike shoqëruese, gjatë së cilës përkatësia e një forme të dhënë fjalësh në një leksem të caktuar (një fjalë si njësi e fjalori) është krijuar. Gjatë procesit të analizës, informacioni që lidhet me nivelet e tjera të organizatës mund të merret edhe nga forma e fjalës. sistemi gjuhësor, për shembull, cili pjesëtar i fjalisë mund të jetë fjalën e dhënë. Në analizën gramatikore shkollore të një fjalie, ne mbështetemi edhe në kuptimet e fjalëve që përbëjnë fjalinë (për shembull, kur kërkojmë temën, shtrojmë pyetjen: për çfarë flet fjalia?). Për një makinë, kombinimi i këtyre dy operacioneve - analiza gramatikore dhe adresimi i kuptimit të fjalëve - është një detyrë e vështirë. Është më mirë që analiza sintaksore të bëhet e pavarur nga kuptimi i fjalëve dhe të përdoret fjalori në faza të tjera të përkthimit.

Çfarë është analiza sintaksore e pavarur mund të kuptohet nëse përpiqeni të analizoni një frazë nga e cila kuptimet e fjalëve specifike janë "hequr". Një shembull brilant i një fraze të tillë është fjalia e krijuar nga akademiku L.V Shcherba: The glokaya kuzdra shtetko budlanula bokr and curls the bokrenka. Një frazë pa kuptim? Sikur po: në gjuhën ruse nuk ka fjalë nga të cilat përbëhet (përveç lidhëzës dhe). E megjithatë, në një farë mase, ne e kuptojmë atë: "kuzdra" është një emër (madje mund të supozojmë se do të thotë një lloj kafshe), "glokaya" është një përkufizim për të, "budlanula" është një folje kallëzues (e shtyrë e ngjashme , me prapanicë), "shtetko" ka shumë të ngjarë një rrethanë e mënyrës së veprimit (diçka si fort, ashpër), "bokra" është objekt i drejtpërdrejtë(“buzuri” kujt? – “bokra”), etj.

Kjo do të thotë, makina kryen një analizë sintaksore të një fjalie pa u mbështetur në kuptimet e fjalëve përbërëse të saj, duke përdorur informacione vetëm për vetitë e tyre gramatikore. Si rezultat i analizës sintaksore, lind një strukturë sintaksore, e cila përshkruhet si një pemë e varësive: "rrënja" është kallëzuesi, dhe "degët" janë marrëdhëniet e saj sintaksore me fjalët e varura. Çdo fjalë e një fjalie shkruhet në formën e vet të fjalorit dhe me të tregohen karakteristikat gramatikore që ka kjo fjalë në fjalinë e analizuar.

2. Faza tjetër përfshin përkthimin e frazave idiomatike, njësi frazeologjike ose klishe të një lënde të caktuar (për shembull, gjatë përkthimit anglisht-rusisht, frazat si në rastin e, në përputhje me marrin një ekuivalent të vetëm dixhital dhe përjashtohen nga analiza e mëtejshme gramatikore); përcaktimi i karakteristikave themelore gramatikore (morfologjike, sintaksore, semantike dhe leksikore) të elementeve të tekstit hyrës (për shembull, numri i emrave, koha e foljes, roli i tyre në një fjali të caktuar etj.), të prodhuara brenda kornizës. gjuha e hyrjes; zgjidhja e paqartësisë (për shembull, raundi në anglisht mund të jetë një emër, mbiemër, ndajfolje, folje ose parafjalë); analiza dhe përkthimi i fjalëve. Zakonisht në këtë fazë fjalë të paqarta janë të ndara nga fjalët polisemike (që kanë më shumë se një ekuivalent përkthimi në gjuhën e synuar), pas së cilës fjalët me një vlerë të vetme përkthehen duke përdorur listat ekuivalentësh dhe për përkthim fjalët polisemantike Përdoren të ashtuquajturit fjalorë kontekstualë, hyrjet e fjalorit të të cilëve janë algoritme për kërkimin e kontekstit për praninë/mungesën e përcaktuesve kontekstualë të kuptimit.

3. Analiza gramatikore përfundimtare, gjatë së cilës përcaktohet informacioni i nevojshëm gramatikor duke marrë parasysh të dhënat e gjuhës së synuar (për shembull, me emrat rusë si sajë, gërshërë, folja duhet të jetë në shumës, pavarësisht nga fakti se origjinali mund të ketë edhe një numër njëjës).

4. Sinteza e formave dhe fjalive të fjalëve dalëse në tërësi në gjuhën e synuar. Këtu nuk do të mund të arrini thjesht duke përkthyer "nyjet" e pemës në një gjuhë tjetër. Sintaksa e secilës gjuhë është rregulluar në mënyrën e vet: ajo që është tema në një fjali ruse, në një gjuhë tjetër mund (ose duhet) të shprehet me një shtesë, dhe shtesa, përkundrazi, duhet të shndërrohet në temë; ajo që shënohet me një grup fjalësh në një gjuhë përkthehet në një tjetër me vetëm një fjalë, etj. Kështu, kur përkthehet fraza ruse "Unë kisha një libër interesant" në anglisht, folja "të jesh" duhet të përkthehet me folja të kesh - "të kesh" , kombinimi "kam" shndërrohet në temën unë ("unë"), dhe fjala "libër", e cila në rusisht është tema, në anglisht duhet të bëhet objekt i drejtpërdrejtë: I kishte një libër interesant (fjalë për fjalë: "Kisha një libër interesant "). Në këtë drejtim, përveç grupeve të rregullave sintaksore për secilën gjuhë, rregullat e transformimit janë gjithashtu "të ngulitura" në kujtesën e kompjuterit. struktura sintaksore. Kësaj i shtohen rregullat për kalimin nga një strukturë tashmë e transformuar në fjalinë e gjuhës në të cilën po bëhet përkthimi. Ky kalim nga struktura në një fjali aktuale quhet sintezë sintaksore.

Në varësi të karakteristikave të morfologjisë, sintaksës dhe semantikës së një çifti të caktuar gjuhësor, si dhe drejtimit të përkthimit algoritmi i përgjithshëm përkthimi mund të përfshijë faza të tjera, si dhe modifikime të këtyre fazave ose renditjen e shfaqjes së tyre, por variacione të këtij lloji në sistemet moderne, si rregull, janë të parëndësishme. Analiza dhe sinteza mund të kryhen si frazë për frazë ashtu edhe për të gjithë tekstin e futur në kujtesën e kompjuterit; në rastin e fundit, algoritmi i përkthimit parashikon përcaktimin e të ashtuquajturave lidhje anaforike (të tilla si, për shembull, lidhja midis një përemri dhe emrit që ai zëvendëson - le të themi, përemri im me fjalën përemër në këtë shpjegim në kllapa).

Për të zgjidhur problemin e paqartësisë së fjalës, përdoret analiza e kontekstit. Fakti është se secili nga disa kuptime të një fjale polisemantike në shumicën e rasteve realizohet në grupin e vet të konteksteve. Kjo do të thotë, secila prej kuptimeve "konkurruese" (në interpretim) ka grupin e vet të konteksteve. Dhe është pikërisht kjo varësi e kuptimit nga mjedisi që i lejon dëgjuesit të kuptojë saktë thënien. Për një kuptim të saktë të deklaratës, është gjithashtu e nevojshme të merren parasysh plotësisht rregullat për kushtëzimin e kuptimit të zgjedhur nga mjedisi leksikor (duke vepruar në interpretimin "frazeologjik" të fjalës), rregullat për kushtëzimin e kuptimit të zgjedhur nga konteksti semantik (të ashtuquajturat ligje marrëveshje kuptimore) dhe rregullat për kushtëzimin e kuptimit të zgjedhur nga konteksti gramatikor (morfologjik-sintaksor). Kjo do të thotë, për të zgjidhur problemin e "monosemizimit" të fjalëve gjatë përkthimit automatik, baza është studimi dhe përshkrimi i kujdesshëm i modeleve leksikore, semantike dhe. përputhshmëria gramatikore. Në të njëjtën kohë, rregullat e një përputhshmërie të tillë përshkruhen me detaje të mjaftueshme në fjalorë - domethënë, (a) me një mbulim të fuqishëm të fjalorit, por shumë rrjedhshëm dhe pa kujdes, dhe gjithashtu në mënyrë shumë të nënkuptuar kjo bëhet në leksikografinë tradicionale; dhe, nga ana tjetër, (b) në mënyrë selektive (me mbulim të dobët fjalori), por me shumë kujdes dhe kujdes, dhe në mënyrë krejt të qartë, kjo bëhet në punimet për leksikografinë “interpretive-kombinatore” (të dyzet viteve të fundit). .

Sistemet aktuale të përkthimit me makinë priren të fokusohen në çifte të veçanta gjuhësore (për shembull, frëngjisht dhe rusisht ose japonisht dhe anglisht) dhe zakonisht përdorin përputhje përkthimi ose në një nivel sipërfaqësor ose në një nivel të ndërmjetëm midis gjuhëve hyrëse dhe dalëse. Cilësia e përkthimit me makinë varet nga madhësia e fjalorit, sasia e informacionit të caktuar për njësitë leksikore, tërësia e përpilimit dhe testimit të funksionimit të algoritmeve të analizës dhe sintezës dhe efektiviteti i softuerit. Hardware dhe softuer modern lejojnë përdorimin e fjalorëve të mëdhenj që përmbajnë informacion të detajuar gramatikor. Informacioni mund të paraqitet si në formë deklarative (përshkruese) dhe procedurale (duke marrë parasysh nevojat e algoritmit).

Në praktikën e përkthimit dhe në teknologjinë e informacionit, ekzistojnë dy qasje kryesore për përkthimin me makinë. Nga njëra anë, rezultatet e përkthimit me makinë mund të përdoren për t'u njohur shkurtimisht me përmbajtjen e një dokumenti në një gjuhë të panjohur. Në këtë rast, ai mund të përdoret si informacion sinjali dhe nuk kërkon redaktim të kujdesshëm. Një qasje tjetër përfshin përdorimin e përkthimit me makinë në vend të përkthimit të rregullt njerëzor. Kjo përfshin redaktim dhe personalizim të kujdesshëm të sistemit të përkthimit për një fushë specifike lëndore. Plotësia e fjalorit, përqendrimi i tij në përmbajtjen dhe grupin e mjeteve gjuhësore të teksteve të përkthyera, efektiviteti i metodave për zgjidhjen e paqartësisë leksikore, efektiviteti i algoritmeve për nxjerrjen e informacionit gramatikor, gjetja e korrespondencave të përkthimit dhe algoritmeve të sintezës luajnë një rol këtu. Në praktikë, përkthimi i këtij lloji bëhet ekonomikisht fitimprurës nëse vëllimi i teksteve të përkthyera është mjaft i madh (të paktën disa dhjetëra mijëra faqe në vit), nëse tekstet janë mjaftueshëm homogjenë, fjalorët e sistemit janë të plotë dhe lejojnë zgjerim të mëtejshëm, dhe softueri është i përshtatshëm për redaktim pas.

Historia e zhvillimit të sistemeve të përkthimit të makinës

Vitet 40: hapat e parë

Historia e përkthimit me makinë si një drejtim shkencor dhe i aplikuar filloi në fund të viteve 40 të shekullit të kaluar (përveç pajisjes së mekanizuar të përkthimit të P. P. Smirnov-Troyansky, një lloj makine shtuese gjuhësore, e shpikur në 1933). Baza teorike Periudha fillestare (fundi i viteve 1940 - fillimi i viteve 1950) të punës për përkthimin me makinë ishte një pamje e gjuhës si një sistem kodi. Pionierët e MP ishin matematikanët dhe inxhinierët. Përshkrimet e eksperimenteve të tyre të para duke përdorur kompjuterë të rinj për të zgjidhur problemet kriptografike u botuan në SHBA në fund të viteve 1940. Data e lindjes së përkthimit me makinë si fushë kërkimore zakonisht konsiderohet të jetë marsi i vitit 1947; Pikërisht atëherë, specialisti i kriptografisë, Warren Weaver, në letrën e tij drejtuar Norbert Wiener, shtroi për herë të parë problemin e përkthimit me makinë, duke e krahasuar atë me problemin e deshifrimit.

I njëjti Weaver, pas një sërë diskutimesh, hartoi një memorandum në vitin 1949, në të cilin ai argumentoi teorikisht mundësinë themelore të krijimit të sistemeve të përkthimit me makinë. W. Weaver shkroi: “Kam një tekst para meje i cili është shkruar në rusisht, por do të pretendoj se është me të vërtetë i shkruar në anglisht dhe se është koduar në disa simbole të çuditshme. Gjithçka që duhet të bëj është të heq kodin në mënyrë që të marr informacionin që përmban teksti" ("Unë kam një tekst para syve të shkruar në rusisht, por do të pretendoj se është shkruar në të vërtetë në anglisht dhe E koduar me karaktere mjaft të çuditshme është të thyej kodin për të nxjerrë informacionin që përmban teksti. Analogjia midis përkthimit dhe deshifrimit ishte e natyrshme në kontekstin e epokës së pasluftës, duke pasur parasysh përparimet që bëri kriptografia gjatë Luftës së Dytë Botërore.

Idetë e Weaver formuan bazën e një qasjeje ndaj MT bazuar në konceptin e interlingva: faza e transferimit të informacionit ndahet në dy faza. Në fazën e parë, fjalia burimore përkthehet në një gjuhë ndërmjetëse (krijuar në bazë të anglishtes së thjeshtuar), dhe më pas rezultati i këtij përkthimi paraqitet në gjuhën e synuar.

Memorandumi i Weaver zgjoi interesin më të madh për problemin e MP. Në vitin 1948, A. Booth dhe Richard Richens kryen disa eksperimente paraprake (për shembull, Richens zhvilloi rregulla për ndarjen e formave të fjalëve në rrjedha dhe mbaresa). Së shpejti filloi financimi i kërkimit. Aktiv fazat e hershme zhvillimi i MP u mbështet në mënyrë aktive nga ushtria, ndërsa në SHBA vëmendja kryesore iu kushtua drejtimit ruso-anglisht, dhe në BRSS - drejtimit anglo-rus.

Përveç nevojave praktike të dukshme, një rol të rëndësishëm në zhvillimin e përkthimit të makinës luajti edhe fakti se testi i famshëm i inteligjencës ("Testi Turing"), i propozuar në vitin 1950 nga matematikani anglez A. Turing, në fakt zëvendësoi çështjen e nëse një makinë mund të mendojë me pyetjen nëse, nëse një makinë mund të komunikojë me një person në gjuhën natyrore në atë mënyrë që ai të mos jetë në gjendje ta dallojë atë nga një bashkëbisedues njerëzor. Kështu, për dekada me radhë, çështjet e përpunimit kompjuterik të mesazheve të gjuhës natyrore u bënë fokusi i kërkimit në kibernetikë (dhe më pas në inteligjencën artificiale) dhe u krijua një bashkëpunim produktiv midis matematikanëve, programuesve dhe inxhinierëve kompjuterikë nga njëra anë dhe gjuhëtarëve nga ana tjetër.

Në vitin 1952, konferenca e parë mbi MP u mbajt në Institutin e Teknologjisë në Massachusetts, dhe në vitin 1954, sistemi i parë MP u prezantua në Nju Jork - IBM Mark II, i zhvilluar nga IBM së bashku me Universitetin Georgetown (kjo ngjarje hyri në histori si Eksperimenti i Xhorxhtaunit). U prezantua një program që ishte shumë i kufizuar në aftësitë e tij (kishte një fjalor me 250 njësi dhe 6 rregullat gramatikore), i cili përktheu nga rusishtja në anglisht. Në të njëjtin 1954, eksperimenti i parë mbi përkthimin me makinë u krye në BRSS nga I. K. Belskaya (pjesa gjuhësore) dhe D. Yu (pjesa softuerike) në Institutin e Mekanikës Precize dhe Shkencave Kompjuterike të Akademisë së Shkencave të BRSS. dhe algoritmi i parë industrial i përkthimit me makinë dhe një sistem përkthimi me makinë nga anglishtja në rusisht në një kompjuter universal u zhvilluan nga një ekip i udhëhequr nga Yu. Pas kësaj filloi puna në shumë institute informative, shkencore dhe organizatat arsimore vende. Dukej se krijimi i sistemeve automatike të përkthimit me cilësi të lartë ishte mjaft i arritshëm brenda pak viteve (theksi ishte në zhvillimin e sistemeve plotësisht automatike që ofrojnë përkthime me cilësi të lartë; pjesëmarrja njerëzore në fazën pas redaktimit u konsiderua si një e përkohshme kompromis). Përkthyesit profesionistë kishin frikë seriozisht se së shpejti do të mbeteshin pa punë...

Vitet 50: zhgënjimi i parë

Nga fillimi i viteve 50, një seri e tërë grupet kërkimore në SHBA dhe Evropë kanë punuar në fushën e deputetit. Në këto studime u investuan fonde të konsiderueshme, por rezultatet shumë shpejt i zhgënjyen investitorët. Një nga arsyet kryesore nuk është Cilesi e larte MP në ato vite kishte aftësi të kufizuara harduerike: një sasi e vogël memorie me qasje të ngadaltë në informacionin e përmbajtur në të, pamundësia për të përdorur plotësisht gjuhët e programimit. nivel të lartë. Një arsye tjetër ishte mungesa e bazës teorike të nevojshme për t'u zgjidhur probleme gjuhësore, si rezultat i së cilës sistemet e para të MT u reduktuan në përkthim fjalë për fjalë të teksteve pa asnjë integritet sintaksor (le më semantik).

Në vitin 1959, filozofi Yohoshua Bar-Hillel argumentoi se MT me cilësi të lartë plotësisht automatike (FAHQMT) nuk mund të arrihej në parim. Si shembull, ai përmendi problemin e gjetjes përkthimi i saktë për fjalën stilolaps në kontekstin vijues: Gjoni po kërkonte kutinë e lodrave të tij. Më në fund e gjeti. Kutia ishte në stilolaps. Gjoni ishte shumë i lumtur (Gjoni po kërkonte kutinë e lodrave të tij. Më në fund e gjeti. Kutia ishte në shesh lojërash. Gjoni ishte shumë i lumtur). Stilolapsi në këtë rast nuk duhet të përkthehet si "stilolaps" (një instrument shkrimi), por si "stilolaps" (stilolaps). Zgjedhja e një përkthimi apo një tjetri në këtë rast dhe në një sërë të tjerash përcaktohet nga njohja e realitetit jashtëgjuhësor, dhe kjo njohuri është shumë e gjerë dhe e larmishme për t'u futur në një kompjuter. Sidoqoftë, Bar-Hillel nuk e mohoi idenë e MT-së si të tillë, duke e konsideruar zhvillimin e sistemeve makinerike të orientuara drejt përdorimit të tyre nga një përkthyes njerëzor (një lloj "simbiozë njeri-makinë") si një drejtim premtues.

Ky fjalim pati ndikimin më të pafavorshëm në zhvillimin e biznesit të vogël në Shtetet e Bashkuara. Në vitin 1966, një komision i krijuar posaçërisht nga Akademia Kombëtare e Shkencave, ALPAC (Automatic Language Processing Advisory Committee), i bazuar, ndër të tjera, në gjetjet e Bar-Hillel, arriti në përfundimin se përkthimi me makinë ishte i padobishëm: raporti i kostoja dhe cilësia e MT nuk ishin në favor të kësaj të fundit, dhe për nevojat e përkthimit të teksteve teknike dhe shkencore kishte mjaft burimet njerëzore. Raporti ALPAC u pasua nga shkurtime në fondet për kërkimin e MT nga qeveria e SHBA - kjo pavarësisht nga fakti se në atë kohë të paktën tre sisteme të ndryshme MT përdoreshin në mënyrë rutinore nga një numër organizatash ushtarake dhe shkencore (përfshirë Forcën Ajrore të SHBA-së, Komisioni Amerikan i Energjisë Bërthamore, Qendra Euroatom në Itali).

Vitet 60: fillimi i ulët

Për dhjetë vitet e ardhshme, zhvillimi i sistemeve MP u krye në Shtetet e Bashkuara nga Universiteti Brigham Young në Provo, Utah (sistemet e hershme komerciale WEIDNER dhe ALPS) dhe financuar nga Kisha Mormone, e cila ishte e interesuar për përkthimin e Biblës; në Kanada nga grupet kërkimore duke përfshirë TAUM në Montreal me sistemin e tij METEO; në Evropë - nga grupet GENA (Grenoble) dhe SUSY (Saarbrücken). Puna në këtë fushë nga gjuhëtarët vendas si I. A. Melchuk dhe Yu D. Apresyan (Moskë), e cila rezultoi në përpunuesin gjuhësor ETAP, meriton përmendje të veçantë. Në vitin 1960, u organizua një laborator eksperimental i përkthimit me makinë si pjesë e Institutit Kërkimor të Matematikës dhe Mekanikës në Leningrad, i cili më vonë u shndërrua në laboratorin e gjuhësisë matematikore të Universitetit Shtetëror të Leningradit.

Vitet 70-80: impuls i ri

Një rritje e re e kërkimit në fushën e veprimtarisë intelektuale filloi në vitet 1970 dhe u shoqërua me përparime të mëdha në fushën e modelimit kompjuterik të veprimtarisë intelektuale. Fusha përkatëse e kërkimit, e cila u ngrit disi më vonë se MP (data e lindjes së saj zakonisht konsiderohet të jetë 1956), u quajt inteligjencë artificiale, dhe krijimi i sistemeve të përkthimit të makinës u konceptua në vitet 1970 si një nga të veçantat. detyrat e kësaj fushe të re kërkimore.

Në të njëjtën kohë, theksi u zhvendos disi: studiuesit tani synojnë zhvillimin e sistemeve "realiste" MP që supozojnë pjesëmarrjen njerëzore në faza të ndryshme procesi i përkthimit. Sistemet MP nga "armiku" dhe "konkurrenti" përkthyes profesionist kthehet në një asistent të domosdoshëm që ndihmon në kursimin e kohës dhe burimeve njerëzore.

Për periudhën 1978-93. Në SHBA, 20 milionë dollarë u shpenzuan për kërkime në fushën e MP, në Evropë - 70 milionë, në Japoni - 200 milionë.

Ekzistojnë dy stimuj kryesorë për zhvillimin e punës së përkthimit me makinë në bota moderne. E para është në fakt shkencore; ajo përcaktohet nga kompleksiteti dhe kompleksiteti i modelimit të përkthimit kompjuterik. Si një lloj aktiviteti gjuhësor, përkthimi prek të gjitha nivelet e gjuhës - nga njohja e grafemave (dhe fonemave gjatë përkthimit të fjalës gojore) deri te përcjellja e kuptimit të thënieve dhe tekstit. Për më tepër, përkthimi karakterizohet nga reagimet dhe aftësia për të testuar menjëherë një hipotezë teorike rreth strukturës së nivelet e gjuhës dhe efektivitetin e algoritmeve të propozuara. Kjo veçori karakteristike e përkthimit në përgjithësi dhe e përkthimit me makinë në veçanti tërheq vëmendjen e teoricienëve, si rezultat i së cilës vazhdojnë të shfaqen teori të reja të automatizimit të përkthimit dhe formalizimit të të dhënave dhe proceseve gjuhësore. Në të njëjtën kohë, zhvillimet në fushën e deputetit nxitën zhvillimin jo vetëm të gjuhësisë. Rezultatet e punës në MP kontribuan në fillimin dhe zhvillimin e kërkimit dhe zhvillimit në fushën e automatizimit të marrjes së informacionit, analizës logjike të teksteve të gjuhës natyrore, sistemeve të ekspertëve, metodave të përfaqësimit të njohurive në sistemet kompjuterike, etj.

Nxitja e dytë është sociale, dhe kjo është për shkak të rolit në rritje të vetë praktikës së përkthimit në botën moderne si kusht i nevojshëm sigurimi i komunikimit ndërgjuhësor, vëllimi i të cilit po rritet çdo vit. Mënyra të tjera për të kapërcyer barrierat gjuhësore për komunikim - zhvillimi ose adoptimi gjuhë e vetme, si dhe mësimi i gjuhëve të huaja, nuk mund të krahasohet me përkthimin për nga efikasiteti. Nga ky këndvështrim, mund të argumentohet se përkthimi nuk ka alternativë, kështu që zhvillimi i sistemeve të përkthimit makinerik me cilësi të lartë dhe me performancë të lartë kontribuon në zgjidhjen e problemeve më të rëndësishme sociale dhe komunikuese.

Një nga zhvillimet e reja të kësaj periudhe ishte teknologjia TM (memoria e përkthimit), e cila funksionon në parimin e grumbullimit: gjatë procesit të përkthimit ruhet segmenti (fjalia) origjinale dhe përkthimi i saj, duke rezultuar në formimin e një baze të dhënash gjuhësore; Nëse në tekstin e sapopërkthyer gjendet një segment identik ose i ngjashëm me origjinalin, ai shfaqet së bashku me përkthimin dhe një tregues të përqindjes së përputhjes. Më pas përkthyesi merr një vendim (redakto, refuzo ose prano përkthimin), rezultati i të cilit ruhet nga sistemi. Dhe në fund të fundit, "nuk ka nevojë të përkthehet dy herë e njëjta fjali!" Aktualisht, zhvilluesi i një sistemi të njohur tregtar të bazuar në teknologjinë TM është sistemi TRADOS (i themeluar në 1984).

Në BRSS, që nga mesi i viteve 70, sistemet industriale të përkthimit me makinë u krijuan nga anglishtja në rusisht AMPAR (bazuar në kërkimin dhe zhvillimin e ekipit të Yu. A. Motorin), nga gjermanishtja në rusisht NERPA, nga frëngjishtja në rusisht FRAP, automatikisht fjalorë terminologjikë për të ndihmuar përkthyesin njerëzor. Sistemi AMPAR ishte në funksionim industrial për një kohë të gjatë; më pas, mbi bazën e tij, u krijuan sisteme MP më efikase për kompjuterët personalë të familjes SPRINT; U zhvillua gjithashtu sistemi i MP nga rusisht në anglisht ASPERA. Sistemet e përkthimit me makinë si Stylus, Socrat dhe të tjerë bazohen në këto zhvillime.

Nga vitet '90 deri në shekullin e 21

Vitet 90 sollën me vete zhvillim të shpejtë tregu i kompjuterëve (nga desktopi në madhësinë e xhepit) dhe teknologjia e informacionit, përdorimi i gjerë i internetit (i cili po bëhet gjithnjë e më shumë ndërkombëtar dhe shumëgjuhësh). E gjithë kjo bëri të mundur, dhe më e rëndësishmja në kërkesë, zhvillimin e mëtejshëm Sistemet MP. Teknologjitë e reja po shfaqen bazuar në përdorimin e rrjeteve nervore, konceptin e lidhjes dhe metodave statistikore.

Aktualisht, disa dhjetëra kompani po zhvillojnë sisteme komerciale MT, duke përfshirë: Systran, IBM, L&H (Lernout & Hauspie), Language Engineering Corporation, Transparent Language, Nova Incorporated, Trident Software, Atril, TRADOS, Caterpillar Co., LingoWare; Ata Software; Lingvistica b.v. dhe etj.

Aktualisht, në Federatën Ruse, disa punë vazhdojnë në një shkallë të vogël në sistemet MT bazuar në qasjen "tekst-kuptim-tekst", slogani jo gjithmonë i deklaruar qartë i të cilit në kohën kur kjo qasje u justifikua në vitet 1960 ishte "makinë". përkthim pa përkthim, pa makina, pa algoritme.” Ideja e qasjes ishte që gjuhëtarit i kërkohet vetëm një përshkrim deklarativ i fakteve të gjuhës (d.m.th., një teori gjuhësore që megjithatë pretendon të jetë veçanërisht e saktë dhe e formalizuar), dhe algoritmet e përkthimit do të jenë përpiluar nga një programues dhe një matematikan. Si pjesë e këtyre studimeve, u morën rezultate të rëndësishme teorike dhe gjuhësore (në veçanti, teoria e të ashtuquajturës funksionet leksikore, e cila ka gjetur zbatim në leksikografi), megjithatë, qasja rezultoi e pamjaftueshme për krijimin e sistemeve praktike të këtij lloji. Të gjitha sistemet praktike, pa përjashtim, përdorin idenë e korrespondencës së përkthimit, d.m.th. ato bazohen në një model tekst-në-tekst dhe zbatohen diagram i shkurtër përkthimi. Aftësitë e teknologjisë kompjuterike, të cilat janë rritur pa masë gjatë dekadave të fundit, dhe qasjet e reja të programimit nuk mund të ndihmojnë në asnjë mënyrë për të zbatuar idetë e analizës dhe sintezës, bazuar në përparësinë e identifikimit vetëm të strukturës sintaksore me një kalim të mëvonshëm në kuptim. .

Jashtë vendit përdoren një sërë sistemesh përkthimi me makinë. Më i njohuri prej tyre është Systran, i zhvilluar dhe mirëmbajtur nga Systran Software Inc dhe i përdorur nga Shërbimi i Përkthimit të Makinerisë i Komisionit Evropian.

Tani është e mundur të përdoren shërbimet e përkthyesve automatikë drejtpërdrejt në ueb: www.alphaworks.ibm.com/aw.nsf/html/mt; www.freetranslation.com; www.transtlate.ru; www.logomedia.net/text.asp; www.foreignword.com/Tools/transnow.htm; babelfish.altavista.com/translate.dyn; infinit.reverso.net/traduire.asp; www.t-mail.com.

Që nga fillimi i viteve 1990, zhvilluesit vendas kanë hyrë në tregun e sistemeve të PC.

Në korrik 1990, në ekspozitën e Forumit PC në Moskë, u prezantua sistemi i parë komercial i përkthimit me makinë në Rusi i quajtur PROMT (Programmer's Machine Translation). Në vitin 1991, u krijua CJSC PROJECT MT, dhe tashmë në 1992, kompania PROMT fitoi një konkurs NASA për furnizimin e sistemeve MP (PROMT ishte e vetmja kompani jo-amerikane në këtë konkurs).

Pavaresisht kesaj histori e gjatë, në fakt, të gjitha sistemet e kryejnë përkthimin vetëm në nivelin e sintaksës sipërfaqësore, pasi nuk janë zhvilluar ende modele (me sa duket) efektive për paraqitjen formale të kuptimit, bartës i të cilave duhet të jetë një gjuhë ndërmjetëse - interlingua, megjithëse të tilla modele po ndërtohen për disa industri të ngushta (për shembull, METEO dhe LingoWare). Ekspertët e lidhin ndërtimin e sistemeve adekuate MT me zhvillimin e inteligjencës artificiale: një makinë do të jetë në gjendje të përkthejë nga një gjuhë në tjetrën kur të mësojë të mendojë si një person.

Një mënyrë tjetër për të përmirësuar MP, e cila është më e aksesueshme në fazën aktuale, është përpilimi i një korpusi korrespondencash në dy gjuhë. Mund të supozohet se një punë e tillë po kryhet nga shumë ekipe të ndryshme, por veprimet e tyre nuk janë të koordinuara, dhe për këtë arsye rezultati është shumë i vogël.

Kritikët e sistemeve moderne MT besojnë se përqendrimi në kufizimet e zhanrit (duke i mësuar një makine që fillimisht të kuptojë tekste shumë të thjeshta, të zgjedhura posaçërisht) në praktikë ka çuar në faktin se detyra e modelimit të gjuhës natyrore në fakt i ka lënë vendin detyrës së modelimit të kufizuar. (dhe jashtëzakonisht primitive) nëngjuhë të degëve individuale të dijes. Në të njëjtën kohë, rezultati më i mirë në këtë rrugë, siç dihet, u arrit nga sistemi kanadez TAUM-METEO, i cili kryen në mënyrë të përsosur detyrën e përkthimit anglisht-frëngjisht të raporteve të motit. Lloji më i thjeshtë i sistemeve të këtij lloji janë librat automatikë të frazave për turistët, që i ofrojnë përdoruesit "menu" pak a shumë të ndryshme. pyetje standarde dhe përgjigjet në dy ose më shumë gjuhë.

Qasja aktuale "fjalë-centrike" (ku makina zgjedh dhe përkthen kryesisht fjalë individuale) shpjegohet me faktin se ajo që është e lehtë për t'u theksuar (fjalët e ndara me hapësira) theksohet dhe përkthehet në përputhje me rrethanat. Megjithatë, një person (përfshirë atë që merret me përkthim) merret me një tekst kur një fjali e vetme merr kuptim si pjesë e një konteksti më të madh: fjalitë fqinje përcaktojnë dhe shpjegojnë shumë elementë të pashprehur ose të paqartë të çdo thënieje individuale. Në fazën aktuale, më të përshtatshmet për të kuptuar janë shpesh ato sisteme MT që kryejnë përkthim fjalë për fjalë: fraza është e ngathët, por ju mund të shihni se si doli dhe nëse ka mbështetje në formën e njohurive gjuha burimore, është e lehtë të merret me mend se çfarë ishte në origjinal dhe të shihni se cilat fjalë janë përkthyer gabimisht. Ato sisteme që përkthejnë tekstin fjalë për fjalë shpesh janë më të përshtatshme: ju mund të shihni se nga erdhi fraza. Nëse e dini gjuhën origjinale të paktën sipërfaqësisht, mund të kuptoni se çfarë ishte në versionin origjinal dhe cilat fjalë janë përkthyer gabimisht. Sistemet MT që përpunojnë një frazë në mënyrë sintaksore, duke shmangur "ngathtësinë", shpesh prodhojnë përkthime të qetë, por krejtësisht të pakuptueshme.

Gjendja aktuale e përkthimit me makinë bazuar në Yandex.Translation

Vetë Yandex.Translation doli nga beta disa muaj më parë. Ajo që e dallon atë nga disa shërbime të tjera të ngjashme është fjalori i tij automatik, teknologji unike e cila u zhvillua nga një ekip gjuhëtarësh dhe programuesish nga Yandex. Gjatë zhvillimit të tij, u bë i mundur kombinimi i qasjeve moderne statistikore të përkthimit makinerik dhe mjeteve tradicionale gjuhësore.

Për të kuptuar se sa i rëndësishëm është një hap në zhvillimin e përkthimit të makinës shfaqja e një autodictionary, vlen të kujtohet se 20 vjet më parë përkthyesit sintaksorë ishin të zakonshëm, për të cilët tabelat e korrespondencës së frazave në gjuhë të ndryshme përpiluar me dorë. Procesi i krijimit të tyre filloi të ndryshojë vetëm në fund të viteve 1990, kur u shfaqën përkthyesit e parë statistikorë. Tekstet paralele filluan të përdoren për të mësuar modelet e tyre të përkthimit. Dokumentet në të cilat shkruhet e njëjta gjë në gjuhë të ndryshme janë nxjerrë, për shembull, nga dokumentacioni diplomatik. Dokumentet e OKB-së u bënë një bazë e madhe tekstesh paralele. Por nuk ishte e mundur të krijohej një përkthyes i përgjithshëm leksikor duke përdorur një fjalor të tillë, sepse ai përkthente edhe tekste joformale në një gjuhë të thatë diplomatike.

Zgjidhja e problemit mësimor model universal përkthimi ishte përdorimi i dokumenteve paralele të nxjerra nga indekset e motorëve të kërkimit. Dhe këto nuk janë vetëm faqe shumëgjuhëshe që u krijuan fillimisht në disa gjuhë. Për shembull, një dokument u shfaq në internet me tekst për ndonjë ngjarje. Për të krijohet një lloj “pasaporte” me fjalë karakteristike (të kundërta), e cila më pas krahasohet me pasaportat e dokumenteve të tjera dhe nëse ato përputhen, arrihet në përfundimin se bëhet fjalë për një tekst për të njëjtën gjë, por në gjuhë të ndryshme. . Ky proces është kompjuterik intensiv sepse duhet të përpunojë miliarda dokumente ueb.

Natyrisht, jo të gjitha fjalitë në tekste të tilla do të jenë përkthime të njëpasnjëshme të njëra-tjetrës. Për të krijuar tabela korresponduese për fjalët dhe frazat me të gjitha përkthimet e mundshme, duhet të bëni një shtrirje të veçantë dhe të hidhni ato që kanë mbërritur aksidentalisht atje. Si rezultat, rezulton se, për shembull, çdo fjalë ruse korrespondon me 20-30 fjalë angleze.

Pothuajse i gjithë procesi i përshkruar më sipër bazohet në metodat statistikore dhe teorinë e probabilitetit. Përkthyesi automatik e di vlerën e probabilitetit të çdo përkthimi dhe, bazuar në të, bën shpejt zgjedhjen e tij sipas modelit gjuhësor nga dhjetëra opsione, dhe ndonjëherë qindra.

Duket se për të përkthyer me saktësi dhe për të marrë parasysh stilistikën e tekstit, thjesht duhet t'i tregoni një personi opsionet e përkthimit dhe ai do të zgjedhë fjalën që është më e përshtatshme në kontekst dhe stil. Por këto janë fragmente statistikore të tekstit që në vetvete mund të mos kenë ndonjë kuptim për përdoruesin mesatar. Në minimum, sepse ai mund të shohë mijëra opsione për një fjalë, të cilat nuk do ta ndihmojnë aspak. Sidomos nëse personi nuk e njeh shumë mirë gjuhën në të cilën po përkthen.

Fjalori automatik e zgjidh problemin e përzgjedhjes duke zgjedhur vetëm përkthimet më të përshtatshme dhe duke i shfaqur ato në një formë të lexueshme për përdoruesin mesatar. Për ta arritur këtë, ekipi ynë i specialistëve kryen punë komplekse dhe intensive me burime. Së pari, ne bëmë fjalorin automatik të tregojë formën e fjalorit të fjalës. Së dyti, ata na mësuan të identifikonim nga i gjithë grupi i frazave të vërtetën fraza të qëndrueshme, të cilën një person mund ta formulojë më pas.

Ka vështirësi të tjera në hartimin e një fjalori automatik. Për shembull, kur një përdorues kërkon një përkthim të një fjale pa kontekst, të gjitha kuptimet e saj duhet të shfaqen për të grupuar opsionet në një gjuhë tjetër. Dhe shpesh në një gjuhë që është e panjohur për të. Për të ndihmuar një person të lundrojë midis opsioneve të përkthimit, është e nevojshme jo vetëm të tregohen të gjitha kuptimet kryesore të një fjale, por edhe të grupohen ato sipas kuptimeve të tyre semantike.

Për ta bërë këtë, ne përdorim një fjalor sinonimish, i cili gjithashtu është ndërtuar mbi bazën e të dhënave statistikore të grumbulluara nga ne në procesin e ndërtimit të një modeli përkthimi. Falë faktit që Yandex.Translation ka të dy drejtimet e përkthimit, ne e dimë se fjalë të ndryshme në një gjuhë shpesh përkthehen në të njëjtën fjalë në një gjuhë tjetër. Kjo sugjeron që ato janë sinonime. Kështu, ne formojmë automatikisht grupe përkthimesh, secila prej të cilave ka kuptimin e vet semantik.

Si rezultat, përdoruesi Yandex.Translation nuk ka nevojë të shikojë më tej artikuj nga fjalorë të rregullt për të gjetur më shumë përkthim i saktë. Autodictionary do t'i tregojë atij një artikull të krijuar automatikisht, i cili madje do të përmbajë shembuj të përdorimit të fjalës. Përveç kësaj, bazuar në statistikat e përdorimit të fjalëve në internet, fjalori automatik përditësohet më shpejt. Falë gjithë kësaj, përkthimet janë bërë duke përdorur përkthyes makinerie Yandex do të jetë me cilësi shumë më të mirë.

Përkthimi me makinë, si një organizëm i gjallë, po zhvillohet çdo vit. Zhvilluesit po gjejnë algoritme dhe zgjidhje të ndryshme që e bëjnë përkthimin me makinë sa më afër përkthimit njerëzor. Dhe nëse shikoni thellë në histori, mund të vini re lehtësisht se si u zhvillua dhe u zhvillua deputeti.

Por edhe sot nuk mund të thuhet se përkthimi me makinë mund të zëvendësojë plotësisht një person, por mund të lehtësojë ndjeshëm procesin e përkthimit për të. Dhe përdorimi kompetent i softuerëve të ndryshëm zvogëlon kostot e kohës dhe kursen energjinë mendore.

Tani një person mund të zgjedhë përkthyes për nevojat e tij nga një numër i madh mjetesh softuerësh dhe t'i krahasojë ato. Kjo ju lejon të bëni përkthimin më të saktë dhe më të plotë.



Materiali i përgatitur nga A. A. Taraskin


Përkthimi me kompjuter është i vështirë, por interesant problem shkencor. Vështirësia e saj kryesore është se gjuhët natyrore janë të vështira për t'u zyrtarizuar. Prandaj cilësia e ulët e tekstit të marrë duke përdorur sistemet MT, përmbajtja dhe forma e të cilit është një objekt i pandryshueshëm shakash. Megjithatë, ideja e përkthimit me makinë shkon prapa shumë kohë. Ideja e mundësisë së përkthimit me makinë u shpreh për herë të parë nga Charles Babbage, i cili e zhvilloi atë në 1836-1848. projekt dixhital motor analitik. Ideja e Ch. Babbage ishte që një kapacitet memorie prej 1000 50-bitësh numra dhjetorë(50 ingranazhe në çdo regjistër) mund të përdoren për të ruajtur fjalorët. C. Babbage e përmendi këtë ide si justifikim për të kërkuar qeveria angleze mjetet e nevojshme për mishërimin fizik të motorit analitik, të cilin ai kurrë nuk arriti ta ndërtonte.

Dhe 100 vjet më vonë, në 1947, W. Weaver (drejtor i departamentit shkencat natyrore Fondacioni Rockefeller) i shkroi një letër Norbert Wiener. Në këtë letër, ai propozoi përdorimin e teknikave të deshifrimit për të përkthyer tekste. Ky vit konsiderohet viti i lindjes së përkthimit me makinë. Në të njëjtin vit, u zhvillua një algoritëm për përkthimin fjalë për fjalë dhe në vitin 1948, R. Richens propozoi një rregull për ndarjen e një fjale në një rrjedhë dhe një fund. Gjatë dy dekadave të ardhshme, sistemet e përkthimit me makinë u zhvilluan me shpejtësi. Në janar 1954, sistemi i parë i përkthimit me makinë, IBM Mark II, u demonstrua në një makinë IBM 701. Por në vitin 1967, një komision i krijuar posaçërisht Akademia Kombëtare Akademia e Shkencave e SHBA e njohu përkthimin me makinë si të padobishëm, gjë që ngadalësoi ndjeshëm kërkimin në këtë fushë. Përkthimi i makinës përjetoi një rritje të re në vitet '70, dhe në vitet '80 u bë ekonomikisht fitimprurës për shkak të çmimit të lirë të kohës së makinës.

Sidoqoftë, në BRSS, kërkimet në fushën e përkthimit të makinës vazhduan. Pas demonstrimit të sistemit IBM Mark II, një grup shkencëtarësh VINITI filluan të zhvillojnë një sistem përkthimi me makinë për makinën BESM. Mostra e parë e përkthimit nga anglishtja në rusisht u mor në fund të vitit 1955.

Një tjetër linjë pune u ngrit në departament matematikë e aplikuar Instituti Matematik i Akademisë së Shkencave të BRSS (tani Instituti i Problemeve të Shkencave M.V. Keldysh i Akademisë së Shkencave Ruse) me iniciativën e A.A. Programet e para të përkthimit me makinë të zhvilluara nga ky ekip u zbatuan në makinën Strela. Falë punës për krijimin e sistemeve MP, mori formë një drejtim i tillë si gjuhësia e aplikuar.

Në vitet '70, një grup zhvilluesish nga VINITI RAS punuan në krijimin e sistemeve MP nën udhëheqjen e prof. G.G. Belonogov. Sistemi i tyre i parë MP u zhvillua në 1993 dhe në 1996, pas një sërë modifikimesh, u regjistrua në ROSAPO me emrin Retrans. Ky sistem është përdorur nga Ministritë e Mbrojtjes, Hekurudhave, Shkencës dhe Teknologjisë.

Studime paralele u kryen në Laboratorin e Gjuhësisë Inxhinierike të Institutit Pedagogjik Shtetëror të Leningradit me emrin. A. I. Herzen (tani Universiteti Pedagogjik). Ata formuan bazën e sistemit tashmë më të popullarizuar të MP "PROMT". Versionet e fundit përdoret ky produkt softuer Teknologji e larte dhe janë ndërtuar mbi teknologjinë e rrjeteve të tranzicionit të zgjeruar dhe formalizmin e rrjeteve nervore.

Klasifikimi i sistemeve të përkthimit me makinë sipas Larry Child

Anëtarët e rinj të Forumit të Gjuhëve të Huaja të CompuServe shpesh pyesin nëse dikush mund të rekomandojë një program të mirë përkthimi me makinë për një çmim të arsyeshëm.

Përgjigja për këtë pyetje është pa ndryshim "jo". Në varësi të personit që përgjigjet, përgjigja mund të përmbajë dy argumente kryesore: ose që makinat nuk mund të përkthejnë, ose që përkthimi me makinë është shumë i shtrenjtë.

Të dyja këto argumente janë të vlefshme në një masë të caktuar. Sidoqoftë, përgjigja nuk është aq e thjeshtë. Kur studioni problemin e përkthimit makinerik (MT), është e nevojshme të merren parasysh veçmas nënseksionet e ndryshme të këtij problemi. Ndarja e mëposhtme bazohet në leksionet e Larry Childs të dhëna si pjesë e Konferenca Ndërkombëtare në Komunikimet Teknike 1990:

Përkthim plotësisht automatik;

Përkthim i automatizuar me makinë me pjesëmarrje njerëzore;

Përkthimi kryhet nga një person që përdor një kompjuter.

Përkthim plotësisht i automatizuar me makinë

Ky lloj përkthimi me makinë është ajo që mendojnë shumica e njerëzve kur flasin për përkthimin me makinë. Kuptimi këtu është i thjeshtë: teksti në një gjuhë futet në kompjuter, ky tekst përpunohet dhe kompjuteri shfaq të njëjtin tekst në një gjuhë tjetër. Fatkeqësisht, zbatimi i këtij lloji të përkthimit automatik përballet me pengesa të caktuara që ende duhen kapërcyer.

Problemi kryesor është kompleksiteti i vetë gjuhës. Merrni, për shembull, kuptimet e fjalës "mund". Përveç kuptimit themelor të një foljeje ndihmëse modale, fjala "mund" ka disa kuptime formale dhe zhargone si emër: "mund", "banjo", "burg". Për më tepër, ekziston një kuptim arkaik i kësaj fjale - "të njohësh ose të kuptosh". Duke supozuar se gjuha e daljes ka një fjalë të veçantë për secilin prej këtyre kuptimeve, si mund t'i dallojë një kompjuter midis tyre?

Siç rezulton, është bërë njëfarë progresi në zhvillimin e programeve të përkthimit që dallojnë kuptimin bazuar në kontekst. Studimet më të fundit mbështeten më shumë në teoritë e probabilitetit kur analizojnë tekste. Megjithatë, përkthimi plotësisht i automatizuar me makinë i teksteve me lëndë të gjerë është ende një detyrë e pamundur.

Përkthim i automatizuar me makinë me pjesëmarrje njerëzore.

Ky lloj përkthimi me makinë tani është plotësisht i realizueshëm. Kur flasim për përkthimin me makinë me ndihmën e njeriut, zakonisht nënkuptojmë redaktimin e teksteve para dhe pasi ato të përpunohen nga një kompjuter. Përkthyesit njerëzorë ndryshojnë tekstet në mënyrë që ato të jenë të kuptueshme për makinat. Pasi kompjuteri të ketë bërë përkthimin, njerëzit përsëri redaktojnë përkthimin e përafërt me makinë, duke e bërë tekstin në gjuhën e daljes të saktë. Përveç kësaj procedure funksionimi, ka sisteme MT që gjatë përkthimit kërkojnë praninë e vazhdueshme të një përkthyesi njerëzor për të ndihmuar kompjuterin të përkthejë struktura veçanërisht komplekse ose të paqarta.

Përkthimi me makinë me ndihmën e njeriut është i zbatueshëm në një masë më të madhe për tekstet me një fjalor të kufizuar dhe një temë ngushtësisht të kufizuar.

Efektiviteti i kostos së përdorimit të përkthimit makinerik të asistuar nga njeriu është ende një çështje e diskutueshme. Vetë programet zakonisht janë mjaft të shtrenjta dhe disa prej tyre kërkojnë pajisje speciale për t'u ekzekutuar. Redaktimi para dhe pas kërkon një kurbë mësimi dhe nuk është një punë e këndshme. Krijimi dhe mirëmbajtja e bazave të të dhënave të fjalëve është një proces që kërkon punë intensive dhe shpesh kërkon aftësi të veçanta. Megjithatë, për një organizatë që përkthen vëllime të mëdha teksti në një fushë lëndore të përcaktuar mirë, përkthimi me makinë me ndihmën e njeriut mund të jetë një alternativë mjaft ekonomike ndaj përkthimit tradicional njerëzor.

Përkthimi kryhet nga një person që përdor një kompjuter

Në këtë qasje, përkthyesi njerëzor vendoset në qendër të procesit të përkthimit, ndërsa programi kompjuterik konsiderohet si një mjet që e bën procesin e përkthimit më efikas dhe përkthimin të saktë. Këta janë fjalorë të zakonshëm elektronikë që ofrojnë përkthimin e fjalës së kërkuar, duke i vendosur përgjegjësinë personit për zgjedhjen e opsionit të dëshiruar dhe kuptimin e tekstit të përkthyer. Fjalorë të tillë lehtësojnë shumë procesin e përkthimit, por kërkojnë që përdoruesi të ketë një njohuri të caktuar të gjuhës dhe të shpenzojë kohë për zbatimin e saj. E megjithatë vetë procesi i përkthimit është dukshëm më i shpejtë dhe më i lehtë.

Ndër sistemet që ndihmojnë një përkthyes në punën e tij, vendin më të rëndësishëm e zënë të ashtuquajturat sisteme të kujtesës së përkthimit (TM). Sistemet TM janë një mjet ndërveprues për grumbullimin e çifteve të segmenteve ekuivalente të tekstit në gjuhën origjinale dhe përkthimin në një bazë të dhënash me mundësinë e kërkimit dhe redaktimit të tyre të mëvonshëm. Këto produkte softuerike nuk synojnë të përdorin teknologji informacioni shumë inteligjente, por, përkundrazi, bazohen në përdorimin e potencialit krijues të përkthyesit. Në procesin e punës, vetë përkthyesi krijon një bazë të dhënash (ose e merr atë nga përkthyes të tjerë ose nga klienti) dhe sa më shumë njësi të përmbajë, aq më i madh është kthimi nga përdorimi i tij.

Këtu është një listë e sistemeve më të famshme TM:

Transit nga kompania zvicerane Star,

Trados (SHBA),

Menaxher përkthimi nga IBM,

Eurolang Optimizer nga kompania franceze LANT,

DejaVu nga ATRIL (SHBA),

WordFisher (Hungari).

Sistemet TM bëjnë të mundur eliminimin e përkthimit të përsëritur të fragmenteve identike të tekstit. Përkthimi i një segmenti kryhet nga përkthyesi vetëm një herë, dhe më pas çdo segment pasues kontrollohet për një përputhje (të plotë ose të paqartë) me bazën e të dhënave dhe nëse gjendet një segment identik ose i ngjashëm, ai ofrohet si opsion përkthimi. .

Aktualisht, zhvillimet janë duke u zhvilluar për të përmirësuar sistemet TM. Për shembull, bërthama e sistemit Transit të Starit zbatohet bazuar në teknologjinë e rrjetit nervor.

Pavarësisht gamës së gjerë të sistemeve TM, ato ndajnë disa karakteristika të përbashkëta:

Funksioni i shtrirjes. Një nga avantazhet e sistemeve TM është aftësia për të përdorur materiale të përkthyera tashmë për një temë të caktuar. Baza e të dhënave TM mund të merret duke krahasuar segment pas segmenti të skedarëve origjinal dhe të përkthimit.

Disponueshmëria e filtrave të importit dhe eksportit. Kjo veçori siguron përputhshmërinë e sistemeve TM me një sërë përpunuesish teksti dhe sistemesh botuese dhe i jep përkthyesit pavarësi relative nga klienti.

Një mekanizëm për kërkimin e ndeshjeve të paqarta ose të plota. Është ky mekanizëm që përfaqëson avantazhin kryesor të sistemeve TM. Nëse gjatë përkthimit të një teksti, sistemi has në një segment që është identik ose i afërt me atë të përkthyer më parë, atëherë segmenti tashmë i përkthyer i ofrohet përkthyesit si opsion për përkthimin e segmentit aktual, i cili mund të korrigjohet. Shkalla e përputhjes së paqartë përcaktohet nga përdoruesi.

Mbështetje për fjalorët tematikë. Kjo veçori e ndihmon përkthyesin t'i përmbahet fjalorit. Si rregull, nëse një fjalë ose frazë nga një fjalor tematik shfaqet në një segment të përkthyer, ajo theksohet me ngjyra dhe sugjerohet përkthimi i saj, i cili mund të futet automatikisht në tekstin e përkthyer.

Mjete për kërkimin e fragmenteve të tekstit. Ky mjet është shumë i përshtatshëm kur redaktoni përkthime. Nëse gjatë procesit të punës është gjetur një opsion më i suksesshëm përkthimi për një fragment teksti, atëherë ky fragment mund të gjendet në të gjitha segmentet TM, pas së cilës ndryshimet e nevojshme bëhen në mënyrë sekuenciale në segmentet TM.

Natyrisht, si çdo produkt softuerik, sistemet TM kanë avantazhet dhe disavantazhet e tyre, si dhe fushëveprimin e tyre të aplikimit. Megjithatë, në lidhje me sistemet TM, disavantazhi kryesor është kostoja e tyre e lartë.

Është veçanërisht i përshtatshëm për të përdorur sistemet TM kur përkthen dokumente të tilla si manualet e përdoruesit, udhëzimet e përdorimit, dokumentacioni i projektimit dhe biznesit, katalogët e produkteve dhe dokumentacione të tjera të ngjashme me një numër të madh ndeshjesh.

Sistemet e përkthimit me makinë (MT)

Në përputhje me klasifikimin e mësipërm, qëllimi i kësaj pune është të studiojë dhe analizojë sistemet MT të grupit të dytë, pasi sistemet MT të grupit të parë nuk ekzistojnë ende në natyrë, dhe sistemet e grupit të tretë në thelb nuk janë sisteme MT, por të kujtojnë më shumë fjalorët elektronikë.

Sistemet MP kryejnë përkthim të automatizuar të tekstit. Njësitë e përkthimit janë fjalë ose fraza dhe zhvillimet e fundit bëjnë të mundur që të merret parasysh morfologjia e fjalës që përkthehet. Sisteme të avancuara MT-të kryejnë përkthimin duke përdorur algoritme përkthimi të specifikuara nga zhvilluesi dhe/ose të rregulluara nga përdoruesi.

Për të kryer përkthimin me makinë, një program i veçantë futet në kompjuter që zbaton algoritmin e përkthimit, i cili kuptohet si një sekuencë veprimesh të përcaktuara në mënyrë unike dhe rreptësisht në tekst për të gjetur korrespondencën e përkthimit në një palë të caktuar gjuhësh L1 - L2 për një drejtim të caktuar përkthimi (nga një gjuhë specifike në tjetrën). Sistemi i përkthimit me makinë përfshin fjalorë dygjuhësh të pajisur me informacionin e nevojshëm gramatikor (morfologjik, sintaksor dhe semantik) për të siguruar transmetimin e korrespondencave të përkthimit ekuivalent, variant dhe transformues, si dhe mjete analize gramatikore algoritmike që zbatojnë ndonjë nga gramatikat formale të pranuara për automatik. përpunimi i tekstit. Ka gjithashtu sisteme të veçanta mjetet e përkthimit me makinë të krijuara për të përkthyer në tre ose më shumë gjuhë, por ato aktualisht janë eksperimentale.

Më e zakonshme është sekuenca e mëposhtme e operacioneve formale që ofrojnë analiza dhe sintezë në një sistem përkthimi me makinë:

1. Në fazën e parë, futet teksti dhe kryhet një kërkim për format e fjalëve hyrëse (fjalë në një formë specifike gramatikore, për shembull, shumës dhanore) në fjalorin e hyrjes (fjalori i gjuhës nga e cila është bërë përkthimi. ) me analizë morfologjike shoqëruese, gjatë së cilës konstatohet se trajta e dhënë fjalësore i përket një lekseme të caktuar (një fjalë si njësi e fjalorit). Në procesin e analizës, informacioni që lidhet me nivelet e tjera të organizimit të sistemit gjuhësor mund të merret edhe nga forma e një fjale.

2. Faza tjetër përfshin përkthimin e frazave idiomatike, njësive frazeologjike ose klisheve të një lënde të caktuar (për shembull, gjatë përkthimit anglisht-rusisht, frazat si në rastin e, në përputhje me marrin një ekuivalent të vetëm dixhital dhe janë të përjashtuara nga më tej analiza gramatikore); përcaktimi i karakteristikave themelore gramatikore (morfologjike, sintaksore, semantike dhe leksikore) të elementeve hyrëse të tekstit (për shembull, numri i emrave, koha e foljes, funksionet sintaksore forma fjalësh në një tekst të caktuar, etj.) të prodhuara brenda gjuhës hyrëse; zgjidhja e homografisë (homonimia e konvertimit të formave të fjalëve - të themi, raundi në anglisht mund të jetë një emër, mbiemër, ndajfolje, folje ose parafjalë); analiza leksikore dhe përkthimi i leksemave. Në mënyrë tipike, në këtë fazë, fjalët me një vlerë të vetme ndahen nga fjalët polisemike (që kanë më shumë se një ekuivalent përkthimi në gjuhën e synuar), pas së cilës fjalët me një vlerë të vetme përkthehen duke përdorur lista ekuivalentësh dhe për të përkthyer fjalët polisemmantike, të ashtuquajturat. Përdoren fjalorë kontekstualë, hyrjet e fjalorit të të cilëve janë algoritme për kërkimin e kontekstit në prani/mungesë të përcaktuesve kontekstualë të kuptimit.

3. Analiza gramatikore përfundimtare, gjatë së cilës përcaktohet informacioni i nevojshëm gramatikor duke marrë parasysh të dhënat e gjuhës së synuar (për shembull, me emrat rusë si sajë, gërshërë, folja duhet të jetë në shumës, pavarësisht nga fakti se origjinali mund të ketë një numër njëjës).

4. Sinteza e formave dhe fjalive të fjalëve dalëse në tërësi në gjuhën e synuar.

Në varësi të karakteristikave të morfologjisë, sintaksës dhe semantikës së një çifti të caktuar gjuhësor, si dhe drejtimit të përkthimit, algoritmi i përgjithshëm i përkthimit mund të përfshijë faza të tjera, si dhe modifikime të këtyre fazave ose rendit të shfaqjes së tyre, por variacione të këtij lloji në sistemet moderne janë zakonisht të parëndësishme. Analiza dhe sinteza mund të kryhen si frazë për frazë ashtu edhe për të gjithë tekstin e futur në kujtesën e kompjuterit; në rastin e fundit, algoritmi i përkthimit parashikon përcaktimin e të ashtuquajturave lidhje anaforike (të tilla si, për shembull, lidhja midis një përemri dhe emrit që ai zëvendëson - le të themi, përemri im me fjalën përemër në këtë shpjegim në kllapa).

Aktualisht, ekzistojnë dy koncepte për zhvillimin e sistemeve MP:

1. Modeli i “fjalorit të madh me strukturë komplekse”, i cili është i përfshirë në shumicën e programeve moderne të përkthyesve;

2. Modeli “kuptim-tekst”, i formuluar për herë të parë nga A.A. Lyapunov, por ende nuk është zbatuar në asnjë produkt komercial.

Sot, sistemet më të njohura të përkthimit me makinë janë:

PROMT 2000/XT nga PROMT;

Retrans Vista nga Vista dhe Advantis;

Socrates është një grup programesh nga kompania Arsenal.

Aktualisht, cilësia e përkthimit me makinë lë shumë për të dëshiruar, dhe vetë ekzistenca e sistemeve të tilla tani për tani perceptohet më saktë si një temë. kërkimin shkencor. Në shumicën e rasteve, kur punoni në një projekt, përdorimi i sistemeve MP nuk justifikohet sepse:

Sistemet MP nuk ofrojnë cilësi të pranueshme të tekstit dalës. Cilësi më e lartë mund të arrihet duke konfiguruar paraprakisht sistemin (produktet e serisë PROMT XT i ofrojnë përdoruesit shumë mundësi për këtë), gjë që është plotësisht e papranueshme për vëllime të vogla të tekstit që përkthehet dhe/ose nga redaktimi i mëvonshëm, i cili vetëm ngadalëson veprën nëse përkthyesi përdor një printim të metodës verbër.

Sistemet MT nuk garantojnë pajtueshmërinë me unitetin e terminologjisë, veçanërisht kur një ekip përkthyesish është duke punuar në një projekt të madh. Ose më mirë, ato mund të garantojnë, duke iu nënshtruar trajtimit shumë të kujdesshëm. fjalorë me porosi, dhe kjo nuk ia vlen gjithmonë të mbështeteni.

Megjithatë, në disa raste, përdorimi i sistemeve MP ende ndihmon në uljen e kostove të kohës. Kjo ndodh nëse teksti është mjaft voluminoz dhe përmban terminologji monotone, e cila ju lejon të personalizoni relativisht shpejt sistemin MP për të. Pastaj redaktimi i tekstit nuk do të marrë shumë kohë. Sidoqoftë, në këtë rast, duhet t'i kushtoni vëmendje të veçantë stilit të tekstit të përkthimit. Përkthimi me makinë është formal, kështu që ekziston një probabilitet i lartë për të gjurmuar strukturat sintaksore të gjuhës origjinale, gjë që është tipike për përkthimin në përgjithësi, dhe për këtë arsye mund të mungojë gjatë redaktimit.

Në përgjithësi, sistemet MT mund të përdoren mirë kur përdoret një gjuhë shumë e standardizuar me gramatikë të thjeshtë dhe një fjalor relativisht të vogël. Programi gjerman Meteo, i cili përkthen parashikimet e motit nga frëngjishtja në anglisht dhe mbrapa, konsiderohet një projekt mjaft i suksesshëm i sistemit MP. Për të lehtësuar punën e përkthyesve dhe shkrimtarëve teknikë, Boeing në një kohë zhvilloi një standard gjuhësor për shkrimin e dokumentacionit teknik, i cili njihet si Boeing English.

Sistemi MP Retrans Vista

Sistemet për përkthimin me makinë të teksteve nga një gjuhë natyrore në tjetrën simulojnë punën e një përkthyesi njerëzor. Efektiviteti i tyre varet, para së gjithash, nga shkalla në të cilën ata marrin parasysh ligjet objektive të funksionimit të gjuhës dhe të të menduarit. Fatkeqësisht, këto ligje ende nuk janë studiuar mjaftueshëm. Kur zgjidhet problemi i përkthimit me makinë, është e nevojshme të merret parasysh një përvojë e pasur komunikimi ndëretnik dhe përvojën e veprimtarive të përkthimit të grumbulluara nga njerëzimi. Dhe kjo përvojë tregon se në procesin e përkthimit, frazat frazeologjike që shprehin koncepte integrale, sesa fjalë individuale, konsiderohen, para së gjithash, si njësitë kryesore të kuptimit. Janë konceptet ato imazhe mendore elementare, duke përdorur të cilat mund të ndërtoni imazhe mendore më komplekse që korrespondojnë me tekstin që përkthehet.

Le të pajtohemi të quajmë sisteme të përkthimit me makinë, në të cilat frazat frazeologjike dhe jo fjalët individuale konsiderohen si njësitë bazë minimale të kuptimit, sisteme të përkthimit frazeologjik me makinë. Në këto sisteme mund të përdoren edhe fjalë individuale, por ato konsiderohen si njësi kuptimore ndihmëse, të cilave duhet t'u drejtohet për mungesë të më të mirave.

Një sistem përkthimi me makinë frazeologjike duhet të përfshijë një bazë njohurish që përmban ekuivalentët e përkthimit për frazat më të shpeshta, kombinime frazeologjike dhe fjalë individuale, dhe softuer për analizën dhe sintezën morfologjike dhe sintaksore të teksteve dhe për redaktimin e tyre nga njerëzit. Në procesin e përkthimit të teksteve, sistemi përdor ekuivalentët e përkthimit të ruajtur në bazën e tij të njohurive në rendin e mëposhtëm: së pari, bëhet një përpjekje për të përkthyer të gjithë frazën si një njësi integrale; më tej, në rast dështimi, frazat e përfshira në përbërjen e tij; dhe së fundi, bëhet një përkthim fjalë për fjalë për ato fragmente teksti që nuk mund të përktheheshin në dy mënyrat e para. Fragmentet e tekstit dalës të përftuara nga të tre metodat duhet të jenë gramatikisht konsistente me njëra-tjetrën (duke përdorur procedura të sintezës morfologjike dhe sintaksore).

Parimet e ndërtimit të sistemeve për përkthimin makinerik frazeologjik të teksteve u formuluan për herë të parë në vitin 1975 në parathënien e librit të D. Zhukov "Ne jemi përkthyes". Ato u prezantuan në formë më të plotë në vitin 1983 në librin e G. G. Belonogov dhe B. A. Kuznetsov "Mjetet gjuhësore të automatizuara. sistemet e informacionit“Më në fund, në vitin 1993, u botuan dy artikuj që përshkruanin një sistem përkthimi me makinë të ndërtuar mbi këto parime dhe metoda për përpilim të automatizuar. fjalorë dygjuhësh bazuar në tekste paralele (rusisht dhe anglisht). Më të rëndësishmet nga këto parime janë si më poshtë:

1. Njësitë kryesore të gjuhës dhe të të folurit, të cilat, para së gjithash, duhet të përfshihen në një fjalor makinerie, duhet të jenë njësi frazeologjike (kombinime fjalësh, fraza). Fjalë të vetme mund të përfshihen edhe në fjalor, por duhet të përdoren vetëm në rastet kur nuk është e mundur të përkthehet bazuar vetëm në njësi frazeologjike.

2. Së bashku me njësitë frazeologjike të përbëra nga sekuenca të vazhdueshme fjalësh, sistemet e përkthimit me makinë duhet të përdorin edhe të ashtuquajturat "modele të të folurit" - njësi frazeologjike me "hapësira boshe" që mund të mbushen me fjalë dhe fraza të ndryshme, duke gjeneruar segmente kuptimplote të të folurit.

3. Tekstet reale, pavarësisht nga përkatësia e tyre në një fushë të caktuar tematike, zakonisht janë politematike nëse janë mjaft të mëdha. Prandaj, një fjalor makinerie i destinuar për përkthimin e teksteve qoftë edhe nga vetëm një fushë tematike, duhet të jetë shumëtematik, dhe për përkthimin e teksteve nga të ndryshme fushat lëndore- veçanërisht. Ai duhet të krijohet, para së gjithash, mbi bazën e përpunimit të automatizuar të teksteve dygjuhëshe që janë përkthime të njëri-tjetrit dhe në procesin e funksionimit të sistemeve të përkthimit.

4. Së bashku me fjalorin kryesor politematik me vëllim të madh, në sistemet e përkthimit makinerie frazeologjike këshillohet përdorimi i një grupi fjalorësh të vegjël tematikë shtesë. Fjalorët shtesë duhet të përmbajnë vetëm informacionin që nuk gjendet në fjalorin kryesor (për shembull, informacione për ekuivalentët e përkthimit me përparësi të frazave dhe fjalëve për fusha të ndryshme lëndore).

Bazuar në parimet e përshkruara, VINITI RAS (shih më lart) ndërtoi dy sisteme të përkthimit të makinës frazeologjike:

1) sistemi Përkthimi rusisht-anglisht(RITRANS)

2) Sistemi i përkthimit anglisht-rusisht (ERTRANS).

Të dy sistemet kanë të njëjtën strukturë dhe përafërsisht të njëjtën madhësi të fjalorëve të makinerive. Prandaj, ne do të shqyrtojmë vetëm sistemin e parë.

Sistemi RETRANS ka karakteristikat e mëposhtme:

1. Qëllimi, qëllimi, funksionalitetin. Sistemi është krijuar për përkthim të automatizuar tekste shkencore dhe teknike nga rusishtja në anglisht. Fjalori i makinës politematike ruso-anglisht i sistemit përmban terminologji mbi shkencat natyrore dhe teknike, ekonominë, biznesin, politikën, legjislacionin dhe çështjet ushtarake. Në veçanti, ai përmban terma dhe njësi frazeologjike për këto fusha tematike: Inxhinieri Mekanike, Inxhinieri Elektrike, Energji, Transport, Aeronautikë. Kozmonautika, Robotika, Automatizimi dhe Radioelektronika, Inxhinieri Kompjuterike, Komunikime, Matematikë, Fizikë, Kimi, Biologji, Mjekësi, Ekologji, Bujqësi, Ndërtimtari dhe Arkitekturë, Astronomi, Gjeografi, Gjeologji, Gjeofizikë, Miniera, Metalurgji etj.

Përkthimi i teksteve mund të kryhet automatikisht dhe në mënyra interaktive.

2. Vëllimi i fjalorit politematik të makinës: më shumë se 1,300,000 hyrje fjalori; 77 për qind e tyre janë fraza që variojnë nga dy deri në shtatëmbëdhjetë fjalë në gjatësi. Vëllimi i fjalorëve shtesë të makinerive (për përshtatjen e sistemit për fusha të ndryshme tematike) është më shumë se 200,000 hyrje në fjalor.

Sistemi MP PROMT XT

Produktet softuerike PROMT bazohen në zgjidhjen e problemeve themelore të mëposhtme:

Së pari, është e qartë për të gjithë se sa më i madh të jetë fjalori, aq përkthim më i mirë, që do të thotë se problemi i parë është problemi i krijimit të fjalorëve të mëdhenj për sistemet.

Së dyti, është e qartë se sistemi duhet të përkthejë fjali të tilla si: HELLO, SI JENI? Kjo do të thotë se një problem tjetër është të mësosh sistemin të njohë shpejtësi të qëndrueshme.

Së treti, është e qartë se fjalia për përkthim është shkruar sipas rregulla të caktuara, përkthehet sipas rregullave të caktuara, që do të thotë se ka një problem tjetër: shkrimi i të gjitha këtyre rregullave në formën e një programi. Kjo është e gjitha, në fakt.

Gjëja më interesante është se këto probleme janë me të vërtetë ato kryesore gjatë zhvillimit të sistemeve të përkthimit të makinës, një gjë tjetër është se metodat për zgjidhjen e tyre nuk janë të njohura për të gjithë dhe nuk janë aspak aq të thjeshta sa mund të duken;

Metodat për organizimin e bazave të të dhënave të mëdha janë zhvilluar mjaft mirë, por për përkthimin nuk është më pak, dhe ndoshta më e rëndësishme, të strukturoni saktë informacionin që i është caktuar një elementi të bazës së të dhënave dhe të zgjidhni saktë pikërisht këtë element. Sa, për shembull, hyrje në fjalor duhet të korrespondojnë me fjalën e zakonshme ruse "program"? Dhe, në përgjithësi, një fjalor i madh është një fjalor që përmban shumë hyrje në fjalor, apo një fjalor që ju lejon të dalloni shumë fjalë nga një tekst? Natyrisht, e dyta është më e vërtetë. Prandaj, për të përshkruar gjuhën hyrëse dhe dalëse në sistem, duhet të ekzistojë një metodë formale për të përshkruar morfologjinë mbi të cilën bazohet zgjedhja e njësisë së fjalorit.

Pothuajse në të gjitha sistemet që pretendojnë të konsiderohen sisteme përkthimi, problemi i përfaqësimit të modeleve morfologjike zgjidhet në një mënyrë ose në një tjetër. Por disa sisteme mund të njohin një milion forma fjalësh me një vëllim fjalori prej pesëdhjetë mijë hyrje fjalori, ndërsa të tjerët me një vëllim fjalori prej njëqind mijë hyrje fjalori mund të njohin pikërisht këto qindra mijë.

Sistemet e familjes PROMT kanë zhvilluar një përshkrim morfologjik që është pothuajse unik në tërësinë e tij për të gjitha gjuhët që sistemet mund të trajtojnë. Ai përmban 800 lloje lakimesh për gjuhën ruse, më shumë se 300 lloje për gjermanisht dhe frëngjisht, madje edhe për anglishten, e cila nuk i përket gjuhëve lakuese, janë identifikuar më shumë se 250 lloje lakimesh. Seti i mbaresave për çdo gjuhë ruhet në formën e strukturave pemësh, e cila siguron jo vetëm një metodë efikase të ruajtjes, por edhe një algoritëm efikas të analizës morfologjike.

Për më tepër, modeli morfologjik i përdorur bëri të mundur zhvillimin e një sistemi ekspert për përdoruesit - krijuesin e fjalorit. Ky sistem në fakt automatizon procedurën për identifikimin e rrjedhës dhe përcaktimin e llojit të lakimit kur futen hyrjet e reja të fjalorit.

Ky funksion nuk është i disponueshëm në asnjë nga sistemet ekzistuese të përkthimit me makinë, madje edhe në sisteme të tilla të përhapura si Power Translator (Globalink, USA), Language Assistant (MicroTac, USA), TRANSEND (Intergaph, USA), ku përdoruesit duhet të bashkojnë manualisht dhe lakoni fjalët në detyra të modelit morfologjik.

Megjithatë, zhvillimi i një përshkrimi të morfologjisë na lejon të zgjidhim vetëm problemin se cili është titulli i hyrjes në fjalor, i cili përdoret për të identifikuar një njësi teksti dhe një njësi fjalori. Por, identifikimi i një fjale nga një tekst me një hyrje në fjalor nuk ndodh për hir të identifikimit, siç kërkohet në drejtshkrimet ose fjalorët elektronikë, është e nevojshme që programi të kryejë procedurat e përkthimit. Çfarë informacioni nevojitet në një hyrje në fjalor dhe si duhet të përshkruhen rregullat e përkthimit në mënyrë që programi të përkthehet?

Në shumë sisteme MT në të kaluarën (si në të vërtetë tani), përshkrimi i fjalorit dhe përshkrimi i algoritmeve konsideroheshin si aspekte të të njëjtit problem, por zgjidhja, si rregull, kërkohej në kufizimin e botës në fjalë, gramatikore ose gramatikore. semantike. Për shembull, bazuar në atributin "që i përket një pjese të të folurit", u përshkrua një gramatikë e këtij lloji:

fraza emërore është një emër

një frazë emërore është një frazë mbiemër + emër

një frazë foljore është një folje + një frazë emërore

një fjali është një frazë emërore + një frazë foljore

Është e qartë se një pjesë e fjalive të gjuhës natyrore përshkruhet nga një gramatikë e tillë, por kjo pjesë është shumë e parëndësishme dhe mbi bazën e saj është e pamundur të analizohet dhe përkthehet saktë ndonjë tekst real. Por ju mund të përdorni metoda efektive ndërtimi i një konvertuesi sipas një gramatike të caktuar ose, në rastin më të keq, shkrimi i një programi që, me forcë brutale, do të ndërtojë pemë varësie për një grup të kufizuar fjalish. Sisteme të tilla u përkufizuan gjithashtu si "eksperimentale".

Në një mënyrë apo tjetër, nga projekte të tilla dolën sistemet e përkthimit që tani i ofrohen përdoruesit përfundimtar. Këto janë Power Translator (kompania Globalink) dhe Language Assistant (kompania MicroTac) dhe TRANSEND (kompania Intergraph).

Sistemet e familjeve STYLUS dhe PROMT nuk bëjnë përjashtim, pasi shumë specialistë të PROMT kanë përvojë pune në këtë lloj projekti. Sidoqoftë, gjatë zhvillimit të sistemeve PROMT, për herë të parë u përdor një qasje praktikisht revolucionare, e cila na lejoi të merrnim rezultate mbresëlënëse. Sistemet e përkthimit të familjes PROMT janë sisteme të krijuara bazuar në metoda jo gjuhësore, por kibernetike.

Doli se është shumë produktive të konsiderohet sistemi i përkthimit jo si një përkthyes, detyra e të cilit është të përkthejë një tekst të pranueshëm nga pikëpamja e gramatikës hyrëse, por si një sistem kompleks, detyra e të cilit është të marrë një rezulton me të dhëna hyrëse arbitrare, duke përfshirë tekstet që nuk janë të sakta për gramatikën me të cilën funksionon sistemi.

Në vend të qasjes gjuhësore të pranuar, e cila përfshin identifikimin e proceseve të njëpasnjëshme të analizës dhe sintezës së një fjalie, arkitektura e sistemeve u bazua në përfaqësimin e procesit të përkthimit si një proces me një organizim "të orientuar nga objekti" bazuar në hierarkia e përbërësve të përpunuar të fjalisë. Kjo bëri të mundur që sistemet PROMT të jenë të qëndrueshme dhe të hapura.

Për më tepër, kjo qasje bëri të mundur përdorimin e formalizmave të ndryshëm për të përshkruar përkthimin në nivele të ndryshme. Sistemet operojnë gjithashtu gramatika rrjeti, të ngjashme në lloj me rrjetet e tranzicionit të zgjeruar, dhe algoritme procedurale për plotësimin dhe transformimin e strukturave të kornizës për analizimin e kallëzuesve kompleksë.

Përshkrimi i një njësie leksikore në një hyrje fjalori, i cili në fakt është i pakufizuar në përmasa dhe mund të përmbajë shumë veçori të ndryshme, është i ndërlidhur ngushtë me strukturën e algoritmeve të sistemit dhe është i strukturuar jo mbi bazën e antitezës së përjetshme të sintaksës - semantikës. por në bazë të niveleve të përbërësve të tekstit.

Në të njëjtën kohë, sistemet mund të punojnë me të përshkruara jo të plota hyrjet e fjalorit, që është një pikë e rëndësishme kur hapen fjalorë për përdoruesit, nga i cili nuk mund të kërkohet trajtim delikat i materialit gjuhësor.

Sistemi i parë i përkthimit me makinë, i lëshuar nga PROMT në 1991, përkthente tekste të specializuara nga anglishtja në rusisht software. Ai përdorte një fjalor të vogël - rreth 17 mijë fjalë dhe shprehje, punonte në një mjedis DOS dhe nuk kishte mjete personalizimi për përdoruesit. Por tashmë ky sistem i parë ishte projektuar siç duhet, dhe teknologjia aktuale për zhvillimin e algoritmeve të përkthimit të makinës të përdorura nga PROMT nuk ka pësuar ndryshime të rëndësishme. Përkundrazi, qasja e gjetur atëherë doli të ishte shumë e frytshme për një shumëllojshmëri të gjerë gjuhësh.

Së pari, le të sqarojmë disa përkufizime: së bashku me zhvillimin e përkthimit makinerik si një fushë e gjuhësisë së aplikuar, u shfaqën edhe klasifikimet e sistemeve dhe u bë zakon që sistemet e përkthimit të ndahen në sisteme të llojit TRANSFER dhe sisteme të llojit INTERLINGUA. Kjo ndarje bazohet në veçoritë e zgjidhjeve arkitekturore për algoritmet gjuhësore.

Algoritmet e përkthimit për sisteme si TRANSFER ndërtohen si një përbërje e tre proceseve: analiza e fjalisë hyrëse në aspektin e strukturave të gjuhës hyrëse, transformimi i kësaj strukture në një strukturë të ngjashme të gjuhës së daljes (TRANSFER) dhe më pas sinteza e Fjalia dalëse sipas strukturës që rezulton.

Sistemet e tipit INTERLINGUA supozojnë a priori praninë e disa metagjuhëve strukturash (INTERLINGUA), në të cilat është e mundur të përshkruhen të gjitha strukturat e gjuhëve hyrëse dhe dalëse në rast i përgjithshëm; Prandaj, algoritmi i përkthimit në një sistem si INTERLINGUA supozohet të jetë më i thjeshtë: analiza e fjalisë hyrëse në termat e metagjuhës dhe më pas sinteza nga metastruktura e fjalisë përkatëse të gjuhës dalëse. Vështirësia "e vetme" në këtë rast është zhvillimi i vetë metagjuhës dhe përshkrimi gjuha natyrore në terma të përshtatshëm.

Përkundër faktit se ky klasifikim ekziston, dhe midis zhvilluesve të përkthimit të makinës konsiderohet një formë e mirë për të pyetur se çfarë lloji i sistemit PROMT është, asnjë nuk është zhvilluar ende. sistem real, bazuar në parimin INTERLINGUA.

Sistemi PROMT nuk bën përjashtim dhe ne i përgjigjemi kësaj pyetjeje: sistemi ynë kryen një transferim të llojit TRANSFER. Por kjo është një përgjigje shumë e thjeshtë, ajo praktikisht nuk pasqyron tiparet e arkitekturës së sistemit PROMT. Dhe veçoritë janë se kjo metodë (TRANSFER) zbatohet në sistem jo në përputhje me qasjen standarde gjuhësore.

Fakti është se sistemi i përkthimit, si rregull, funksionon në kushte të të dhënave të përshkruara jo të plota, sepse gjuha është sistemi i jetesës, e cila zhvillohet shumë shpejt: fjalë të reja, funksione të reja të fjalëve të vjetra dhe së bashku me entitetet e reja shfaqen vazhdimisht kuptime të reja. Në këto kushte, vetia strukturore përcaktuese e algoritmeve të përkthimit bëhet rezistenca e tyre ndaj të dhënave hyrëse arbitrare dhe algoritmet që kryejnë përkthimin në sistemin PROMT, në vend të një TRANSFER-i sekuencial, u bazuan në një qasje hierarkike që e ndan procesin e përkthimit në TRANSFERË të ndërlidhura për njësi të ndryshme analize.

Sistemi cakton një nivel njësitë leksikore, nivel grupi, nivel fjali të thjeshta dhe niveli i fjalive të ndërlikuara. Të gjitha këto procese janë të lidhura dhe ndërveprojnë në mënyrë hierarkike në përputhje me hierarkinë e njësive të tekstit, duke shkëmbyer veçori të sintetizuara dhe të trashëguara. Ky rregullim i algoritmeve lejon përdorimin e të ndryshme metodat formale për të përshkruar algoritme në nivele të ndryshme.

Le të shqyrtojmë nivelin e njësive leksikore: një njësi leksikore është një fjalë ose frazë, e cila është njësia e nivelit më të ulët. Në të dy gjuhët hyrëse dhe dalëse, një fjalë përshkruhet si një kombinim i një rrjedhe dhe një mbarese. Kjo bën të mundur, nga njëra anë, njohjen e fjalëve hyrëse dhe analizimin e morfologjisë së hyrjes dhe, nga ana tjetër, sintetizimin e përshtatshëm të fjalëve dalëse bazuar në informacionin e tyre morfologjik (stima, lloji i lakimit dhe adresa e mbarimit në një grup mbaresash të kësaj lloji). Kështu, nëse futni rregulla për shndërrimin e informacionit morfologjik hyrës në informacion morfologjik dalës, TRANSFERIMI kryhet në nivelin morfologjik.

Niveli i grupit merr në konsideratë strukturat më komplekse: grupet e emrave, mbiemrat, ndajfoljet dhe format e ndërlikuara të foljeve. Ky nivel, kur analizohet, bazuar në gramatikat formale të rrjetit, është në gjendje të lidhë grupet në njësi sintaksore, secila prej të cilave karakterizohet nga një sintetizuar informacion strukturor dhe elementi kryesor i grupit. Në bazë të strukturës hyrëse të përftuar për nga komponentët e drejtpërdrejtë, së bashku me veçoritë e sintetizuara, grupi dalës formohet si tërësi njësish leksikore me kuptime. veçoritë morfologjike, të cilat mund të trashëgohen në bazë të rezultateve të analizës së grupit. Kështu, TRANSFERIMI zbatohet në nivel grupi.

Analiza e fjalive të thjeshta si struktura të përbëra nga njësi sintaksore kryhet në bazë të strukturave të kallëzuesit kornizë që lejojnë shndërrime efikase. Folja konsiderohet elementi kryesor për fjalitë e thjeshta dhe valenca e saj përcakton mbushjen e kornizës përkatëse. Për çdo lloj kornize, ekziston një ligj i caktuar i transformimit në një kornizë dalëse dhe dizajni i aktantëve. Kështu, TRANSFERIMI kryhet në shkallë dënimi. Analiza e fjalive të ndërlikuara kërkohet në rastin e formimit të marrëveshjes së kohës dhe përkthimit të saktë të lidhëzave.



Artikulli i mëparshëm: Artikulli vijues:

© 2015 .
Rreth sajtit | Kontaktet
| Harta e faqes