Автоматты (машиналық) аударма
Машиналық аударма жүйелері кибернетикалық модель жасау аясына қатысты болуы себепті шет тіліндегі мәтінді ана тіліне және керісінше аудару тұсындағы адамның тілдік әрекеті арқылы іске асады. Сондықтан аударма ісі электронды-есептеу машиналарының (ЭЕМ) көмегімен аудармашы әрекетін қайталауға бағытталады.
Аудармашының тілдік әрекетінің, яғни сөйлеу-ойлау қызметінің моделін машиналық аударма жүйесі арқылы жүзеге асыру екі түрлі таптастыру параметрлері бойынша анықталады:
– автоматтандыру дәрежесі, яғни компьютерге жүктелетін жұмыстың нақты көлемі. Мұнда мынадай жағдаяттарды айырып қарастыру керек [19, 3-б.]:
1) аударма жұмысы толығымен немесе толыққа жуық ЭЕМ арқылы орындалады;
2) аударма жұмысын аудармашы атқарады да, ал ЭЕМ жәрдемші рөлін атқарады (мысалы, қажетті сөздің аудармасын сөздіктен тауып алу жұмысында).
– аудармашы адамды қатыстыру стратегиясы, яғни аударма жұмысының негізгі бөлігі компьютер арқылы орындалады да, ал аудармашы аударылған мәтінді өңдеуге, яғни аудару кезінің әр тұстарында (басында, ортасында, аяғында) редакциялық жұмысқа қатынасады [20, 12-13-бб.].
Аудармашының сөйлеу әрекетінің ерекшелігі мынаған саяды: бастапқы нысан ретінде бір тілдегі мәтін алынады да, ал тілдік қызметтің нәтижесі ретінде – мағыналық жағынан аударылуға тиісті мәтінге барабар, басқа тілдегі мәтін болып табылады. Басқаша айтқанда, аталған нәтиже міндетті түрде мәтін түрінде ұсынылуы қажет.
Аталған ерекшелік автоматты аудармаға белгілі принциптік құрылымды сақтауды міндеттейді. Төменде ондай құрылым мүмкіндігінің ең жақсы деген (идеалды) көрінісі берілді.
«Х» тіліне талдау жүргізу мен оны өзгертудің мақсаты – «Х» тілінің сөздігі, грамматикасы және қолдану ережелері негізінде «Х» тіліндегі мәтіннің мазмұнын ашу. Ал «Ү» тіліне жинақтау әдісін қолдануды – «Ү» тіліндегі шығару мәтінін құрастыру (немесе оны синтездеу) деп атайды. «Ү» тіліндігі мән-мағына сол тілдің сөздігі мен грамматикасы негізінде ашылады.
ЭЕМ-сыз дәстүрлі аудармашының мәтінді аудару кезіндегі талдау мен жинақтау компоненттерінің орын алуы айқын түрде байқалмағанымен, автоматты аударма жасау процесінде ондай тәсіл бөліктері міндетті түрде орын алуы қажет.
АНАЛИЗ СИНТЕЗ
(талдау) (жинақтау)
«Х»-ті өзгерту «Ү»-ті өзгерту
Сызба.Автоматты аударма процесінің
идеалдық құрылымы
Ал сызбадағы «өзгерту» топтамасының қажеттілігі ең қарапайым жағдайда да айқын байқалады. Мысалы, аударуға қажетті «Х» тілінің сөздік бірлігі мағыналық жағынан екінші тілдің («Ү») сөздік бірлігімен және екі тілдің («Х» пен «Ү») синтаксистік құрылымдары да бір-бірімен сәйкес келіп тұрған жағдайда да (тіпті сөздердің орналасу тәртібіне дейін) тиісті өзгерістердің жасалатыны белгілі. Негізінен алғанда, сөздердің грамматикалық тұлғалары мен аударма баламасының сөйлем ішінде дұрыс орналасу тәртібі өзгертуді қажет етеді.
Бірақ жоғарыда қарастырылған жайт идеалды жағдаятына сай және тілдің шектеулі сөздік бөлігі мен синтаксисіне тән болып келеді. Сонымен бірге мұндай жағдаят тек әрбір нақты тілдер жұбы үшін ғана ұтымды деуге болады. Әзірше екі тілдің лексикалық бірліктері мен синтаксистік құрылымдары бойынша басым көпшілік тілдерге жоғарыда аталғандай тұспа-тұс сәйкестік жайлы айту қиын. Оған себеп – әртүрлі тілдердегі көп мағыналы сөздер көлемінің сәйкес келмеуі. Лексикалық сәйкестіктің ең соңғы бұзылу жағдайы – қайсыбір тілдерде баламасыз лексиканың болуы. Әдетте, олар тұрмыстық бұйымдарды, мәдениетті сипаттайтын сөздердің екінші (аударуға қажетті) тілдің лексикалық қорынан орын алмайды. Мұндай жағдай лексикалық элементті сипаттау немесе калькалау үшін оның мәнін дұрыс түсінуді қажет етеді. Басқаша айтқанда, мағынаға сәйкес келтіру үшін қажетті деген өзгертулерді (өңдеулерді) жүргізу керек болады.
Егер аударма мәселесін, автоматты аударманы қоса есептегенде, тіларалық сәйкестіктің бұзылуы тұрғысынан қарастырсақ, онда оның мақсатын екі тіл жұбы мәтіндерін мағыналық сәйкестікке келтіру деп ұғыну қажет. Яғни екі тіл арасындағы әртүрлі элементтердің (сөздік, құрылым, сөздер тәртібі және т.б.) мазмұнды ашу құралдарын сәйкестікке келтіру деп түсіну керек болады. Мұндай сәйкестікке келтіру мәселесін шешу жоғарыда көрсетілген сызбадағы топтамалар қызметінің барлық машиналық аударма жүйесінде орындалуын қажет етеді. Сәйкестікке келтіру мүмкіндігі және аударманың принциптік жақтарының барлық тілдерге ортақ болуы тілдің сызықтық және таңбалық сипаттарына негізделеді (Ф. де Соссюр). Ал таңбалық қасиеттің негізінде (мағыналық тұрғыда) барлық халықтардың ойлау қызметін таңбалау мен қоршаған ортаның физикалық ортақ қасиеттерінің жататыны белгілі.
Машиналық аударманың «өмірге келуіне», біріншіден, ХХ ғасырдың екінші жартысынан бастап әр елдерде (континенттерде) бірнеше тілдегі ақпарат ағымының қарқындап өсуі, екіншіден, ғылыми-техникалық прогресс үшін оларды меңгеру қажеттігіне қатысты әлеуметтік себептер негіз болды. Осыған байланысты машиналық (автоматты) аударма жұмысының даму барысына қатысты кейбір жайттарға тоқталайық.
Аталған әлеуметтік себептер аударма мәселесінің шешімін табуды және оның ұтымды жолдарын іздестіруді қажет етті. Бұған ең алдымен аудармашының тілдік қызметінің ерекшеліктері ішінен шеттілдік мәтіннің құрылымын зерттеудегі таза формалды талдау жолын жатқызуға болады [21]. Мысалы, аудармашыға мәтіннің грамматикасы және лексиканың көмекші сөздері мен есімдік сөздері және басқа да осы сияқты функционалды грамматиканың элементтері белгілі болғанымен, салалық мәтіннің арнайы лексикасы таныс болмауы мүмкін.
Шеттілдік мәтінді аударудағы оның тұрпаты (формасы) бойынша мән-мағынаны ашу ерекшеліктерін модельдеу, ең алдымен, аудармашының іс-әрекетін зерттеу нысаны ретінде алуға бірден-бір себепші болды. Сонымен, мұндай модельдеу шеттілдік мәтінді аударуда тілдің ақиқат деректерін «шеттетіп», тілдің семантикасын арнайы талдамай-ақ, формалды тұрғыда аударма баламасын табуға мүмкіндік жасайды.
Автоматты аударма жасаудың бастамасы ретінде ресми түрде 1949 жыл саналады. Тілді формалды тұрғыда қарастыра отырып, электронды-есептеу техникасының көмегімен аударманы жүзеге асырудан бұрын оны механикалық машиналар жолымен іске асыру идеясы аталған мезгілден де көп бұрын бастама алғаны белгілі. Мысалы, А.Кахердің ойлап тапқан аударма-жазба машинасы жайлы мәлімет «Үава таа» газетінде 1924 жылдың 24 ақпанында шағын хабарлама ретінде жарық көрген болатын [22]. 1933 жылы Кеңес Одағында П.П.Смирнов-Троянскийге бір тілден екінші тілге аудару машинасын ойлап шығарғаны үшін арнайы патент тапсырылғаны да жұртшылыққа мәлім [23].
Аударма жасауда екі немесе одан да көп тілдердің бірліктері арасындағы мағына сәйкестігін анықтау үшін алғашында механикалық тәсілдер қолданылды. Сондықтан аударма жұмыстарының жетістіктері әлемдік ғылымға тек ХХ ғ. 50-жылдарында ғана белгілі бола бастады. Ең алғашқы машиналық аударма жүйелері АҚШ-та пайда болды. Тарихи тұрғыдан қарастырғанда машиналық аударма жүйесін құрастыруға жалпытілдік көзқарастағы криптография (шартты белгілермен жазылған құпия жазу) саласының теориясы мен практикасы негіз болды.
Екінші дүниежүзілік соғыс кезінде әр елдерде, әсіресе Англия мен АҚШ-та құпия хаттардағы шифрлы жазуды үйреншікті жазуға ауыстыру (дешифровка) жұмысын машинасыз да және машинамен де әрекет ету арқылы көптеген нәтижелерге қол жеткені белгілі. Мысалы, гитлерлік басқару орындарының шифрланған бұйрықтары мен хабарларын жай жазуға айналдыратын «Ультра» атты дешифровалды машинаның құрастырылғанын айта кетуге болады.
Лингвистикалық тұрғыдан қарастырғанда, шифрланған (кодталған) хабарды дәстүрлі жазуға келтіру дегеніміз, ол лексикалық қоры белгісіз және грамматикалық ережелері әлі анықталмаған шет тілінде жазылған мәтінді аудару жағдаятымен барабар деуге болады. Мұндай аударма жұмысы бір кодтағы жүйеден екінші кодтағы жүйеге ауыстыру әрекетімен бірдей келеді.
Дешифровщиктер мамандардың пайымдауынша, шифрланған (кодталған) хабарды жай жазуға келтіру әрекетіне қарағанда бір табиғи тілдегі мәтінді екінші табиғи тілге аудару әрекеті жеңіл деп бағаланады. Себебі, қазіргі табиғи тілдерді сипаттайтын көптеген сөздіктер мен грамматикалардың негізінде тілдің өзіне ғана тән лексикалық, морфологиялық және синтаксистік ерекшеліктері алдын ала белгілі деуге болады. Ал есептеу техникасы ондай сөздіктер мен грамматикаларды қалаған тәртіпте, бағдарламаға сай өз жадында орналастыра алады.
1946-1947 жылдары ЭЕМ арқылы машиналық аударма жасау идеясы Принстонның ғылыми-зерттеу институтында арнайы мәселе ретінде талқыланады (У.Уивер, А.Л.Бут және т.б.). Ең алғаш бұл идея дешифровка ісінің америкалық маманы Уоррен Уивердің меморандумында бірізді шешімге келтірілді. Ал 1949 жылдың 15 шілдесінде атақты ғалым өз меморандумында көтерілген мәселелерді тіл және есептеу техникасы мен дешифровка салаларындағы екі жүзден астам мамандарға жария етті.
У.Уивер машиналық аударманың принциптік мүмкіндігін мүлде бөлек тілдердің ұқсас қасиеттерімен және әр тілдің өзіне ғана тән формалды сипатта болуымен байланыстырады. Қорыта айтқанда, У.Уивердің пікірі бойынша, қытайша жазылған кітапты қытайша шифрланған (кодталған) ағылшынша немесе басқа ұлттық тілдердегі кітап деп түсінген жөн [24, 33-45-бб.].
Сонымен машиналық аударманың өзінше бөлек ғылыми бағыт ретіндегі даму кезеңі Уивердің меморандумынан бастама алады. Бұл бағытты, шартты түрде, негізгі үш кезеңге бөліп қарастыруға болады [25; 19; 26; 27]. Мысалы, ол хронологиялық жағынан былайша айырым табады:
1-кезең: 1949 жылдан бастап 60-жылдардың ортасына дейін;
2-кезең: 60-жылдардың ортасынан 70-жылдардың аяғына дейін;
3-кезең: 80-жылдардан қазіргі кезеңге дейін.
Мұндай үш кезеңге бөлуге негіз болған ғылым мен техниканың дамуындағы қол жеткен нәтижелер екені белгілі. Міне, солардың ішінен лингвистикалық, математикалық, техникалық машиналық аударма жүйесін жабдықтау мәселелері айрықша орын алады.
1954 жылы АҚШ-та Джорджтаун университетінде проф. Леон Е.Достердің жетекшілігімен GAT жүйесі негізінде құрастырылған орыс тілінен ағылшын тіліне аударатын машиналық аударма жүйесі жұртшылық назарына ұсынылды. Бұл бір тілден екінші тілге ЭЕМ (IBM-701) арқылы орындалған ең алғашқы аударма тәжірибесі болып саналады. Ғылымда бұл тәжірибе Джорджтауындық эксперимент деген атпен тарихта қалды [24]. Аталған экспериментте «тікелей» машиналық аударма жағдаяты (бір тілдік жұпқа қатысты жүйелер) тексерістен өткен болатын. Жүйе сөздігінің көлемі бар болғаны 250 сөзді ғана қамтыса, ал оның грамматикасы тек алты синтаксистік ережеге ғана негізделеді [20]. Кеңес Одағында француз тілінен орысшаға аударатын машиналық аударманың бірінші эксперименттік жүйесі О.С.Кулагина мен И.А.Мельчуктың авторлығымен 1955-1956 жылдары құрылғаны осы сала мамандарына белгілі [28]. Бұл жүйедегі негіз сөздер сөздігі 1236 сөз, ал сөз айналым сөздігі 250 бірлікті қамтиды. Аударма бірлігі ретінде толық сөйлем түрі есептеледі. Морфологиялық талдау алгоритмі жалғаулардың кестесімен әрекет ету арқылы аударылатын фразаның (сөйлемнің) сөздеріне қажетті деген грамматикалық ақпаратты тіркейді. Бұл жүйенің артықшылығы – омонимдік сөздерді ажырата алатын топтамасы (блогі) болуында. Орыс тіліндегі фразаны синтездеу топтамасында сөздердің орналасу тәртібінің дұрыстығын тексеру мүмкіндігі алдын ала қарастырылған. Сонымен бірге, Т.Н.Молошнаяның жетекшілігімен ағылшынша-орысша аударма жасау жүйесінің алғашқы жобасы ұсынылды [29].
Машиналық аударма жұмысының бастамасы, жалпы алғанда, өрлеу сипатында болды – тілшілер зерттеудің жаңа бағытын ашты, ал программистер күн тәртібіндегі күрделі және аса қызықты мәселелердің шешімін табуға қызыға кірісті. Бұл кезеңде тіл мен аударма процесіне қатысты барлық мәліметтерге қол жеткендей сезілді. Сондықтан егер оларды формалды пішінге келтіру ісі жүзеге асырылса, машиналық аударманың әмбебаптық жүйесі құрылып, алға қойылған негізгі мақсатқа тез арада жететіндей көрінген болатын. Бірақ бастапқы және кейінгі тәжірибелердің нәтижелері бұл мәселенің шешімі ойлағандай оңай табылмайтынын байқатты.
Солай бола тұра, атқарылған жұмыстар тек машиналық аударма аясындағы зерттеулерге ғана емес, сонымен бірге ғылыми ізденушілерді тілдің теориялық және құрылымдық жағына да көңіл аударуға ынталандырды.
Қорыта айтқанда, автоматты аударманың бірінші кезеңі белгілі дәрежеде айтарлықтай нәтижелі болды. Себебі, аталған кезеңде көптеген іргелі мәселелердің бастамасы анықталып, зерттеудің болашағы сараланып, жолдары айқындалды. Мысалы, автоматты сөздіктерді құрастыру, аралық-тілдіқұрастыру, сөздердің омонимдік сипаты мен синтаксистік құрылымы, яғни сөздердің сөйлемдегі тіркесімі, фразеологизмдердің жасалу жолдары және көптеген басқа да мәселелердің сыр-сипаттары анықталды.
Осы мезгілдерде, бүгінгі таңда да аса маңызды деп саналатын, синтаксистік талдаудың алгоритмінің алғашқы нұсқалары зерттелді: синтаксистік тәуелділік пен тікелей құрастырушыларды, болжамдық талдауды, көпнұсқалы синтаксистік талдауды, «фулькрумдер» әдісімен талдауды, конфигурациялық талдауды және т.б. әдіс-тәсілдерді ескере отырып, талдау жүргізу жақтары қарастырылды.
Терминтану саласындағы бағыныңқылықтың моделі мен тікелей құрастырушылардың моделін талдаудан толық сөйлемнің құрылымдық байласымын анықтауға болатындығы байқалды. Мұндай құрылымның көпмағыналығының басын ашып алу үшін әртүрлі «сүзгілердің» әдістері қолданылады (қара: ЛМУ-дың математикалық лингвистика зертханасындағы С.Я.Фитиалов пен Г.С.Цейтиннің жетекшілік етулерімен жүргізілген жұмыстар; GETA атты Гренобльдық топ – Centre d’études pour la tradution autmatigue, жетекшісі В.Вокуа). «Күшті» сүзгі ретінде Д.Е.Хейстің байланыс «күші» ұғымы ұсынылды (The Rand Corporation Automatic Language Data Processing Croup. Santa Monica (Calif.)) [30].
Болжамдық талдау сөздік мақаланың айрықша құрылымына негізделеді (Национальное бюро стандартов США, И.Родес; Вычислительная лаборатория Гарвардского университета (Масс.), рук. А.Эттингер). Мұнда әрбір сөзге оның барлық байланыс мүмкіндігі жайлы ақпарат тіркеледі. Талдау тәртібі (процедурасы) мәтінді солдан оңға қарай тексеріп шығу тәсілі бойынша жүргізіледі. Осының нәтижесінде әрбір кезекті сөздің «өлшемінің» алдыңғы сөз бойынша жасалған болжамға сай келетіндігі тексеріледі. Егер ол жасалған болжамға сай келмесе, ондай сәйкестікті іздестіру сол жаққа қарай ауысады. И.Родестің ғылыми тобында бірварианттық талдау қарастырылады, яғни талдауға түскен сөздің сол жағында орналасқан бірінші сөз сәйкестік «иесі» деп саналып, кез келген сөйлемге тек бір ғана синтаксистік құрылым сәйкес қойылады.
Сөйлемнің синтаксистік құрылымының бірнеше нұсқаларын есепке алуға мүмкіндік туғызатын көпнұсқалық талдауды бір қадам алға басу деп санауға болады (С.Куно, А.Эттингер, Гарвард университетінің Есептеу зертханасы). Көпнұсқалылық талдауда сөздің синтаксистік потенциалды мүмкіндіктерінің молдығының арқасында синтаксистік байланыста тұратын сөздерге болжам жасауға болатындығы негізге алынады. Көпнұсқалылық талдаудың алғашқы грамматикасы 2100 ереже мен 82 синтаксистік болжамды қамтыды. Сөйлем құрылымының диаграммасы тікелей құрастырушылар моделі негізінде құрылды. Осының нәтижесінде мүмкін болатын барлық варианттар іріктеліп, олардың көпшілігі әртүрлі сүзгілер көмегімен сан жағынан шағындалды. Болжамдық талдау алгоритмінде көпнұсқалы фразаның синтаксистік құрылымына тән екімәнділік ақиқаттығынан гөрі, оны таңдалып алынған нұсқаларды іріктеу әрекетінің формалды сипатының салдары деуге болады. Міне, бұл жүйелердің осалдығы да осында. Дегенмен, синтаксистік болжам жайлы идеяның өзі де құнды деуге болады. Бұл ой-пікірге қазіргі кездегі кейбір грамматикалық болжамдарға сүйенетін автоматты талдау жүйелері негізделуде [31; 32].
Атап айтуға тұратын жайт – бірнұсқалылық пен көпнұсқалылық талдауларды бір-біріне қарсы қою машиналық аударманың қалыптасуының бірінші кезеңі үшін ерекше маңызды болуы. Бірнұсқалылық талдауда кездейсоқтыққа жақын дәрежеде таңдалып алынған сөйлем құрылымы дұрыс болмай шығуы мүмкін, ал талдау жұмысын басынан қайталау мүмкіндігі бұл жүйелерде алдын ала қарастырылмаған. Көпнұсқалық талдауда біркелкіліктің бұзылу қаупі бар: құрастырылған құрылымдардың саны нұсқаны дұрыс таңдау мүмкіндігінен де айтарлықтай үлкен болуы мүмкін.
Сонымен бірге жақсы аудармашы (немесе автоматты аударма жүйесі) мәтін мазмұнын түсіну үшін аударуға тиісті фразаның дұрыс түрдегі бір ғана нұсқасын ұсынуы керек. Ал фразалардың көпмағыналығы мәнмәтін бойынша өз шешімін табатыны белгілі, сондықтан сөйлемдердің нақты мағыналарын ажырату мәселесі мәтінде баяндалатын ақиқат жағдаятқа қатысты толық мәтіннің синтаксистік және семантикалық заңдылықтарына тікелей байланысты болып келеді. Мұндай семантикалық мәліметтер машиналық аударманың бірінші және екінші кезеңдерінде үзінділер түрінде ғана көрініс тауып, толығымен қолданыла қоймады. Себебі, машиналық аударма жүйесін тиісті лингвистикалық мәліметтермен жабдықтау ісі әлі де болса толық зерттелмеген болатын.
Конфигурациялық талдау әдісі аударылуға тиісті мәтінді (жүйеге енетін мәтін) сол тілдің алдын ала іріктеліп алынған синтаксистік конструкциялар жиынымен салыстыру тәсіліне негізделеді [33; 34; 35; 29]. Егер аударма жүйесіне енетін мәтіннің анықталған конфигурациясы жиынның синтаксистік конфигурацияларының біреуімен сәйкес келсе, онда мәтіндік конфигурация танылды деп саналады және ол әрі қарайғы талдау әрекетінде ықшамдалған түрінде көрініс табады. Синтездеу әрекетінде анализдеу кезінде анықталған конфигурация аударуға тиісті тілдің оған сәйкес келетін конфигурациясымен салыстырылады.
«Фулькрумдер» әдісі бойынша жүргізілетін талдауда мәтіндегі сөйлем төменгі сатыдағы бөліктерге ажыратылады. Осының негізінде кез келген фразаны циклдық әдіс бойынша бірнеше рет қарастыра отырып, іріленген фрагменттерге біріктіруге болады. Әрбір кезекті циклдық қарастыру кезінде талдаудың тірек нүктелері (fulсra) – фулькрумдер анықталады. Анықталған фулькрумдер синтаксистік конструкциялардағы негізгі және «басқарушы» сөздер тобына жатады. Олардың құрылымы мен шекарасын анықтау циклдық қайталаулардың мақсатына енеді (группа автомат. Перев. фирмы Bunker Ramo-Woldridqe Inc, Canoqa Park, Calif., рук. П.Гарвин).
Тізбекті талдау әдісі арқылы фразаның синтаксистік құрылымын тану үшін берілген сөйлем көрінісіндегі синтаксистік категориялар тізбегін элементарлық тізбектерге бөлу қажет болады (Харрис, Н.Сейгер).
Корреляциялық талдау кезінде әрбір сөзге индекстер жиынтығы тіркеліп жазылады. Олардың әрбіреуі сол сөздің осыған ұқсас индексі бар басқа сөздермен өзара байланыстылық (корреляция) мүмкіндігін бейнелейді. Корреляцияның (өзара қатынастылық) жоғары деңгейі лингвистикалық шектеулер арқылы төмендетіледі. Мысалы, сөз, семантика және т.б. сатыларға төмендейді.
Осымен бірге зерттеушілер машиналық аударма мәселесі үшін толық мәтінді талдау мәселесін қарастыра бастады. Соның ішінен толық мәтіндердің антецедент – зат есімдермен арақатынасын анықтайтын ережелердің қарастырыла бастағанын атап кетуге болады (антецедент – анафоралық қатынас. Мәселен, есімдіктен бұрын тұратын есім сөз, ал есімдік осы есімге нұсқайды) [36; 37].
Қазіргі кездегі жоспарланып жатқан машиналық аударма жүйесі екі топқа бөлінеді: бір тілден екінші тілге аударатын – бинарлы және бірнеше тілдерден бір тілге немесе бірнеше тілдерге аударуға арналған – көптік. Машиналық аударма жүйелерінің бірінші түрінің әр уақытта артықтық сипаты адам баласының аудару әрекетін модельдеудің және әрбір тілдер жұбы деректерінің бинарлық сәйкестіктерін анықтаудың теориялық және практикалық мүмкіндіктерінің табиғи жағдаятынан туындайды. Машиналық аударманың бинарлық жүйелерінің кемшілігі – аударуға тиісті «кіретін» тілге талдау жүргізу кезінде олардың қасиеттеріне қатаң түрде тәуелді болуы және әрі қарайғы аударма алгоритмін құрастыруда ол тәуелділіктің күрделене түсетіндігі.
Көптік аударма жүйесі аталған қатаң тәуелділікте болуына қарсы мүмкіндіктер тудырып, талдау мен жинақтаудың тәуелсіз алгоритмдерін құрастыруға жол ашты. Бинарлық аудармалардың қосындысы ретінде түсіндірілетін көптік аудармадағы тіл жұптарының саны n(n-1) формуласы арқылы анықталады. Бұл өрнектегі n – аудару процесіне қатысатын тілдер жиынының саны.
Көптік жүйлерді зерттеуші ғалымдар талдау мен жинақтаудың баламасы (инвариантты) ретінде аралық-тіл идеясын (интерлингва) ұсынды [24].
Көптік аударма жасаудағы «аралық-тіл» идеясын іске асыруда ең алғашқы елеулі орынға ие болатын ғалымдардың ішінен Н.Д.Андреевтің аты бөліп айтуға тұрарлық [38].
Н.Д.Андреев жетекшілік еткен зертхана (ЭЛМП) қызметкерлерінің осы бағыттағы көптеген ғылыми еңбектерінің жарияланғаны осы саладағы мамандарға мәлім. Осы кезде Кеңес Одағы мен шетелдердің ғылыми орталықтарымен басқа да ғылыми топтар арасында аралық-тіл мәселесіне қатысты ой-пікірлер қызу түрде талқыға түсе бастады.
Н.Д.Андреевтің концепциясы бойынша, аралық-тіл ұғымының негізінде табиғи тілдердің табиғатында конгруэнттік сипаттың болмайтындығы жайлы түсінік жатыр. Яғни аралық-тілдің жасандылығының заңды екендігі, сол себепті одан конгруэнтті емес элементтердің (артикльдер және т.б.) алынып тасталуы мен көптеген тілдер үшін конгруэнтті элементтердің (етістіктің үш түрлі шағы, көптік жалғау және т.б.) сақталып қалуы қажеттігі туындайды. Сондықтан аталған мәселеге арналған алғашқы зерттеулерге аралық-тіл өзінің құрылымы жағынан табиғи тілге жақын тұрып, соның терминдерімен баяндалады.
Аралық-тіл идеясын өмірге әкелу мақсатындағы сан алуан әрекеттерге қарамай, көптеген тілдерден бір тілге аудару тәжірибесі машиналық аударма тарихында айтарлықтай өз орнын ала алмады деуге болады. Теориялық тұрғыдан қарастырғанда оның себебі аралық-тілдің грамматика мен лексика терминдерінде сипатталуында деп түсіндіріледі. Шындығында, ол тек қана семантикалық тұрғыда, семантикалық барабарлық түсінігінде көрініс табуы қажет болатын.
Сыншылар аралық-тіл арқылы аударма жасаудың төмен дәрежедегі барабарлығын айта келе, оның аударуға тиісті мәтіннің маңызды сипаттамаларының назардан тыс қалып қоятындығын айтады: мәтін авторының коммуникативтік және праграматикалық ұстанымы, талдаудың актуалдығы және т.б.
Машиналық аударма жүйесіндегі аралық-тілдің жүзеге аспай қалуын лингвистикалық зерттеулердің практикалық тұрғыдағы көзқараспен түсіндіретін болсақ, ол өзгеріс енгізу кезеңдерінің әдеттен тыс күрделілігінен, ал техникалық жағынан алғанда ЭЕМ-ның алғашқы буындарының жад көлемі мен әрекет жылдамдықтары көрсеткіштерінің төменгі дәрежелігі деуге болады. Мұндай кедергілер бинарлы аударманың экспериментті жүйесін құру жағдайында да теріс әсерін тигізді.
Қазіргі кезде аталған кедергілер әртүрлі аралық-тілді іске қосу кезінде өз шешімін табуда. Аралық-тіл мәселесіне қызығушылықтың екінші айналымы – жасанды интеллект жүйесін құрастыруға байланысты. Себебі, тек осы идея бойынша ғана қазіргі кездегі кибернетика саласында зерттеліп жатқан мәтіннің мазмұнын түсінетін интеллектуалды жүйелерге жол ашылды деуге болады. Бірақ бүгінгі таңның өзінде-ақ аралық-тіл арқылы машиналық аударма жұмысын жүзеге асыру кез келген аударма жүйесін құрастырушының арманы, жоғарғы мұраты деуге болады. Солай бола тұра, аралық-тіл мәселесін зерттеу семантикалық теорияның, табиғи тілдің фразалары мен мәтіндерінің семантикалық көрінісін анықтау жағдаяттарының даму процесіне зор ықпалын тигізді.
Машиналық аударманың дамуына аралық-тіл концепциясының ешбір күмәнсіз үлесі – аударылған және аударылатын тілдердің қасиеттеріне ғана негізделетін анализ бен синтездің бір-біріне тәуелсіз екендігін мойындау; аударылатын сөйлемнің мән-мағынасының үйлесімділігі мен әмбебаптық берілісін зерттеу қажеттігін мойындау болып табылады.
Машиналық аударма жүйелерін құрастыру аясындағы жүргізіліп жатқан жұмыстардың белсенділігіне қарамай, бірінші кезеңде зерттеушілердің ойлағанындай практикалық нәтиже алынбады. Аударманың тұтынушы сұранысын қанағаттандыра алатын өндірістік жүйесін құру жұмысының нәтижесіз болуының үлкен зардабы байқалды. Мысалы, зерттеушілердің бір бөлігі машиналық аударма мәселесін шешуден бас тартты. Осы бағытта жұмыс істейтін бірнеше топтың зерттеу әрекеттерінің тоқырап қалуына себепші болған АҚШ-тың Ұлттық Ғылым академиясының арнайы комиссиясының әуе соғыс күштерінің машиналық аударма жайлы жасаған талдау қорытындысын бұрмалап түсінудің (экстраполяция) де өз рөлі болды. Осының зардабынан көптеген ғылыми ұжымдар ұйымдастыру мен қаржылық қиындықтарға әкелді [19, 14-б.].
Мұндай жағдайға душар болу кейбір ғалымдардың скепсистік көзқарасы да, машиналық аударма идеясының жүзеге асу мүмкіндігіне сенімсіздік білдіруі де, әсіресе, ғылыми-техникалық мәтіндерді аудару мүмкіндігіне күмән туғызуы да себепші болды. Ал көркем әдебиет мәтіндері, оның ішінде, әсіресе поэзия мәтініне байланысты машиналық аударма жасауға ең басынан-ақ ғалымдар қарсылық пікір білдірген болатын. Оған шығарманың көркемдік, бейнелік жағын ұстаным етудегі кейбір тілдік заңдылыққа қайшы келу жақтары негізгі себеп болды.
Осындай жағдайға байланысты И.Бар-Хиллелдің көзқарасына тоқтала кетуге болады. Ғалым жоғары сапалы толық автоматтандырылған машиналық аударма мүмкін емес және оны утопия деп санаған. И.Бар-Хиллелдің пікірінше, машиналық аударма кезіндегі негізгі кедергі сөздердің көпмағыналығы және тіл табиғатында ондай екімәнділікті ажырата алатын формалды көрсеткіштердің болмауы. Бұл қиындықтардың шешімі тек әлем туралы білімде жатыр деп тұжырым жасайды [39].
Жоғарыда айтылған сенімсіздік пікірлер әлем бойынша машиналық аударма мәселесімен айналысатын топтар санын азайтуға әкеліп соқтырды, екінші кезеңнің аяғында 100 топтан 38 топқа дейін азайғанын айтуға болады [19, 16-18-бб.].
Бірақ машиналық аударманың болашағына сенімді, дәйекті көзқарастағы ғалымдар қажымай, шаршамай-шалдықпай жоспарлаған ғылыми ізденістерін жалғастыра бергені сала мамандарына мәлім. Енді машиналық аударманың екінші кезеңі басталды. Машиналық аударма мамандары зерттеудің теориялық жағын тереңдете түсіп, формалданған лингвистикалық модельдер жасауға, жүйелі және функционалды грамматика жазу мәселесіне кірісті. Бұл кезеңде семантиканы модельдеу жұмысына арнайы назар аударылды. Бірінші кезеңнің нәтижелері сараланып, болашақтағы прагматикаға бағышталған жүйе құрудың мүмкіндігі анықталды.
Бірінші кезеңде зерттеле бастаған формалды грамматиканың модельдері: теоретика-көптік модельдер, бағыныңқылықты грамматикалардың модельдері, тікелей құрастырушылар, туындату грамматикасы мен семантикалық модельдер және т.б. Екінші кезеңде машиналық аударма мәселесінің зерттелуі өз жалғасын тауып, оның интерпретациясына, яғни түсініктеме берілу жағына көбірек көңіл бөлінді, машиналық аударма мәселесі жеке тілдердің грамматикалық құрылымының азды-көпті толық түрдегі сипаттамаларында да қолданыс тапты. Сонымен бірге, олар автоматты талдаулардың іргелі алгоритмдері бойынша да сыннан өтті деуге болады.
Екінші кезеңге қатысты мынадай жайттарды атап кетейік: семантикалық талдау принциптерінің бұрынғыдан да қарқынды түрде зерттелуі және жоғары сапалы аударма жасауға қатысты талдаулар жасау жүйелерінде семантиканың қатысынсыз мәселенің шешілмейтіндігін толық мойындау.
Соңғы айтылған жайтқа байланысты, яғни семантикаға байланысты: біріншіден, кейбір машиналық аударма жүйелерінде талдаудың айрықша семантикалық деңгейін (деңгейлерін) енгізу арқылы (мысалы, ФРАП), ал екіншілерінде – алдын ала белгілі синтаксистік қатынастар типтерінің кең түрдегі синтаксистік сипаттағы тізбесі арқылы мәселені шешу (мысалы, «мән-мағына – мәтін» моделінде), үшіншісінде – аралық-тіл типіндегі мән-мағына инвариантын ұсыну арқылы және осыған әкелетін семантикалық ережелерді қолдану арқылы және т.б. Машиналық аударма жүйесін құруға байланысты жұмыстардың екінші кезеңде жалғасуымен бірге, ол кезең аударманы автоматтандыруды тәжірибелік сыннан өткізу және оны өндіріске енгізу әрекеттерімен қоса сипатталады.
Сөздік пен базалық алгоритмдердің көлемдерін ұлғайту арқылы Джорджтаундық жүйе (GAT) және олардың жекелік түрлері даму үстінде болды (мысалы, SYSTRAN жүйесі). 1976 жылы бұл жүйенің ағылшынша-французша нұсқасы Еуропалық Экономикалық бірлестік қоғамына тапсырылды. Аталған жүйеде негізі синтаксистік байланысты тағайындайтын талдау тәсілі ескерілген болатын [26]. Анализ бен синтездің бір-біріне барынша тәуелсіз болуынан оларды басқа салалас тілдік жүйелерге де қолдану мүмкіндігі туындады.
Өткен ғасырдың 70-жылдарынан бері зерттеліп келе жатқан Гренобльдық орысша-французша аударма жүйесінің (GETA) жетілдірілген түрі логикалық пішіндегі терең синтаксистік құрылымдарды алуды көздейтіні мәлім. Бұл жүйе бойынша семантикалық, синтаксистік, морфологиялық және сөздік деректері арқылы бірнеше өңдеулер (трансформаций) жүргізе отырып, «шығыс» тілдің (выходной язык) үстірт тұрпатының (поверхностная форма) көрінісін анықтауға мүмкіндік туады. Көпдеңгейлік талдау өңдеудің 11 топтамасының реттік тәртібі түрінде құрылады. Мысалы, аналитикалық тұлғаны синтетикалыққа келтіру, фразаны сегменттеу, есім топтарын талдау және т.б. Мұндай әрекеттер антецеденттерді іздестіру мен қалпына келтірілген түйісу нүктелерінің синтаксистік және логикалық фунцияларды анықтауға дейін өз жалғасын тапты. Аталған жүйе ARIANE атты дамыған программалық (бағдарламалық) жабдықталуға ие болды. Мысалы, ол жүйе мен тұтынушы арасындағы әрекетті деректер базасы арқылы алдын ала қарастырумен қатар, процесті басқару мен мәтінді өңдеуде де аса дамыған құралдар қолданыс тапты.
TAUM жүйесінде (Монреаль университеті, Канада, жетекшісі – Р.Китредж) ағылшынша-французша аударма үстірттік (поверхностный) синтез деңгейінде жүзеге асады [40]. Аталған жүйе лексикалық және құрылымдық жағынан өңдеу міндетін атқаратын трансфер топтамасына (блогына) ие. Оған лексемаларды аудару, француз тіліндегі фразаны синтездеуді жеңілдету үшін құрастырушылар таралымының (дерево) кейбір бөліктерін өңдеу, етістіктің шақтық түрін және меңгеру моделін (модели управления) аудару мәселелері қамтылды. Программаны (бағдарламаны) жазу тілі ретінде А.Кольмер құрастырған Q (Quebec) тілі алынған [40, 92-б.]. Бұл жүйедегі талдағыштың комбинаторлығы мен икемділігі (талдаудың алғашқы болжамын аяғына дейін сақтау, ережелердің қолдану тәсілдерінің ретін белгілеу және т.б.) аударманың үстірттік синтаксиске бағышталуына мүмкіндік тудырады.
TAUM жүйесі 1968 жыл мен 1980 жыл аралығында белсенді түрде дамып, нәтижесінде 1977 жылдан бастап аталған жүйе жыл сайын 5 млн. сөз көлеміндегі мәтіндерді аударуды жүзеге асырып, өндірістік жүйе дәрежесіне дейін көтерілді [20, 12-б.].
Чехославакиядағы Карлов университетінің алгебралық және есептеу лингвистикасы тобы П.Сгаллдың ғылыми жетекшілігімен жай сөйлемдерді ағылшын тілінен чех тіліне шектеулі сөздік бойынша аударма жасайтын машиналық аударма жүйесін құрастырды [40, 84-б.]. Бұл жүйеде талдау процесі негізгі төрт кезеңнен тұрады: морфологияға дейінгі талдау, морфологиялық талдау, синтаксистік талдау, аудару. Синтаксистік талдау синтаксистік ережелердің әрекет ету аясының кеңейтілген типі ретінде құрылған: алдымен шағын мәнмәтіннің бірліктері талданады және әрі қарай оның көлемі біртіндеп ұлғайып, сөйлем шеңберінен сырт шығатын мәнмәтін көлеміне дейін өседі. Сондықтан мұны әдеттегі «төменнен жоғары қарай» талдау жағдайына жатқызуға болады. Осыған байланысты синтаксистік талдаудың өзі де бірнеше кезеңге бөлінеді. Аталған жүйеге жүйесіз (нерегулярный) синтаксисті, мағынаны дұрыс ашуға қажетті сөйлемде жоқ элементтерді толықтыру ережелерін талдау үшін «авариялық» деп аталатын грамматика енгізілген. Синтаксистік қатынастарға семантикалық түсініктеме беру тәсілі кең түрде қолданыс тапқан.
Шамамен алғанда, 1970 жылдан бастап, SUSY жүйесін құрастыру жұмысы басталады [40, 90-б.]. Аударма жасау процесі деректерді алдын ала дайындаудан, талдаудан, өңдеуден және синтездеуден тұрады. Аударма алгоритмін жасау әр тілдің грамматикасына тәуелсіз сипаттау принципіне негізделеді, сондықтан жүйеге жаңа тілді қосу әртүрлі жаңа бағдарламаларды құрастыру әрекетін сан жағынан шектейді. Неміс, орыс, ағылшын және француз тілдерін талдау, ал сонымен бірге неміс тіліне қатысты синтездеу жұмыстары жүйелі түрде жүргізілді. Туындау таралымы (дерево) түріндегі «базистік құрылымды» – талдау жұмысының нәтижесі деуге болады. Сөздіктер жүйесі (талдау сөздіктері, семантикалық сөздіктер және аударма сөздіктері) әсіресе талдау процесіндегі семантикалық ақпарат үшін аса маңызды болып келетін кез келген ақпаратты пайдалануға мүмкіндік туғызады. Талдау принципі өзара қисынды түрде құрастырылған: талдаудың бірінші бөлігі «жоғарыдан төменге қарай» өңдеуден басталады, екінші бөлігі «төменнен жоғарыға қарай» өңдеуден басталады, ал үшінші бөлікте алдыңғы екі нәтиже бір-біріне тіркесіп орындалады («жапсырылады»). Талдау соңында бұрыс синтаксистік құрылымды өңдеу шаралары қарастырылған.
Машиналық аудармамен айналысатын ресейлік топтардың сан жағынан аз болуына қарамай, сөз болып отырған екінші кезеңде олардың зерттеу жұмыстарын аса нәтижелі деп сипаттауға болады:
а) лингвистикалық және математикалық жабдықтау тұрғысынан алғанда, бастапқы машиналық аударма жүйелерінің жақсартылған түрлерінің құрастырылуы;
ә) жаңаша типті жүйелердің құрастырылуы (Бүкілодақтық аударма орталығы, А.И.Герцен атындағы ЛГПИ-дегі «Статистика речи» тобы);
б) автоматтанған талдау жүргізетін жүйелердің қарқынды түрде зерттелуі;
в) машиналық аударма жүйелерін әртүрлі мәндік дәрежеге қатысты тәжірибелік сынау деңгейіне дейін жеткізілуі және бұрын-соңды құрастырылған жүйелердің жетістіктері мен кемшіліктері бірдей дәрежеде сыннан өту нәтижелері осыны байқатады.
Аталған кезеңде КСРО ҒА-ның Қолданбалы математика институтында французша-орысша машиналық аударма жүйесінің жаңаша түрі (жаңаша версиясы) құрастырылды. Француз тіліндегі математикалық мәтінді орысшаға аударатын бұл жүйе 1967-1976 жылдар аралығында О.С.Кулагинаның ғылыми жетекшілігі бойынша зерттеу жұмыстарын жалғастырды [19].
Жүйеде аударма әрекетіне қатысты өңдеу жұмыстары былайша іске асты: жүйеге «кіретін» ақпарат французша фразаның үстіңгі синтаксистік құрылымы (фраза бойынша аудару), ал жүйеден «шығатын» ақпарат – мән-мағыналық сәйкестікте тұратын орысша фразаның үстіңгі (поверхностный) синтаксистік құрылымы. Мұндай тәсіл екі түрлі тілдердің сөздері мен фразалары мағыналарының сәйкестігі мен олардың құрылымдық сәйкестік сипатына негізделеді. Бұлайша талдаудың негізгі мақсаты бағыныңқылықтар таралымы (дерево) түріндегі фразалардың синтаксистік құрылымдарының жиынын құру. Осылайша талдау әдісін жүргізе отырып, синтаксистік байланыстың 52 типі жеке түрде бөлініп алынады.
Көпнұсқалық талдауда сүзгі-ережелер жиыны қолданылады. Мұндай әдіс арқылы синтаксистік байланыстың күші мен арақашықтығы және байланыстың ортақ немесе ортақ еместігі (совместность/несовместность связей), құрылымдардың жобалауға болатындығы немесе болмайтындығы (проективность/ непроективность структур) ескеріледі.
Сүзгілерді қолданудың ретіне қарай, олардың иерархиялық айырым-белгілері есепке алынған. Мысалы, алдымен қарапайым сүзгі, сосын барып жалпы, күрделі, ал ең соңында жекеленген жағдайға сай келетін сүзгі түрлері қолданылған. Көпнұсқалы талдау түрлеріне сүйене отырып, болжамдар жиыны ішінен аталған сүзгілер арқылы нақты бір болжамды құрастыруға мүмкіндік туындайды [19; 40].
Орыс тілін синтаксистік талдау арқылы зерттеу жолында машиналық аударманың алғашқы кезеңінде орын алған конфигурациялық талдау идеясы қолданыс тапты. Осының нәтижесінде сөйлем ішіндегі сөздердің әр алуан синтаксистік қатынас типтерін мағыналық тұрғыда сипаттайтын тікелей доминация қатынасы (отношение непосредственной доминации) деп аталатын 31 қатынасы жеке бөлініп алынды. Мұндай синтаксистік талдаудың негізгі мақсаты аударылатын сөйлемнің сөздері арасындағы синтаксистік байланысты анықтау болып табылады. Ол үшін мұндай байланыстарға қажетті тікелей доминация қатынастарын тіркеп жазу және оның мазмұнына қатысты ерекше сипаттамалар сәйкестендірілуі қажет болады. Автоматты талдау жүйесінің мәтінді аудару, реферат алу, ақпаратты іздестіру сияқты қолданбалы мәнімен бірге, теориялық жағы да аса құнды деуге болады. Себебі, талдау алгоритмі «тілдегі талдаушы бөліктің» әрекет ететін және эксперименталды түрде бақыланатын моделі болып табылады [37].
Кезінде Ленинград университетінің математикалық лингвистика зертханасында (НИИММ) ағылшынша-орысша аударма жүйесі тәжірибелік тексеру дәрежесіне дейін жетті [41]. Бұл жүйеде талдау мен жинақтауды бір-біріне тәуелсіз қарастыру мүмкіндігі есепке алынды.
Ал өңдеу мен түсініктеме беру әдістерінің міндеттері – бірізділікке келтіру. Талдау әдісі фразалық және көптік сипатта жүргізілді. Бағыныңқылық грамматикасы моделінің шеңберінде тұжырымдалған лингвистикалық мәліметтер, оларды өңдеу шараларынан (алгоритмдерден) жеке қарастырылды. Ал алгоритм жұмысының нәтижелігі синтаксистік талдау әдісін дұрыс жүргізу, жобалау, тарамдалу (древесность), байланыстың міндеттілігі, ортақтығы және т.б. шарттарын қамтамасыз ету арқылы жүзеге асты.
Көп ұзамай-ақ, жоғарыда аталған зертханада байланыстың тұйықталу сипатына айрықша мән беру мен реттілікті есепке алатын орыс тілінің синтаксистік жүйесін құру және оны тәжірибелік сынақтан өткізу жұмысы жүргізіледі [42].
Ю.Д.Апресянның жетекшілігімен ИНФ-ЭЛ атты лингвистикалық жағынан аса күшті жабдықталған французша-орысша аударма жасау жүйесі құрылды [40].
Аударма үстіңгі (поверхностный) синтаксистік құрылым деңгейінде жүргізіліп, мына принциптерге негізделді:
1) аударылуға тиісті тілдердің грамматикаларының сипатталуы «мән–мағына–мәтін» («смысл–текст») атты бірыңғай модель негізінде құрылуы;
2) талдау мен жинақтау ережелерінің бір-біріне ауысу мүмкіндігіне және олардағы ақпарат көлемінің жеткілікті болуы;
3) грамматика мен сөздікке қатысты сипаттаулардың алгоритмдер мен программалардан бөлектік сипаты (аудармаға қатысты ережелерден басқа);
4) аударуға қатысты тілдердің сипаттауларының тәуелсіздігі;
5) әртүрлі пәндік салаларға бейімделуінің әмбебаптылығы;
6) лингвистикалық білімді бейнелеу үшін формалды аппаратты (модель және тіл) құру.
Бірінші кезекті ИНФ-ЭЛ жүйесі «ИРИС-50» ЭЕМ-да жүзеге асты.
Мәскеудегі М.Торез атындағы шет тілдер институтында АРМАС атты машиналық аударма жүйесі үшін көпаспектілі ағылшынша-орысша сөздік құрастырылды. Оның мақалалары сөздік бірлігінің әр алуан лингвистикалық сипаттамаларын қамтиды: морфологиялық, синтаксистік, семантикалық, лексикалық қызметі жайлы мәліметтер, меңгеру моделіне қатысты аударма баламалары жайлы және т.б. [43].
Бұл сөздік АРАП атты ағылшынша-орысша автоматтыаударма жүйесінің лингвистикалық жабдықталуының маңызды бөлігі ретінде түзілді (жетекшісі – З.М.Шаляпина). АРАП жүйесі үшін қабылданған ұстаным ЯРАП атты жапонша-орысша автоматты аударма жүйесі үшін де қолданылды.
Аталған жүйелер үшін талдау жұмысы семантика-синтаксистік деңгейде жүргізілді. Тілдік бірліктердің семантикалық тіркесін зерттеу мақсатында арнаулы тіл құрастырылып, барлық негізгі лингвистикалық ақпараттар біртиптік сөздік мақалалары түрінде көрініс тапты. Оларда сөздік бірліктері грамматикалық, лексикалық, тіркесімдік және басқа да әр фразаны аударуға жеткілікті белгілер түрінде көрініс тапты.
Бүкілодақтық аударма орталығы жұмысының екінші кезеңінде бірнеше аударма жүйелері құрастырылды. Олардың ішінен тек екеуін ғана атап өтейік: Н.Н.Леонтьева жетекшілік еткен ФРАП атты французша-орысша автоматты аударма жүйесі [44] және Ю.Н.Марчук жетекшілік еткен АМПАР атты ағылшынша-орысша автоматты жүйе [45].
ФРАП жүйесі аудармашының әрекетін модельдеуге арналған аса қызықты талпыныс деуге болады. Аударылатын мәтін тілінің аудармашының ана тіліне қатысты еместігі ескерілді, сондықтан мәтін ішінде аудармашыға белгісіз тілдік элементтердің кездесетіндігі де есепке алынған. Ғылыми тұрғыдағы мұндай зерттеудің мақсаты – таза грамматикалық тәсілдің «күшін» анықтау. Осыған байланысты аударма процесі қажетті фразаны талдау деңгейінің белгілі сатысына сәйкес келетін көптеген топтамаларға (блоктарға) бөлінеді. Ең алдымен формалды-грамматикалық құралдардың барлық мүмкіндіктері пайдаланылады, ал содан кейін ғана талдаудың семантикалық деңгейі іске қосылады. Семантикалық деңгейдің грамматикалық деңгей тәріздес, сан жағынан бірнешеу болуы алдын ала ескерілген. ФРАП жүйесіндегі аударманың концепциясы жүйенің синтаксистік компонентінің «күшін» бағалайды. Бұл жүйенің ерекшелігі – аса дамыған семантикалық аппаратпен әрекет етуі. Бірінші синтаксистік топтаманың жұмысы аяқталғаннан кейін ғана келесі семантикалық аппаратқа бетбұрыс басталады. Жүйенің әр деңгейіндегі ішкі кішігірім жүйелерді тәжірибелік сынақтан өткізу де алдын ала қарастырылған.
Грамматикалық және дамыған лексикалық талдауларға бағышталған АМПАР жүйесі де көпдеңгейлі. Онда сөз айналымдары, бірмағыналы және көпмағыналы сөздер жеке топтамалар арқылы өңделіп, тек сөйлем құрылымдары ғана өзгеріске ұшырайды. Аталған жүйе іс жүзінде қолданыс табуда.
Белгілі ғалым, профессор Р.Г.Пиотровский жетекшілік ететін Бүкілодақтық «Статистика речи» тобы 1970 жылдан бастап машиналық аударма жүйесі бойынша зерттеулер жүргізді. Бұл жүйе қазіргі уақытта да актуалды болып саналатын итеративті-стратификациялық тәсілге негізделеді. Мұндай әдіс бойынша аударуға тиісті мәтінді қайшылықсыз сипаттау үшін ол кезеңдік сипатта қарастырылуы қажет.
Ленинградтағы А.И.Герцен атындағы Педагогикалық институттың инженерлік лингвистика зертханасында 1975 жылдан бастап зерттеле бастаған СИЛОД атты аударма жүйесі көптілді жүйе ретінде өз міндетін атқара бастады. Оның сөздіктермен және морфологиялық тұрғыда жабдықталуы аса күшті және құрамында трансфер қолданыс табатын грамматикасы бар жүйе болып саналады.
Осы кезеңдерде ағылшынша-орысша және французша-орысша машиналық аударманың түрлері құрастырылып, тәжірибелік сыннан өтеді. Осы әрекеттердің нәтижесінде жекеленген синтаксистік конструкциялардың құрылымы мен мағынасын тануға мүмкіндік тудыратын талдаудың фреймдік және тезаурустық негіздері қаланады [46; 47; 48]. Аталған жүйеде машиналық аударманың алғашқы кезеңінде ұсынылған «фулькрумдар» әдісінің дамыған түрі ретінде саналатын машиналық аударма алгоритмдерін деңгейлік тұрғыда құрастыру ескерілген.
Машиналық аударма жүйелерін құрастырудың екінші кезеңін қысқаша қарастыра отырып, олардың негізгі сипаттамалары мен жалпы ерекшеліктерін былайша атап кетуге болады [19; 25]:
1) көпдеңгейлі талдау мен синтаксистік деңгейдің толық дәрежеде көрініс табуы;
2) талдау нәтижелерінің көпнұсқалылығы. Аталған жайт көптеген мүмкіндіктердің ішінен ең дұрысы деп саналатын біреуін ғана таңдап алу ықтималдығын күшейтеді.
3) лингвистикалық мәліметтерді сақтайтын қатал алгоритмнен барынша «жұмсақ» жүйеге ауысу мүмкіндігі. Соңғы жүйеде барлық лингвистикалық мәліметтер олардың алгоритмінен бөлектелген [41; 19].
Жоғарыда аталған жүйелердің сипаттамалары мен ерекшеліктері машиналық аударма жұмысын ұйымдастыруға оң әсерін тигізді. Басқаша айтқанда, олар тілшілер мен математика мамандарына жүйенің ерекшелік аспектілерін қарқынды түрде зерттеуге бағыт-бағдар беріп, ынталандыруға себепші болды. Сонымен бірге аталған жайт тілдің формалды моделін құру жолын зерттеу мен оны дұрыс қолдану мүмкіндіктерін анықтауды қажет етті. Ал табиғи тілді формалды сипаттау әдісі грамматикаларды бірізділікке келтіруге мүмкіндік тудырды. Сондықтан машиналық аударманың даму кезеңінің екінші сатысында әртүрлі тілдерді сипаттау үшін формалды модельдер қолданумен бірге тілдік деректерді қалаған дәлдікпен (адекватно) сипаттауға мүмкіндігі мол жаңа модельдер үлгісін құру қажет болды.
Сонымен, машиналық аударманың даму кезеңінің екінші сатысы бірінші буынға қатысты практикалық жүйелердің дамуымен, тәжірибе жинақтаумен, оны іске қосумен, сөздік базасының кең түрде өріс алуымен және тәжірибелік тұрғыда болса да барынша жабдықталған теориялық жүйелерді құрумен сипатталады.
Қол жеткен практикалық және теориялық нәтижелер машиналық аударманың даму сатысының келесі үшінші кезеңіне көшуге даяр екендігінің айғағы болып саналды. Бірақ келесі сатыға өту жолы бірнеше экстралингвистикалық деректерді алдын ала анықтап алуды u
Дата добавления: 2014-11-30; просмотров: 9659;