Šta radi računarska lingvistika? Računalna lingvistika je nemoćna da nam pomogne u obradi teksta. Na osnovu korpusa možete dobiti podatke

lingvistika statistički lingvistički softver

Istorija razvoja računarske lingvistike

Proces formiranja i formiranja savremene lingvistike kao nauke o prirodnom jeziku predstavlja dug istorijski razvoj lingvističkog znanja. Jezičko znanje se zasniva na elementima koji su nastali u procesu aktivnosti neraskidivo povezane sa razvojem strukture usmenog govora, nastankom, daljim razvojem i usavršavanjem pisanja, učenjem pisanja, kao i tumačenjem i dekodiranjem tekstova.

Prirodni jezik kao predmet lingvistike zauzima centralno mjesto u ovoj nauci. U procesu razvoja jezika mijenjale su se i ideje o njemu. Ako se ranije nije pridavao poseban značaj unutrašnjoj organizaciji jezika, već je razmatran prvenstveno u kontekstu njegovog odnosa sa vanjskim svijetom, onda je, počevši od kasnog 19. - početka 20. stoljeća, posebna uloga pridavana unutrašnjem formalna struktura jezika. U tom periodu poznati švicarski lingvista Ferdinand de Saussure razvio je temelje takvih nauka kao što su semiologija i strukturalna lingvistika, te ih je detaljno iznio u svojoj knjizi „Kurs opće lingvistike“ (1916).

Naučnik je došao na ideju da jezik posmatra kao jedinstveni mehanizam, integralni sistem znakova, koji zauzvrat omogućava da se jezik opiše matematički. Saussure je bio prvi koji je predložio strukturalni pristup jeziku, odnosno: opis jezika proučavanjem odnosa između njegovih jedinica. Pod jedinicama, ili „znakovima“, on je razumeo reč koja kombinuje i značenje i zvuk. Koncept koji je predložio švajcarski naučnik zasniva se na teoriji jezika kao sistema znakova koji se sastoji od tri dela: jezika (od francuskog langue), govora (iz francuskog parole) i govorne aktivnosti (iz francuskog langage).

Sam naučnik je definisao nauku koju je stvorio, semiologiju, kao „nauku koja proučava život znakova u okviru života društva“. Pošto je jezik znakovni sistem, u potrazi za odgovorom na pitanje koje mjesto lingvistika zauzima među drugim naukama, Sossure je tvrdio da je lingvistika dio semiologije. Općenito je prihvaćeno da je švicarski filolog postavio teorijske temelje za novi smjer u lingvistici, postavši osnivač i „otac“ moderne lingvistike.

Koncept koji je iznio F. de Saussure dalje je razvijen u radovima mnogih istaknutih naučnika: u Danskoj - L. Hjelmslev, u Češkoj - N. Trubetskoy, u SAD - L. Bloomfield, Z. Harris, N. Chomsky. Što se tiče naše zemlje, ovdje je strukturalna lingvistika započela svoj razvoj otprilike u istom vremenskom periodu kao i na Zapadu - na prijelazu iz 19. u 20. stoljeće. - u djelima F. Fortunatova i I. Baudouin de Courtenaya. Treba napomenuti da je I. Baudouin de Courtenay blisko sarađivao sa F. de Saussureom. Ako je Saussure postavio teorijske temelje strukturalne lingvistike, onda se Baudouin de Courtenay može smatrati osobom koja je postavila temelje za praktičnu primjenu metoda koje je predložio švicarski naučnik. On je definisao lingvistiku kao nauku koja koristi statističke metode i funkcionalne zavisnosti i odvojio je od filologije. Prvo iskustvo u primjeni matematičkih metoda u lingvistici bila je fonologija - nauka o strukturi glasova jezika.

Treba napomenuti da su se postulati koje je iznio F. de Saussure mogli odraziti na probleme lingvistike koji su bili aktuelni sredinom 20. stoljeća. U tom periodu je postojala jasna tendencija prema matematiizaciji nauke o jeziku. U gotovo svim velikim zemljama počinje brzi razvoj nauke i kompjuterske tehnologije, što je zauzvrat zahtijevalo sve nove lingvističke osnove. Rezultat svega je bila brza konvergencija egzaktnih i humanističkih nauka, kao i aktivna interakcija matematike i lingvistike, koja je našla praktičnu primjenu u rješavanju gorućih naučnih problema.

50-ih godina 20. stoljeća, na sjecištu nauka kao što su matematika, lingvistika, informatika i umjetna inteligencija, nastao je novi smjer nauke - kompjuterska lingvistika (poznata i kao mašinska lingvistika ili automatska obrada teksta na prirodnom jeziku). Glavne faze razvoja ovog pravca odvijale su se u pozadini evolucije metoda umjetne inteligencije. Snažan podsticaj za razvoj kompjuterske lingvistike bilo je stvaranje prvih kompjutera. Međutim, s pojavom nove generacije kompjutera i programskih jezika 60-ih godina počinje fundamentalno nova faza u razvoju ove nauke. Takođe treba napomenuti da počeci računarske lingvistike sežu do radova poznatog američkog lingviste N. Čomskog u oblasti formalizacije strukture jezika. Rezultati njegovog istraživanja, dobijeni na razmeđu lingvistike i matematike, bili su osnovu za razvoj teorije formalnih jezika i gramatike (generativne, ili generativne gramatike), koja se naširoko koristi za opisivanje prirodnih i veštačkih. jezika, posebno programskih jezika. Tačnije, ova teorija je potpuno matematička disciplina. Može se smatrati jednim od prvih u takvom smjeru primijenjene lingvistike kao što je matematička lingvistika.

Prvi eksperimenti i prvi razvoj u kompjuterskoj lingvistici odnose se na stvaranje sistema mašinskog prevođenja, kao i sistema koji modeliraju sposobnosti ljudskog jezika. Krajem 80-ih, sa pojavom i aktivnim razvojem Interneta, došlo je do brzog rasta obima tekstualnih informacija dostupnih u elektronskom obliku. To je dovelo do činjenice da su tehnologije za pronalaženje informacija prešle u kvalitativno novu fazu svog razvoja. Pojavila se potreba za automatskom obradom tekstova na prirodnom jeziku i pojavili su se potpuno novi zadaci i tehnologije. Naučnici su suočeni s problemom brze obrade ogromnog toka nestrukturiranih podataka. Kako bi se pronašlo rješenje ovog problema, veliki značaj je pridat razvoju i primjeni statističkih metoda u oblasti automatske obrade teksta. Uz njihovu pomoć postalo je moguće riješiti takve probleme kao što su podjela tekstova u klastere ujedinjene zajedničkom temom, isticanje određenih fragmenata u tekstu itd. Osim toga, korištenje metoda matematičke statistike i strojnog učenja omogućilo je rješavanje problema prepoznavanja govora i kreiranja pretraživača.

Naučnici se nisu zaustavili na postignutim rezultatima: nastavili su postavljati sebi nove ciljeve i zadatke, razvijati nove tehnike i metode istraživanja. Sve je to dovelo do toga da je lingvistika počela djelovati kao primijenjena nauka, kombinujući niz drugih znanosti, među kojima je vodeća uloga pripadala matematici sa svojom raznolikošću kvantitativnih metoda i sposobnošću da ih koristi za dublje razumijevanje pojava. se proučava. Tako je matematička lingvistika započela svoje formiranje i razvoj. Ovo je trenutno prilično „mlada“ nauka (postoji pedesetak godina), međutim, uprkos veoma „mladoj dobi“, predstavlja već uspostavljenu oblast naučnog znanja sa brojnim uspešnim dostignućima.

NASTAVNI RAD

u disciplini "Informatika"

na temu: “Računarska lingvistika”

UVOD

1. Mjesto i uloga računarske lingvistike u lingvističkim istraživanjima

2. Savremeni interfejsi za računarsku lingvistiku

ZAKLJUČAK

LITERATURA

Uvod

Automatizovane informacione tehnologije igraju važnu ulogu u životu modernog društva. Vremenom se njihov značaj stalno povećava. Ali razvoj informacione tehnologije je vrlo neujednačen: ako je savremeni nivo računarske tehnologije i komunikacija nevjerovatan, onda su u području semantičke obrade informacija uspjesi mnogo skromniji. Ovi uspjesi zavise, prije svega, od dostignuća u proučavanju procesa ljudskog mišljenja, procesa verbalne komunikacije među ljudima i sposobnosti modeliranja ovih procesa na kompjuteru.

Kada je u pitanju stvaranje obećavajućih informacionih tehnologija, problem automatske obrade tekstualnih informacija predstavljenih na prirodnim jezicima dolazi do izražaja. To je određeno činjenicom da je razmišljanje osobe usko povezano s njegovim jezikom. Štaviše, prirodni jezik je sredstvo za razmišljanje. Također je univerzalno sredstvo komunikacije među ljudima – sredstvo percepcije, akumulacije, skladištenja, obrade i prijenosa informacija. Nauka kompjuterske lingvistike bavi se problemima upotrebe prirodnog jezika u sistemima za automatsku obradu informacija. Ova nauka je nastala relativno nedavno - na prelazu pedesetih i šezdesetih godina prošlog veka. U proteklih pola veka postignuti su značajni naučni i praktični rezultati u oblasti kompjuterske lingvistike: sistemi za mašinsko prevođenje tekstova sa jednog prirodnog jezika na drugi, sistemi za automatizovano pronalaženje informacija u tekstovima, sistemi za automatsku analizu i sintezu usmenog teksta. govora i mnogi drugi su stvoreni. Ovaj rad je posvećen konstrukciji optimalnog računarskog interfejsa korišćenjem računarske lingvistike prilikom lingvističkih istraživanja.

U savremenom svijetu računarska lingvistika se sve više koristi u izvođenju različitih lingvističkih studija.

Računarska lingvistika je oblast znanja povezana sa rešavanjem problema automatske obrade informacija predstavljenih na prirodnom jeziku. Centralni naučni problemi kompjuterske lingvistike su problem modeliranja procesa razumevanja značenja tekstova (prelazak sa teksta na formalizovanu reprezentaciju njegovog značenja) i problem sinteze govora (prelazak sa formalizovane reprezentacije značenja na tekstove u prirodnom obliku). jezik). Ovi problemi nastaju prilikom rješavanja niza primijenjenih problema, a posebno problema automatskog otkrivanja i ispravljanja grešaka pri unosu tekstova u računar, automatske analize i sinteze usmenog govora, automatskog prevođenja tekstova s jednog jezika na drugi, komunikacije sa kompjuter na prirodnom jeziku, automatska klasifikacija i indeksiranje tekstualnih dokumenata, njihovo automatsko apstrahovanje, traženje dokumenata u bazama punog teksta.

Jezički alati stvoreni i korišteni u računarskoj lingvistici mogu se podijeliti na dva dijela: deklarativni i proceduralni. Deklarativni dio obuhvata rječnike jezika i govornih jedinica, tekstova i raznih vrsta gramatičkih tabela, proceduralni dio uključuje sredstva za manipulaciju jezikom i govornim jedinicama, tekstovima i gramatičkim tablicama. Računarski interfejs se odnosi na proceduralni deo računarske lingvistike.

Uspeh u rešavanju primenjenih problema kompjuterske lingvistike zavisi, pre svega, od potpunosti i tačnosti predstavljanja deklarativnih sredstava u računarskoj memoriji i od kvaliteta proceduralnih sredstava. Do danas još nije postignut potreban nivo rješavanja ovih problema, iako se radovi u oblasti računarske lingvistike izvode u svim razvijenim zemljama svijeta (Rusija, SAD, Engleska, Francuska, Njemačka, Japan itd.). ).

Ipak, mogu se uočiti ozbiljna naučna i praktična dostignuća u oblasti računarske lingvistike. Tako su u nizu zemalja (Rusija, SAD, Japan, itd.) izgrađeni eksperimentalni i industrijski sistemi za mašinsko prevođenje tekstova sa jednog jezika na drugi, izgrađen je niz eksperimentalnih sistema za komunikaciju sa računarima na prirodnom jeziku. , radi se na izradi terminoloških baza podataka, tezaurusa, dvojezičnih i višejezičnih mašinskih rečnika (Rusija, SAD, Nemačka, Francuska, itd.), grade se sistemi za automatsku analizu i sintezu usmenog govora (Rusija, SAD, Japan itd. .), provode se istraživanja u oblasti konstruisanja modela prirodnog jezika.

Važan metodološki problem primenjene računarske lingvistike je ispravna procena neophodnog odnosa između deklarativne i proceduralne komponente sistema za automatsku obradu tekstualnih informacija. Šta bi trebalo dati prednost: moćne računske procedure zasnovane na relativno malom sistemu vokabulara sa bogatim gramatičkim i semantičkim informacijama, ili moćnoj deklarativnoj komponenti sa relativno jednostavnim računarskim interfejsima? Većina naučnika smatra da je drugi način poželjniji. To će dovesti do bržeg ostvarivanja praktičnih ciljeva, jer će biti manje ćorsokaka i prepreka koje je teško savladati, a ovdje će biti moguće koristiti kompjutere u većem obimu za automatizaciju istraživanja i razvoja.

Potrebu za mobilizacijom napora, prije svega, na razvoju deklarativne komponente sistema za automatsku obradu tekstualnih informacija potvrđuje i pola vijeka iskustva u razvoju kompjuterske lingvistike. Uostalom, ovdje, uprkos neospornim uspjesima ove nauke, strast za algoritamskim procedurama nije donijela očekivani uspjeh. Bilo je čak i razočarenja u mogućnosti procesnih sredstava.

U svjetlu navedenog, čini se obećavajućim razvoj takvog puta razvoja kompjuterske lingvistike, kada će glavni napori biti usmjereni na stvaranje moćnih rječnika jezičnih i govornih jedinica, proučavanje njihove semantičko-sintaksičke strukture i kreiranje osnovnih postupaka za morfološke, semantičko-sintaksičke i konceptualne analize i sinteze tekstova. To će nam omogućiti da u budućnosti riješimo širok spektar primijenjenih problema.

Računarska lingvistika se, prije svega, suočava sa zadacima lingvističke podrške procesima prikupljanja, akumuliranja, obrade i preuzimanja informacija. Najvažnije od njih su:

1. Automatizacija sastavljanja i lingvističke obrade mašinskih rečnika;

2. Automatizacija procesa otkrivanja i ispravljanja grešaka pri unosu tekstova u računar;

3. Automatsko indeksiranje dokumenata i zahtjeva za informacijama;

4. Automatska klasifikacija i apstrahovanje dokumenata;

5. Jezička podrška procesima pronalaženja informacija u jednomjezičnim i višejezičnim bazama podataka;

6. Mašinsko prevođenje tekstova sa jednog prirodnog jezika na drugi;

7. Izgradnja lingvističkih procesora koji osiguravaju komunikaciju korisnika sa automatizovanim inteligentnim informacionim sistemima (posebno ekspertnim sistemima) na prirodnom jeziku, ili na jeziku bliskom prirodnom;

8. Izdvajanje činjeničnih informacija iz neformalnih tekstova.

Zaustavimo se detaljno na problemima koji su najvažniji za temu istraživanja.

U praktičnoj delatnosti informacionih centara javlja se potreba da se reši problem automatizovanog otkrivanja i ispravljanja grešaka u tekstovima prilikom njihovog unosa u računar. Ovaj složeni zadatak se uslovno može podijeliti na tri zadatka - zadatke pravopisne, sintaktičke i semantičke kontrole tekstova. Prvi od njih može se riješiti korištenjem postupka morfološke analize koji koristi prilično moćan referentni strojni rječnik temelja riječi. U procesu kontrole pravopisa riječi teksta podliježu morfološkoj analizi, a ako se njihove osnove poistovjećuju s osnovama referentnog rječnika, onda se smatraju ispravnim; ako nisu identificirani, onda se, uz mikrokontekst, predstavljaju osobi na uvid. Osoba otkriva i ispravlja iskrivljene riječi, a odgovarajući softverski sistem vrši te ispravke u ispravljenom tekstu.

Zadatak sintaktičke kontrole tekstova radi otkrivanja grešaka u njima mnogo je složeniji od zadatka kontrole njihovog pravopisa. Prvo, zato što uključuje zadatak kontrole pravopisa kao svoju obaveznu komponentu, i, drugo, zato što problem sintaksičke analize neformalnih tekstova još nije u potpunosti riješen. Međutim, djelomična sintaktička kontrola tekstova je sasvim moguća. Ovdje možete ići na dva načina: ili sastavite prilično reprezentativne mašinske rječnike referentnih sintaksičkih struktura i uporedite sintaksičke strukture analiziranog teksta s njima; ili razviti složen sistem pravila za provjeru gramatičke konzistentnosti elemenata teksta. Prvi put nam se čini obećavajućim, iako, naravno, ne isključuje mogućnost korištenja elemenata drugog puta. Sintaksičku strukturu tekstova treba opisati u terminima gramatičkih klasa riječi (tačnije, u obliku nizova skupova gramatičkih informacija za riječi).

Zadatak semantičke kontrole tekstova radi otkrivanja semantičkih grešaka u njima treba svrstati u klasu zadataka umjetne inteligencije. U potpunosti se može riješiti samo na osnovu modeliranja procesa ljudskog mišljenja. U ovom slučaju, očigledno će biti potrebno stvoriti moćne enciklopedijske baze znanja i softverske alate za manipulaciju znanjem. Ipak, za ograničena područja predmeta i za formalizovane informacije, ovaj zadatak je potpuno rješiv. Treba ga postaviti i riješiti kao problem semantičko-sintaksičke kontrole tekstova.

Filološki fakultet Više ekonomske škole pokreće novi magistarski program posvećen računarskoj lingvistici: prima kandidate sa osnovnim humanističkim i matematičkim obrazovanjem i sve koji su zainteresovani za rješavanje problema u jednoj od najperspektivnijih grana nauke. . Njena direktorica, Anastasia Bonch-Osmolovskaya, rekla je Teoriji i praktičarima šta je računarska lingvistika, zašto roboti neće zamijeniti ljude i šta će predavati na HSE master programu iz računarske lingvistike.

Ovaj program je gotovo jedini te vrste u Rusiji. Gdje si studirao?

Studirao sam na Moskovskom državnom univerzitetu na odsjeku za teorijsku i primijenjenu lingvistiku Filološkog fakulteta. Nisam odmah stigao, prvo sam upisao ruski odsek, a onda sam se ozbiljno zainteresovao za lingvistiku i privukla me atmosfera koja je ostala na katedri do danas. Najvažnije je dobar kontakt između nastavnika i učenika i njihov zajednički interes.

Kada sam dobio djecu i trebao sam zaraditi za život, otišao sam u polje komercijalne lingvistike. 2005. godine nije bilo baš jasno šta je to područje djelovanja kao takvo. Radio sam u različitim lingvističkim kompanijama: počeo sam sa malom kompanijom na sajtu Public.ru - ovo je neka vrsta medijateke, gde sam počeo da radim na lingvističkim tehnologijama. Tada sam godinu dana radio u Rosnanotechu, gdje je postojala ideja da napravim analitički portal kako bi podaci na njemu bili automatski strukturirani. Tada sam vodio lingvistički odjel u kompaniji Avicomp - ovo je već ozbiljna produkcija u oblasti kompjuterske lingvistike i semantičkih tehnologija. Istovremeno, predavao sam kurs računarske lingvistike na Moskovskom državnom univerzitetu i pokušao da ga učinim modernijim.

Dva resursa za lingviste: - sajt koji su kreirali lingvisti za naučna i primenjena istraživanja vezana za ruski jezik. Ovo je model ruskog jezika, predstavljen upotrebom ogromnog niza tekstova iz različitih žanrova i perioda. Tekstovi su opremljeni jezičkim oznakama uz pomoć kojih se mogu dobiti informacije o učestalosti pojedinih jezičkih pojava. Wordnet je ogromna leksička baza podataka engleskog jezika, glavna ideja Wordneta je da poveže ne riječi, već njihova značenja u jednu veliku mrežu. Wordnet se može preuzeti i koristiti za svoje projekte.

Šta radi računarska lingvistika?

Ovo je najinterdisciplinarnija oblast. Ovdje je najvažnije razumjeti šta se dešava u elektronskom svetu i ko će vam pomoći da uradite određene stvari.

Okruženi smo jako velikom količinom digitalnih informacija, postoji mnogo poslovnih projekata čiji uspjeh zavisi od obrade informacija, ti projekti se mogu odnositi na oblast marketinga, politike, ekonomije i bilo čega drugog. I vrlo je važno biti u stanju efikasno rukovati ovim informacijama – glavna stvar nije samo brzina obrade informacija, već i lakoća s kojom možete, nakon filtriranja buke, dobiti podatke koji su vam potrebni i kreirati kompletan slika sa njega.

Ranije su se neke globalne ideje povezivale s kompjuterskom lingvistikom, na primjer: ljudi su mislili da će strojno prevođenje zamijeniti ljudski prijevod, da će roboti raditi umjesto ljudi. Ali sada se to čini kao utopija, a mašinsko prevođenje se koristi u pretraživačima za brzo pretraživanje na nepoznatom jeziku. Odnosno, sada se lingvistika rijetko bavi apstraktnim problemima - uglavnom s nekim malim stvarima koje se mogu ubaciti u veliki proizvod i zaraditi na njemu.

Jedan od velikih zadataka moderne lingvistike je semantička mreža, kada se pretraga ne odvija samo po podudaranju riječi, već i po značenju, a sve stranice su na ovaj ili onaj način označene semantikom. Ovo može biti korisno, na primjer, za policijske ili medicinske izvještaje koji se pišu svaki dan. Analiza internih veza pruža mnogo potrebnih informacija, ali ručno čitanje i izračunavanje oduzima nevjerovatno mnogo vremena.

Ukratko, imamo hiljadu tekstova, treba ih sortirati u grupe, svaki tekst predstaviti u obliku strukture i dobiti tabelu sa kojom već možemo raditi. To se zove nestrukturirana obrada informacija. S druge strane, kompjuterska lingvistika se bavi, na primjer, stvaranjem umjetnih tekstova. Postoji kompanija koja je osmislila mehanizam za generisanje tekstova na teme o kojima je čovek dosadan: promene cena nekretnina, vremenska prognoza, izveštaji sa fudbalskih utakmica. Mnogo je skuplje naručiti ove tekstove za osobu, a kompjuterski tekstovi o takvim temama pisani su koherentnim ljudskim jezikom.

Yandex je aktivno uključen u razvoj na polju traženja nestrukturiranih informacija u Rusiji. Kaspersky Lab angažuje istraživačke grupe koje proučavaju mašinsko učenje. Da li neko na tržištu pokušava da smisli nešto novo u oblasti računarske lingvistike?

**Knjige o računarskoj lingvistici:**

Daniel Jurafsky, Obrada govora i jezika

Christopher Manning, Prabhakar Raghavan, Heinrich Schuetze, "Uvod u pronalaženje informacija"

Yakov Testelets, “Uvod u opštu sintaksu”

Većina jezičkih razvoja vlasništvo je velikih kompanija, gotovo ništa se ne može naći u javnom domenu. To usporava razvoj industrije, nemamo slobodno jezičko tržište ili pakirana rješenja.

Osim toga, postoji nedostatak sveobuhvatnih izvora informacija. Postoji takav projekat kao što je Nacionalni korpus ruskog jezika. Ovo je jedna od najboljih nacionalnih građevina na svijetu, koja se ubrzano razvija i otvara nevjerovatne mogućnosti za naučna i primijenjena istraživanja. Razlika je otprilike ista kao u biologiji - prije istraživanja DNK i poslije.

Ali mnogi izvori ne postoje na ruskom. Dakle, nema analoga tako divnom izvoru na engleskom jeziku kao što je Framenet - ovo je konceptualna mreža u kojoj su formalno predstavljene sve moguće veze određene riječi s drugim riječima. Na primjer, postoji riječ "letjeti" - ko može letjeti, gdje, s kojim prijedlogom se koristi ova riječ, s kojim se riječima kombinuje i tako dalje. Ovaj resurs pomaže da se jezik poveže sa stvarnim životom, odnosno da se prati kako se određena riječ ponaša na nivou morfologije i sintakse. Ovo je veoma korisno.

Kompanija Avicomp trenutno razvija dodatak za pretraživanje članaka sličnog sadržaja. Odnosno, ako ste zainteresirani za članak, možete brzo pogledati povijest radnje: kada se pojavila tema, šta je napisano i kada je bio vrhunac interesovanja za ovaj problem. Na primjer, uz pomoć ovog dodatka bit će moguće, počevši od članka posvećenog događajima u Siriji, vrlo brzo vidjeti kako su se događaji tamo razvijali u protekloj godini.

Kako će biti strukturiran proces učenja na master programu?

Obrazovanje na HSE-u organizirano je u odvojenim modulima, kao i na zapadnim univerzitetima. Studenti će biti podijeljeni u male timove, mini-startape – odnosno na kraju bi trebali dobiti nekoliko gotovih projekata. Želimo dobiti prave proizvode, koje ćemo onda otvoriti ljudima i ostaviti u javnom vlasništvu.

Pored neposrednih projekt menadžera studenata, želimo im pronaći kustose među njihovim potencijalnim poslodavcima - iz istog Yandexa, na primjer, koji će također igrati ovu igricu i studentima dati neke savjete.

Nadam se da će na master studij dolaziti ljudi iz raznih oblasti: programeri, lingvisti, sociolozi, trgovci. Imaćemo nekoliko kurseva adaptacije iz lingvistike, matematike i programiranja. Zatim ćemo imati dva rigorozna kursa iz lingvistike, a oni će se odnositi na najaktuelnije lingvističke teorije, želimo da naši diplomci mogu čitati i razumjeti moderne lingvističke članke. Isto je i sa matematikom. Imaćemo kurs pod nazivom „Matematičke osnove računarske lingvistike“, koji će ocrtati one grane matematike na kojima se bazira savremena računarska lingvistika.

Za upis na master studij potrebno je položiti prijemni ispit iz jezika i položiti portfolio konkurs.

Pored glavnih predmeta, postojaće i niz izbornih predmeta. Planirali smo nekoliko ciklusa - dva su usmerena na dublje proučavanje pojedinačnih tema, koje uključuju, na primer, mašinsko prevođenje i korpusnu lingvistiku. a jedan je, naprotiv, povezan sa srodnim oblastima: kao što su društvene mreže, mašinsko učenje ili digitalne humanističke nauke – kurs za koji se nadamo da će se predavati na engleskom.

Kompjuterski lingvisti se bave razvojem algoritama za prepoznavanje teksta i govora, sintezom veštačkog govora, stvaranjem semantičkih sistema prevođenja i samim razvojem veštačke inteligencije (u klasičnom smislu reči - kao zamena za ljudsku inteligenciju - ona malo je vjerovatno da će se ikada pojaviti, ali različiti ekspertni sistemi zasnovani na analizi podataka).

Algoritmi za prepoznavanje govora će se sve više koristiti u svakodnevnom životu – pametni domovi i elektronski uređaji neće imati daljinske upravljače i dugmad, već će se umjesto njih koristiti glasovni interfejs. Ova tehnologija se usavršava, ali još uvijek ima mnogo izazova: kompjuteru je teško prepoznati ljudski govor jer različiti ljudi govore veoma različito. Stoga, po pravilu, sistemi za prepoznavanje dobro funkcionišu ili kada su obučeni za jednog govornika i već su prilagođeni njegovim karakteristikama izgovora, ili kada je broj fraza koje sistem može prepoznati ograničen (kao, na primjer, u glasovnim komandama za TV).

Stručnjaci za kreiranje programa semantičkog prevođenja imaju još puno posla: trenutno su razvijeni dobri algoritmi samo za prevođenje na engleski i s engleskog. Ovdje ima mnogo problema - različiti jezici su različito semantički strukturirani, to se razlikuje čak i na razini građenja fraza, a ne mogu se sva značenja jednog jezika prenijeti pomoću semantičkog aparata drugog. Osim toga, program mora razlikovati homonime, pravilno prepoznati dijelove govora i odabrati ispravno značenje polisemantičke riječi koja odgovara kontekstu.

Sinteza umjetnog govora (na primjer, za kućne robote) također je mukotrpan posao. Teško je učiniti da umjetno stvoreni govor zvuči prirodno ljudskom uhu, jer postoje milioni nijansi na koje ne obraćamo pažnju, ali bez kojih sve više nije „isto“ – lažni startovi, pauze, oklijevanja itd. Tok govora je kontinuiran i istovremeno diskretan: govorimo bez pauze između riječi, ali nam nije teško razumjeti gdje jedna riječ završava, a gdje počinje druga, ali za mašinu bi to bio veliki problem.

Najveći pravac u računarskoj lingvistici vezan je za Big Data. Uostalom, postoje ogromni korpusi tekstova kao što su news feedovi, iz kojih je potrebno izdvojiti određene informacije - na primjer, istaknuti news feedove ili prilagoditi RSS ukusu određenog korisnika. Takve tehnologije već postoje i nastaviće da se razvijaju, jer računarska snaga brzo raste. Jezička analiza teksta se također koristi za osiguranje internetske sigurnosti i traženje potrebnih informacija za obavještajne službe.

Gdje studirati za kompjuterskog lingvistu? U našoj zemlji su, nažalost, prilično razdvojene specijalnosti vezane za klasičnu lingvistiku i programiranje, statistiku i analizu podataka. A da biste postali digitalni lingvista, morate razumjeti oboje. Strani univerziteti imaju visokoškolske programe iz kompjuterske lingvistike, ali za sada je najbolja opcija za nas da steknemo osnovno lingvističko obrazovanje, a zatim savladamo osnove informatike. Dobro je što sada postoji mnogo različitih online kurseva, nažalost, to nije bio slučaj tokom mojih studentskih godina. Studirao sam na Fakultetu primijenjene lingvistike na Moskovskom državnom lingvističkom univerzitetu, gdje smo imali kurseve o umjetnoj inteligenciji i prepoznavanju govora - ali još uvijek ne u dovoljnom obimu. Sada IT kompanije aktivno pokušavaju da komuniciraju sa institucijama. Moje kolege iz Kaspersky Lab i ja takođe pokušavamo da učestvujemo u obrazovnom procesu: držimo predavanja, održavamo studentske konferencije i dajemo stipendije diplomiranim studentima. Ali do sada inicijativa dolazi više od poslodavaca nego od univerziteta.

Sadržaj članka

RAČUNARSKA LINGVISTIKA, smjer u primijenjenoj lingvistici, usmjeren na korištenje kompjuterskih alata - programa, kompjuterskih tehnologija za organiziranje i obradu podataka - za modeliranje funkcionisanja jezika u određenim uslovima, situacijama, problemskim područjima i sl., kao i cjelokupni obim primjene modeli kompjuterskog jezika u lingvistici i srodnim disciplinama. Zapravo, samo u ovom drugom slučaju govorimo o primijenjenoj lingvistici u užem smislu, budući da se kompjutersko modeliranje jezika može smatrati i područjem primjene računarske nauke i teorije programiranja na rješavanje problema u nauci o jeziku. U praksi, međutim, računarska lingvistika uključuje gotovo sve što se odnosi na upotrebu računara u lingvistici.

Računarska lingvistika se kao posebna naučna oblast oblikovala 1960-ih godina. Ruski izraz „kompjuterska lingvistika“ je prevod sa engleske računarske lingvistike. Budući da se pridjev računski na ruskom jeziku može prevesti i kao „računarski“, termin „računarska lingvistika“ se također nalazi u literaturi, ali u ruskoj nauci poprima uže značenje, približavajući se pojmu „kvantitativne lingvistike“. Protok publikacija u ovoj oblasti je veoma velik. Pored tematskih zbirki, časopis Computer Linguistics izlazi kvartalno u SAD. Mnogo organizacionog i naučnog rada obavlja Udruženje za računarsku lingvistiku, koje ima regionalne strukture (posebno evropski ogranak). Svake dvije godine održavaju se međunarodne konferencije o računarskoj lingvistici – COLING. Odgovarajuća pitanja obično su široko zastupljena na raznim konferencijama o umjetnoj inteligenciji.

Priručnik za računarsku lingvistiku.

Računarska lingvistika kao posebna primijenjena disciplina odlikuje se prvenstveno svojim instrumentom – tj. o upotrebi kompjuterskih alata za obradu jezičkih podataka. Budući da kompjuterski programi koji modeliraju određene aspekte funkcionisanja jezika mogu koristiti različite programske alate, čini se da nema potrebe govoriti o opštem konceptualnom aparatu kompjuterske lingvistike. Međutim, to nije tačno. Postoje opći principi kompjuterskog modeliranja mišljenja, koji su na neki način implementirani u bilo koji kompjuterski model. Zasnovani su na teoriji znanja, koja je prvobitno razvijena u području umjetne inteligencije, a kasnije je postala jedna od grana kognitivne znanosti. Najvažnije konceptualne kategorije kompjuterske lingvistike su strukture znanja kao što su „okviri“ (konceptualne, ili, kako se kaže, konceptualne strukture za deklarativno predstavljanje znanja o tipizovanoj tematski objedinjenoj situaciji), „scenariji“ (konceptualne strukture za proceduralne strukture). reprezentacija znanja o stereotipnoj situaciji ili stereotipnom ponašanju), „planovi“ (strukture znanja koje obuhvataju ideje o mogućim radnjama koje vode ka postizanju određenog cilja). Usko povezan sa kategorijom kadra je koncept „scene“. Kategorija scene se uglavnom koristi u literaturi o kompjuterskoj lingvistici kao oznaka konceptualne strukture za deklarativno predstavljanje situacija i njihovih dijelova aktualiziranih u govornom činu i istaknutih jezičkim sredstvima (lekseme, sintaktičke konstrukcije, gramatičke kategorije itd.) .

Organizovani skup struktura znanja na izvestan način formira „model sveta“ kognitivnog sistema i njegovog kompjuterskog modela. U sistemima umjetne inteligencije, model svijeta čini poseban blok, koji, ovisno o odabranoj arhitekturi, može uključivati opća znanja o svijetu (u obliku jednostavnih propozicija poput „hladno je zimi“ ili u obliku pravila proizvodnje). „ako vani pada kiša, onda morate obući kabanicu ili uzeti kišobran“), neke konkretne činjenice („Najviši vrh na svijetu je Everest“), kao i vrijednosti i njihove hijerarhije, ponekad razdvojene u poseban “aksiološki blok”.

Većina elemenata koncepata alata računarske lingvistike su homonimni: oni istovremeno označavaju neke stvarne entitete ljudskog kognitivnog sistema i načine predstavljanja ovih entiteta koji se koriste u njihovom teorijskom opisu i modeliranju. Drugim riječima, elementi konceptualnog aparata kompjuterske lingvistike imaju ontološke i instrumentalne aspekte. Na primjer, u ontološkom aspektu, podjela deklarativnog i proceduralnog znanja odgovara različitim vrstama znanja dostupnih osobi - tzv. saznanju ŠTA (deklarativno; kao npr. poznavanje poštanske adrese bilo koje NN), s jedne strane i znanje KAKO (proceduralno; takvo npr. znanje koje vam omogućava da pronađete stan ove NN, čak i bez saznanja njegove formalne adrese) - s druge strane. U instrumentalnom aspektu, znanje se može oličiti u skupu opisa (opisa), u skupu podataka, s jedne strane, iu algoritmu, instrukciji koju izvodi računar ili neki drugi model kognitivnog sistema, s druge strane.

Pravci računarske lingvistike.

Oblast CL-a je veoma raznolika i obuhvata oblasti kao što su kompjutersko modeliranje komunikacije, modeliranje strukture zapleta, hipertekstualne tehnologije za prezentaciju teksta, mašinsko prevođenje i kompjuterska leksikografija. U užem smislu, problemi CL često se povezuju s interdisciplinarnom primijenjenom oblasti sa pomalo nesretnim nazivom „obrada prirodnog jezika“ (prijevod engleskog termina Natural Language Processing). Nastala je kasnih 1960-ih i razvila se u okviru naučne i tehnološke discipline “vještačka inteligencija”. U svom internom obliku, izraz „obrada prirodnog jezika“ pokriva sve oblasti u kojima se računari koriste za obradu jezičkih podataka. U međuvremenu, u praksi je zavladalo uže shvatanje ovog pojma – razvoj metoda, tehnologija i specifičnih sistema koji obezbeđuju komunikaciju čoveka sa računarom na prirodnom ili ograničenom prirodnom jeziku.

Brzi razvoj oblasti „obrade prirodnog jezika“ dogodio se 1970-ih, što je bilo povezano sa neočekivanim eksponencijalnim rastom broja krajnjih korisnika računara. Kako je podučavanje jezika i tehnologije programiranja za sve korisnike nemoguće, pojavio se problem organizacije interakcije sa kompjuterskim programima. Rješenje ovog komunikacijskog problema slijedilo je dva glavna puta. U prvom slučaju pokušano je da se programski jezici i operativni sistemi prilagode krajnjem korisniku. Kao rezultat toga, pojavili su se jezici visokog nivoa kao što je Visual Basic, kao i praktični operativni sistemi ugrađeni u konceptualni prostor metafora poznatih ljudima - DESK, BIBLIOTEKA. Drugi način je razvoj sistema koji bi omogućio interakciju sa računarom u određenom problemskom području na prirodnom jeziku ili nekoj njegovoj ograničenoj verziji.

Arhitektura sistema za obradu prirodnog jezika u opštem slučaju uključuje blok za analizu govorne poruke korisnika, blok za interpretaciju poruke, blok za generisanje značenja odgovora i blok za sintezu površinske strukture iskaza. Poseban dio sistema čini komponenta dijaloga, koja bilježi strategije vođenja dijaloga, uslove za korištenje ovih strategija i načine za prevazilaženje mogućih komunikacijskih neuspjeha (neuspjeha u komunikacijskom procesu).

Među kompjuterskim sistemima za obradu prirodnog jezika obično se razlikuju sistemi pitanja-odgovori, interaktivni sistemi za rešavanje problema i povezani sistemi za obradu teksta. U početku su se sistemi pitanje-odgovori počeli razvijati kao reakcija na loš kvalitet kodiranja upita prilikom traženja informacija u sistemima za pronalaženje informacija. Budući da je problemsko područje takvih sistema bilo vrlo ograničeno, to je donekle pojednostavilo algoritme za prevođenje upita u reprezentaciju na formalnom jeziku i obrnutu proceduru za pretvaranje formalnog prikaza u izraze na prirodnom jeziku. Među domaćim razvojima, programi ovog tipa uključuju POET sistem, kreiran od strane tima istraživača pod vodstvom E.V. Sistem obrađuje zahtjeve na ruskom (sa manjim ograničenjima) i sintetizuje odgovor. Dijagram toka programa uključuje prolazak kroz sve faze analize (morfološke, sintaksičke i semantičke) i odgovarajuće faze sinteze.

Konverzacijski sustavi rješavanja problema, za razliku od sistema prethodnog tipa, igraju aktivnu ulogu u komunikaciji, jer im je zadatak da dobiju rješenje problema na osnovu znanja koje se u njemu prezentira i informacija koje se mogu dobiti od korisnika. Sistem sadrži strukture znanja koje beleže tipične sekvence radnji za rešavanje problema u datoj problemskoj oblasti, kao i informacije o potrebnim resursima. Kada korisnik postavi pitanje ili postavi određeni zadatak, aktivira se odgovarajuća skripta. Ako nedostaju neke komponente skripte ili nedostaju neki resursi, sistem pokreće komunikaciju. Tako, na primjer, funkcionira sistem SNUKA koji rješava probleme planiranja vojnih operacija.

Sistemi za obradu povezanih tekstova prilično su raznoliki po strukturi. Njihova zajednička karakteristika se može smatrati široko rasprostranjenom upotrebom tehnologija predstavljanja znanja. Funkcije sistema ove vrste su razumijevanje teksta i odgovaranje na pitanja o njegovom sadržaju. Razumijevanje se ne posmatra kao univerzalna kategorija, već kao proces izdvajanja informacija iz teksta, određen specifičnom komunikativnom intencijom. Drugim riječima, tekst se „čita“ samo uz pretpostavku da je upravo ono što potencijalni korisnik želi znati o njemu. Tako se ispostavlja da sistemi za obradu povezanih tekstova nisu univerzalni, već problemski orijentisani. Tipični primjeri sistema tipa o kojem se raspravlja su sistemi RESEARCHER i TAILOR, koji čine jedan softverski paket koji omogućava korisniku da dobije informacije iz patentnih sažetaka koji opisuju složene fizičke objekte.

Najvažnija oblast kompjuterske lingvistike je razvoj sistema za pronalaženje informacija (IRS). Potonji je nastao kasnih 1950-ih i ranih 1960-ih kao odgovor na nagli porast obima naučnih i tehničkih informacija. Na osnovu vrste pohranjenih i obrađenih informacija, kao i karakteristika pretraživanja, sistemi za pronalaženje informacija dijele se u dvije velike grupe - dokumentarne i činjenične. Sistemi za pronalaženje dokumentarnih informacija čuvaju tekstove dokumenata ili njihove opise (sažetke, bibliografske kartice, itd.). Factual IRS se bavi opisom konkretnih činjenica, i to ne nužno u tekstualnom obliku. To mogu biti tabele, formule i druge vrste prezentacije podataka. Postoje i mješoviti informacioni sistemi, uključujući i dokumente i činjenične informacije. Trenutno su faktografski informacioni sistemi izgrađeni na bazi tehnologija baza podataka (DB). Kako bi se osiguralo pronalaženje informacija u sistemu za pronalaženje informacija, kreirani su posebni jezici za pronalaženje informacija, koji se temelje na tezaurusima za pronalaženje informacija. Jezik za pronalaženje informacija je formalni jezik dizajniran da opiše određene aspekte plana sadržaja dokumenata pohranjenih u sistemu za pronalaženje informacija i zahtjeva. Procedura za opisivanje dokumenta u jeziku za pronalaženje informacija naziva se indeksiranje. Kao rezultat indeksiranja, svakom dokumentu je dodijeljen njegov formalni opis na jeziku za pronalaženje informacija - slika za pretraživanje dokumenta. Upit se indeksira na sličan način, kojem se dodjeljuje slika upita za pretraživanje i recept za pretraživanje. Algoritmi za pronalaženje informacija zasnovani su na poređenju recepta za pretraživanje sa slikom pretraživanja upita. Kriterijum za izdavanje dokumenta na zahtjev može biti potpuna ili djelomična podudarnost slike pretraživanja dokumenta i instrukcije za pretraživanje. U nekim slučajevima korisnik ima mogućnost da sam formuliše kriterije izdavanja. To je određeno njegovom potrebom za informacijama. Automatski sistemi za pronalaženje informacija često koriste deskriptorske jezike za pronalaženje informacija. Predmet dokumenta je opisan skupom deskriptora. Deskriptori su riječi i termini koji označavaju jednostavne, prilično elementarne kategorije i koncepte problematične oblasti. Onoliko deskriptora je uneseno u sliku za pretragu dokumenta koliko ima različitih tema obrađenih u dokumentu. Broj deskriptora nije ograničen, što vam omogućava da opišete dokument u višedimenzionalnoj matrici karakteristika. Često se u jeziku za pronalaženje informacija deskriptora nameću ograničenja na kompatibilnost deskriptora. U ovom slučaju, možemo reći da jezik za pronalaženje informacija ima sintaksu.

Jedan od prvih sistema koji je radio sa jezikom deskriptora bio je američki sistem UNITERM, koji je kreirao M. Taube. Ključne riječi dokumenta — uniterms — funkcionisale su kao deskriptori u ovom sistemu. Posebnost ovog IRS-a je u tome što u početku rečnik informacionog jezika nije preciziran, već je nastao u procesu indeksiranja dokumenta i upita. Razvoj modernih sistema za pronalaženje informacija povezan je sa razvojem sistema za pronalaženje informacija ne-tezaurusnog tipa. Ovakvi informacioni sistemi rade sa korisnikom na ograničenom prirodnom jeziku, a pretraga se vrši kroz tekstove sažetaka dokumenata, kroz njihove bibliografske opise, a često i kroz same dokumente. Za indeksiranje u IRS tipa koji nije tezaurus, koriste se riječi i fraze prirodnog jezika.

Područje kompjuterske lingvistike u određenoj mjeri može uključivati rad na polju kreiranja hipertekstualnih sistema, koji se smatra posebnim načinom organiziranja teksta, pa čak i kao fundamentalno nova vrsta teksta, suprotstavljena po mnogim svojim svojstvima običnom tekstu nastalom u Gutenbergova tradicija štampanja. Ideja hiperteksta povezana je s imenom Vannevara Busha, savjetnika predsjednika F. Roosevelta za nauku. V. Bush je teorijski potkrijepio projekat tehničkog sistema Memex, koji je omogućio korisniku da povezuje tekstove i njihove fragmente različitim vrstama veza, uglavnom asocijativnim odnosima. Nedostatak kompjuterske tehnologije otežavao je realizaciju projekta, jer se ispostavilo da je mehanički sistem previše složen za praktičnu implementaciju.

Bushova ideja je ponovo rođena 1960-ih u sistemu Xanadu T. Nelsona, koji je već uključivao korištenje kompjuterske tehnologije. „Xanadu“ je omogućio korisniku da pročita skup tekstova unesenih u sistem na različite načine, u različitim sekvencama, softver je omogućio i da zapamti redoslijed pregledanih tekstova i da u bilo kojem trenutku odabere gotovo bilo koji od njih. Skup tekstova sa vezama koji ih povezuju (sistem prijelaza) T. Nelson je nazvao hipertekstom. Mnogi istraživači vide stvaranje hiperteksta kao početak nove informatičke ere, za razliku od ere štampanja. Linearnost pisanja, koja spolja odražava linearnost govora, pokazuje se kao temeljna kategorija koja ograničava ljudsko razmišljanje i razumijevanje teksta. Svijet značenja je nelinearan, stoga kompresija semantičkih informacija u linearnom govornom segmentu zahtijeva korištenje posebnih „komunikacijskih paketa“ - podjelu na temu i remu, podjelu plana sadržaja iskaza na eksplicitni (izjava, prijedlog, fokus ) i implicitnih (pretpostavka, posljedica, implikatura diskursa) slojeva. Odbijanje linearnosti teksta kako u procesu njegovog predstavljanja čitaocu (tj. tokom čitanja i razumevanja), tako i u procesu sinteze, prema teoretičarima, doprinelo bi „oslobađanju“ mišljenja, pa čak i nastanku njegovog nove forme.

U kompjuterskom sistemu hipertekst je predstavljen u obliku grafa, čiji čvorovi sadrže tradicionalne tekstove ili njihove fragmente, slike, tabele, video zapise itd. Čvorovi su povezani različitim odnosima, čije tipove specificiraju programeri hipertekstualnog softvera ili sam čitač. Odnosi definiraju potencijalne mogućnosti kretanja, odnosno navigacije kroz hipertekst. Odnosi mogu biti jednosmjerni ili dvosmjerni. Shodno tome, dvosmjerne strelice omogućavaju korisniku da se kreće u oba smjera, dok jednosmjerne strelice dozvoljavaju korisniku da se kreće samo u jednom smjeru. Lanac čvorova kroz koje čitač prolazi kada gleda komponente teksta formira putanju, ili rutu.

Računalne implementacije hiperteksta mogu biti hijerarhijske ili umrežene. Hijerarhijska struktura hiperteksta u obliku stabla značajno ograničava mogućnosti prijelaza između njegovih komponenti. U takvom hipertekstu, odnosi između komponenti liče na strukturu tezaurusa zasnovanog na odnosima rod-vrsta. Mrežni hipertekst omogućava korištenje različitih tipova odnosa između komponenti, ne ograničavajući se na odnose rod-vrsta. Prema načinu postojanja hiperteksta razlikuju se statički i dinamički hipertekstovi. Statički hipertekst se ne mijenja tokom rada; u njemu korisnik može snimiti svoje komentare, ali oni ne mijenjaju suštinu stvari. Za dinamički hipertekst, promjena je normalan oblik postojanja. Tipično, dinamički hipertekstovi djeluju tamo gdje je potrebno stalno analizirati tok informacija, tj. u informacijskim uslugama raznih vrsta. Hipertekst je, na primjer, Arizona Information System (AAIS), koji se ažurira mjesečno za 300–500 sažetaka mjesečno.

Odnose između hipertekstualnih elemenata mogu inicijalno fiksirati kreatori, ili se mogu generirati kad god korisnik pristupi hipertekstu. U prvom slučaju govorimo o hipertekstovima tvrde strukture, au drugom o hipertekstovima meke strukture. Kruta struktura je tehnološki sasvim razumljiva. Tehnologija za organizovanje meke strukture treba da se zasniva na semantičkoj analizi blizine dokumenata (ili drugih izvora informacija) jedan drugom. Ovo je netrivijalan zadatak u računarskoj lingvistici. Danas je široko rasprostranjena upotreba tehnologija meke strukture na ključnim riječima. Prijelaz s jednog čvora na drugi u hipertekstualnoj mreži vrši se kao rezultat pretraživanja ključnih riječi. Budući da skup ključnih riječi može biti različit svaki put, struktura hiperteksta se svaki put mijenja.

Tehnologija za izgradnju hipertekstualnih sistema ne pravi razliku između tekstualnih i netekstualnih informacija. U međuvremenu, uključivanje vizuelnih i audio informacija (video, slike, fotografije, zvučni snimci, itd.) zahteva značajnu promenu korisničkog interfejsa i moćniju softversku i kompjutersku podršku. Takvi sistemi se nazivaju hipermediji ili multimediji. Vidljivost multimedijalnih sistema predodredila je njihovu široku upotrebu u obrazovanju i stvaranju kompjuterskih verzija enciklopedija. Postoje, na primer, lepo proizvedeni CD-romovi sa multimedijalnim sistemima zasnovanim na dečjim enciklopedijama koje je objavio Dorlin Kindersli.

U okviru računarske leksikografije razvijaju se kompjuterske tehnologije za sastavljanje i rad rečnika. Specijalni programi - baze podataka, kompjuterski ormari za datoteke, programi za obradu teksta - omogućavaju vam da automatski generišete rečničke unose, pohranjujete informacije iz rečnika i obrađujete ih. Mnogi različiti kompjuterski leksikografski programi podijeljeni su u dvije velike grupe: programi za podršku leksikografskim radovima i automatski rječnici raznih vrsta, uključujući i leksikografske baze podataka. Automatski rečnik je rečnik u posebnom mašinskom formatu namenjen za korišćenje na računaru od strane korisnika ili računarskog programa za obradu teksta. Drugim riječima, postoji razlika između automatskih rječnika za krajnjeg korisnika i automatskih rječnika za programe za obradu teksta. Automatski rječnici namijenjeni krajnjem korisniku značajno se razlikuju po interfejsu i strukturi rečničkog unosa od automatskih rečnika uključenih u sisteme mašinskog prevođenja, automatske apstrahacione sisteme, sisteme za pronalaženje informacija itd. Najčešće su to kompjuterske verzije poznatih konvencionalnih rječnika. Na tržištu softvera postoje kompjuterski analozi eksplanatornih rečnika engleskog jezika (automatski Webster, automatski objašnjeni rečnik engleskog jezika koji je objavio Collins, automatska verzija Novog velikog englesko-ruskog rečnika koji je uredio Yu.D. Apresyan i E.M. Mednikova), postoji i kompjuterska verzija Ozhegovljevog rječnika. Automatski rječnici za programe za obradu teksta mogu se nazvati automatskim rječnicima u strogom smislu. Oni uglavnom nisu namijenjeni prosječnom korisniku. Osobine njihove strukture i obim vokabularnog materijala određuju programi koji s njima stupaju u interakciju.

Kompjutersko modeliranje strukture sižea je još jedno obećavajuće područje kompjuterske lingvistike. Proučavanje strukture fabule odnosi se na probleme strukturalne književne kritike (u širem smislu), semiotike i kulturologije. Dostupni kompjuterski programi za modeliranje fabule baziraju se na tri osnovna formalizma za prikaz fabule - morfološkom i sintaksičkom pravcu prikazivanja fabule, kao i na kognitivnom pristupu. Ideje o morfološkoj strukturi fabule sežu do poznatih radova V.Ya. cm.) o ruskoj bajci. Propp je uočio da je uz obilje likova i događaja u bajci broj funkcija likova ograničen, te je predložio aparat za opisivanje ovih funkcija. Proppove ideje činile su osnovu kompjuterskog programa TALE, koji simulira stvaranje zapleta bajke. Algoritam programa TALE zasniva se na nizu funkcija likova u bajci. Zapravo, Proppove funkcije definirale su skup tipiziranih situacija, poredanih na osnovu analize empirijskog materijala. Mogućnosti povezivanja različitih situacija u pravilima generiranja određene su tipičnim slijedom funkcija – u obliku u kojem se to može utvrditi iz tekstova bajki. U programu su tipične sekvence funkcija opisane kao tipični scenariji susreta karaktera.

Teorijska osnova sintaktičkog pristupa radnji teksta bile su „gramatike priče“ ili „gramatike priče“. Pojavili su se sredinom 1970-ih kao rezultat prenošenja ideja generativne gramatike N. Chomskyja na opis makrostrukture teksta. Ako su najvažnije komponente sintaktičke strukture u generativnoj gramatici bile glagolske i imeničke fraze, onda su u većini gramatika sižea kao osnovne izdvojeni ekspozicija (postavka), događaj i epizoda. U teoriji gramatike plota, naširoko se raspravlja o uvjetima minimalnosti, odnosno ograničenja koja određuju status niza elemenata plota kao normalnog zapleta. Ispostavilo se, međutim, da se to ne može učiniti isključivo lingvističkim metodama. Mnoga ograničenja su sociokulturne prirode. Gramatike zapleta, iako su se značajno razlikovale u skupu kategorija u stablu generiranja, dozvoljavale su vrlo ograničen skup pravila za modifikaciju narativne strukture.

Početkom 1980-ih, jedna od učenica R. Schenka, V. Lehnert, u okviru svog rada na stvaranju kompjuterskog generatora zapleta, predložila je originalni formalizam emocionalnih jedinica zapleta (Affective Plot Units), koji se pokazao kao moćno sredstvo. predstavljanja strukture parcele. Uprkos činjenici da je prvobitno razvijen za sistem veštačke inteligencije, ovaj formalizam se koristio u čisto teorijskim studijama. Suština Lehnertovog pristupa bila je u tome da je radnja opisana kao sekvencijalna promjena kognitivno-emocionalnih stanja likova. Dakle, fokus Lehnertovog formalizma nije na vanjskim komponentama radnje – ekspoziciji, događaju, epizodi, moralu – već na njegovim sadržajnim karakteristikama. U tom pogledu, Lehnertov formalizam je djelimično povratak Proppovim idejama.

Kompetencija kompjuterske lingvistike uključuje i mašinsko prevođenje, koje trenutno doživljava preporod.

književnost:

Popov E.V. Komunikacija sa računarom na prirodnom jeziku. M., 1982
Sadur V.G. Govorna komunikacija sa elektronskim računarima i problemi njihovog razvoja. – U knjizi: Govorna komunikacija: problemi i perspektive. M., 1983
Baranov A.N. Kategorije umjetne inteligencije u lingvističkoj semantici. Okviri i skripte. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Modeliranje komunikacije u sistemima čovjek-mašina. – Jezička podrška informacionih sistema. M., 1987
Olker H.R. Bajke, tragedije i načini predstavljanja svjetske istorije. – U knjizi: Jezik i modeliranje socijalne interakcije. M., 1987
Gorodetsky B.Yu. Računalna lingvistika: modeliranje jezičke komunikacije
McQueen K. Strategije diskursa za sintezu teksta na prirodnom jeziku. – Novo u stranoj lingvistici. Vol. XXIV, Računarska lingvistika. M., 1989
Popov E.V., Preobrazhensky A.B. . Osobine implementacije NL sistema
Preobrazhensky A.B. Stanje razvoja savremenih NL sistema. - Veštačka inteligencija. Book 1, Komunikacioni sistemi i ekspertni sistemi. M., 1990
Subbotin M.M. Hypertext. Novi oblik pismene komunikacije. – VINITI, Ser. Računarstvo, 1994, knj
Baranov A.N. Uvod u primijenjenu lingvistiku. M., 2000