FormalaşmaKollec və universitetlər

Corpus Dilçilik nədir?

Yalnız bundan bir neçə onilliklər linqvistik tədqiqat avtomatlaşdırılması üçün, elm yalnız yuxu bilər. iş ən əsası böyük ehtimal "diqqətsiz" səhvlər var, bu tələbələrin bir çox cəlb, əl ilə görülən edilib - bütün bu uzun, uzun zaman aldı.

kompüter texnologiyalarının inkişafı daha sürətli gücündə qaydada araşdırma aparmaq mümkün və bu gün etdi dilinin öyrənilməsi ən perspektivli istiqamətlərindən biri bir corpus dilçilik edir. Onun əsas xüsusiyyəti xüsusi bir şəkildə bir verilənlər bazası mətn məlumat, informasiya böyük həcmdə istifadə və qeyd bədən çağırıb.

Tarix üçün, leksik vahidlərin milyardlarla onlarla milyonlarla əhatə müxtəlif linqvistik material əsasında müxtəlif təyinatlı ilə yaradılmışdır çox binalar var. Bu istiqamətdə perspektivli kimi tanınır və tətbiqi və tədqiqat məqsədləri istiqamətində əhəmiyyətli irəliləyiş nümayiş olunur. Mütəxəssislər, bir yol və ya ana dilində başqa bir məşğul, ən azı bir əsas səviyyədə mətnlərin orqanı ilə tanış olmaq tövsiyə olunur.

corpus dilçilik tarixi

Bu tendensiya formalaşması ötən əsrin əvvəllərində 60-cı illərin Brown orqanında Amerika Birləşmiş Ştatlarının yaradılması ilə bağlıdır. kolleksiya söz formaları bütün 1 milyon mətnləri daxildir və bu gün bu ölçüdə bədən tamamilə uncompetitive olardı. Bu kompüter texnologiyalarının inkişafı tempi, eləcə də yeni tədqiqat ehtiyatlarının artan tələblərinə əsasən bağlıdır.

corpus dilçilik tam və müstəqil intizam ortaya 90-cı illərdə, mətnlərin toplusu tərtib edilmiş və Dil onlarla qeyd. Bu dövrdə, məsələn, Britaniya Milli Corpus 100 milyon ayələr, yaradılmışdır.

Dilçilik bu sahənin inkişafı ilə, mətn həcmi daha çox olur (və lüğət ədəd milyardlarla çatmaq) və layout daha müxtəlif olur. Tarix üçün, Internet kosmik yazılı cəmdəkləri aşkar və dil, çoxdilli, və öyrənmə mərkəzli bədii və ya akademik ədəbiyyat, eləcə də bir çox digər növ danışıq bilər.

mənzil hansılardır

bədən dilçilik Body növləri bir sıra səbəblərə görə verilə bilər. Daxilən, təsnifatı üçün əsas (rus, alman) mətn dili, (kommersiya açıq mənbə, qapalı) giriş rejimi, mənbə (bədii, sənədli, elmi, jurnalistika) janrının ola bilər.

Maraqlı yol danışıq dilinin materialları yaradır. Belə söz qəsdən qeyd respondentlər üçün süni mühit yaratmaq və nəticədə material "kortəbii" adlandırmaq olmaz bilər-ci ildən, müasir korpus dilçilik başqa yolu keçmişdir. A könüllü mikrofon ilə təchiz və gün ərzində iştirak edən bütün söhbət bir rekord istehsal olunur. İnsanlar ətrafında, əlbəttə, gündəlik söhbət zamanı elmin inkişafına töhfə verdiyini bilmirəm bilər.

Sonra bazasında saxlanılır rekord qəbul və çap mətn transcript növü ilə müşayiət olunur. Belə ki, şifahi gündəlik çıxış mənzil yaratmaq üçün lazım olan mümkün biçimlendirme olur.

ərizə

Mümkün dil istifadə və bəlkə binalar mətnlərin istifadə. Üsulları ola bilər dilçilik gövdə tətbiq etmək:

  • əsas müəyyən bir proqram yaratmaq, geniş müvafiq olaraq, seçicilərin və müştərilərin müsbət və mənfi cavab takip siyasət və biznes istifadə olunur.
  • lüğətlər və tərcümə qoşulma informasiya sistemi öz performansını yaxşılaşdırılması üçün.
  • dil vahidi yaxın gələcəkdə dəyişikliklər onun inkişafı və proqnozlaşdırılması tarixi anlaşma töhfə tədqiqat vəzifələri müxtəlif.
  • , Morfoloji sintaktik, semantik və digər xüsusiyyətləri əsasında informasiya axtarış sistemlərinin inkişafı.
  • müxtəlif linqvistik sistemləri və digər optimallaşdırılması.

Binaların istifadə

oxşar resurs tipik axtarış mühərriki ilə interface, və məlumat bazası üçün axtarış sözləri bir söz və ya birləşməsi daxil etmək üçün istifadəçi ister. Apart dəqiq sorğu faktiki olaraq hər hansı linqvistik meyarlara mətn informasiya tapmaq üçün imkan verir inkişaf etmiş versiyası istifadə edə bilərsiniz təşkil edir.

Axtarış baza ola bilər:

  • nitq hissələri xüsusi qrupun üzvlük;
  • qrammatik xüsusiyyətləri;
  • semantika;
  • üslub və emosional boyayıcı.

Siz həmçinin "in" sözönü və accusative halda isim sonra gəlir tək indiki gərgin, ilk şəxs, felin bütün hadisələr tapmaq üçün, misal üçün, sözləri ardıcıllıqla üçün axtarış meyarları birləşdirə bilər. Belə bir sadə məsələ həll istifadəçi bir neçə saniyə çəkir və müəyyən sahələrdə yalnız bir neçə klik tələb edir.

yaradılması prosesi

Axtarış özü bütün subcorpus həyata keçirilə bilər və bir xüsusi seçilmiş xüsusi məqsədə nail olmaq ehtiyaclarından asılı olaraq:

  1. ilk addım halda üçün əsas təşkil edən mətnlər müəyyən edir. Praktiki məqsədlər üçün, tez-tez jurnalist, xəbər, online şərh istifadə olunur. tədqiqat layihəsi paketi növləri geniş istifadə, lakin mətn bəzi ümumi zəmin görə seçilmiş olmalıdır.
  2. Önkoruma məruz mətnlərin nəticəsində toplanması, mətn biblioqrafik və əlavə dil təsviri hazırladığı, əgər varsa, səhvlərin düzəldilməsi var.
  3. bütün qeyri-mətn məlumat aradan: qrafika, şəkillər, cədvəllər silir.
  4. sonrakı emal üçün adətən çıxış olan ayələr, bir ayrılması edir.
  5. Nəhayət, elementləri əldə morfoloji sintaktik və digər nişanları plüralizmi keçirilir.

Bəzi hallarda, semantik atributları, söz, qrammatik hissəsi müəyyən və hər hansı elementləri bir plüralizmi orada paylanmış olan sintaktik quruluşu tərəfindən edilən bütün əməliyyatların nəticəsidir.

binalar yaradılması çətinliklər

Bu bədən üçün birlikdə söz və ya cümlələr bir sıra qoymaq üçün kifayət deyil anlamaq üçün vacibdir. Bir tərəfdən, mətnlərin toplusu ki, balanslı olmaq müəyyən nisbətlərdə mətnlərin müxtəlif növ təmsil etməlidir. Digər tərəfdən - əlavə məzmunu xüsusi bir şəkildə dağıtılır edilməlidir.

ilk problem müqavilə ilə həll edilir: məsələn, toplanması ədəbi mətnlərin 60%, sənədli 20% daxildir müəyyən faiz mükəmməl resept balanslaşdırılmış bədən bu gün mövcud deyil danışıq dili, qanunvericilik, elmi işlər və s yazılı təmsil verilir ...

content layout dair ikinci sual, çətin həll edir. Orada xüsusi proqramlar və avtomatik mətnləri markalanması üçün istifadə alqoritmlər, lakin onlar aksamalar səbəb ola bilər, mükəmməl bir nəticə verir və manual yenidən işlənməsi tələb etmir. bu problem ilə məşğul olan imkanları və çağırışlar corpus dilçilik kağız V. P. Zaharova ətraflı təsvir olunur.

Text biçimlendirme aşağıda siyahısı bir neçə səviyyədə həyata keçirilir.

morfoloji etiketleme

məktəb, biz rus dilində, söz müxtəlif hissələri var ki, xatırlayıram, və onların hər biri öz xüsusiyyətləri var. Məsələn, verb meyl kateqoriyalar və vaxt heç bir isim var. tərəddüdsüz bir Anadili isim və conjugate fe'llər azalır, lakin 100 milyon orqanı qeyd etmək. işləməyəcək əl əməyi ayələr. Bu tədris etmək lazımdır bu üçün lazım olan bütün əməliyyatlar, lakin kompüter icra edə bilər.

Morfoloji etiketleme, kompüter müəyyən qrammatik xüsusiyyətləri olan söz müəyyən bir hissəsi kimi hər sözü "anlamaq" olmalıdır. Russian (və hər hansı digər dil) müntəzəm qaydaları bir sıra fəaliyyət olduğundan, alqoritmlər bir sıra avtomobil investisiya morfoloji təhlili üçün avtomatik proseduru qurmaq mümkündür. Lakin, qayda, həmçinin müxtəlif çətinləşdirən amillər istisnalar var. Nəticədə, bu gün xalis Kompüter analizinə uzaq ideal deyil, hətta 4% səhv 4 mln dəyər verir. manual yenidən işlənməsi tələb 100 milyon. bölmələri bədənində Words.

Ətraflı kitab problemi Zaharova V. P. "Corpus Dilçilik" təsvir edir.

sintaktik annotasiya

Təhlil və ya təhlil - bir cümlə söz əlaqələr müəyyən bir proseduru. alqoritmlər bir sıra istifadə edərək mövzu, xəbər, əlavələr, söz çox növbə mətn müəyyən etmək mümkündür. əsas ardıcıllığı, və olan sözləri tapın - asılı, biz səmərəli mətn məlumat çıxarış bilər və axtarış sorğu cavab olaraq bizi maraqlandıran yalnız məlumat vermək üçün maşın öyrətmək.

Yeri gəlmişkən, müasir axtarış motorları kimi müvafiq sorğu cavab xüsusi nömrələr yerinə uzun mətnləri vermək üçün istifadə və ya "necə çox kalori bir alma" "Sankt-Peterburq Moskva məsafə". Lakin, və ya digər əsas tutorial "Corpus Dilçilik Giriş" məsləhətləşmək lazım təsvir prosesi hətta əsasları anlamaq üçün.

semantik biçimlendirme

sözün semantika - sadə baxımından, mənası var. onun semantik kateqoriyalar və alt bir sıra aid əks etdirən söz attribution tags semantik təhlili geniş tətbiq yanaşma. Bu cür məlumatlar alqoritmlər mətn ton, avtomatik summarization və corpus dilçilik digər vəzifələri üsulları təhlil optimallaşdırılması üçün qiymətlidir.

çox geniş semantika ilə mücərrəd söz təmsil ağac "root" bir sıra var. ağac qovşaqlarının filialı formalaşır ki, daha çox xüsusi leksik elementləri olan. Məsələn, sözü "məxluq", "insan" və "heyvan" kimi anlayışları ilə bağlı ola bilər. sinifləri və heyvanların növləri üzrə - ilk sözü müxtəlif peşə, qohumluq baxımından, milliyyətindən, ikinci daxil şaxələnmək davam edəcək.

informasiya axtarış sistemlərinin istifadə

corpus dilçilik istifadə sahələri fəaliyyət müxtəlif sahələri əhatə edir. Evler lüğətlərin hazırlanması və korreksiyası üçün istifadə olunur, avtomatlaşdırılmış tərcümə sistemləri, faktlar alanda, annotating ton və digər mətn emal müəyyən yaradır.

Bundan əlavə, resursları fəal dünya dillərinə və ümumiyyətlə dil fəaliyyət mexanizmlərinin öyrənilməsi istifadə olunur. əvvəlcədən hazırlanmış informasiya böyük həcmdə giriş inkişaf Dil istiqamətləri sürətli və hərtərəfli öyrənilməsi asanlaşdırır, və sabit formalaşması neologisms çıxış sürəti dəyişiklik leksik vahidləri və başqaları qiymətləndirir.

məlumatların belə böyük məbləğlər ilə iş avtomatlaşdırılması tələb ildən bu gün kompüter və corpus dilçilik arasında sıx qarşılıqlı var.

Rusiya Milli Corpus

Bu halda (qısaldılmış NKRYA) vəzifələrin müxtəlif üçün bir resurs istifadə imkan subcorpus bir sıra daxildir.

bazasında materiallar NKRYA bölünür:

  • yerli və xarici media 90-cı və 2000-ci illərdə ildə nəşrlər;
  • çıxış qeyd;
  • aktsentologicheski mətnləri qeyd (yəni, stress nişanları);
  • dialekt çıxış;
  • poeziya;
  • sintaktik və digər nişanları ilə Materials.

informasiya sistemi İngilis, Alman, Fransız və bir çox digər dillərdə (və əksinə) daxil rus işlərin paralel çeviriler ilə Subcorpus daxildir.

Həmçinin bazasında inkişaf müxtəlif dövrlərdə rus dilində çıxış edən tarixi mətnlərin bir bölmə var. Rus dili mənimsənilməsi xarici vətəndaşlar üçün faydalı ola bilər ki, bir təlim bədən də var.

Rusiya Milli Corpus 400 milyon leksik ədəd təşkil, və irəlidə Avropa orqanlarının Dil əhəmiyyətli hissəsi bir çox yollarla.

perspektivlər

Bu tendensiya tanınması lehinə Fact xarici, eləcə də Rusiyanın ali laboratoriya corpus dilçilik vəd olmasıdır. Bu məlumat və axtarış resursları çərçivəsində istifadə və araşdırma ilə yüksək texnologiyalar, sual-cavab sistemi sahəsində müəyyən sahələrdə inkişafına səbəb olur, lakin yuxarıda müzakirə olunur.

istifadəçilər gündəlik resurs bu cür istifadə üçün daha çox yolları, çünki corpus dilçilik daha da inkişaf, texniki və kompüter gücləndirilməsi, axtarış və məlumat emal proseslərinin optimallaşdırılması yeni alqoritmlər, daha RAM həyata keçirilməsi baxımından, və istehlakçıya qədər bütün səviyyələrdə proqnozlaşdırılır həyat və iş.

axırı

uzay kainatın vasitəsilə səyahət və robotlar insanlar üçün bütün işləri burada 2017-ci ildə ötən əsrin ortalarında uzaq gələcək görünürdü. Əslində, elm "ağ ləkələr" və narahat əsrlər boyu bəşəriyyətin suallara cavab çıxılmaz cəhd edilməsi ilə dolu edir. dil fəaliyyət Suallar burada şərəf yer tutur, və kabinet və hesablama dilçilik onlara cavab kömək edə bilər.

böyük data dəstləri emalı demək olar ki, real vaxt sözləri formalaşması izlemek üçün xüsusi dil xüsusiyyətləri inkişaf proqnozlaşdırmaq, əvvəllər əlçatmaz, nümunələri aşkar edə bilərsiniz.

praktiki səviyyədə qlobal Kutular ictimai əhval qiymətləndirmək üçün potensial vasitə kimi, misal üçün, görülə bilər - Internet real istifadəçilər tərəfindən yaradılmış daim yenilənir gündəlik müxtəlif mətnlər var: şərh və təhlil və məqalələr, və söz bir çox digər formaları bu.

Bundan əlavə, orqanları ilə iş məlumat alınması ilə məşğul olan eyni hardware, inkişafına yardım, xidmət "Google" və ya "Yandex" maşın tərcüməsi, elektron lüğətlər ilə tanış edir.

Biz inamla corpus dilçilik yalnız ilk addımlar edir ki, iddia edə bilər, və yaxın gələcəkdə inkişaf edəcək.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 az.birmiss.com. Theme powered by WordPress.