მცდარ-ბეჭდილ-მძებნი
26.02.2021
კომპიუტერში აკრეფილ ტექსტში მორფოლოგიური და ორთოგრაფიული შეცდომების წითლად მონიშვნა დიდი საქმეა. ბეჭდვისას გაპარულ ე.წ. „კორექტურას“, არასწორად დართულ პირის ნიშნებს, კუმშვა-კვეცისას დაშვებულ შეცდომებსა და სხვა მორფოლოგიური ტიპის „მცდარ ბეჭდილებს“ მიზანში „მცდარ-ბეჭდილ-მძებნი“ ამოიღებს.

რა არის ეს?

მცდარ-ბეჭდილ-მძებნი ტექსტში არსებული შეცდომების მორფოლოგიური შემმოწმებელია. ვებსაიტზე სპეციალურ განყოფილებაში ჩასმულ ტექსტში გაწითლდება მორფოლოგიურად ან ორთოგრაფიულად მცდარი ფორმები. მათზე დაწკაპუნების შემთხვევაში კი სისტემა შემოგთავაზებთ ჩასანაცვლებელი სიტყვების სიას.

მცდარ-ბეჭდილ-მძებნის შემქმნელი მონაცემთა მეცნიერი, ვახტანგ ელერდაშვილია. მასთან ინტერვიუ ონლაინ ჩავწერეთ.

როგორ გაჩნდა იდეა, როგორია სამუშაო პროცესი, რა პრინციპით „ასწორებს“ ნაწერს ვებსაიტი, მორფოლოგიურ შეცდომებთან ერთად კიდევ რა ტიპის შეცდომებს „შეუტევს“ მცდარი ბეჭდილების დაუღალავი მაძებარი უახლოეს მომავალში? რახან ამ რუბრიკას კითხულობთ, მართლმეტყველება თქვენი ინტერესის საგანია და შესაბამისად, ყველა ამ კითხვაზე პასუხიც საინტერესო იქნება თქვენთვის.

როგორ გაჩნდა იდეა?

იდეა დაიბადა სულ სხვა საქმის კეთებისას. ეს ერთგვარი „გვერდითი პროდუქტია“. ბოლო ხუთი წელი გერმანიაში მონაცემთა მეცნიერების სფეროში ვიმუშავე. გენეტიკოსებს ვეხმარებოდი თავიანთი მონაცემების დამუშავებაში. მონაცემთა მეცნიერება, მარტივად რომ ვთქვათ, ქმნის ალგორითმებს, რომლებსაც დიდი რაოდენობის მონაცემების, ე.წ. მეგამონაცემების დამუშავება, კანონზომიერებების აღმოჩენა, ანალიზი და ინტერპრეტირება შეუძლიათ. მუშაობის პროცესში აღმოვაჩინე, რომ რაც გენეტიკაში გენებია, ის ლინგვისტიკაში სიტყვებია. რაც გენომია გენეტიკაში, ის ლინგვისტიკაში არის გრამატიკული ცხრილები, ენაც ისევე განიცდის მუტაციას, როგორც ორგანიზმი და ის მემკვიდრეობით გადმოგვეცემა...

ზოგადად, ჩემი ინტერესი ყოველთვის იყო ბუნებრივი ენის დამუშავების მეთოდოლოგია (NLP), რაც ქართულად, შეიძლება ითქვას, არც გვაქვს. ლინგვისტიკა კი დიდი ხანია, რაც მაინტერესებს, ჯერ კიდევ 90-იანი წლებიდან, როცა კროსვორდებს ვადგენდი. ამისთვის ლექსიკონებს ვამუშავებდი და სიტყვებს ვუკირკიტებდი...

ამ საქმიანობამ იმდენად გამიტაცა, პროფესიულ არჩევანზეც კი იმოქმედა. ვისწავლე პროგრამირება, შორეულ 2000-იანებში ქართულ ენაზე კროსვორდის შესადგენი პროგრამა დავწერე, პროგრამისტი გავხდი, შემდეგ ავსტრიაში ვსწავლობდი კომპიუტერულ მეცნიერებას და საბოლოოდ მონაცემთა მეცნიერებაზე შევჩერდი. როცა გადავწყვიტე, ენის კომპიუტერული დამუშავების მეთოდოლოგია შემექმნა, ეს გამოცდილება ძალიან გამომადგა.

ამ ეტაპზე გაჩნდა დიდი დაბრკოლება - ქართულ ენაზე არ იყო ხელმისაწვდომი ტექსტები, რათა კორპუსი შემექმნა. დავიწყე ტექსტების შეგროვება. ორი წელიწადი ვაგროვებდი ტექსტებს. 3500 წიგნი, ფეისბუქის გვერდები, ფორუმების პოსტები, ერთ მილიონამდე „ნიუსი“ სააგენტოებიდან - ეს ყველაფერი გროვდებოდა ჩემს საცავში. სადაც კი რამეს მივწვდი, ყველაფერი გადმოვქაჩე და 24 გიგაბაიტიანი კორპუსი შევაგროვე. მილიარდ ორმოცდაშვიდი მილიონი სიტყვა დამიგროვდა. აქამდე, რამდენადაც ჩემთვის ცნობილია, მილიარდიანი კორპუსი ქართულად არ არსებობდა და ეს მონაპოვარი თავისთავად ღირებული რამ გახლავთ უკვე.

რა ეტაპზე გადახვედით ამის შემდეგ?

ჩემს მარაგში 9 მილიონზე მეტი უნიკალური სიტყვაა. სიტყვების ვალიდაციისთვის ქართული ეროვნული კორპუსი გამოვიყენე. ეროვნულმა კორპუსმა აჩვენა, რომ დაახლოებით 3 მილიონი მორფოლოგიურად ვალიდური სიტყვაა, სწორად ეს 3 მილიონი სიტყვა დაედო საფუძვლად ქართული ენის კომპიუტერულ მოდელს, რომელიც შევქმენი.

ამ ეტაპზე ეს მოდელი 93 500 არაზმნური სიტყვის ფორმებს და 7500 ზმნის ფუძის (რაც დაახლ. 17500 ზმნის ლემაა) ფორმებს შეიცავს. ყველა ფორმა რომ დავაჯამოთ, რისი გენერაციას მოდელს შეუძლია რამდენიმე ასეულ მილიონ სიტყვას მივიღებთ. ეს წარმოუდგენელი რიცხვია. მაგალითად სიტყვა "მეცნიერს" ქართულში 1000-მდე ფორმის წარმოება შეუძლია, აქამდე ამისი წარმოდგენაც კი არ შემეძლო.

როდის გადაწყვიტეთ, რომ საზოგადოებისთვის ხელმისაწვდომი გამხდარიყო პლატფორმა და მეტიც, თითოეულ მსურველს შეძლებოდა წვლილის შეტანა?

პანდემიის დროს კარანტინის პერიოდი წიგნების გაციფრულებას და მოდელის შექმნას მოვანდომე. შემდეგ ჩემმა მეგობარმა, თამარ ფეიქრიშვილმა, რომელიც ჩემი კოლეგაცაა, შემომთავაზა ვებვერსიის გაკეთება. გადავწყვიტე, ეს ყოფილიყო გამჭვირვალე, ღია და საზოგადოებისთვის ხელმისაწვდომი. ამასთან, ვიკიპედიის მსგავსად, მომხმარებლებს თავადაც მიეღოთ მონაწილეობა დახვეწასა და შევსებაში.

თუ საიტის მომხმარებელი ისეთ სიტყვას წააწყდება, რომელსაც ჩვენი ანალიზატორი „უცნობად“ აღიქვამს, ჩასანაცვლებელ სიტყვებში კი სწორ ვერსიას არ გთავაზობთ, მას შეუძლია „დამატებას“ დააჭიროს და ანალიზატორის ლექსიკური მარაგის შევსებაში მოგვეხმაროს.

რამდენად დაცულია სისტემა იმისგან, რომ ასეთ პირობებში სანდო, გადამოწმებული და სწორი ვერსიები აღმოჩნდეს საბოლოოდ საცავში?

ღია, გამჭვირვალე პროცესი ჩემთვის მნიშვნელოვანია. დიახ, ნებისმიერ მსურველს შეუძლია შესწორება და მისი აზრით სწორი ვარიანტის დამატება, მაგრამ რისკისგან თავის დასაცავად მაქვს ფილტრი, რომელსაც ყველა დამატებული ვარიანტი გაივლის. ეს ფილტრი სანდო სტანდარტს ექვემდებარება - სწორ და საბოლოო ვერსიებად საცავში ხვდება მხოლოდ ის ნორმები, რომლებიც დასტურდება ორთოგრაფიულ ლექსიკონებში. თანაც, მოწმდება ოთხი ორთოგრაფიული ლექსიკონი. თუ ოთხივეში ფორმა ერთია, შემდგომი გადამოწმება აღარ ხდება.

მაგრამ ზოგჯერ ორთოგრაფიულები სხვადასხვა ვარიანტს გვთავაზობენ. ამ შემთხვევაში მე არ მაქვს უფლება, რომელიმეს „მივენდო ბრმად“, ამიტომ ვამოწმებ სპეციალისტებთან - ენათმეცნიერების ინსტიტუტის თანამშრომლები ძალიან გვეხმარებიან და საორჭოფო შემთხვევებზე ყოველთვის მათგან ვიღებ რჩევებს.

მაშ, ორთოგრაფიული ლექსიკონები, სპეციალისტთან შეთანხმებული ნორმა და ასევე - გამოყენების სიხშირე გახლავთ ის „დამცავი ბარიერები“, რასაც მომხმარებლის მიერ დამატებული სიტყვა გაივლის, სანამ საბოლოოდ დაიმკვიდრებს ადგილს მცდარ-მძებნელზე. მიუხედავად ამისა, შეცდომებისგან დაზღვეული არ ვართ, ამიტომ ჩვენს მომხმარებლებთან მუდმივი კავშირი სრულყოფის მთავარ საშუალებად მიგვაჩნია.

გამოყენების სიხშირის თვალსაზრისით საინტერესოა, რა მდგომარეობაა. არის ფორმები, რომელთა სწორი, გრამატიკულად გამართული ვარიანტები ცნობილია, მაგრამ ხალხური მეტყველება მაინც „ვერ ირგებს“ და პარალელურ ფორმას იყენებს. საინტერესო იყო სიტყვა „მინახავხარის“ შემთხვევა, რომელიც გრამატიკულად, თითქოს, სწორად მიიჩნეოდა, მაგრამ სპეციალისტებიც კი არ იყენებდნენ და საბოლოოდ, 2016 წლის ორთოგრაფიულში ხალხურ მეტყველებაში დამკვიდრებული „მინახიხარ“ პარალელურ ფორმად ჩაიწერა. რა პარალელური ფორმები გხვდებათ თვალში პროცესში?

მინახავხარ 70-იან წლებში მიიღეს სალიტერატურო ნორმად, თუმცა მაშინაც აღინიშნებოდა, რომ ეს ფორმალური წარმონაქმნი ვერ დაიმკვიდრებდა ადგილს და ასეც მოხდა. აი, ვახსენე, რომ ზოგჯერ ორთოგრაფიულ ლექსიკონებში შეუსაბამობაა ხოლმე. ასეთ დროს გამოყენების სიხშირესაც ვაკვირდები. ვამოწმებ, ყოველ მილიონ სიტყვაზე როგორია გამოყენების სიხშირე და თუ ფორმა ასზე მეტ შემთხვევაში მხვდება, პარალელურ ფორმად მივიჩნევ. შემდეგ ვაზუსტებ სპეციალისტებთან.

ისეც ხდება, რომ სპეციალურ ლიტერატურაში ერთი ფორმაა გამოყენებული და ნორმა სხვაა. ასეთია, მაგალითად, არასწრულწლოვანის/არასრულწლოვნის ფორმა. სისხლის სამართლის კოდექსში შეკუმშულია და 38-ჯერ შეკუმშულადაა მოხსენებული, ორთოგრაფიულებში - ნაწილში შეკუმშულია, ნაწილში - უკუმშველია.

ასევე კონსერვატიულისა და ფაკულტატიურის შემთხვევაშიც არაა მარტივად საქმე. გამოყენების სიხშირით სჭარბობს ფაკულტატური და კონსერვატული, ორთოგრაფიულები კი საპირისპიროს გვიჩვენებს.

იდეალიზება-იდეალიზირება, რეკომენდება-რეკომენდირება - გამოყენების სიხშირის თვალსაზრისით აქაც არაა მკაფიოდ გამიჯნული ფორმები, თუმცა დამკვიდრებულია იდეალიზება-რეკომენდება ფორმები, მაგრამ რას ეყრდნობა ეს გადაწყვეტილება, გაუგებარია. ერთი მხრივ, აღნიშნულია, რომ რუსულის გავლენითაა ამ ფორმებში „ირ“ ჩართული, მაგრამ საიდანაც რუსულში დამკვიდრდა (გერმანულიდან), იქაც ეს ფორმაა. შესაბამისად, გადასაწყვეტია, რატომ ვიღებთ ერთ შემთხვევაში და ვტოვებთ მეორე შემთხვევაში. კასტრირება და რატიფიცირება - ამ ფორმებში შენარჩუნებულია. რეკომენდირება - აქ არა.

რას ენიჭება უპირატესობა?

სანდოობა, სისწრაფე და მრავალფეროვნება - ეს გახლავთ უმთავრესი ღირებულებები, რასაც მუშაობისას ვეყრდნობით. სანდოობა მიიღწევა გამჭვირვალობის გზით და პროცესში ამას დიდ მნიშვნელობას ვანიჭებთ.

სისწრაფე ახსენეთ. რამდენად სწრაფად იღებს მომხმარებელი „გასწორებულ“, აწითლებულ ვარიანტს?

ბუნებით პერფექციონისტი ვარ. ჩემი სტანდარტი არ არის საშუალო. მოთხოვნები ყოველთვის მაღალი მაქვს. ორი თვე დავხარჯე იმაში, რომ დამაკმაყოფილებელი სიჩქარე მიმეღო. ოცამდე მცდელობა დამჭირდა, რომ მოდელი დამაკმაყოფილებელი სისწრაფის ყოფილიყო. ბოლოს და ბოლოს, ჩემს კომპიუტერში მივიღე ის სიჩქარე, რომელიც მაკმაყოფილებდა. შემდეგ, ვებსაიტზე გადატანისას, სიჩქარემ დაიკლო და ახალი ალგორითმი დავწერეთ, რომელმაც კვლავ სასურველ სიჩქარეზე გაგვიყვანა. ახლა „მძებნელი“ (როგორც მას შემოკლებით უწოდებენ), ტექსტს უსწრაფესად ამოწმებს. წარმოიდგინეთ რომ 1500 გვერდიანი წიგნი (400 ათას სიტყვაზე მეტია ამ წიგნში) შვიდ-რვა წამში მოწმდება სერვერზე.

ვებსაიტზე გამოქვეყნებული ცნობის თანახმად, „მცდარ-ბეჭდილ-მძებნი“ ქართული ენის მოყვარულმა ენთუზიასტების ჯგუფმა შექმნა, რომლებიც საკუთარ თავს „მცდარბეჭდილის საძმოს“ უწოდებენ. გაგვაცანით „ენთუზიასტების ჯგუფი“, „საძმო“...

სულ ორნი ვართ. მე და ჩემი მეგობარი და კოლეგა, თამარ ფეიქრიშვილი. მე ვქმნი შინაარსს - ენის კომპიუტერულ მოდელს და ლექსიკონს, თამარ ფეიქრიშვილი - ფორმას. „მცდარბეჭდილის საძმოს“ სახელწოდებაც თამარის მოფიქრებულია, ტოლკინის „ბეჭდის საძმოს“ ანალოგით. გენდერული ბალანსი „საძმოშიც“ დაცული გვაქვს, ასე რომ სახელდებაში გენდერულ მიკერძოებულობას ნუ დაგვწამებენ.

ცოტა ხნის წინ ფეისბუქის გვერდი გავაკეთეთ, „მცდარბეჭდილის საძმო“, სადაც ვმსჯელობთ ხოლმე აქტუალურ საკითხებზე. თავიდან მეგონა, ჯგუფში მხოლოდ მეგობრები დაემატებოდნენ, მაგრამ მოულოდნელად ძალიან ბევრმა გამოთქვა სურვილი. ემატებიან ენის სპეციალისტები, ენათმეცნიერები, მასწავლებლები. ფასდაუდებელ რჩევებს ვიღებთ ხოლმე მათგან, განვიხილავთ მნიშვნელოვან ენობრივ პრობლემებს, ვბჭობთ, როგორ გავაუმჯობესოთ საიტი, ვიღებთ რჩევებსა და რეკომენდაციებს.

„მცდარ-ბეჭდილ-მძებნზეც“ ვიტყვი. ეს აღმნიშვნელი, მცდარბეჭდილი, ლექსიკონში ვნახე. მომეწონა და „გავაცოცხლე“. ერთხელ ვიხუმრე, ჩემს საიტს მცდარ-ბეჭდილ-მძებნი უნდა დავარქვა-მეთქი და ასეც შერჩა. კარგად მოვირგეთ ეს სახელი. მაგალითად, გუგლით ძიებისას პირდაპირ ჩვენ მოგვადგება მომხმარებელი, გარდა ამისა, ბრენდის სპეციალისტებმაც მოგვიწონეს, როცა უკვე გამოვაქვეყნეთ, ასე რომ ერთი საინტერესო სიტყვაც გავაცოცხლეთ ლექსიკონიდან და უნიკალური სახელიც დავირქვით, თუმცა საიტის დასახელებაზე როცა მიდგა ჯერი, www.spellchecker.ge ვარჩიეთ, ინგლისური ასოებით ჩაწერილი მცდარ-ბეჭდილ-მძებნი არ იქნებოდა კარგი იდეა.

მრავალფეროვნება ახსენეთ. რამდენადაც ვიცი, მხოლოდ მორფოლოგიური შემმოწმებლით არ დაკმაყოფილდებით და სამომავლოდ კიდევ აპირებთ საიტის განვითარებას. რა გეგმები გაქვთ?

სემანტიკური და სინტაქსური შემოწმებაც გვინდა დავამატოთ სამომავლოდ. მაგალითად, საიტის არსებულ ვარიანტში სიტყვათშეთანხმება „ ფული ამიჩუყდა“ არ იქნება მონიშნული მცდარად, რადგან ორივე შემადგენელი სწორად წერია მორფოლოგიურად და ესეც მორფოლოგიური ანალიზატორია. სემანტიკურ ელემენტსაც თუ დავამატებთ, კონტექსტუალური შემოწმებაც დაემატება და ამ შემთხვევაში სისტემა განსაზღვრავს, რომ ფული კი არა, გული უნდა იყოს. ამრიგად, მორფოლოგიურ ანალიზატორზე გაჩერებას არ ვაპირებთ, სიახლეების შესახებ მალე შეიტყობენ ჩვენი საიტის მომხმარებლები.

ასევე ბარბარიზმის ჩასანაცვლებელ მოდულზე ვმუშაობთ. მაგალითად, ტექსტში წერია „დავალაიქე“. გადავწყვიტეთ, რომ ამ შემთხვევაში კი არ გაწითლდეს ფორმა, არამედ გალურჯდეს და ამასთან, გამოვიდეს სწორი ვარიანტიც. ცოტა ხნის წინ ერთმა მომხმარებელმა მოისურვა „ლინეარულის“ დამატება. როცა ბარბარიზმებზე მუშაობა დასრულებული გვექნება, მსგავს შემთხვევებში სწორ ვარიანტს დაინახავს დაინტერესებული პირი და დაიმახსოვრებს კიდეც, რომ „ლინეარული“ ქართულად „წრფივია“.

ამდენად, საიტს შემეცნებითი ფუნქციაც ექნება და გარკვეულ წვლილსაც შეიტანს მშობლიური ენის დაცვაში. მაგალითად, დღეს ბევრმა შეიძლება არ იცოდეს რომ „დუტის“ შესატყვისი „ბამბულაა“. ჩვენს საიტზე რომ მოინიშნება ლურჯად და შეეთავაზება მომხმარებელს შესატყვისი, გააქტიურდება ეს ფორმა და ხალხურ მეტყველებაშიც ადვილად დამკვიდრდება.

მკვლევრებმა, დარგის სპეციალისტებმა, დაინტერესებულმა პირებმა შეიძლება არც იცოდნენ, რომ არსებობს და უკვე შემუშავებულია გარკვეული ტერმინები. თქვენი ინტერნეტსაიტი ამ მხრივ ფასდაუდებელი რესურსი შეიძლება გახდეს. ტერმინთბანკი თუ არის თქვენთვის ხელმისაწვდომი და როდის ექნებათ მომხმარებლებს საშუალება, არსებული შესატყვისები მოიძიონ მცდარ-ბეჭდილ-მძებნზე?

როცა საიტი ამუშავდა, ინტერესი მის მიმართ გაჩნდა და თუ დაფინანსება მოვიპოვეთ, აუცილებლად დავიმატებთ სპეციალისტებს, რათა უფრო სწრაფად შევთავაზოთ ქართულენოვან მომხმარებელს მეტად დახვეწილი მომსახურება. ტერმინთბანკი არსებობს და სპეციალისტები ბევრს შრომობენ ამ მიმართულებით, მაგრამ რამდენმა იცის მისი არსებობა და ვის მიუწვდება ხელი იქამდე? ძალიან მნიშვნელოვანია, ფართო წრისთვის გახდეს ცნობილი, წინააღმდეგ შემთხვევაში თაროებისთვისაა განკუთვნილი და ცოდოა ის შრომა, რაც ქართველმა მეცნიერებმა გასწიეს ტერმინების შემუშავებისთვის. ენათმეცნიერების ინსტიტუტის თანამშრომლები ყოველთვის გვეხმარებიან, მათგან სიახლეებსაც ვიგებ ხოლმე.

მაგალითად, ერთ-ერთი მოხსენება მოვისმინე, სადაც შპალის შესატყვისად განძელი (განივი ძელი) იყო შემოთავაზებული. მშვენიერი შესატყვისია, მაგრამ რამდენს ეცოდინება? რამდენი გამოიყენებს? აკადემიური მონაპოვარი და თანამედროვე ტექნოლოგიები საჭირო ტანდემს შექმნიან.

ჩვენ ძალიან გვინდა, ეს პროდუქტი გახდეს მასობრივი. ეს ინტერესი კი საერთოა. საიტი მუდამ იქნება უფასო და ხელმისაწვდომი ყველასთვის, ვისაც ტექსტის გასწორება დასჭირდება. მომავალში ჩვენ გვექნება კომერციული შემოთავაზებებიც, მაგრამ პრინციპულად მნიშვნელოვანია, რომ მცდარ-ბეჭდილ-მძებნის ძირითადი ვერსია იყოს უფასო, საყოველთაო და სანდო პროდუქტი. ეს ასეც იქნება.

ვრცელმა, საინტერესო და თვალსაჩინოებებით სავსე ინტერვიუმ ბევრი საფიქრალი დამიტოვა. გამოიყო რამდენიმე პრობლემა, რასაც სპეციალისტებიც და დაინტერესებული პირებიც ვაწყდებით ყოველდღიურად. მაგალითად, ის, რომ ორთოგრაფიულ ლექსიკონებში ხშირად სხვადასხვა ვარიანტია მოცემული, ასევე - სხდომებსა და კონფერენციებზე მიღებული გადაწყვეტილებები ნაკლებადაა ხოლმე ხელმისაწვდომი ფართო აუდიტორიისთვის. ამ მხრივ ნამდვილადაა საჭირო გააქტიურება.

ინტერვიუს გაშიფვრა და აწყობა რომ დავასრულე, www.spellchecker.ge-ზე შევედი, დაკოპირებული ტექსტი შესაბამის უჯრაში ჩავსვი და ათზე მეტი შეცდომა სწრაფად და ზედმეტი დროის ხარჯვის გარეშე გავასწორე. ეს მორფოლოგიური შემმოწმებელი სასწრაფოდ დავამატე „სწრაფ-მძებნელ-სანიშნს“ და მზაკვარ კორექტურებსა და გაპარულ მორფოლოგიურ შეცდომებზე ღელვაც წარსულს ჩავაბარე.

ავტორი : ნინო ლომიძე;
კომენტარი, რომელიც შეიცავს უხამსობას, დისკრედიტაციას, შეურაცხყოფას, ძალადობისკენ მოწოდებას, სიძულვილის ენას, კომერციული ხასიათის რეკლამას, წაიშლება საიტის ადმინისტრაციის მიერ

ასევე იხილეთ