Мы в Telegram
Добавить новость
World News in Latvian





160*600

Новости сегодня на DirectAdvert

Новости сегодня от Adwile

Актуальные новости сегодня от ValueImpression.com


Опубликовать свою новость бесплатно - сейчас


<
>

Labāki par Google un Microsoft

IR 

Mašīntulkošanas rīku «olimpiskajās spēlēs» valodu tehnoloģiju uzņēmuma Tilde izstrādātās sistēmas jau trīs gadus pārspēj pasaulē lielāko IT milžu piedāvājumu. Kā mūsu speciālisti kļuvuši par vislabākajiem pasaulē?

The post Labāki par Google un Microsoft appeared first on IR.lv.

Mašīntulkošanas rīku «olimpiskajās spēlēs» valodu tehnoloģiju uzņēmuma Tilde izstrādātās sistēmas jau trīs gadus pārspēj pasaulē lielāko IT milžu piedāvājumu. Kā mūsu speciālisti kļuvuši par vislabākajiem pasaulē?

Nolemju paspēlēties. Ziņu teikumu, ka Rīgā atsūknē lietusūdeni vietās, kur peļķes apgrūtina satiksmi, iemetu gan Google Translate, gan Tildes Tulkotājā. Lai gan teikumu konstrukcijas ir atšķirīgas, latviešu valodas nepratējs to jēgu izlobītu abos gadījumos. Nekas būtisks tulkojumā nav pazudis. 

Turpinu spēlēšanos ar tautasdziesmu par rudeni, kas saraudinājis sauli. Ne Google, ne Tildes tulkotāju neapmulsina pat «smagi šņāca egļu meži». Taču tie nesaprot «pilni saules asariņu». Abi mašīntulki izshēmo, ka meži ir saules gaismas pielieti. 

Pēc šādas spēlēšanās kļūst skaidrs, ka mašīntulkošanas sistēmas kļūst aizvien uzticamākas. Dzeju tām netulkot, bet var uzticēt tekstus, kuros jāsaprot būtiskākais. Taču ar tādu niekošanos nepietiek, lai saprastu Tildes starptautiskos un noturīgos panākumus mašīntulkošanā. Pēc Tildes tulkotāja darba var tikai daļēji spriest, cik labi ir tā izstrādātāji. Sacensībās viņi piedalās nevis ar publiski pieejamām, bet ar īpaši izstrādātām sistēmām. 

Trīs gadus pēc kārtas desmit Tildes speciālisti ir gatavojuši jaunus mašīntulkošanas rīkus, pilnveidojot un pulējot savas prasmes, un visus trīs gadus arī ieguvuši pirmās vietas. Tas ļauj Tildes mākslīgā intelekta attīstības vadītājam Mārcim Pinnim teikt, ka viņš un kolēģi ir pasaulē labākie mašīntulkošanas sistēmu izstrādātāji. «Esam līderos,» viņš saka. 

Sacenšas zinātnes vārdā 

Sacensības, kurās ar mašīntulkošanas tehnoloģijām sacenšas pasaules informācijas tehnoloģiju uzņēmumu, pētniecības centru un universitāšu, arī starptautisku organizāciju komandas, notiek 14 gadus. Kopš 2017. gada, kad tām pievienojās arī Tildes komanda, tā vienmēr ir ieguvusi pirmo vietu.

Sacensības organizē pasaules vadošie mašīntulkošanas pētnieki no dažādiem zinātniskajiem centriem, kuros pēta mākslīgo intelektu un mašīntulkošanu. Tā ir Edinburgas Universitāte, Kārļa Universitāte Prāgā, Džonsa Hopkinsa Universitāte ASV, Bruno Keslera fonds Itālijā, Šefīldas Universitāte Lielbritānijā, Vācijas Mākslīgā intelekta pētniecības centrs, arī pētniecības grupa Microsoft Research. 

Sacensības rīko zinātnieki, tāpēc viņu mērķis ir nevis sadalīt medaļas, bet noskaidrot, kādi piegājieni mašīntulkošanas sistēmu izstrādē ir vislabākie. «Katru gadu attīstām aizvien labākas metodes,» paskaidro Mārcis. 

Arī Tildes komanda sacensībās piedalās ne tikai aiz kāres izrādīt muskuļus, bet arī aiz vēlmes uzzināt par jauniem veidiem. «Ja kāds kaut ko dara labāk, tad varam izvērtēt, vai mums jāievieš kas jauns. Tas ir veids, kā attīstīties,» stāsta Mārcis un paskaidro, ka katras sacensības beidzas ar konferenci un zinātniskajām publikācijām par mašīntulkošanas sistēmu izstrādi. Dalībnieki netur sveci zem pūra — apmainās ar informāciju, atklāj metodes, ar kādām izstrādājuši savu sistēmu.

Katru gadu sacensībās piedalās vairāki desmiti komandu, šogad — 45. Vairākumā gadījumu to veido zinātnisko institūtu, universitāšu, pētniecības centru un arī tādu uzņēmumu kā Microsoft vai Tilde komandas. Taču uzņēmumu pārstāvju ir maz, šogad bija 11 komandas. «Uzņēmumi ne vienmēr grib rādīt, kādā veidā ir izstrādājuši savas mašīntulkošanas sistēmas,» paskaidro Mārcis. «Arī salīdzināt sevi ar citiem ne visi grib. Ja nav uzvaras, potenciālie klienti saņem sliktu vēsti par sistēmu spējām. Bet mēs esam pārliecināti — daudz strādājam, lai tās būtu augstā līmenī.» 

Vēl viens Mārča minēts faktors, kāpēc Tilde piedalās zinātnieku rīkotās sacensībās, —  specializējoties valodas tehnoloģijās, latviešu IT uzņēmums ir iesaistījies pētnieciskos projektos, kuros jāpēta jaunas tehnoloģijas un jāpublicē rezultāti. Arī sacensību konferencei jāsagatavo akadēmiska publikācija par mašīntulkošanas sistēmām, un tas palielina Tildes zinātnisko jaudu. Arī datorzinātņu doktors Mārcis Pinnis, deviņus gadus strādājot Tildē, ir zinātnieks — viens no aptuveni 50 zinātnisku publikāciju līdzautoriem par mašīntulkošanas un valodas apstrādes tehnoloģijām.

Sacensības tiek rīkotas pēc viena parauga — sagatavo un nosūta komandām datus sistēmu izstrādei un atvēl trīs mēnešus laika. Tās jāsagatavo tulkojumiem no kādas mazas vai sarežģītas valodas (piemēram, somu, lietuviešu, kazahu) uz plaši lietotu valodu (angļu, vācu, franču) un atpakaļ uz mazo valodu. Šogad no 20 tulkošanas virzieniem 10 valodu pāros dalībnieki varēja izvēlēties jebkurus, kas šķita interesanti. Sakritības dēļ pēdējos trijos gados izvēlē bija arī Baltijas valstu valodas, tāpēc 2017. gadā Tilde izvēlējās izstrādāt sistēmas tulkojumiem angļu—latviešu un latviešu—angļu valodā, pērn angļu—igauņu un igauņu—angļu valodā, bet šogad — angļu—lietuviešu un lietuviešu—angļu. «Mēs to uzskatījām par lielu godu — izgatavot sistēmas, kas tulko šajās valodās,» paskaidro Mārcis, kurš vienmēr ir vadījis izstrādes procesu. 

Sacensības notiek arī vairākās disciplīnās: ziņu tulkošana, tulkojumi radniecīgās valodās (šogad: čehu—poļu, hindi—nepāliešu, spāņu—portugāļu), tulkojumu rediģēšanas sistēmas, modeļi mašīntulkošanas sistēmu vērtēšanai. Tilde vienmēr piedāvājusi savas sistēmas pārbaudīt ar ziņu tulkojumiem. Pēc Mārča vārdiem, «lai sistēma spētu iztulkot ziņas, kādas ikdienā lasām portālos, tai jābūt vispārīgi labai», tas ir, jāatpazīst liels vārdu daudzums un dažādas teikuma konstrukcijas. Sacensību organizatori paveikto uztic izvērtēt tulkotājiem, kuri profesionāli spēj salīdzināt, kā tekstu iztulkojis mākslīgais intelekts un kā to būtu darījuši paši. Viņi vērtē, nezinot, ar kādu sistēmu katrs no tulkojumiem veikts. 

Kopš pirmās reizes, kad sacensībās piedalās latviešu speciālisti, eksperti atzina — viņi ir starp labākajiem. Mārcis taisnības labad precizē, ka sacensībās var būt vairāki pirmo vietu ieguvēji. Viņus nosaka ar statistiskām metodēm, un, ja tulkojumu kvalitātes atšķirības divām vai vairākām komandām ir nenozīmīgas, tās visas ir uzvarētājas. 

Piemēram, 2017. gadā latviešu—angļu tulkojumos bija divas pirmās vietas, viena no tām Tildei. 2018. gadā latvieši uzvaru ne ar vienu nedalīja, bet šogad angļu—lietuviešu tulkojumos Tilde pirmo vietu dalīja ar Microsoft Research Asia komandu, bet lietuviešu—angļu tulkojumos bija viena no četrām pirmo vietu ieguvējām. 

Taču sacensību dalībnieku vidū nav Google komandas, un Mārcis precizē ziņās izplatīto vēsti, ka Tildes mašīntulks bijis pārāks par Google tulkotāju. «Tā ir taisnība, ka mūsu izstrādātās sistēmas šogad uzrādīja labākus rezultātus nekā Google publiskā tulkošanas sistēma,» viņš saka. «Parasti organizatori dalībnieku izstrādātās mašīntulkošanas sistēmas salīdzina ar anonimizētām publiskajām sistēmām. Mēs zinām, ka dalībnieku piedāvājums salīdzināts arī ar Google Translate, un mūsējās bija labākas par publiski pieejamām sistēmām, tāpēc secinājām, ka esam labāki par Google,» paskaidro Mārcis. 

Pēc punktu skaita Tilde šogad bija nedaudz priekšā Microsoft — latviešiem bija 72,8 punkti, IT gigantam — 69,1. Abiem pirmās vietas. «Tomēr esam mazliet labāki par Microsoft Research, kas, visticamāk, savās tulkošanas sistēmās atšķirībā no Tildes ir ieguldījusi milzīgu naudu», saka Mārcis. «Liels gandarījums, ka trīs gadus esam starp mašīntulkošanas sistēmu izstrādātāju līderiem. Esam ļoti daudz sasnieguši.»  

Analizē likumsakarības

Kāpēc mašīntulkošanas sistēmu izstrādātājiem nav miera, kāpēc viņi nerimstas un rada aizvien jaunas, un ik gadu liek tām sacensties? 

«Lai gan lietotājam viss šķiet vienkārši — ievadi teikumu, un tev to iztulko —, patiesībā apakšā ir ļoti sarežģīta struktūra. Sistēma, tekstu sadalījusi mazākos segmentos, to analizē. Katra komponente, kas apstrādā tekstu un mēģina no tā izdabūt zināšanas, ir uzlabojama. Pie katras komponentes var nemitīgi strādāt,» skaidro Mārcis. 

Tildes mašīntulkošanas platforma, kas pārvalda visas sistēmas, arī visjaunākās, izveidota pirms vismaz desmit gadiem. Bet uzņēmuma speciālisti to nepārtraukti uzlabo. Gadiem ilgi mašīntulkošanas sistēmas balstījās statistiskos modeļos, kas skaitīja to, cik bieži vārdi un frāzes atkārtojas, kāds tulkojums tām visbiežāk piemērots, un tad piedāvāja savu variantu. Jo biežāk vārds vai frāze tulkojumos bija atrodama, jo ticamāks rezultāts. «Ja lietotājs sistēmā ievadīja teikumu, tā to sadalīja vārdos, katram piemeklējot tulkojumu, un tad kombinēja atkal kopā. Ļoti sadrumstalota metode,» stāsta Mārcis un atzīst, ka šāda sistēma nespēja analizēt visu teikumu, bet tulkoja atsevišķus vārdus un frāzes. Tas nozīmē, ka ziņu teikumu par lielo peļķu izsūknēšanu ielās pirms dažiem gadiem Tildes mašīntulks būtu pārvērtis nesakarīgā vārdu virknējumā. 

Taču tā nenotika, jo 2016. gadā Tilde mašīntulkošanas platformā sāka izmantot tā dēvēto mākslīgo neironu tīklu. Tas ir datu un algoritmu modelis, kas veidots, iedvesmojoties no smadzeņu neironu tīkla. Mākslīgais neironu tīkls nav algoritms, bet gan daudzu dažādu mašīnmācīšanās algoritmu ietvars. Šādas sistēmas, apstrādājot lielu daudzumu datu, «iemācās» veikt uzdevumus pēc dotajiem piemēriem. Mašīntulkošanā tas nozīmē, ka sistēma spēj aptvert kopsakarības starp vārdiem un analizēt teikumus. «Neironu tīkla modeļi ir mūsu mašīntulkošanas sistēmas sirds,» saka Mārcis. 

Un arī modeļus, kas veido veselu tīklu arhitektūru, uzņēmuma sistēmanalītiķi un sistēmarhitekti nepārtraukti uzlabo. Pēc Mārča vārdiem, 2016., 2017. un pēdējo reizi 2018. gadā Tildes neironu mašīntulkošanas arhitektūra jeb tas, kā IT speciālisti savstarpēji kombinē neironus, ir mainījusies. «Tas nozīmē, ka mašīntulkošanas dzini jeb sirdi iepriekšējos trijos gados pilnībā nomainījām trīs reizes,» paskaidro Mārcis.

Rezultātā ar juridiskiem tekstiem, kādi visbiežāk ir Eiropas Savienības dokumenti, Tildes mašīntulks spēj labi tikt galā. Tulkojums gan kādam ekspertam vēl ir jāizrediģē, lai izķertu kļūdas. «Protams, sistēma strādā ar kļūdām,» atzīst Mārcis. «Bet mašīntulkojumi ļauj tulkotājiem strādāt produktīvāk un ātrāk.»

Jaunās tehnoloģijas ļāvušas Tildei nodrošināt ar mašīntulkošanas risinājumiem Eiropas Savienības Padomes prezidējošās valstis. Uzņēmuma izstrādāto rīku Presidencymt.eu sāka izmantot Igaunijas prezidentūras laikā, pašlaik to liek lietā Somijā, lai prezidentūras organizatori ātri iztulkotu tekstus angļu, somu un zviedru valodā. Prezidentūras tulkotājs līdz šim ir palīdzējis pārtulkot 30,8 miljonus vārdu. Apjoms ir līdzvērtīgs 200 Harija Potera sērijas grāmatām. Tilde sniedz savus datus un palīdz ar konsultācijām arī Eiropas Komisijas tulkošanas ģenerāldirektorātam, kurā speciālistu grupa veido savu rīku eTranslation. «Viņi šogad arī piedalījās mašīntulkošanas sacensībās, un viņu sistēma uzrādīja labākus rezultātus nekā publiski pieejamās sistēmas,» saka Mārcis. «Bet, protams, ne tik labus kā mēs. Mums ir lielāka pieredze gan sistēmu izstrādē, gan datu apstrādē.»

Vai ar Tildes tulkotāju var tulkot ziņas? Mārcis neslēpj, ka tam nepieciešama publiski pieejamā mašīntulka regulāra atjaunināšana — lai sistēma atpazītu jaunus vārdus, terminus un fenomenus, kas ir saistīti ar aktualitātēm. «Pašreizējā sistēma spēj iemācīties tikai to, ko bieži redzējusi tai iedotajos datos,» stāsta Mārcis. Tāpēc politisko līderu Trampa, Makrona un Merkeles vārdus Tildes mašīntulks pazīst, bet šogad ievēlēto Ukrainas prezidentu Volodimiru Zelenski vai jauno Eiropas Komisijas prezidenti Urzulu fon der Leienu — ne. Tieši šā iemesla dēļ mašīntulkošanas sistēmas regulāri jāuzlabo un jāatjaunina. «Lai tās attīstītu, noteicošais nav jaunāko neironu tīklu izmantošana, bet gan pareizu datu izmantošana un to apstrāde. Tā ir svarīgāka par matemātiskajām metodēm,» saka Mārcis.

Universāla rīka nebūs

Tulkojumu precizitāte ir atkarīga no sistēmai iedotā datu apjoma un to apstrādes, tāpēc, kā secinājuši Tildes eksperti, katrai nozarei vajadzīgs savs mašīntulkošanas rīks. Universālas sistēmas nav un nebūs, jo, kas der visiem, neder nekam, atzīst Mārcis. 

Ziņu tulkotājs nespēj labi un uzticami tulkot medicīniskus tekstus un diezin vai ar visiem uzlabojumiem tas spēs, piemēram, latviešu ārstam iztulkot sīriešu bēgļa medicīnas vēsturi tā, lai dakteris varētu izšķirties par ārstēšanu. Teksts varētu sasmīdināt arī lauksaimniecības vai ekonomikas speciālistus, ja viņi ar šā rīka palīdzību mēģinātu tulkot savas nozares literatūru. 

«Lai sistēma iemācītos labi tulkot, tā jāpielāgo konkrētās jomas datiem. Tāpēc biznesa klientiem, kas ir dažādu tulkošanas pakalpojumu sniedzēji, izstrādājam pielāgotas sistēmas, kas strādā labāk nekā vispārīgās mašīntulkošanas sistēmas,» saka Mārcis. «Taču retus vārdus, kas datos neparādās bieži, sistēmas vēl nespēj labi atpazīt. Šī problēma vēl jārisina, lai tulkošanas latiņu paaugstinātu.» 

Tuvākais Mārča un viņu kolēģu mērķis ir panākt, lai viņu izstrādātās sistēmas «mācītos» no savām kļūdām. Viņi mēģina panākt, lai tulkotājiem, kad viņi ir izrediģējuši mašīntulka sagatavoto tekstu, būtu iespēja to atdot atpakaļ sistēmai un tā pēc iegūtās informācijas veidotu pareizus secinājumus par vārdu lietojumu vai to atrašanos teikumā attiecībā pret citiem vārdiem. «Lai nākamreiz, kad tulkotājs tulko līdzīgu tekstu, sistēma piedāvātu labāku tulkojumu,» Mārcis cer, ka šāda iespēja būs jau tuvākajā laikā.

The post Labāki par Google un Microsoft appeared first on IR.lv.

Читайте на 123ru.net

Другие проекты от 123ru.net



Архангельск

Хвост ледохода в Усть-Пинеге: что происходит на реках Поморья 29 апреля



Мир

Серфинг в России 2024: места, где можно поймать волну




Українські новини

Рушникосушки від Hygge Family: європейські стандарти якості на українському ринку



Новости 24 часа

Героическое участие армян в СВО. Часть третья



Game News

You may be kicking yourself for deleting Destiny guns that are all of a sudden viable again, but one of the game's biggest YouTubers has been Marie Kondo-ing his friends' arsenals on camera for years



Москва

Шапки женские на Wildberries — скидки от 398 руб. (на новые оттенки)



News Every Day

Fans slam ‘worst thing I’ve ever seen from EFL ref’ as John Eustace sent off after heated touchline bust-up



Авто

Уверенность в каждом дне вместе с автомобилем HAVAL



Москва

В РУДН прокомментировали инцидент в общежитии на юго-западе Москвы



Фрэнк Синатра

Таунхаус Фрэнка Синатры впервые выставлен на продажу



Москва

Стало известно, кто стали главными поставщиками мяса в Россию



WTA

WTA предвкушает дуэль Елена Рыбакина — Юлия Путинцева на турнире в Мадриде



Москва

Регистрация Авторского права. Регистрация объекта авторского права. Регистрация Авторского права на книгу. Регистрация Авторского права на музыку.



Макси

ГЛАВНЫЕ НОВОСТИ НЕДЕЛИ: смертельная погоня, трагедия в общежитии и новые владельцы «Макси»



Симферополь

Система ПВО сработала над Джанкоем и Симферополем: ВСУ пытались атаковать Крым ракетами ATACMS



Москва

Героическое участие армян в СВО. Часть третья



Москва

Собянин: Уникальная спецтехника помогает бесперебойной работе метро Москвы



Москва

Актерское агентство Киноактер. Актерское агентство в Москве.



Другие популярные новости дня сегодня


123ru.net — быстрее, чем Я..., самые свежие и актуальные новости Вашего города — каждый день, каждый час с ежеминутным обновлением! Мгновенная публикация на языке оригинала, без модерации и без купюр в разделе Пользователи сайта 123ru.net.

Как добавить свои новости в наши трансляции? Очень просто. Достаточно отправить заявку на наш электронный адрес mail@29ru.net с указанием адреса Вашей ленты новостей в формате RSS или подать заявку на включение Вашего сайта в наш каталог через форму. После модерации заявки в течении 24 часов Ваша лента новостей начнёт транслироваться в разделе Вашего города. Все новости в нашей ленте новостей отсортированы поминутно по времени публикации, которое указано напротив каждой новости справа также как и прямая ссылка на источник информации. Если у Вас есть интересные фото Вашего города или других населённых пунктов Вашего региона мы также готовы опубликовать их в разделе Вашего города в нашем каталоге региональных сайтов, который на сегодняшний день является самым большим региональным ресурсом, охватывающим все города не только России и Украины, но ещё и Белоруссии и Абхазии. Прислать фото можно здесь. Оперативно разместить свою новость в Вашем городе можно самостоятельно через форму.



Новости 24/7 Все города России




Загрузка...


Топ 10 новостей последнего часа






Персональные новости

123ru.net — ежедневник главных новостей Вашего города и Вашего региона. 123ru.net - новости в деталях, свежий, незамыленный образ событий дня, аналитика минувших событий, прогнозы на будущее и непредвзятый взгляд на настоящее, как всегда, оперативно, честно, без купюр и цензуры каждый час, семь дней в неделю, 24 часа в сутки. Ещё больше местных городских новостей Вашего города — на порталах News-Life.pro и News24.pro. Полная лента региональных новостей на этот час — здесь. Самые свежие и популярные публикации событий в России и в мире сегодня - в ТОП-100 и на сайте Russia24.pro. С 2017 года проект 123ru.net стал мультиязычным и расширил свою аудиторию в мировом пространстве. Теперь нас читает не только русскоязычная аудитория и жители бывшего СССР, но и весь современный мир. 123ru.net - мир новостей без границ и цензуры в режиме реального времени. Каждую минуту - 123 самые горячие новости из городов и регионов. С нами Вы никогда не пропустите главное. А самым главным во все века остаётся "время" - наше и Ваше (у каждого - оно своё). Время - бесценно! Берегите и цените время. Здесь и сейчас — знакомства на 123ru.net. . Разместить свою новость локально в любом городе (и даже, на любом языке мира) можно ежесекундно (совершенно бесплатно) с мгновенной публикацией (без цензуры и модерации) самостоятельно - здесь.



Загрузка...

Загрузка...

Экология в России и мире
Москва

Институт СТЭИ при поддержке Комитета общественных связей и молодежной политики города Москвы реализует проект "Вода Москвы"





Путин в России и мире
Москва

«Ану-ка, девушки!»: какой была легендарная передача, которая вернется на ТВ


Лукашенко в Беларуси и мире
Минск

Лукашенко заявил о желании построить в Белоруссии вторую АЭС




123ru.netмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

123ru.net — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.





Зеленский в Украине и мире
Киев

Цинизм зашкалил: Елена Зеленская повеселилась в Киеве с герцогиней Эдинбургской


Навальный в России и мире


Здоровье в России и мире


Частные объявления в Вашем городе, в Вашем регионе и в России






Загрузка...

Загрузка...



The Beatles

Вышел трейлер отреставрированной документалки о группе The Beatles



Москва

В Соединенных Штатах признали проблемы с тестированием гиперзвукового оружия

Друзья 123ru.net


Информационные партнёры 123ru.net



Спонсоры 123ru.net