Використовуючи
5,2 мільйона відсканованих видань з бібліотеки інтернет-гіганта, вчені
розробили інструмент для обширних лінгвістичних досліджень.
Влітку
компанія Google
оголосила про те, що буде надавати фінансову підтримку фахівцям, які планують
використовувати в своїй дослідницькій роботі оцифровані в рамках google Books
видання. Результати одного з подібних досліджень, яким займалися співробітники
Гарвардського університету, були представлені в середині грудня. Подробиці
описані в статті, опублікованій в журналі Science, а сервіс Ngram Viewer
запропонований для використання всім бажаючим.
Як
повідомляють дослідники, базою для розробки нового сервісу стали 5,2 мільйона
книг, написаних на англійській, французькій, іспанській, німецькій, китайській
і російській мовах і виданих починаючи з 1500 до 2008 року. Це приблизно
третина всієї електронної бібліотеки Google і близько 4% з коли-небудь
опублікованих книг. Учені склали підбірку всіх використаних у цих виданнях слів
(близько 500 мільярдів) і допрацювали алгоритм аналізу цього матеріалу на
основі пошукової системи Google.
Тепер
за допомогою Ngram Viewer будь-хто
може з’ясувати популярність різних слів і фраз, які зустрічалися в книгах за
останніх 500 з гаком років. Інформація буде представлена у вигляді графіків, а
видання, в яких зустрілося шукане слово, в хронологічному порядку відстежуються
безпосередньо по базі книг
Google
Books. Фрагменти в текстах будуть виділені, як і при
традиційному пошуку по цій електронній бібліотеці. Область пошуку можна
обмежити певним історичним періодом і конкретною мовою.
Автори і їхні колеги вважають, що новий інструмент стане
хорошою підмогою для серйозних лінгвістичних досліджень. Проте широку
інтернет-аудиторію нова «іграшка», як повелося, теж вельми зацікавила.
Ви досі не підписані на телеграм-канал Літгазети? Натисніть, щоб підписатися! Посилання на канал