Ученые разработали новый метод сравнения больших объемов данных для изучения языка, ДНК и других объектов, представляющих собой последовательность символов, пишет Physics. Полная версия статья опубликована в издании Physical Review X.
Ученые для исследования того, как меняются языки, прибегли к данным сервиса Google Ngram, который анализирует книги из базы Google Books. Как отмечают математики, исследовать книги можно было двумя способами: посчитать слова, которые есть в одном произведении, но отсутствуют в другом, или подсчитать частоту использования тех или иных слов.
Ученые использовали второй метод и проанализировали произведения на английском языке, опубликованные в 1850-х, 1900-х и 1950-х годах. Они применили модифицированную математическую функцию – расстояние Йенсена—Шенона, которая используется для анализа сходства и различий наборов символов, в качестве которых в том числе могут выступать и слова.
Как выяснили ученые, больше всего тексты различаются редко используемыми словами, а не часто используемыми – методы исследования, применяемые ранее, выяснить это не могли. Математики полагают, что результаты могут быть верны не только для английского, но и для русского и испанского языков.
Оцените статью
Статья легко читается
Объем статьи оптимальный
Статья была информативна
Тема статьи полностью раскрыта
Материал излагается ясно, последовательно
Статья слишком пространная, в ней много лишней информации, «воды»