Искусственный интеллект научился определять национальность по почерку

С помощью алгоритма машинного обучения исследователи могут разобрать рукописный текст на английском языке и определить, из какой страны он родом.

Ученые собрали образцы текстов на английском, написанных 100 жителями Малайзии, Ирана, Китая, Индии и Бангладеша. Всего в массив данных попало 500 строчек. Затем инструмент под названием Cloud of Line Distribution (COLD) разбил строчки по буквам и проанализировал наклон текста. Алгоритм смог определить принадлежность автора текста к той или иной стране лучше существующего метода, а для некоторых стран даже увеличил точность определения более чем в два раза.

Алгоритм делает то, что получается у машинного обучения лучше всего — находит шаблоны. Когда китайцы используют латинский алфавит, буквы у них получаются более прямыми, потому что иероглифы китайской письменности формируются из прямых черточек. А в почерке у жителей Индии и Бангладеша больше изогнутых линий, потому что в буквах их родного алфавита больше округлых форм.

pic

Это одна из первых задач, которую смогли решить исследователи компьютерного зрения. Ранее они пытались определить по почерку эмоции, пол и возраст пишущего, но не смогли добыть больше информации (возможно, потому что никто не нашел способ монетизации этих исследований).

Ученые считают, что новый метод может пригодиться для расследования преступлений. Полиция все чаще использует для этого биометрические данные, и определение национальности человека по почерку может встать в один ряд с другими технологиями, например, программами для распознавания лиц.

Однако исследователи пока не дали никакого ответа на вопросы касаемо конфиденциальности и гражданских прав, которые применение этой и подобных технологий может нарушить. Так из-за ошибок анализа в преступлении могут обвинить невиновного человека. Или компании могут использовать программы для анализа почерка для дискриминации потенциальных клиентов по национальности.

Прежде чем правоохранительные органы смогут задуматься об использовании программы, ученым предстоит расширить свои массивы данных и доказать, что COLD — это нечто большее, чем просто интересный проект.

Перевод. Источник.

Общий рейтинг записи
Оцените запись:
[Всего: 0 Средняя оценка: 0]

Добавить комментарий