employee from 01.01.2018 until now
, Russian Federation
employee from 01.01.2015 until now
, Russian Federation
employee from 01.01.2008 until now
Taganrog, Rostov-on-Don, Russian Federation
GRNTI 20.53 Технические средства обеспечения информационных процессов
OKSO 02.04.02 Фундаментальная информатика и информационные технологии
BBK 30 Техника и технические науки в целом
TBK 6028 Теория управления
BISAC COM016000 Computer Vision & Pattern Recognition
The problem of managing robots and robots coalitions is one of the limiting factors that stand in the way of the introduction of robots and multi-robot systems. Overcoming this problem is to increase the level of autonomy of robots, as well as the improvement of remote control interfaces of robots. At the interfaces of human and robot interaction, mechanical controls, such as buttons, joysticks and touch screens, prevail at the moment. All of them require the operator to use hand and / or foot movements. One of the promising areas of interface development is the use of tracking the direction and nature of the operator’s gaze. The article proposes the use of an extended human-robot interface with augmented reality, based on the principles of tracking the gaze of a human operator when analyzing video data from the on-board video system of the robot. The design of augmented reality glasses, characterized by simplicity and affordability of performance, is proposed. This design uses a typical smartphone and case, which can be made using 3D printing. At the same time, there are no additional sources of illumination of the operator’s eyes, with the exception of the smartphone screen. An example of software implementation for such an interface is shown.
eye gaze detection, human-robot interface, augmented reality
Введение. Роботы и коалиции роботов находят все более широкое применение в различных отраслях, переходящих на методологию цифровой экономики. При этом проблема управления роботами и коалициями роботов является одним из сдерживающих факторов, стоящих на пути внедрения роботов и мультиробототехнических комплексов. Можно выделить два основных направления по решению этой проблемы. Первое – повышение автономности роботов за счет применения элементов искусственного интеллекта, мультиагентного и роевого взаимодействия. Второе направление – совершенствование механизмов взаимодействия человека-оператора и управляемого им робота.
В настоящее время элементами управления в интерфейсах человек-робот как правило являются различные комбинации рычагов/джойстиков, кнопок, педалей, сенсорных экранов. То есть человек-оператор использует свои руки (реже ноги) для воздействия на органы управления. Однако использование таких устройств ограничивает объем информации, передаваемый оператором роботу, а также увеличивает время реакции.
Предлагается в качестве органов управления роботом использовать не только тактильный контакт рук и ног оператора с органами управления, но и глаза человека-оператора за счет анализа направления взгляда оператора, анализа закрытия глаз и времени сосредоточения на отдельном объекте. В качестве основы отображения информации в настоящем проекте предлагается использовать режим совмещения стереоинформации, получаемой с системы стереозрения робота, с дополненной реальностью, что позволит повысить точность позиционирования роботизированной системы и ускорить процесс получения информации от нее.
Современные системы дополненных интерфейсов, использующие отслеживание направления взгляда [1, 2] («Eye gaze tracking», «айтрекинг») основываются на применении сложных систем, состоящих из одной или нескольких камер, систем дополнительной подсветки и компенсации бликов, что приводит к значительной стоимости готовых устройств и тем самым ограничивает области применения.
Обзор известных подходов. В настоящее время активно ведутся исследования в области детектирования зрачков человека, определения направления взгляда и областей интереса пользователя по видеопоследовательности, получаемой с цифровой камеры.
Системы, построенные на данном принципе, получают набор изображений с камеры, анализируя полученную последовательность определяют положение и перемещение зрачков пользователя, и используя данные калибровки определяют направление взгляда или область интереса пользователя. Камера должна быть расположена таким образом, чтобы глаз находился в прямой видимости без перекрытия посторонними объектами. При этом существует два варианта расположения камеры: в очках, или любом другом креплении недалеко от глаз, либо на некотором расстоянии от пользователя. В первом случае может быть достигнута более высокая точность определения положения зрачка из-за того, что камера находится в непосредственной близости от глаз, но при этом требуется специализированное оборудование (очки, миниатюрная камера, проводной или беспроводной канал передачи видео). Во втором случае, область глаз на изображении имеет намного меньший размер что приводит к необходимости использования более затратных в плане вычислений алгоритмов обработки изображений, с другой стороны, существует возможность использования обычных веб-камер, напрямую подключенных к вычислительному устройству для обработки получаемого видеопотока.
В любом случае, использование отдельных камер для решения поставленной задачи намного более удобно для пользователя по сравнению с системами, требующими применения специальных датчиков, которые крепятся на лице пользователя.
С учетом же активного развития алгоритмов и методов компьютерного зрения, системы, использующие цифровые камеры, удешевляются и могут быть использованы в более широком круге задач, в том числе и в задачах построения интеллектуального интерфейса дистанционного управления.
На точность определения центров зрачков, а, следовательно, и области интереса пользователя, влияет два основных фактора: разрешение получаемого изображения, и условия съемки. Для повышения разрешения можно либо использовать более дорогостоящие камеры, либо располагать их ближе к лицу пользователя, при это оба решения приводят к удорожанию системы в целом.
К условиям съемки следует отнести освещенность снимаемой сцены. При получении видеопоследовательности может использоваться как естественный свет (пассивное решение), так и дополнительная инфракрасная подсветка (активная подсветка) [3, 4]. При работе с естественным светом возникает множество проблем с определением центра зрачка глаза из-за бликов света. На рисунке 1 приведены примеры получаемых изображений при различных направлениях взгляда. Из рисунка видно, что при взгляде вперед блик может занимать значительную часть зрачка, что приведет к смещению детектируемого центра зрачка относительно реального, а, следовательно, к ошибке в оценке области интереса пользователя.
Рис. 1. Блики света в области зрачка при различном направлении взгляда
Избавиться от негативного влияния бликов света на точность определения центра зрачка можно путем использования инфракрасной подсветки [5]. Во многих исследовательских работах и промышленных решениях активно применяют активную подсветку для достижения высокой точности детектирования. Наиболее оптимальным решением является использование инфракрасного источника света с длиной волны около 880 нм, которая невидима для глаза и может быть захвачена промышленными камерами [6]. Но даже с учетом использованием инфракрасной подсветки остаются проблемы, которые необходимо решить, например, изменяющаяся в зависимости от положения источника света засветка области зрачка на изображении [3, 7, 8].
Для получения положения зрачка из видеопоследовательности и определения направления взгляда человека было разработано множество методов. Эти методы делятся на две основные группы [9, 10]: appearance-based [9–12] и feature-based [11, 13]. Также существуют model-based решения, предложенные в работах [4, 8].
Appearance-based методы напрямую вычисляют особенности на изображении глаза и использует функцию преобразования полученных особенностей в область просматриваемой сцены. Такие методы основаны на использовании: многослойных нейронных сетей [14], линейной интерполяции [15], различного рода регрессий: линейной [12], Гаусса [16], случайных деревьев [11], Neighborhood Approximation Forests [17]. Набор обучающих изображений для этих методов получался путем регистрации изображений глаз в момент, когда пользователь смотрит на определенную точку экрана.
Feature-based методы анализируют изображение глаза для выявления определенных характеристик, например, самого темного пикселя, который отвечает за зрачок или радужку. Использование инфракрасной подсветки упрощает этот процесс за счет усиления контраста между радужной оболочкой и зрачком глаза [6]. Большинство методов данной группы используют сегментацию изображений [18, 19]. В процессе обработки изображение приводится к формату градации серого и подвергается пороговой бинаризации для получения бинарного изображения, на котором зрачок представляет собой темную область. Порог определяется экспериментально для конкретных условий съемки. Центр масс темной области на изображении и будет представлять собой центр зрачка [19]. При обработке изображений, имеющих низкое разрешение или низкую контрастность, выполняют нормирование гистограммы яркости, что приводит к улучшению контрастности анализируемого изображения и позволяет подчеркнуть детали изображения. Еще одним представителем данной группы методов является работа [20] в которой для поиска центра зрачка используется векторное поле градиентов на изображении и отношение между градиентами в каждой точке изображения и в предполагаемом центре зрачка. Центр зрачка представляет собой точку пересечения наибольшего количество векторов градиентов.
Model-based алгоритмы выполняют поиск наиболее подходящей модели на изображении. При работе алгоритмов данной группы производится поиск объектов круговой или эллиптической формы, которые наиболее точно описывают форму зрачка при выбранном ракурсе камеры. При нахождении подобного объекта на изображении можно вычислить центр зрачка, который будет находиться в центре данного объекта. Такой подход позволяет достаточно точно выделить зрачок на изображении, и сделать это даже в случаях, когда зрачок частично перекрыт ресницами. Недостатками же такого подхода является высокая вычислительная сложность алгоритма, что не позволяет использовать его в режиме реального времени. Кроме того, model-based алгоритмы могут находить локальные минимумы, тем самым некорректно находя центр зрачка.
Существуют также гибридные алгоритмы [13], которые совмещают в себе feature- и model-based решения. К этой группе относятся: алгоритм Starburst [13], выполняющий поиск набора точек, описывающий контур зрачка с помощью RANSAC метода [21].
Для организации интеллектуального интерфейса дистанционного управления системой стереозрения робота посредством глаз оператора предлагается использовать очки, состоящие из специального корпуса, с устанавливаемым в него Android смартфоном. Такие очки могут выполнять следующие функции:
- получать видеопоследовательность с фронтальной камеры смартфона для определения координат центра зрачка;
- отображать интересующий пользователя контент, например, видео из галереи устройства;
- определять точку на экране смартфона, в которую смотрит пользователь;
- выполнять подстройку яркости экрана для повышения точности определения центра зрачков, а, следовательно, точности определения областей интереса на экране смартфона;
- записывать получаемые в реальном времени данные во внутреннюю память устройства;
- передавать получаемые данные по беспроводному каналу связи.
Предлагаемое решение имеет ряд преимуществ по отношению к существующим системам оценки областей интереса пользователя. Смартфон выполняет все необходимые подзадачи: захват видео с фронтальной камеры, подстройка яркости внутри корпуса очков, отображение видеопоследовательности или любой другой информации на экране, обработка, хранение и передача данных. Следовательно, отпадает необходимость в использовании набора, состоящего из специальных очков, дополнительных цифровых камер, ноутбука или персонального компьютера для выполнения расчетов. В результате это приводит к снижению стоимости итоговой системы и возможности применения подобных систем при решении широкого спектра задач, так как нет необходимости в применении узкоспециализированного и дорогостоящего оборудования. Даже смартфона начального уровня достаточно для выполнения всех необходимых расчетов в режиме реального времени.
Рассмотрим структуру предлагаемой системы. Система состоит из корпуса, который крепится на голову пользователя, и смартфона, выполняющего роль основного вычислительного устройства. На рисунке 2 показан корпус, с установленным смартфоном. Для установки смартфона в правой части корпуса предусмотрена специальная прорезь, предназначенная для смартфонов стандартной толщины. Поскольку в корпус могут быть установлены телефоны, имеющие диагональ более 4.5 дюймов, на дальней стенке корпуса предусмотрены фиксаторы, удерживающие смартфон.
Рис. 2. Конструкция устройства: корпус (слева), корпус с установленным смартфоном (справа)
Корпус имеет раздвижную конструкцию для корректировки расстояния между глазами оператора и экраном смартфона, что сделано для подстройки системы под зрение человека. Варианты с минимальным и максимальным расстоянием показаны на рисунке 3. Ремень используется для фиксации устройства на голове пользователя.
Рис. 3. Изменение длины корпуса устройства
Корпус устройства может быть напечатан на 3D принтере, что вкупе с использованием смартфона на платформе Android позволит упростить процесс сборки подобных систем и расширить области их применения.
Рассмотрим порядок работы с предложенной системой. На первом этапе на смартфон устанавливается специальное приложение, предназначенное для отображения видеоконтента, отслеживания областей интереса, обработки, хранения и передачи полученных результатов. В этом же приложении производится настройка основных блоков алгоритма обработки изображений (разрешение изображений, получаемых с фронтальной камеры; использование нейронных сетей для детектирования области глаза на изображении и особых точек вокруг глаза и т.д.).
После установки и настройки приложения, смартфон фиксируется в корпусе и устройство крепится на голове пользователя. Для запуска приложения в таком режиме может использоваться обычный bluetooth джойстик, например, VR Box 2.
При первом запуске пользователю необходимо откалибровать систему, для этого на отдельном экране приложения последовательно отображается набор точек, при взгляде на каждую из них, пользователю необходимо нажать на джойстике кнопку. При нажатии на кнопку система запоминает положение зрачка в момент, когда пользователь смотрит на отображаемую точку. Сохраненные данные в дальнейшем будут использованы для определения областей интереса на показываемом видео. По завершению калибровки пользователь может приступать к использованию системы.
Разработанное программное обеспечение предлагает выбрать пользователю видео из галереи устройства и начать его показ (рис. 4).
Рис. 4. Выбор видеофайла из галереи устройства
Во время показа видео на экране смартфона отображается маркер, указывающий на область интереса пользователя, и производится запись этой области во внутреннюю память телефона.
Поскольку в корпусе не предполагается дополнительного источника света, то за регулировку уровня освещенности отвечает разработанное приложение. Получая кадр с фронтальной камеры, алгоритм производит оценку средней яркости изображения. В случае показа затемненного видео, света экрана может быть недостаточно для корректного детектирования центра зрачка, а, следовательно и определения области интереса пользователя. В таком случае по краям экрана отображается специальная рамка, задача которой состоит в подстройке яркости внутри корпуса устройства. На рисунке 5 показан пример кадра, с отображенной рамкой для подстройки яркости изображения.
Рис. 5. Отображение рамки для адаптивной подстройки яркости
Выводы. В статье предложено использование расширенного интерфейса человек-робот с дополненной реальностью, основанное на принципах отслеживания взгляда человека-оператора при анализе видеоданных, поступающих от бортовой видеосистемы робота. Предложена конструкция очков дополненной реальности, отличающейся простотой и доступностью исполнения. Показан пример реализации программного обеспечения для такого интерфейса.
Таким образом, можно сделать вывод о том, что применение расширенного интерфейса человек-робот с дополненной реальностью является перспективным направлением исследований. Дальнейшие направления исследований будут направлены на совершенствование алгоритма отслеживания взгляда оператора.
1. Froimson M.I. et al. System for deter-mining the direction of the user's gaze in real time [Sistema opredeleniya napravleniya vzglyada polʹzovatelya v rezhime realʹnogo vremeni]. Spetstekhnika i svyazʹ. Obshchestvo s ogranichennoy otvetstvennostʹyu" Spetstekhnika i svyazʹ", 2013. No. 3. Pp. 32–34. (rus)
2. Malin I. Tracking the direction of the gaze in real time without using special video equipment [Otslezhivanie napravleniya vzglyada v realʹnom vremeni bez ispolʹzovaniya spetsi-alʹnoy videoapparatury]. Trudy «23-y mezhdu-narodnoy konferenktsii po kompʹyuternoy grafi-ke i zreniyu». Institut avtomatiki i protsessov upravleniya DVO RAN, Dalʹnevostochnyy fed-eralʹnyy universitet, 2013. Pp. 294–297. (rus)
3. Hansen D.W., Ji Q. In the eye of the beholder: A survey of models for eyes and gaze. IEEE Trans. Pattern Anal. Mach. Intell. IEEE, 2009. Vol. 32. No. 3. P. 478–500.
4. Lupu R.G., Ungureanu F., Siriteanu V. Eye tracking mouse for human computer interac-tion. 2013 E-Health and Bioengineering Confer-ence (EHB). 2013. Pp. 1–4.
5. Zhu Z., Ji Q. Robust real-time eye de-tection and tracking under variable lighting con-ditions and various face orientations. Comput. Vis. Image Underst. Elsevier. 2005. Vol. 98. No. 1. Pp. 124–154.
6. Morimoto C.H., Mimica M.R.M. Eye gaze tracking techniques for interactive applica-tions. Comput. Vis. image Underst. Elsevier, 2005. Vol. 98. No. 1. Pp. 4–24.
7. van der Geest J.N., Frens M.A. Record-ing eye movements with video-oculography and scleral search coils: a direct comparison of two methods. J. Neurosci. Methods. Elsevier, 2002. Vol. 114. No. 2. Pp. 185–195.
8. Ferhat O., Vilariño F. Low cost eye tracking. Comput. Intell. Neurosci. Hindawi Pub-lishing Corp. 2016. Vol. 2016. Pp. 17.
9. Chennamma H.R., Yuan X. A survey on eye-gaze tracking techniques. arXiv Prepr. arXiv1312.6410. 2013. Pp. 388–393.
10. Lu F. et al. A head pose-free approach for appearance-based gaze estimation. BMVC. 2011. Pp. 1–11.
11. Wang Y. et al. Appearance-based gaze estimation using deep features and random forest regression. Knowledge-Based Syst. Elsevier. 2016. Vol. 110. Pp. 293–301.
12. Lu F. et al. Inferring human gaze from appearance via adaptive linear regression. 2011 International Conference on Computer Vision. 2011. Pp. 153–160.
13. Li D., Winfield D., Parkhurst D.J. Star-burst: A hybrid algorithm for video-based eye tracking combining feature-based and model-based approaches. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05)-Workshops. 2005. Pp. 79–87.
14. Stiefelhagen R., Yang J., Waibel A. Tracking eyes and monitoring eye gaze. Proc. Workshop on Perceptual User Interfaces. 1997. Pp. 98–100.
15. Sugano Y. et al. Appearance-based gaze estimation with online calibration from mouse operations. IEEE Trans. Human-Machine Syst. IEEE, 2015. Vol. 45. No. 6. Pp. 750–760.
16. Williams O., Blake A., Cipolla R. Sparse and Semi-supervised Visual Mapping with the S^ 3GP. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06). 2006. Vol. 1. P. 230–237.
17. Lai C.-C. et al. Appearance-based gaze tracking with free head movement. 2014 22nd International Conference on Pattern Recognition. 2014. Pp. 1869–1873.
18. Kim S.I. et al. An algorithm to detect a center of pupil for extraction of point of gaze. The 26th Annual International Conference of the IEEE Engineering in Medicine and Biology Soci-ety. 2004. Vol. 1. Pp. 1237–1240.
19. Goni S. et al. Robust algorithm for pu-pil-glint vector detection in a video-oculography eyetracking system. Proceedings of the 17th In-ternational Conference on Pattern Recognition, 2004. ICPR 2004. 2004. Vol. 4. Pp. 941–944.
20. Timm F., Barth E. Accurate eye centre localisation by means of gradients. Visapp. 2011. Vol. 11. Pp. 125–130.
21. Fischler M.A., Bolles R.C. Random sample consensus: a paradigm for model fitting with applications to image analysis and automat-ed cartography. Commun. ACM. ACM, 1981. Vol. 24. No. 6. Pp. 381–395.