شبکه دو جریانی مبتنی بر توجه برای تشخیص حرکت چند نمایی با استفاده از داده‌های اسکلتی

نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه آموزشی مهندسی کامپیوتر نرم‌افزار- دانشکده فنی مهندسی- دانشگاه شهرکرد- شهرکرد

2 گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه شهرکرد، شهرکرد، ایران

چکیده

با پیشرفت تکنولوژی و استفاده روز افزون از ماشین‌های هوشمند، سیستم‌های تشخیص حرکت انسانی به یک موضوع مهم در حوزه بینایی ماشین تبدیل شده‌اند. در سال‌های اخیر و به لطف ویژگی‌های مختصر و مفید داده‌های اسکلتی، روش‌های تشخیص حرکت مبتنی بر اسکلت با استفاده از شبکه‌های کانولوشن گرافی (GCN) عملکرد قابل توجهی را به دست آورده‌اند. در روش‌های قبلی، از کانولوشن‌های محلی یک بعدی برای استخراج روابط زمانی بین فریم‌های مجاور استفاده می‌شود و از همبستگی‌های بین فریم‌های نامجاور غافل می‌شوند. از طرفی حرکت‌های انسان، شامل تغییرات زمانی زیادی است که یک وابستگی زمانی قوی را بین حرکات مفاصل نشان می‌دهد. بنابراین تشخیص یک حرکت، مستلزم تحلیل جامعی از همبستگی‌های بین مفاصل در حوزه‌های مکانی (spatial) و زمانی (temporal) است. در این مقاله شبکه‌ای به نام MV AT-AR پیشنهاد شده است که با استفاده از مکانیزم توجه، همبستگی‌های بین مفاصل را در زمان‌های مختلف یاد می‌گیرد. معماری شبکه پیشنهادی از دو جریان ورودی استفاده می‌کند و با استفاده از گراف مکمل اسکلتی، خصوصیات مختلف اسکلت انسان را منعکس می‌کند، که باعث تشخیص حرکت با دقت بالا می‌شود. ارزیابی تجربی روی مجموعه داده NTU RGB+D نشان می‌دهد که شبکه پیشنهادی به دقت 7/96 درصدی دست یافته است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Attention-Based Two-Stream Network for Multi-View Action Recognition Using Skeletal Data

نویسندگان [English]

  • reza rohani sarvestani 1
  • mohammad maleki sini 2
1 Educational Department of Software Computer Engineering - Technical Faculty - Shahrekord University - Shahrekord
2 Faculty of Computer Engineering, University of Shahrekord, Shahrekord, Iran
چکیده [English]

With the advancement of technology and the increasing use of intelligent machines, Human Action Recognition systems have become an important topic in the field of machine vision. In recent years, thanks to the concise and useful features of skeletal data, skeleton-based Action Recognition methods using graph convolutional neural networks (GCNs) have achieved significant performance. In previous methods, one-dimensional local convolutions used to investigate temporal relationships between adjacent frames and neglect correlations between non-adjacent frames. On the other hand, human movements include many changes that show a strong dependency between joint movements. Therefore, the recognition of an action requires a comprehensive analysis of correlations between joints in the spatial and temporal domain. In this paper, we propose MV AT-AR networks that learn the correlations between joints at different times by using the attention mechanism. The proposed network architecture uses two input streams and reflects the different characteristics of the human skeleton by using the skeletal complement graph, which enables Action Recognition with high accuracy. Evaluation on the NTU RGB+D dataset shows that the proposed network achieves an accuracy of 96.7%.

کلیدواژه‌ها [English]

  • Human Action Recognition
  • Skeletal Data
  • Convolutional Neural Network
  • Attention Mechanism
  • Deep Learning