К ленте

PointLLM-R: Enhancing 3D Point Cloud Reasoning via Chain-of-Thought

arXiv cs.CV 23.05.2026 PAPER
Исследователи представили подход к улучшению понимания 3D-облаков точек с помощью языковых моделей, решая проблему отсутствия явных механизмов рассуждения. Они адаптировали концепцию «цепочки рассуждений» (Chain-of-Thought, CoT), ранее успешную в больших языковых моделях (LLM), для работы с 3D-данными. Научная новизна заключается в разработке датацентричного фреймворка для создания масштабных обучающих данных с CoT-разметкой для 3D-облаков точек. Фреймворк включает двухэтапный процесс: уточнение инструкций через модели зрения-языка и синтез путей рассуждений с участием человека. На основе этого был создан датасет PoCoTI (55 тысяч образцов) и модель PointLLM-R, способная к рассуждениям с 3D-данными. Эксперименты показали, что PointLLM-R достигает высокой производительности в задачах 3D-классификации и создания описаний, а также демонстрирует устойчивость при работе с реальными сканированными облаками точек. 💡

Первоисточник

Читать оригинал