Eine neue Methode verbessert die Bildschärfe und Erkennung in lauten Umgebungen.
Thomas C Markhorst, Jan C van Gemert, Osman S Kayhan
― 8 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Eine neue Methode verbessert die Bildschärfe und Erkennung in lauten Umgebungen.
Thomas C Markhorst, Jan C van Gemert, Osman S Kayhan
― 8 min Lesedauer
Erfahre, wie AMRF die Bildsegmentierung in industriellen Anwendungen verbessert.
Zheming Zuo, Joseph Smith, Jonathan Stonehouse
― 5 min Lesedauer
Dieses Verfahren verbessert die Interpretierbarkeit in der semantischen Segmentierung mithilfe von Prototypen und multi-skalierten Darstellungen.
Hugo Porta, Emanuele Dalsasso, Diego Marcos
― 5 min Lesedauer
MAC-VO verbessert die Schätzung der Kameraposition in herausfordernden Umgebungen.
Yuheng Qiu, Yutian Chen, Zihao Zhang
― 5 min Lesedauer
Eine Studie vergleicht vortrainierte CNNs und Basis-Modelle für die medizinische Bildsuche.
Amirreza Mahbod, Nematollah Saeidi, Sepideh Hatamikia
― 6 min Lesedauer
FKAN verbessert die Bild- und 3D-Formdarstellung mit lernbaren Aktivierungsfunktionen.
Ali Mehrabian, Parsa Mojarad Adi, Moein Heidari
― 5 min Lesedauer
Eine neue Methode verbessert das Verständnis von KI für menschliche Aktionen durch spezielle Daten.
Dewen Zhang, Wangpeng An, Hayaru Shouno
― 7 min Lesedauer
Dieses Verfahren schätzt Orientierungen ohne beschriftete Daten mithilfe von Deep Learning.
Shiqi Li, Jihua Zhu, Yifan Xie
― 5 min Lesedauer
Dieses Papier bewertet die Fähigkeit von VLMs, über Grössen und Entfernungen nachzudenken.
Yuan-Hong Liao, Rafid Mahmood, Sanja Fidler
― 6 min Lesedauer
Übersicht über Techniken zur Erkennung und Klassifizierung menschlicher Aktionen.
Jungpil Shin, Najmul Hassan, Abu Saleh Musa Miah1
― 5 min Lesedauer
SparX verbessert die Bildbearbeitung, indem es das menschliche Sehsystem nachahmt.
Meng Lou, Yunxiang Fu, Yizhou Yu
― 6 min Lesedauer
Forschung zeigt, dass LLMs das Potenzial haben, Objekte in ereignisbasierten Visuals zu erkennen.
Zongyou Yu, Qiang Qu, Xiaoming Chen
― 6 min Lesedauer
Die Integration von Bewegungsinformationen verbessert die Genauigkeit der Objekterkennung in Bildern.
Cagri Gungor, Adriana Kovashka
― 6 min Lesedauer
ScaleFlow++ verbessert die 3D-Bewegungsschätzung mit monokularen Kameras für verschiedene Anwendungen.
Han Ling, Yinghui Sun, Quansen Sun
― 6 min Lesedauer
NSSR-DIL wandelt niedrigqualitative Bilder effizient um, ohne grosse Datensätze zu brauchen.
Sree Rama Vamsidhar S, Rama Krishna Gorthi
― 5 min Lesedauer
Ein maschinelles Lernverfahren, das Bewegung nutzt, um visuelle Daten effektiv zu lernen.
Simone Marullo, Matteo Tiezzi, Marco Gori
― 8 min Lesedauer
Dieses Framework ermöglicht ein schnelles Lernen neuer Objektkategorien mit minimalen Daten.
Yanan Jian, Fuxun Yu, Qi Zhang
― 6 min Lesedauer
Ein neues System verbessert die Geschwindigkeit und Genauigkeit der Videobeschriftung.
Alexandru Bobe, Jan C. van Gemert
― 6 min Lesedauer
KAT verbessert Deep Learning, indem es fortschrittliche KANs anstelle von MLPs verwendet.
Xingyi Yang, Xinchao Wang
― 6 min Lesedauer
Ein neues Framework verbessert das Verständnis menschlicher Handlungen durch Skelettdaten.
Lehong Wu, Lilang Lin, Jiahang Zhang
― 6 min Lesedauer
Eine neue Methode verbessert die Greiffähigkeit von Robotern mit Hilfe von Sprachbefehlen.
Vineet Bhat, Prashanth Krishnamurthy, Ramesh Karri
― 6 min Lesedauer
FOLK verbessert das selbstüberwachte Lernen durch adaptive Frequenzmaskierung und ein Lehrer-Schüler-Design.
Amin Karimi Monsefi, Mengxi Zhou, Nastaran Karimi Monsefi
― 5 min Lesedauer
Die Anpassung von DINOv2 verbessert die BEV-Segmentierung für sicherere selbstfahrende Autos.
Merve Rabia Barın, Görkay Aydemir, Fatma Güney
― 5 min Lesedauer
Ein neuer Datensatz kombiniert RGB- und Eventkamera-Daten für eine bessere Gesichtsanalys.
Federico Becattini, Luca Cultrera, Lorenzo Berlincioni
― 8 min Lesedauer
SteeredMarigold verbessert Tiefenkarten und hilft Robotern beim Navigieren und Interagieren.
Jakub Gregorek, Lazaros Nalpantidis
― 6 min Lesedauer
Wir stellen GRIN vor, ein neues Modell zur Tiefenschätzung mit spärlichen Daten.
Vitor Guizilini, Pavel Tokmakov, Achal Dave
― 7 min Lesedauer
NVLM verbessert das Verständnis von KI für Sprache und Bilder bei verschiedenen Aufgaben.
Wenliang Dai, Nayeon Lee, Boxin Wang
― 6 min Lesedauer
Diese Arbeit verbessert die Genauigkeit von CLIP, indem sie intra-modale Überlappungen mit leichten Adaptern angeht.
Alexey Kravets, Vinay Namboodiri
― 6 min Lesedauer
Ein neues Framework verbessert die Segmentierung mit wenigen Beispielen.
Amirreza Fateh, Mohammad Reza Mohammadi, Mohammad Reza Jahed Motlagh
― 6 min Lesedauer
SLAck bietet einen neuen Ansatz, um verschiedene Objekte in Videos zu verfolgen.
Siyuan Li, Lei Ke, Yung-Hsu Yang
― 6 min Lesedauer
Ein Benchmark für die verallgemeinerte Few-Shot-Segmentierung in der Fernerkundung wird vorgestellt.
Clifford Broni-Bediako, Junshi Xia, Jian Song
― 5 min Lesedauer
Eine neue Methode verbessert die Pose-Schätzung mit RGB-Bildern, die durch Tiefendaten unterstützt werden.
Alessandro Simoni, Francesco Marchetti, Guido Borghi
― 6 min Lesedauer
Die TRIM-Methode reduziert Bildtokens in multimodalen Sprachmodellen, während die Leistung erhalten bleibt.
Dingjie Song, Wenjun Wang, Shunian Chen
― 5 min Lesedauer
Ein neuer Rahmen schätzt die Tiefe präzise aus einzelnen unscharfen Bildern.
Jinchang Zhang, Ningning Xu, Hao Zhang
― 6 min Lesedauer
Eine neue Methode verbessert die Effizienz bei der 3D-Datenerfassung für verschiedene Anwendungen.
Zhizhou Jia, Shaohui Zhang, Qun Hao
― 6 min Lesedauer
WaveMixSR-V2 verwandelt Bilder mit niedriger Auflösung effizient in hochwertige Ausgaben.
Pranav Jeevan, Neeraj Nixon, Amit Sethi
― 5 min Lesedauer
Dieses Paper vergleicht Vision Transformers und CNNs zur Klassifizierung von Seitenstrahlsonar Bildern.
BW Sheffield, Jeffrey Ellen, Ben Whitmore
― 6 min Lesedauer
Eine neue Methode verbessert, wie Roboter zukünftige Szenen und Objektinteraktionen vorhersagen.
Juana Valeria Hurtado, Riya Mohan, Abhinav Valada
― 6 min Lesedauer
Ein neuer Dual-Path-Ansatz verbessert die Objekterkennung für Roboter in schwierigen Umgebungen.
Aneesh Chavan, Vaibhav Agrawal, Vineeth Bhat
― 6 min Lesedauer
Ein Blick auf Methoden zur Erkennung unerwarteter Daten in KI-Modellen.
Shuo Lu, Yingsheng Wang, Lijun Sheng
― 6 min Lesedauer