eseedo (HanWang)

upvoted an article about 1 month ago

Article

Exploring the Daily Papers Page on Hugging Face

Sep 23

• 38

upvoted a collection 3 months ago

Llama3.1-Chinese-Chat

Collection

2 items • Updated Jul 26 • 7

upvoted a collection 4 months ago

H2O Danube3

Collection

6 items • Updated 20 days ago • 53

upvoted a paper 7 months ago

Video2Game: Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single Video

Paper • 2404.09833 • Published Apr 15 • 29

upvoted 2 papers 10 months ago

Masked Audio Generation using a Single Non-Autoregressive Transformer

Paper • 2401.04577 • Published Jan 9 • 41

GPT-4V(ision) is a Generalist Web Agent, if Grounded

Paper • 2401.01614 • Published Jan 3 • 21

upvoted a collection 10 months ago

LLMs

Collection

16 items • Updated Jan 4 • 3

upvoted 3 papers 10 months ago

DocLLM: A layout-aware generative language model for multimodal document understanding

Paper • 2401.00908 • Published Dec 31, 2023 • 180

DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision

Paper • 2312.16256 • Published Dec 26, 2023 • 15

PlatoNeRF: 3D Reconstruction in Plato's Cave via Single-View Two-Bounce Lidar

Paper • 2312.14239 • Published Dec 21, 2023 • 10

upvoted a paper 11 months ago

Amphion: An Open-Source Audio, Music and Speech Generation Toolkit

Paper • 2312.09911 • Published Dec 15, 2023 • 53

upvoted a collection 11 months ago

Image to 3D

Collection

11 items • Updated Aug 20 • 6

HanWang

AI & ML interests

Organizations

eseedo's activity

Exploring the Daily Papers Page on Hugging Face

Llama3.1-Chinese-Chat

H2O Danube3

Video2Game: Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single Video

Masked Audio Generation using a Single Non-Autoregressive Transformer

GPT-4V(ision) is a Generalist Web Agent, if Grounded

LLMs

DocLLM: A layout-aware generative language model for multimodal document understanding

DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision

PlatoNeRF: 3D Reconstruction in Plato's Cave via Single-View Two-Bounce Lidar

Amphion: An Open-Source Audio, Music and Speech Generation Toolkit

Image to 3D