👋 About me

I am a direct Ph.D. student in Electronic Information at Harbin Institute of Technology (HIT), advised by Prof. Tonghua Su. I expect to graduate in Jun. 2029.
I received my Bachelor’s Degree in Software Engineering at Central South University in Jun. 2024.
My research interests mainly focus on digital human video generation, talking-head / portrait animation, DiT / diffusion models for video generation, and large-scale face video dataset construction.
I am actively seeking research discussion and collaboration opportunities, so feel free to contact me!

🔥 News

2026.07: 🎉🎉 Our paper “CogPortrait: Fine-Grained Eye-Region Control in Portrait Animation via Hierarchical Agent Planning” has been accepted by ACM MM 2026. (CCF-A, First Author)
2026.05: 🎉🎉 Our paper “DiTalker: A Unified DiT-based Framework for High-Quality and Speaking Styles Controllable Portrait Animation” has been accepted by CVIU 2026. (CCF-B, First Author)
2025.10: 🎉🎉 Serving as Organizer for ACM Multimedia Asia 2025 Grand Challenge: Multimodal Multiethnic Talking-Head Video Generation.
2025.07: 🎉🎉 Our paper “DH-FaceVid-1K: A Large-Scale High-Quality Dataset for Face Video Generation” has been accepted by ICCV 2025. (CCF-A, Second Author)
2025.05: 🎉🎉 Our paper “DH-OmniFace” is under major revision at IEEE TMM. (CCF-A, First Author)
2024.07: 💼 Started Algorithm Internship at Digital Human Group, Li Auto.

📝 Publications

📜 Patents

Two accepted internal invention patents on talking-face generation and digital human foundation models.
Method and System for Automatic Generation of Multilingual Educational Videos Based on Multi-Agent Collaboration — Accepted.
Multi-language MOOC Teaching Video Automatic Generation System Based on Multi-Agent Collaboration — Software Copyright.

🎓 Educations

Sep. 2024 – Jun. 2029, Harbin Institute of Technology, Direct Ph.D. in Electronic Information, Advisor: Prof. Tonghua Su
Sep. 2020 – Jun. 2024, Central South University, B.Eng. in Software Engineering

💼 Internships

Algorithm Intern · Digital Human Group, Li Auto

Jul. 2024 – Jan. 2025

Reproduced and evaluated 20+ talking-face generation models (SadTalker, AniPortrait, EMO, MuseV, VASA-1, MODA).
Developed and evaluated OpenSora-Plan-based talking-face foundation models at 1B/3B/5B scales.
Built a 1,000+ hour talking-face video database with MLLM-generated captions and multimodal annotations.
Supported DH-FaceVid-1K and DH-OmniFace dataset construction.

🛠️ Projects

Digital Human Generation Foundation Model R&D

Li Auto – University Joint Program · Jun. 2024 – Jan. 2025

Technical route design, dataset investigation, model reproduction, and experimental validation for a 2D digital human video generation foundation model.

Agent-Based Multilingual MOOC Teaching Video Generation System

Jan. 2026 – Mar. 2026

Multi-agent course video generation pipeline supporting PPT upload or course-topic input, with automatic course structuring, translation verification, voice cloning, digital human generation, video composition, and subtitle export.

🏆 Honors and Awards

Organizer, ACM Multimedia Asia 2025 Grand Challenge: Multimodal Multiethnic Talking-Head Video Generation.

📚 Academic Services

Reviewer for TMM, Neurocomputing, Pattern Recognition, Knowledge-Based Systems, Neural Networks, ACM MM, AAAI, NeurIPS, CVPR, ICLR, ICML.

🛠️ Skills

Programming: Python, PyTorch, Linux, Git, Docker, LaTeX
Deep Learning: training, inference, hyperparameter tuning, experiment management
Languages: Chinese, English

🌍 Visitor Map

🌍

Thanks to - visitors from -+ views worldwide.

He Feng