Research Report

Tianwen LVLM
Nền Tảng AI Đa Phương Thức
Giải Pháp Thành Phố Thông Minh

Phân tích chiến lược về mô hình ngôn ngữ tri thức toàn diện của YITU Technology • 100+ dự án triển khai thành công tại Trung Quốc

Launch
2023
Projects
100+
Accuracy
90%+
Giao diện AI thành phố thông minh
Tianwen LVLM — Nền tảng đa phương thức cho phép tương tác bằng ngôn ngữ tự nhiên để phân tích và tìm kiếm video thông minh

Tóm tắt chính

YITU Technology đã phát triển một giải pháp lõi mang tên mô hình Ngôn ngữ Tri thức Toàn diện (LVLM) "Tianwen" (天问). Đây là một nền tảng AI đa phương thức, được xây dựng dựa trên kiến trúc Transformer và các công nghệ như học tương phản (Contrastive Learning).

Tianwen cho phép người dùng tương tác bằng ngôn ngữ tự nhiên để tìm kiếm và phân tích video, có khả năng học và thích nghi nhanh chóng với các tình huống mới mà không cần nhiều dữ liệu huấn luyện. Mô hình này đã được triển khai thành công trong hơn 100 dự án trên toàn Trung Quốc.

An ninh công cộng

Hệ thống giám sát giao thông thông minh tại Karamay, phát hiện hành vi vi phạm với độ chính xác gần 100%

Tài chính

Hơn 12,000 máy ATM nhận diện khuôn mặt tại Ngân hàng Chiêu Thương Trung Quốc

Thành phố thông minh

Quản lý đô thị tại Hạ Môn và hơn 100 bệnh viện áp dụng AI trong chẩn đoán y tế

1. Giải pháp lõi: Mô hình Ngôn ngữ Tri thức Toàn diện "Tianwen"

1.1. Tổng quan về Mô hình Tianwen

1.1.1. Vai trò và vị trí trong chiến lược AI của YITU

Mô hình Ngôn ngữ Tri thức Toàn diện (Large Vision Language Model - LVLM) "Tianwen" (天问), còn được gọi là "QuestMind" trong các tài liệu quốc tế, đóng vai trò trung tâm trong chiến lược phát triển trí tuệ nhân tạo (AI) của YITU Technology, đặc biệt trong giai đoạn AI 2.0. [663]

Vai trò trung tâm
  • • Nền tảng đa mô hình (multi-modal large model)
  • • Thay đổi toàn diện cách ứng dụng AI
  • • Tập trung vào an ninh công cộng và thành phố thông minh
"Bộ não siêu việt"
  • • Nhận diện mẫu hành vi phổ biến
  • • Thích ứng nhanh với tình huống mới
  • • Loại bỏ cần cập nhật thủ công tốn kém
"Tianwen chính là công cụ chủ lực để hiện thực hóa chiến lược AI 2.0 của YITU, tạo ra vòng khép kín trong ứng dụng AI từ mô hình lớn, tác nhân thông minh đến phần cứng chuyên dụng." [666]

1.1.2. Quá trình phát triển và triển khai

2020
ConvBERT - Nền tảng tiên phong

Mô hình ngôn ngữ được huấn luyện trước đạt độ chính xác tương đương BERT nhưng chỉ với 1/10 thời gian huấn luyện và 1/6 số tham số. [648]

Tháng 7/2023
Tianwen chính thức ra mắt

Sau sự kiện ChatGPT tạo ra làn sóng toàn cầu, YITU nhanh chóng phản ứng và phát hành chính thức mô hình đa phương thức Tianwen. [664]

Tháng 10/2024
Hơn 80 dự án thương mại

Mô hình đã được triển khai và thương mại hóa trong hơn 80 dự án trên toàn quốc, chứng minh tốc độ áp dụng ấn tượng. [663]

Gần đây
Tianwen 4.5 - Hiệu suất vượt trội

Phiên bản mới mang lại hiệu suất ấn tượng: độ chính xác tăng 40% trong khi lượng dữ liệu cần thiết giảm 75%. [663]

1.1.3. Phạm vi ứng dụng đa ngành nghề

Mô hình Tianwen được thiết kế với khả năng ứng dụng rộng rãi, vượt ra ngoài phạm vi an ninh truyền thống. Với khả năng hiểu sâu về nội dung video và hình ảnh thông qua ngôn ngữ tự nhiên, mô hình này đã mở ra nhiều khả năng mới. [664]

Quản lý giao thông
  • • Phát hiện xe đi sai làn
  • • Không nhường đường cho người đi bộ
  • • Người đi xe đạp chở bình gas
Môi trường
  • • Phát hiện ô nhiễm
  • • Rác thải trên đường phố
  • • Đường bị ngập nước
Y tế
  • • Hỗ trợ chẩn đoán sớm
  • • Cải thiện độ chính xác 20%
  • • Rút ngắn thời gian 50%

1.2. Kiến trúc và Công nghệ lõi

1.2.1. Kiến trúc dựa trên Transformer

Mô hình Tianwen được xây dựng dựa trên kiến trúc Transformer tiên tiến, một kiến trúc mạng nơ-ron đã cách mạng hóa lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và đang ngày càng được áp dụng rộng rãi trong các mô hình thị giác máy tính và đa phương thức. [664]

Cơ chế "tự chú ý" (self-attention)

Thay thế các mô hình tuần tự truyền thống bằng cách xử lý toàn bộ chuỗi dữ liệu đầu vào đồng thời, mang lại:

  • • Hiệu quả tính toán cao hơn
  • • Khả năng nắm bắt mối quan hệ dài hạn
  • • Xử lý song song hoàn toàn
Minh họa kiến trúc Transformer với cơ chế self-attention

1.2.2. Phương pháp học tương phản (Contrastive Learning)

Một trong những công nghệ lõi giúp mô hình Tianwen có khả năng học và thích nghi nhanh chóng là phương pháp học tương phản (Contrastive Learning). Đây là kỹ thuật học tự giám sát, trong đó mô hình học cách biểu diễn dữ liệu bằng cách so sánh các cặp dữ liệu "tương tự""không tương tự". [664]

Quá trình học tương phản
Bước 1: So sánh

So sánh các khung hình liên tiếp trong video (positive pairs) với các khung hình từ video khác (negative pairs)

Bước 2: Thu gần

Đưa các cặp tương tự lại gần nhau trong không gian nhúng

Bước 3: Đẩy xa

Đẩy các cặp không tương tự ra xa nhau trong không gian nhúng

Lợi ích: Giúp mô hình học được các đặc trưng biểu diễn phong phú mà không cần gán nhãn thủ công, giảm thiểu sự phụ thuộc vào dữ liệu được gán nhãn tốn kém.

1.2.3. Không gian nhúng đa phương thức (Multi-modal Embedding Space)

Khía cạnh then chốt của công nghệ lõi Tianwen là khả năng tạo ra một không gian nhúng đa phương thức, nơi cả dữ liệu hình ảnh, video và văn bản đều được biểu diễn trong một không gian vector thống nhất. [664]

Hình ảnh/Video

Các khung hình được chuyển đổi thành vector biểu diễn

Văn bản

Câu lệnh ngôn ngữ tự nhiên được chuyển thành vector

Tìm kiếm

Tìm các vector video gần nhất với vector truy vấn

Mô hình không gian nhúng đa phương thức kết hợp văn bản và hình ảnh

Ví dụ: "một chiếc xe màu đỏ đỗ trước lối ra vào" và video ghi lại cảnh tượng đó được ánh xạ tới các vị trí rất gần nhau trong không gian này.

1.3. Các tính năng và khả năng nổi bật

1.3.1. Tương tác bằng ngôn ngữ tự nhiên

Biến các hệ thống AI phức tạp thành những "trợ lý" có thể hiểu và thực thi các yêu cầu bằng lời nói hoặc văn bản đơn giản. [539]

Ví dụ câu lệnh:
"Tìm tất cả các xe ô tô màu đen chạy quá tốc độ trên đường cao tốc A vào buổi sáng hôm qua"
"Hiển thị các đoạn video có người đi xe đạp ngược chiều gần trường học B"
Biến người dùng cuối thành "kỹ sư thuật toán" thông qua giao diện ngôn ngữ tự nhiên đơn giản

1.3.2. Khả năng học và thích nghi nhanh

Yếu tố then chốt giúp Tianwen vượt trội so với các mô hình AI truyền thống. Khả năng học liên tục từ dữ liệu thực tế và cải thiện độ chính xác nhanh chóng. [383]

Quá trình học liên tục
  1. Người dùng phản hồi và sửa lỗi (ví dụ: phân biệt ba lô và cặp)
  2. Hệ thống tự động điều chỉnh trọng số
  3. Cải thiện độ chính xác trong tương lai
"Ý tưởng là thuật toán"

Nhu cầu kinh doanh có thể được chuyển đổi thành mô hình AI hoạt động nhanh chóng và hiệu quả

1.3.3. Tìm kiếm ngữ nghĩa trong video

Ứng dụng trực tiếp và mạnh mẽ của Tianwen. Thay vì xem lại hàng giờ video thủ công, người dùng có thể sử dụng ngôn ngữ tự nhiên để mô tả những gì cần tìm. [382]

Khả năng nổi bật:
  • • Tìm kiếm dựa trên ý nghĩa (semantics) thay vì từ khóa
  • • Quét hàng triệu giây video trong thời gian ngắn
  • • Phát hiện mục tiêu nhỏ (small targets) từ video drone
"Xe chặn lối thoát hiểm"
"Đường ngập nước"
"Va li màu đỏ không có người trông coi"

1.3.4. Khởi động lạch với mẫu dữ liệu ít

Đột phá lớn của Tianwen là khả năng khởi động lạnh (zero-shot cold start) và học với rất ít mẫu dữ liệu. Mô hình có thể tạo ra và triển khai thuật toán mới mà không cần lượng lớn dữ liệu được gán nhãn trước. [242]

Ví dụ thực tế

Phát hiện chó nguy hiểm sau vụ việc tại thành phố phía tây Trung Quốc:

  • • Phương pháp truyền thống: 2 tuần
  • • Tianwen: 5 ngày đạt >90% độ chính xác
Quy trình
  1. Nhập câu mô tả hành vi
  2. Tự động tạo thuật toán
  3. Triển khai ngay lập tức
  4. Huấn luyện trực tuyến cải thiện
Giải quyết bài toán về chi phí và thời gian trong việc thu thập và chuẩn bị dữ liệu, đặc biệt hữu ích cho các tình huống "đuôi dài" (long-tail)

2. Ứng dụng thực tiễn và các dự án thành công

2.1. Lĩnh vực An ninh Công cộng và Giao thông

2.1.1. Dự án Hệ thống Nhận dạng Hành vi Giao thông Nguy hiểm tại Karamay

Bối cảnh và mục tiêu

Thành phố Karamay, Tân Cương, triển khai dự án tiên phong sử dụng AI của YITU để nâng cao an toàn giao thông. Mục tiêu xây dựng hệ thống giám sát thông minh có khả năng phát hiện tự động các hành vi vi phạm giao thông phức tạp.

Các hành vi được phát hiện:
• Đi xe đạp điện không đội mũ bảo hiểm
• Vượt đèn đỏ
• Không nhường đường cho người đi bộ
• Đi sai làn đường
Hệ thống camera giám sát giao thông thông minh tại thành phố Karamay
Kết quả và tác động
100%
Độ chính xác sau 1 tuần
Từ 60-70% ban đầu
Tiết kiệm
Chi phí đầu tư
Tận dụng hạ tầng cũ
An toàn
Giảm tai nạn
Nâng cao ý thức
"Chỉ sau một tuần hoạt động, độ chính xác của hệ thống đã tăng từ mức 60-70% ban đầu lên gần 100%, cho thấy khả năng học tập mạnh mẽ từ dữ liệu thực tế." [340]

2.1.2. Dự án An ninh tại các sự kiện lớn

Hội chợ Nhập khẩu Quốc tế Trung Quốc (CIIE)

Tianwen được ứng dụng trong công tác đảm bảo an ninh cho các sự kiện lớn quy mô quốc gia và quốc tế. Tại CIIE - một trong những sự kiện thương mại lớn nhất thế giới. [445]

Giám sát an ninh
Phân tích video từ hệ thống camera dày đặc
Quản lý dòng người
Giám sát mật độ đông đúc tại các lối vào
Phản ứng nhanh
Phát hiện và phản ứng với tình huống khẩn cấp
Hệ thống an ninh AI tại Hội chợ Nhập khẩu Quốc tế Trung Quốc
Các truy vấn ví dụ:
"tìm kiếm người mặc áo khoác đen để lại túi không người trông coi"
"giám sát mật độ đông đúc tại lối vào chính"

2.2. Lĩnh vực Tài chính và Ngân hàng

2.2.1. Dự án ATM Nhận diện Khuôn mặt với Ngân hàng Chiêu Thương Trung Quốc

Mục tiêu nâng cao bảo mật và tiện lợi

YITU hợp tác với Ngân hàng Chiêu Thương Trung Quốc để triển khai hệ thống ATM sử dụng công nghệ nhận diện khuôn mặt, nhằm nâng cao cả bảo mật và sự tiện lợi cho khách hàng. [155]

Lợi ích chính:
  • Loại bỏ nhu cầu sử dụng thẻ vật lý
  • Giảm thiểu rủi ro gian lận
  • Trải nghiệm giao dịch liền mạch, nhanh chóng
Máy ATM sử dụng công nghệ nhận diện khuôn mặt
12,000+
Máy ATM đã triển khai
Trên toàn quốc
Các tính năng hỗ trợ
Rút tiền
Chuyển khoản
Truy vấn số dư

2.3. Lĩnh vực Thành phố Thông minh (Smart City)

2.3.1. Dự án tại thành phố Hạ Môn (Xiamen)

Thành phố thông minh toàn diện

Tại Hạ Môn - trung tâm kinh tế và du lịch quan trọng ở phía đông nam Trung Quốc, YITU triển khai Tianwen như một phần của nỗ lực xây dựng thành phố thông minh toàn diện. [596]

Phân tích giao thông
Tối ưu hóa thời gian đèn giao thông
Quản lý đỗ xe
Hướng dẫn tài xế đến bãi đỗ còn chỗ trống
Công dân số
Nền tảng dịch vụ hành chính công
Giao diện điều khiển trung tâm thành phố thông minh Xiamen
Mục tiêu chính:
  • • Tối ưu hóa quản lý đô thị
  • • Cải thiện chất lượng cuộc sống cư dân
  • • Nâng cao hiệu quả vận hành chính quyền

2.3.2. Ứng dụng trong quản lý đô thị và môi trường

Quản lý môi trường đô thị

Khả năng tìm kiếm ngữ nghĩa của Tianwen được ứng dụng hiệu quả trong quản lý môi trường. Các nhà quản lý có thể sử dụng hệ thống để giám sát tình trạng ô nhiễm, rác thải và các sự cố môi trường một cách chủ động. [662]

Các truy vấn môi trường:
"đường bị ngập nước"
"rác thải xung quanh khu vực X"
"ô nhiễm môi trường"
Lợi ích:
  • • Phản ứng nhanh chóng
  • • Giảm thiểu thiệt hại
  • • Đảm bảo vệ sinh công cộng
Giám sát an toàn công cộng

Tianwen được sử dụng để giám sát an toàn công cộng trong các khu vực đô thị, phát hiện các hành vi nguy hiểm và tình huống bất thường. [664]

Người đi xe đạp chở bình gas
Tụ tập đông người bất thường
Vật thể bỏ quên
Khả năng đặc biệt:

Multi-condition combination scene control - tạo ra các quy tắc giám sát tinh vi, phù hợp với nhu cầu quản lý phức tạp của các thành phố hiện đại. [663]

3. Giải thích các thuật ngữ kỹ thuật (ELI5)

3.1. Mô hình Transformer là gì?

Giải thích như bạn đang nói với đứa trẻ 5 tuổi (ELI5):

Hãy tưởng tượng bạn đang đọc một câu chuyện. Để hiểu câu chuyện, bạn không chỉ đọc từng từ một cách riêng lẻ, mà bạn cần nhớ được những gì đã xảy ra trước đó và hiểu được mối liên hệ giữa các nhân vật, sự kiện. Mô hình Transformer giống như một "bộ não" của máy tính được thiết kế để làm điều đó.

Thuật ngữ chuyên ngành:

Mô hình Transformer là một kiến trúc mạng nơ-ron tiên tiến, nổi bật với cơ chế "tự chú ý" (self-attention).

  • • Xử lý toàn bộ chuỗi dữ liệu đầu vào đồng thời
  • • Hiệu quả tính toán cao hơn so với mô hình tuần tự
  • • Khả năng nắm bắt mối quan hệ dài hạn trong dữ liệu
  • • Cách mạng hóa lĩnh vực xử lý ngôn ngữ tự nhiên (NLP)
Minh họa kiến trúc Transformer với cơ chế self-attention
Ví dụ minh họa:

Khi nhận lệnh "tìm người đi xe máy không đội mũ bảo hiểm", Transformer có thể "nhìn" toàn bộ câu cùng lúc và tự động tìm ra mối liên hệ quan trọng giữa "người", "xe máy" và "mũ bảo hiểm".

3.2. Học tương phản (Contrastive Learning) hoạt động như thế nào?

Giải thích như bạn đang nói với đứa trẻ 5 tuổi (ELI5):

Học tương phản giống như một trò chơi "tìm điểm khác biệt" mà máy tính chơi để học hỏi. Thay vì được dạy bằng cách cho biết mọi thứ là gì (ví dụ: "đây là con mèo, đây là con chó"), máy tính được cho xem nhiều cặp hình ảnh. Nhiệm vụ của nó là học cách xếp những cặp giống nhau lại gần nhau, và đẩy những cặp khác nhau ra xa.

Thuật ngữ chuyên ngành:

Học tương phản (Contrastive Learning) là một phương pháp học tự giám sát (self-supervised learning), trong đó mô hình học cách biểu diễn dữ liệu bằng cách so sánh các cặp dữ liệu "tương tự" (positive pairs) và "không tương tự" (negative pairs).

  • Mục tiêu: Tối thiểu hóa khoảng cách giữa các cặp tương tự và tối đa hóa khoảng cách giữa các cặp không tương tự trong không gian nhúng
  • Lợi ích: Cho phép mô hình học từ lượng lớn dữ liệu không được gán nhãn, giảm bớt sự phụ thuộc vào dữ liệu được gán nhãn thủ công, tốn kém
  • Ứng dụng: Trong Tianwen, các khung hình liên tiếp của cùng một video được đưa lại gần nhau, trong khi các khung hình từ video khác nhau được đẩy xa nhau
Nhìn

Máy tính nhìn nhiều cặp hình ảnh

Thu gần

Đưa những cặp giống nhau lại gần nhau

Đẩy xa

Đẩy những cặp khác nhau ra xa

3.3. Không gian nhúng (Embedding Space) là gì?

Giải thích như bạn đang nói với đứa trẻ 5 tuổi (ELI5):

Không gian nhúng giống như một bản đồ kỳ diệu nhiều chiều. Trên bản đồ này, mọi thứ – từ hình ảnh, video, đến câu nói – đều được biểu diễn bằng một điểm. Điều kỳ diệu là những thứ có ý nghĩa tương tự nhau sẽ được đặt ở gần nhau.

Thuật ngữ chuyên ngành:

Không gian nhúng (Embedding Space) là một không gian vector đa chiều, nơi mà các đối tượng từ các phương thức dữ liệu khác nhau (văn bản, hình ảnh, âm thanh) được ánh xạ thành các vector.

  • Mục tiêu: Các khái niệm ngữ nghĩa tương tự được biểu diễn bởi các vector gần nhau trong không gian
  • Lợi ích: Cho phép thực hiện các phép toán và so sánh trực tiếp trên các khái niệm ngữ nghĩa
  • Trong Tianwen: Là nơi thông tin thị giác và ngôn ngữ được thống nhất, tạo cơ sở cho tìm kiếm video bằng ngôn ngữ tự nhiên
Mô hình không gian nhúng đa phương thức kết hợp văn bản và hình ảnh
Ví dụ minh họa:

Hình ảnh một con chó, video một con chó đang chạy, và câu "một con chó màu nâu" sẽ là ba điểm nằm rất gần nhau trên bản đồ không gian nhúng.

Quá trình tìm kiếm:
  1. Câu truy vấn được chuyển thành vector trong không gian nhúng
  2. Hệ thống tìm các vector video gần nhất
  3. Trả về các đoạn video phù hợp với ý nghĩa truy vấn

3.4. Khởi động lạnh với mẫu dữ liệu ít (Zero/Few-shot Learning) nghĩa là gì?

Giải thích như bạn đang nói với đứa trẻ 5 tuổi (ELI5):

Khởi động lạnh với mẫu dữ liệu ít giống như việc bạn học một kỹ năng mới mà không cần luyện tập hàng trăm lần. Giả sử bạn muốn dạy một đứa trẻ nhận biết một con vật mới, ví dụ như "cá heo". Thay vì cho nó xem hàng trăm bức ảnh cá heo, bạn chỉ cần chỉ vào một hoặc hai bức ảnh và nói "đây là cá heo". Đứa trẻ sẽ dựa vào kiến thức mà nó đã có để nhanh chóng hiểu được cá heo là gì.

Thuật ngữ chuyên ngành:

Khởi động lạnh với mẫu dữ liệu ít (Zero/Few-shot Learning) là khả năng của một mô hình học máy để thực hiện một nhiệm vụ mới mà không cần (zero-shot) hoặc chỉ cần một số lượng rất nhỏ (few-shot) mẫu dữ liệu được gán nhãn.

  • Zero-shot: Không cần mẫu dữ liệu được gán nhãn cho nhiệm vụ mới
  • Few-shot: Chỉ cần một số lượng rất nhỏ mẫu dữ liệu được gán nhãn
  • Cơ chế: Dựa vào khả năng khái quát hóa mạnh mẽ của các mô hình được tiền huấn luyện trên lượng dữ liệu lớn
  • Lợi ích: Giải quyết bài toán về chi phí và thời gian trong việc thu thập và chuẩn bị dữ liệu huấn luyện
Minh họa khái niệm học máy với ít mẫu dữ liệu
Ví dụ thực tế:

Khi cần phát hiện chó nguy hiểm sau một vụ việc tại thành phố phía tây Trung Quốc:

Phương pháp truyền thống
Ít nhất 2 tuần để thu thập và gán nhãn dữ liệu
Tianwen (Few-shot)
5 ngày đạt >90% độ chính xác
Quy trình hoạt động:
  1. Mô hình đã được học trước về nhiều thứ (zero-shot baseline ~70%)
  2. Người dùng cung cấp một vài ví dụ (few-shot)
  3. Hệ thống nhanh chóng thích nghi và cải thiện độ chính xác
  4. Triển khai thuật toán mới trong thời gian ngắn

Kết luận

Mô hình Tianwen của YITU Technology đại diện cho bước đột phá quan trọng trong lĩnh vực AI đa phương thức tại Trung Quốc. Với kiến trúc Transformer tiên tiến, khả năng học tương phản và không gian nhúng đa phương thức, Tianwen đã chứng minh hiệu quả thực tiễn qua hơn 100 dự án triển khai thành công.

Projects
100+
Accuracy
90%+
Version
4.5
"Tianwen không chỉ là một công cụ AI, mà là nền tảng cho sự chuyển đổi số toàn diện trong các lĩnh vực an ninh, tài chính và quản lý đô thị thông minh."