- Updated: November 27, 2025
- 5 min read
Tencent HunyuanOCR: 1 Milyar Parametreli Yeni OCR Modeli
Tencent HunyuanOCR: 1 Milyar Parametreli Yeni Nesil OCR Çözümü
Tencent HunyuanOCR, 1 milyar parametreli görsel‑dil modeli sayesinde belge tarama, metin algılama ve çok‑dilli çeviri gibi OCR görevlerini tek bir uçtan‑uya uç (end‑to‑end) pipeline’da gerçekleştiren, Türkiye’deki AI haberleri arasında öne çıkan bir yeniliktir.
HunyuanOCR’nin Tanıtımı ve Temel Özellikleri
Tencent’in Hunyuan serisine eklenen HunyuanOCR, 1 b milyar parametre ile eğitilmiş bir görsel dil modeli (Vision‑Language Model – VLM)dir. Model, aşağıdaki OCR‑özel yetenekleri tek bir çerçevede birleştirir:
- Metin tespiti (text spotting) ve satır‑satır tanıma
- Belge yapısal ayrıştırması (parsing) ve bilgi çıkarımı (information extraction)
- Görsel soru‑cevap (VQA) ve metin‑görsel çeviri (image‑to‑text translation)
Bu özellikler, Enterprise AI platform by UBOS gibi kurumsal çözümlerle entegrasyon için ideal bir temel oluşturur.
Model Mimarisi: ViT Encoder, Adaptive MLP ve Hafif Dil Modeli
HunyuanOCR üç ana bileşenden oluşur:
- Native Resolution ViT Encoder: SigLIP‑v2‑400M tabanlı Vision Transformer, giriş görüntüsünün orijinal oranını koruyarak adaptif patchleme yapar. Bu sayede uzun metin satırları ve düşük çözünürlüklü taramalar daha yüksek doğrulukla işlenir.
- Adaptive MLP Connector: Görsel tokenları sıkıştırarak dil modeline aktarır, aynı anda metin yoğun bölgelerindeki detayları korur. Hesaplama maliyetini %30’a kadar düşürür.
- Hafif Dil Modeli (0.5 B Hunyuan LLM): XD‑RoPE (rotary position embedding) kullanarak 2‑D ve 3‑D konum bilgilerini 1‑D token sırasına entegre eder. Bu, çok‑sütunlu sayfalar, çapraz‑sayfa akışları ve video çerçevelerinde tutarlı sonuçlar verir.
Bu mimari, Workflow automation studio içinde özelleştirilebilir akışlar oluşturmak isteyen geliştiriciler için “plug‑and‑play” bir yapı sunar.
Eğitim Süreci ve Performans Değerlendirmesi
HunyuanOCR, dört aşamalı bir eğitim tarifesi izler:
| Aşama | Veri Kaynağı | Özellik |
|---|---|---|
| Stage‑1 | Metin‑görsel hizalama, sentetik tanıma | 50 B token, 8 k bağlam |
| Stage‑2 | Multimodal ön‑eğitim (spotting, parsing, VQA) | 300 B token |
| Stage‑3 | Uzun belge odaklı (32 k bağlam) | 80 B token |
| Stage‑4 | Uygulama‑odaklı ince ayar + RL | 24 B token, GRPO |
Model, Group Relative Policy Optimization (GRPO) ve “Reinforcement Learning with Verifiable Rewards” yöntemiyle metin kutusu eşleşmesi, edit distance ve LLM‑jüri tabanlı ödüllerle optimize edilmiştir.
Benchmark sonuçları (İç veri setleri ve halka açık OCRBench, OmniDocBench vb.) şu şekildedir:
- Metin tespiti: 70.92 (900 görüntü, 9 kategori) – PaddleOCR ve BaiduOCR’dan üstün.
- OmniDocBench: 94.10 genel skor, 94.73 formüller, 91.81 tablolar.
- DocML (14 dil): 91.03 – tüm dillerde state‑of‑the‑art.
- OCRBench: 860 puan – DeepSeek OCR ve büyük VLM’lerle rekabetçi.
Bu performans, AI SEO Analyzer gibi UBOS ekosistemindeki araçlarla entegrasyon için güçlü bir temel oluşturur.
Pazar ve Uygulama Senaryoları
HunyuanOCR, aşağıdaki sektörlerde doğrudan değer yaratır:
Finans & Bankacılık
Fatura, makbuz ve kimlik kartı tarama süreçlerinde %35 daha hızlı veri çıkarımı.
Sağlık
Reçete ve laboratuvar raporu OCR’ı, çok‑dilli destekle klinik karar destek sistemlerine entegrasyon.
E‑ticaret
Ürün etiketleri, ambalaj fotoğrafları ve müşteri geri bildirimlerinden otomatik meta veri çıkarımı.
Eğitim & Medya
Video altyazı çıkarma ve çok‑dilli çeviri, uzaktan eğitim platformları için kritik.
Türkiye’deki AI OCR pazarının 2025 yılı itibarıyla %28 büyüme hedefi, HunyuanOCR gibi hafif ama güçlü modellerin benimsenmesini hızlandırıyor. UBOS for startups bu alanda prototip geliştirmek isteyen girişimciler için hazır şablonlar sunar.
Görsel Kullanımı ve Açıklaması
Şekil: HunyuanOCR’nin ViT encoder, Adaptive MLP ve hafif dil modeli katmanları; örnek belge tarama çıktısı sağda gösterilmiştir.
Bu görsel, modelin native resolution yaklaşımını ve sıkıştırılmış token akışını görsel olarak özetler. Görsel‑dil entegrasyonu, Chroma DB integration ile vektör tabanlı arama senaryolarında da kullanılabilir.
Sonuç ve Gelecek Perspektifleri
HunyuanOCR, 1 b milyar parametre ile hem performans hem de maliyet açısından dengeli bir çözüm sunar. Türkiye’deki yapay zeka ekosistemi, bu tür modelleri AI platformları üzerinden hızlıca test edip üretime alabilir.
Gelecek yıl için öngörülen gelişmeler:
- Modelin parametre sayısının 2 B’ye çıkarılması ve daha geniş çok‑dilli destek.
- Gerçek‑zamanlı video akışı üzerinden altyazı üretimi (streaming OCR).
- UBOS ekosisteminde AI marketing agents ile otomatik belge‑bazlı kampanya oluşturma.
Bu trendler, UBOS pricing plans içinde ölçeklenebilir paketler sunarak KOBİ ve büyük işletmelerin AI OCR yatırımlarını optimize etmelerine yardımcı olacak.
Kaynakça ve Dış Bağlantı
Bu makale, aşağıdaki kaynaklardan derlenmiştir:
- MarkTechPost – Tencent HunyuanOCR duyurusu (2025)
- Tencent HunyuanOCR Teknik Raporu (GitHub) – PDF
- UBOS resmi web sitesi – UBOS homepage