- Updated: November 28, 2025
- 2 min read
Hacker News 28M Yorum Veri Seti: Vektör Gömmeli Arama ve AI Uygulamaları
Hacker News 28 M Yorum Veri Seti: Vektör Gömmeli Arama ve AI Uygulamaları
ClickHouse dokümantasyonunda yer alan Hacker News vektör gömme veri seti, 28 milyon yorumun vektör temsiliyle birlikte gelişmiş arama ve yapay zeka (AI) senaryoları için güçlü bir temel sunuyor. Bu makalede, veri setinin teknik özellikleri, ClickHouse’da tablo oluşturma ve indeksleme adımları, ANN (Approximate Nearest Neighbor) aramaları ve generatif AI entegrasyonu ele alınmaktadır.
Veri Setinin Temel Özellikleri
- 28 M yorum, her biri 1536 boyutlu OpenAI embedding vektörüyle temsil edilmiş.
- Parquet formatında depolanmış ve ClickHouse’a hızlı yükleme için optimize edilmiş.
- Vektör benzerliği aramaları için
annoyvehnswindeksleri destekleniyor.
ClickHouse’da Tablo Oluşturma ve Veri Yükleme
Veri seti aşağıdaki şemayla ClickHouse’da bir tabloya aktarılır:
CREATE TABLE hackernews_vector
(
id UInt64,
title String,
text String,
embedding Array(Float32, 1536),
timestamp DateTime
) ENGINE = MergeTree()
ORDER BY id;
Parquet dosyaları clickhouse-client --query "INSERT INTO hackernews_vector FORMAT Parquet" komutuyla yüklenir.
Vektör Benzerliği İndeksi ve ANN Aramaları
Vektör benzerliği sorguları için annoy veya hnsw indeksleri oluşturulur:
ALTER TABLE hackernews_vector
ADD INDEX idx_annoy embedding TYPE annoy(10) GRANULARITY 1;
Arama örneği:
SELECT id, title, distance(embedding, query_vector) AS dist
FROM hackernews_vector
WHERE distance(embedding, query_vector) < 0.2
ORDER BY dist
LIMIT 5;
Generatif AI ile Özetleme ve Soru‑Cevap
OpenAI API kullanılarak sorgu metni vektöre dönüştürülür, ardından en yakın yorumlar bulunur ve gpt‑3.5‑turbo modeliyle özetlenir. Bu sayede “Hacker News üzerinden ilgili bir konu hakkında hızlı özet” gibi senaryolar geliştirilebilir.
UBOS Tech’te Nasıl Kullanabilirsiniz?
Bu veri seti ve ClickHouse entegrasyonu, aşağıdaki UBOS içeriklerine doğrudan bağlanarak daha derinlemesine incelenebilir:
Veri seti, öneri motorları, içerik sınıflandırması ve gerçek‑zamanlı arama gibi birçok modern uygulamada kullanılabilir. ClickHouse’un yüksek performanslı sorgu motoru ve vektör indeksleme yetenekleri sayesinde, büyük ölçekli AI‑destekli analizler düşük gecikme süresiyle gerçekleştirilebilir.
Detaylı teknik rehber ve örnek kodlar için ClickHouse dokümantasyonundaki orijinal kaynak incelenebilir.