pgvector embeddings v PostgreSQL

Různé formy embeddingů získali v poslední době na popularitě. Jedná se o běžnou formu předzpracování textu v LLM modelech jako je ChatGPT. Na tuto skutečnost reagují i databázové systémy pomocí rozšířené podpory pro práci a ukládání vektorů.

Cílem práce je vytvořit aplikaci která otestuje správnost a výkonost pgvector na některých otevřených datech (např. rozsudky soudů). Tuto funkcionalitu můžeme ověřit na možnosti sémantického vyhledávání textu s využitím word embeddingů.

Zdroje:

https://medium.com/@sathishhariram/openai-embedding-semantic-search-using-vector-data-b785ae7079ff

https://github.com/gulcin/pgvector_blog

https://tembo.io/blog/postgres-vector-search-pgvector-and-lantern