Бази знань

Я спробую навести кілька прикладів корисних енциклопедичних даних, які ви знайдете ніде, крім Linked Data.

Частина 1 - Вступ
Частина 2 - Freebase: робимо запити до Google Knowledge Graph
Частина 3 - Dbpedia - ядро світу Linked Data
Частина 4 - Wikidata - семантична вікіпедія

Містах, країни, історичні дані

Деякі географічні точки прив'язані до подій - про них теж можна дізнатися багато. Так, наприклад, досить просто отримати співвідношення сил і кількість убитих у Куликівській чи Бородінській битвах. Зрозуміло, не забуті й персоналії, із якими пов'язані події.

Дані про інститути, організації, держструктури

Композитори, музиканти, фільми

Щодо фільмів все виглядає більш ніж міцно: Freebase, Dbpedia і Linkedmdb мають у своєму розпорядженні дуже і дуже непогані масиви даних на тему кінематографії. ileriseviye.wordpress.com/2012/07/11/is-semantic-web-and-linked-data-good-enough-sparql-dbpedia-vs-python-imdbpy Ми не тільки легко можемо подивитися, який актор де знімався, в якому році вийшов фільм і хто його випустив, але ще й дізнатися, хто вплинув на актора, коли він народився, що у нього з сімейним становищем і чи займається він чимось, крім зйомок.

Наприклад, ось цей запит до Dbpedia виведе всіх акторів, які знімалися і у фільміThe Shining, і у фільміHoffa:

Найбільш чудовим джерелом даних у галузі музики, мабуть, є MusicBrainz. Звичайно ж, він є і в RDF, і звичайно ж, ви використовуватимете традиційні API щоб отримати до них доступ. Однак Freebase і Dbpedia можуть стати в нагоді і тут — в останній є, наприклад, інформація про гастролімузичних гуртів. Та й дати народження, вплив, стилі та жанри — енциклопедичні дані для музики теж є. Власне у навчальних матеріалах Freebase використовується якраз музичний приклад: доставляння даних про групу The Police:

Напевно, цікаво було б використовувати це у зв'язку з API Last.fm

Персоналії: політики, спортсмени, історичні постаті

Лінгвістичні програми. Вікісловник та переклади

Наприкінці 2012 року команда Dbpedia запустила проект Wiktionary — доступ до Вікісловника як бази даних. Зараз можна робити запити до англійської, німецької, французької, української, грецької та в'єтнамської мов. Давайте спробуємо витягнути переклади для будь-якого українського слова через SPARQL-точку Wiktionary:

Серед Semantic Web ентузіастів чимало лінгвістів, а тому лінгвістичний світ має власну хмару взаємопов'язаних даних.

Багато корисної інформації щодо Linked та не-Linked даних можна отримати з порталів Open Knowledge Foundation та нашого українського NLPub.

Як знаходити хороші дані

У осередках написані назви вікіпедичних шаблонів. Більш червоні осередки містять дані, розпарені повністю автоматично, зеленіші вказують на те, що парсинг проводився за участю людей, а тому якість даних має бути вищою.

Ну, а що тут сказати, пошук він і є пошук. Ми використовуємо двигуни Sig.ma, Sindice та Swoogle. Всі вони дозволяють шукати всередині одного датасета або по всій безлічі LInked Data.

Наступного разу я намагатимусь описати те, як навчитися будувати SPARQL-запити до бази знань Dbpedia.

Хардкорна конфа за С++. Ми запрошуємо лише профі.