Zajímalo mě, kolik českých zpravodajských webů si v únoru 2024 nechá vysávat svůj obsah roboty, které “učí” umělou inteligenci.

Od srpna 2023 můžete svojí stránku velmi jednoduše nastavit tak, aby jí OpenAi a Google AI nekonzumovali, a nenasávali tak váš obsah do velkých jazykových modelů. Teoreticky tak zamezíte tomu, aby někdo obchodoval vámi vytvořený obsah a (zatím) vám za něj nic neplatil (nebo bral návštěvníky = zisk z reklamy).
Vzal jsem ty největší (a pár menších) české zpravodajské servery (soukromé i veřejnoprávní), projel jejich robots.txt a tady jsou výsledky:
Server | Blokuje robota OpenAI? | Blokuje i další roboty? |
A2larm.cz | Ne | Ne |
Aktuálně.cz | Ano | Ne |
ČeskéNoviny.cz (ČTK) | Ano* | Google, Facebook |
Blesk.cz | Ne | Ne |
ČT24 | Ne | Ne |
Deník.cz | Ano | Ne |
Echo24.cz | Ne | Ne |
HN.cz | Ano | Ne |
iDnes.cz | Ano | Ne |
iRozhlas.cz | Ne | Ne |
Lidovky.cz | Ano | Ne |
Novinky.cz | Ne | Ne |
Respekt.cz | Ne | Ne |
Seznam Zprávy | Ne | Ne |
TN.cz | Ano | Anthropic, Claude |
U veřejnoprávní televize a rozhlasu oceňuju jejich (snad záměrný) přístup. IMO by se měla nechat zpřístupnit i ČTK. U soukromých institucí moc nerozumím tomu, proč některé z nich roboty neblokují (nebo alespoň neomezují) vůbec. Asi nejvíc mě to překvapuje u webu Respekt.cz, jehož šéfredaktor se neustále vyjadřuje v médiích, jak náročné je se v současné online době uživit. Dobrovolné poskytování vašeho obsahu AI modelům bude do pár let cesta do pekel.

Otázka je, jestli má takové blokování dlouhodobý smysl. Velké a zodpovědně se tvářící AI firmy možnost blokovat jejich crawlery pravděpodobně budou honorovat. Dnes ale nic nebrání komukoli dalšímu pohltit váš volně přístupný obsah. Neexistuje univerzální příkaz, jak zablokovat všechny existující boty. A i pokud by existoval, dnes neexistuje způsob jak jim v tom jednoduše zabránit.
22-02-2024