Tout sur le Net Bienvenue au Soutien du Net!
Les Robots
(ou "Spiders" ou "Crawlers" ou "Wanderer")

Etymologie: Le mot "Robot" est issu des langues slaves est ne veut rien dire d'autre que "travail" ("Robotnyk" = travailleur en tchèque).
Ce terme, désignant des humains artificiels, fut utilisé pour la première fois par Karel Čapek en 1917.
Isaac Asimov, considéré aujourd´hui comme étant le pape de la science fiction, a créé le terme "Robotic" en 1942 et également créées les trois lois de la robotique moderne:
En informatique le terme "robot" est utilisé pour ces programmes qui parcourent l´internet à la recherche de pages à visiter. Ils font cela dans le but de rassembler un maximum d´informations qu´ils sauvegardent dans les bases de données de leurs moteurs de recherches respectifs.
Par analogie au "Web" (la toile) ils sont aussi appelés "Spider" (araignée), ou tout simplement "Crawler" (rampeur (du verbe ramper)), "Bot" (abbréviation du mot Robot), "Wanderer" (marcheur) ou "Voyager" (voyageur).

Ce qui est important à savoir est que sur l´Internet TOUT est permis tant que ce n´est pas explicitement interdit. Ainsi ces robots iront examiner toutes les pages de tous les sites qu´ils trouvent (et ce uniquement et exclusivement à l´aide d´hyperliens contenus dans les pages), ils les classent, les sauvegardent dans leurs BDD, que cela plaise aux webmestres de sites ou non, et ce sans que quiconque le leur demande.
A moins que ..............
Il existe un moyen d´interdire aux robots de visiter vos pages:
Le fichier "robots.txt"
Ce fichier devra: Comme nous l'avons vu précédemment tout est permis, donc le but essentiel de robots.txt sera de prime abord d´interdire (les exceptions confirmant la règle). TOUS les robots (sans exception) cherchent en premier ce fichier à la racine du site visité. S´il n´y est pas, tout leur est permis.
Les propriétaires de sites Web utilisent /robots.txt pour donner aux robots des instructions concernant leurs sites; ceci est appelé "Robots Exclusion Protocol".
Ça fonctionne de la manière suivante: un robot veut visiter une URL, disons http://www.exemple.com/bienvenue.html. Avant de le faire, il vérifie la présence de http://www.exemple.com/robots.txt et trouve:
User-agent: *
Disallow: /

Le "User-agent: *" signifie que la section s´applique à tous les robots. Le "Disallow: /" dit au robot qu´il ne doit visiter aucune page sur le site.
Il y a deux réflexions à prendre en considération en utilisant un robots.txt:
Les robots les plus connus (bénins)(à la date du 01.03.2009) sont:
  1. ABCdatos BotLink
  2. Acme.Spider
  3. Ahoy! The Homepage Finder
  4. Alkaline
  5. Anthill
  6. Walhello appie
  7. Arachnophilia
  8. Arale
  9. Araneo
  10. AraybOt
  11. ArchitextSpider
  12. Aretha
  13. ARIADNE
  14. arks
  15. AskJeeves
  16. ASpider (Associative Spider)
  17. ATN Worldwide
  18. Atomz.com Search Robot
  19. AURESYS
  20. BackRub
  21. Bay Spider
  22. BBot
  23. Big Brother
  24. Bjaaland
  25. BlackWidow
  26. Die Blinde Kuh
  27. Bloodhound
  28. Borg-Bot
  29. BoxSeaBot
  30. bright.net caching robot
  31. BSpider
  32. CACTVS Chemistry Spider
  33. Calif
  34. Cassandra
  35. Digimarc Marcspider/CGI
  36. Checkbot
  37. ChristCrawler.com
  38. churl
  39. cIeNcIaFiCcIoN.nEt
  40. CMC/0.01
  41. Collective
  42. Combine System
  43. Conceptbot
  44. ConfuzzledBot
  45. CoolBot
  46. Web Core / Roots
  47. XYLEME Robot
  48. Internet Cruiser Robot
  49. Cusco
  50. CyberSpyder Link Test
  51. CydralSpider
  52. Desert Realm Spider
  53. DeWeb(c) Katalog/Index
  54. DienstSpider
  55. Digger
  56. Digital Integrity Robot
  57. Direct Hit Grabber
  58. DNAbot
  59. DownLoad Express
  60. DragonBot
  61. DWCP (Dridus' Web Cataloging Project)
  62. e-collector
  63. EbiNess
  64. EIT Link Verifier Robot
  65. ELFINBOT
  66. Emacs-w3 Search Engine
  67. ananzi
  68. esculapio
  69. Esther
  70. Evliya Celebi
  71. FastCrawler
  72. Fluid Dynamics Search Engine robot
  73. Felix IDE
  74. Wild Ferret Web Hopper #1, #2, #3
  75. FetchRover
  76. fido
  77. Hämähäkki
  78. KIT-Fireball
  79. Fish search
  80. Fouineur
  81. Robot Francoroute
  82. Freecrawl
  83. FunnelWeb
  84. gammaSpider, FocusedCrawler
  85. gazz
  86. vGCreep
  87. GetBot
  88. GetURL
  89. Golem
  90. Googlebot
  91. Grapnel/0.01 Experiment
  92. Griffon
  93. Gromit
  94. Northern Light Gulliver
  95. Gulper Bot
  96. HamBot
  97. Harvest
  98. havIndex
  99. HI (HTML Index) Search
  100. Hometown Spider Pro
  101. ht://Dig
  102. HTMLgobble
  103. Hyper-Decontextualizer
  104. iajaBot
  105. IBM_Planetwide
  106. Popular Iconoclast
  107. Ingrid
  108. Imagelock
  109. IncyWincy
  110. Informant
  111. InfoSeek Robot 1.0
  112. Infoseek Sidewinder
  113. InfoSpiders
  114. Inspector Web
  115. IntelliAgent
  116. I, Robot
  117. Iron33
  118. Israeli-search
  119. JavaBee
  120. JBot Java Web Robot
  121. JCrawler
  122. Jeeves
  123. JoBo Java Web Robot
  124. Jobot
  125. JoeBot
  126. The Jubii Indexing Robot
  127. JumpStation
  128. image.kapsi.net
  129. Katipo
  130. KDD-Explorer
  131. Kilroy
  132. KO_Yappo_Robot
  133. LabelGrabber
  134. larbin
  135. legs
  136. Link Validator
  137. LinkScan
  138. LinkWalker
  139. Lockon
  140. logo.gif Crawler
  141. Lycos
  142. Mac WWWWorm
  143. Magpie
  144. marvin/infoseek
  145. Mattie
  146. MediaFox
  147. MerzScope
  148. NEC-MeshExplorer
  149. MindCrawler
  150. mnoGoSearch search engine software
  151. moget
  152. MOMspider
  153. Monster
  154. Motor
  155. MSNBot
  156. Muncher
  157. Muninn
  158. Muscat Ferret
  159. Mwd.Search
  160. Internet Shinchakubin
  161. NDSpider
  162. Nederland.zoek
  163. NetCarta WebMap Engine
  164. NetMechanic
  165. NetScoop
  166. newscan-online
  167. NHSE Web Forager
  168. Nomad
  169. The NorthStar Robot
  170. nzexplorer
  171. ObjectsSearch
  172. Occam
  173. HKU WWW Octopus
  174. OntoSpider
  175. Openfind data gatherer
  176. Orb Search
  177. Pack Rat
  178. PageBoy
  179. ParaSite
  180. Patric
  181. pegasus
  182. The Peregrinator
  183. PerlCrawler 1.0
  184. Phantom
  185. PhpDig
  186. PiltdownMan
  187. Pimptrain.com's robot
  188. Pioneer
  189. html_analyzer
  190. Portal Juice Spider
  191. PGP Key Agent
  192. PlumtreeWebAccessor
  193. Poppi
  194. PortalB Spider
  195. psbot
  196. GetterroboPlus Puu
  197. The Python Robot
  198. Raven Search
  199. RBSE Spider
  200. Resume Robot
  201. RoadHouse Crawling System
  202. RixBot
  203. Road Runner: The ImageScape Robot
  204. Robbie the Robot
  205. ComputingSite Robi/1.0
  206. RoboCrawl Spider
  207. RoboFox
  208. Robozilla
  209. Roverbot
  210. RuLeS
  211. SafetyNet Robot
  212. Scooter
  213. Sleek
  214. Search.Aus-AU.COM
  215. SearchProcess
  216. Senrigan
  217. SG-Scout
  218. ShagSeeker
  219. Shai'Hulud
  220. Sift
  221. Simmany Robot Ver1.0
  222. Site Valet
  223. Open Text Index Robot
  224. SiteTech-Rover
  225. Skymob.com
  226. SLCrawler
  227. Inktomi Slurp
  228. Smart Spider
  229. Snooper
  230. Solbot
  231. Spanner
  232. Speedy Spider
  233. spider_monkey
  234. SpiderBot
  235. Spiderline Crawler
  236. SpiderMan
  237. SpiderView(tm)
  238. Spry Wizard Robot
  239. Site Searcher
  240. Suke
  241. suntek search engine
  242. Sven
  243. Sygol
  244. TACH Black Widow
  245. Tarantula
  246. tarspider
  247. Tcl W3 Robot
  248. TechBOT
  249. Templeton
  250. TeomaTechnologies
  251. TITAN
  252. TitIn
  253. The TkWWW Robot
  254. TLSpider
  255. UCSD Crawl
  256. UdmSearch
  257. UptimeBot
  258. URL Check
  259. URL Spider Pro
  260. Valkyrie
  261. Verticrawl
  262. Victoria
  263. vision-search
  264. void-bot
  265. Voyager
  266. VWbot
  267. The NWI Robot
  268. W3M2
  269. WallPaper (alias crawlpaper)
  270. the World Wide Web Wanderer
  271. w@pSpider by wap4.com
  272. WebBandit Web Spider
  273. WebCatcher
  274. WebCopy
  275. webfetcher
  276. The Webfoot Robot
  277. Webinator
  278. weblayers
  279. WebLinker
  280. WebMirror
  281. The Web Moose
  282. WebQuest
  283. Digimarc MarcSpider
  284. WebReaper
  285. webs
  286. Websnarf
  287. WebSpider
  288. WebVac
  289. webwalk
  290. WebWalker
  291. WebWatch
  292. Wget
  293. whatUseek Winona
  294. WhoWhere Robot
  295. Wired Digital
  296. Weblog Monitor
  297. w3mir
  298. WebStolperer
  299. The Web Wombat
  300. The World Wide Web Worm
  301. WWWC Ver 0.2.5
  302. WebZinger
  303. XGET