Extraire des données à partir d'un site web sans doute la technique la plus courante utilisée traditionnellement copies que vous souhaitez (par exemple, les titres d'URL et de liaison); le processus est à venir avec des expressions régulières. En fait, ceci est la raison de notre logiciel de grattoir écran écrit pour le démarrage de l'application. Perl Exactement Vous êtes déjà familier avec les expressions régulières, et gratter le projet est relativement faible, dans le même temps; ils peuvent être une bonne solution.
Certains des programmes pour analyser le contenu sémantique d'une page HTML, puis faites glisser ce morceau de l'intérêt intelligent. Encore d'autres approches, ou de matériaux, qui sont destinés à représenter les noms de domaine pour aller à l'élaboration d'un vocabulaires hiérarchiques.
Écran grattage spécifiquement sur le fait qu'un certain nombre d'applications commerciales (y compris votre propre) sont. Les applications varient largement, mais dans les projets de taille moyenne et les grands, ils sont souvent une bonne solution.
Chacun a sa propre courbe d'apprentissage, une nouvelle application, vous allez apprendre les tenants et les aboutissants devrait prendre le temps.
Quelle est la meilleure façon de récupérer les données? Cela dépend de ce que sont vos besoins et les ressources disponibles. Il ya un certain nombre d'approches, ainsi que des suggestions sur la façon dont vous pouvez utiliser chacun d'eux, il ya des avantages et des inconvénients: les expressions régulières RAW et avantages de code: - Si vous êtes déjà familier avec les expressions régulières et au moins un langage de programmation, il peut être une solution rapide.
- Le contenu de l'expression régulière de ces petits changements qui ne cassent pas l '«obscurité» pour fournir une quantité raisonnable. - Probablement (une expression régulière que vous êtes déjà familier avec le programme, en commençant à nouveau) n'a pas besoin d'apprendre de nouvelles langues ou des outils. - Les expressions régulières sont prises en charge dans presque tous les langages de programmation modernes. Heck, même si le VBScript régulière du moteur d'expression. Syntaxe d'expression régulière est différent dans sa mise en œuvre, comme il est pas trop différente.
Inconvénients: - Ils ne possèdent pas beaucoup d'expérience de ceux qui peuvent être complexes. Apprendre des expressions régulières Perl en Java est pas le chemin. Perle pour voir le problème dans une en