Парсер HTML

SeaMan75 · Aug 10, 2016

Каким способом лучше всего очень быстро парсить HTML? - использовать готовые решения и какие или самому изобретать велосипед?

LeshaRB · Aug 11, 2016

SeaMan75 said:
Каким способом лучше всего очень быстро парсить HTML? - использовать готовые решения и какие или самому изобретать велосипед?

[HIDE=0]Каждый дрочит как он хочет, я дрочу как я хочу![/HIDE]

Есть готовые парсеры, можешь свой писать

LeshaRB · Aug 11, 2016

Я тут решил тебе за флуд предупрждение дать

http://dumpz.ru/showpost.php?p=593696&postcount=3

Чтоб не забывал чем пользовался 4 года назад

xmailer · Aug 29, 2016

легкий модуль для парсинга html, работает четко. Был найден очень давно в нете.

Code:

uses HTMLPars;

var
  HTMLTag     : THTMLTag;
  HTMLParser  : THTMLParser;
  obj         : TObject;
  aTag, avalue: String;
  i           : Integer;
begin
  HTMLParser:=THTMLParser.Create;
  HTMLParser.Lines.Text:=tmp;
  HTMLParser.Execute;
  //
  for i:= 1 to HTMLParser.parsed.count do
   begin
     obj:=HTMLParser.parsed[i-1];

     if obj.classtype=THTMLText then
       avalue:=avalue+THTMLText(obj).Line;

     if (obj.classtype=THTMLTag)and(not ftovar) then
      begin
        HTMLTag:=THTMLTag(obj);
        aTag   :=LowerCase(HTMLTag.Name);

        if (aTag='tr') then
         begin
           ...
           Continue;
        end;
		
        if (aTag='/tr') then
         begin
		   // что то делаем с собранным текстом avalue
		   ...
		   avalue:='';
           Continue;
        end;
      end;
   end;
end;

Keoda · Sep 5, 2016

Есть ещё компонент MSHTML. Там есть пример.

fets · Sep 26, 2016

так же для парсинга можно использовать стандартный компонент TWebBrwoser, но я рекомендую юзать TChromium и у него намного больше внутренних инструментов, для парсинга HTML + встроенные отладчик страниц + скорость работы. Так же можно использовать его не визуальный компонент для этих целей.

lomaka66 · Nov 4, 2016

DiHTMLParse - мегашустрый

DelGor · Nov 14, 2016

TRegExpr и т.п - Регулярки уже не модные что ли..
Да и вообще, задача не понятна.. всё от задачи зависит, что парсить, может можно обойтись Copy\Pos..

under44 · Nov 21, 2016

DelGor said:
TRegExpr и т.п - Регулярки уже не модные что ли..
Да и вообще, задача не понятна.. всё от задачи зависит, что парсить, может можно обойтись Copy\Pos..

TRegExpr очень медленный, особенно для больших объемов. У меня даже вылетало исключение - нехватка памяти или переполнение стека, не помню уже. Я очень разочаровался в нем, просмотрев в режиме отладки его работу... К тому же в matches содержится ошибка при использовании с начальным индексом, по крайней мере в XE8 Upd1.
Лучший вариант - LowerCase, Copy, Pos. Со сложными выражениями, конечно, придется мучиться...

Zhrnya · Nov 24, 2016

Я почти всё делаю с Clever Internet Suite. когда он бессилен то TWebBrowser

HatM · Nov 24, 2016

This project has parser, I'm not sure if it can be used separated
https://github.com/BerndGabriel/HtmlViewer

test-593 · Dec 16, 2016

DiHTML работает нормально, плюс, у них есть версия для разбора XML

NikolasK · Jul 9, 2019

Ребята вы не находили TChromium под версию XE8

Парсер HTML

SeaMan75

Турист

LeshaRB

Завсегдатай

LeshaRB

Завсегдатай

xmailer

Турист

Keoda

Турист

fets

Турист

lomaka66

Турист

DelGor

Турист

under44

Турист

Zhrnya

Турист

HatM

Турист

test-593

Турист

NikolasK

Турист