PHP处理文本和爬虫技巧

用 php 处理注意，explode()拆分字符串，返回给一个变量便是将拆分出的东西依次存进这个变量，返回给一个list(变量1，变量2，……)则是将拆分出的东西分别存到变量1，变量2，……。
结合 array_fliter() 过滤的时候，如果不给回调函数过滤不干净的时候，可以在增加过滤回调函数，排除 "\r\n" 和原本的 FALSE（不写过滤回调函数的时候默认就是这个FALSE）。
调试可用file_put_contents("/home/search/result", var_export(['time'=> date('Y-m-d H:i:s'),'res'=>$result], true)."\n", FILE_APPEND);

<?php
    $file=fopen("mission2.txt","r") or exit("Unable to open file!");
    $fileCity=fopen("city2.txt","r") or exit("Unable to open file!");
    $arr = [];  //用不用都行
    // 读取文件每一行，直到文件结尾
    while(!feof($file))
    {
        //echo fgets($file). "<br>";
        $arr[] = fgets($file);
    }
    while(!feof($fileCity))
    {
        $city[] = fgets($fileCity);
    }
    //print_r($arr);
    
    foreach($arr as $a){
        list($term[]) = explode("   ",$a);
    }
    echo '<br>';
    print_r($term);
    echo '<br>';
    
    $city = array_filter($city);
    
    print_r($city);
    
    function gl($gg){
        if($gg == "\r\n" or $gg == FALSE)   //要用\r\n这个才能过滤掉某些windows里面的换行，还需要加上默认的FALSE，不然也可能滤不干净
            return 0;
        else
            return 1;
    }
    
    foreach($city as $c){                   
        $cityAlone[] = array_filter(explode("\t",$c),"gl");   //array_filter不使用第二个参数回调函数的话默认是过滤FALSE
    }
        
    echo '<br>';
    echo '<pre>';
    print_r($cityAlone);
    echo '</pre>';
    echo '<br>';
    print_r(array_filter($cityAlone[0]));
        
    foreach($term as $key=>$te){
        foreach(array_filter($cityAlone[$key]) as $ci){
            echo $ci.$te.'<br>';    
        }   
    }
    
    fclose($fileCity);
    fclose($file);
?>

<?php
    ini_set('memory_limit', '512M');
    $fileLeimu = fopen("leimu.txt","r") or exit("Unable to open file!");
    $fileCity = fopen("city.txt","r") or exit("Unable to open file!");
    $fileZaci1 = fopen("zaci1.txt","r") or exit("Unable to open file!");
    
    while(!feof($fileLeimu))
    {
        $leimu[] = fgets($fileLeimu);
    }
    while(!feof($fileCity))
    {
        $city[] = fgets($fileCity);
    }
    while(!feof($fileZaci1))
    {
        $zaci1[] = fgets($fileZaci1);
    }
    
    function gl($gg){
        if($gg == "\r\n" or $gg == FALSE)   //要用\r\n这个才能过滤掉某些windows里面的换行，还需要加上默认的FALSE，不然也可能滤不干净
            return 0;
        else
            return 1;
    }
    
    
    $leimu = array_filter($leimu,"gl");
    $city = array_filter($city,"gl");
    $zaci1 = array_filter($zaci1,"gl");
    $zaci2 = ['上门','找'];
    
    $leimu = array_unique($leimu); //去重
    $city = array_unique($city);  
    
    $leimu = str_replace(array("\r\n", "\r", "\n"), "", $leimu);   //去掉每个字符串元素末尾的换行
    $city = str_replace(array("\r\n", "\r", "\n"), "", $city);
    $zaci1 = str_replace(array("\r\n", "\r", "\n"), "", $zaci1);
    
    // echo '<pre>';
    // print_r($zaci2);
    // print_r($leimu);
    // print_r($city);
    // print_r($zaci1);
    // echo '</pre>';

/*  
    foreach($city as $c){
        foreach($leimu as $l){
            foreach($zaci1 as $zOne){
                $combRes[] = $c.$l.$zOne;
            }
        }
    }
    
    foreach($city as $c){
        foreach($leimu as $l){
            foreach($zaci2 as $zTwo){
                $combRes[] = $c.$zTwo.$l;
            }
        }
    }
    
    foreach($city as $c){
        foreach($leimu as $l){
            $combRes[] = $c.$l;
        }
    }
*/
    foreach($leimu as $l){
        foreach($zaci1 as $zOne){
            $combRes[] = $l.$zOne;
        }
    }

    foreach($zaci2 as $zTwo){
        foreach($leimu as $l){
            $combRes[] = $zTwo.$l;
        }
    }
    
    foreach($leimu as $l){
        $combRes[] = $l;
    }
    
    $combRes = implode("\r\n", $combRes);  //想要打印到txt中，能有换行的效果，需要添加这个
    file_put_contents("456.txt",$combRes);
    // echo gettype($combRes);
    echo '<pre>';
    print_r($combRes);
    echo '</pre>';
    
    fclose($fileLeimu);
    fclose($fileCity);
    fclose($fileZaci1);

获取页面某标签中的内容，若是能借助下载simplehtmldom类打开操作的话，dom方便。若打不开，则用file_get_contents或者curl（网上说效率更高），读取全文内容，然后用正则匹配来做。

<?php
    require_once "../classes/simplehtmldom_1_5/simple_html_dom.php";
    $mainHtml = 'http://***/index.xml';
    //$mainHtml ='http://***/20161222-0.xml';  //为何没法用file_get_html打开？ 
    $html = file_get_html($mainHtml);   //创建一个DOM
    foreach($html->find('loc') as $loc){
        $locTextRecord[] = $loc->plaintext;
    }
     
     // $htmltest = file_get_contents($locTextRecord[4]);
     
    foreach($locTextRecord as $everyLoc){
        $htmltest = file_get_contents($everyLoc);
     
        $reg = '/\<catg\>(.*?)\<\/catg\>/is';
        if(preg_match_all($reg, $htmltest, $arr)) {
            foreach($arr[1] as $a){
                
                $record[] = $a;
            }
        } else {
            echo "匹配失败!<br>";
        }
    }
    $record = array_unique($record);
    foreach($record as $r){
        var_dump($r);   //利用 var_dump 来查看变量类型，可以调试和直接在网页上复制用。
    }
    $html->clear();
?>

一个主xml下含很多<loc>子标签，在所有xml中，查找某个字符串：

<?php
    $mainHtml = file_get_contents('http://***/tp_index.xml');
    $reg = '/\<loc\>(.*?)\<\/loc\>/is';
    if(preg_match_all($reg, $mainHtml, $arr)) {
        foreach($arr[1] as $a){
            $locTextRecord[] = $a;
        }
    } else {
        echo "loc匹配失败!<br>";
    }
    //var_dump($locTextRecord);
     
    foreach($locTextRecord as $everyLoc){
        $htmlTest = file_get_contents($everyLoc);

        //$aim = 'https://baidu.com?srcid%3D1000%26id%3D10034_5467_%E5%8C%97%E4%BA%AC';
        $aim = '搬家';
        if(strpos($htmlTest, $aim)) {
            $record[] = $everyLoc;
        } else {
            echo "aim匹配失败!<br>";
        }
    }
    //$record = array_unique($record);
    foreach($record as $r){
        var_dump($r);   //利用 var_dump 来查看变量类型，可以调试和直接在网页上复制用。
    }
?>

注意：
preg_match()的第三个参数：如果提供了参数matches，它将被填充为搜索结果。 $matches[0]将包含完整模式匹配到的文本， $matches[1] 将包含第一个捕获子组匹配到的文本，以此类推。
preg_match_all()的第三个参数：多维数组，作为输出参数输出所有匹配结果, 数组排序通过flags指定。

最后编辑于：2017.12.05 05:42:28

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

PHP处理文本和爬虫技巧

推荐阅读更多精彩内容