正则 邮箱 可针对网页源码内容提取
有不足请提出完善
([a-zA-Z0-9-_.])+@+[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)
如需针对域名后缀,则修改为
([a-zA-Z0-9-_.])+@+(.sample.com)
测试:
实在不行就使用大招,穷举法!
需要注意:当出现二级域名时,会同时出现name@sample.com.cn与name@sample.com两个邮箱,那么此时需要做对比工作,当两个邮箱存在包含关系情况下取最长舍最短。
private static string[] DomainSuffix = { "tk", "cf", "ga", "gq", "ml", "top", "work", "cn", "com.cn", "net.cn","org.cn", "xyz", "wang", "cq.cn", "he.cn", "sx.cn", "nm.cn", "ln.cn", "hl.cn", "js.cn","fj.cn", "jx.cn", "sd.cn", "ha.cn", "hb.cn", "hn.cn", "gx.cn", "hi.cn", "sc.cn", "gz.cn","yn.cn", "xz.cn", "sn.cn", "gs.cn", "qh.cn", "nx.cn", "xj.cn", "tw.cn", "hk.cn", "mo.cn","ac.cn", "sh.cn", "gd.cn", "bj.cn","ah.cn", "tj.cn", "zj.cn", "jl.cn", "com.es","nom.es", "pw", "nl", "me", "click", "me.uk","com", "net", "link", "pictures", "space", "moscow","name", "mobi", "us", "de","biz", "info", "cc", "co.uk", "es", "in.net", "rocks", "eu", "cologne","koeln", "tel", "tokyo", "yokohama", "com.au", "club", "com.de", "fr", "okinawa","nagoya", "ninja", "onl", "kim", "li", "pink", "red", "rip", "blue", "audio", "asia","ren", "ryukyu", "web.za", "net.za", "re", "wf","tf", "pm", "yt", "today", "technology", "tips", "systems", "supplies","supply", "support", "solutions", "agency", "business", "ca", "center", "net.co", "nom.co","city", "company", "report", "photography", "photos", "lighting", "management","network","graphics", "gripe", "gallery", "international", "institute", "exposed", "directory","education", "email", "equipment", "co.nz","net.nz", "com.co", "gen.nz", "ac.nz","school.nz", "geek.nz", "nz", "co.za", "video", "sexy","website", "in", "band","net.au","pics", "reviews", "dance", "diet", "help", "hiphop", "co.com", "gr.com","be", "gov.cn", "pro", "soy", "co.nl", "com.ua", "net.ua", "taipei","mex.com", "kiwi.nz", "maori.nz", "ch", "cheap", "church", "clothing", "coffee", "cash","catering", "builders", "cards", "care", "cab","camera", "camp", "boutique", "computer","community", "deals", "construction", "consulting", "contractors", "cooking", "cool", "country","beer", "bid", "bike","auction", "bargains", "airforce", "army", "associates", "academy","nyc", "money", "navy", "market", "marketing", "media", "limited", "life", "kitchen","productions", "properties", "property", "pub", "parts", "photo", "republican", "rehab","rentals", "repair", "place", "plumbing", "guide", "guitars", "guru", "gift", "gifts", "gives","glass", "horse", "hosting", "house", "how", "industries", "land", "digital", "direct","democrat", "enterprises", "engineer", "discount", "domains", "fail", "farm", "estate","events", "exchange", "fish", "fishing", "fitness", "florist", "forsale", "foundation","services", "surf", "rodeo", "shoes", "singles", "social", "software", "solar", "tattoo","tools", "town", "toys", "trade", "training", "watch", "webcam", "works", "world", "vacations","vet", "vision", "vodka", "zone", "party", "cleaning", "science", "chat", "sale", "style","north.am", "south.am", "nu", "co.in", "net.in", "firm.in", "gen.in", "ind.in", "at","ws", "us.com", "eu.com", "bz", "kiwi", "lt", "cz", "menu", "rest", "dentist","lawyer", "buzz", "christmas", "attorney", "actor", "blackfriday", "quebec", "co.hu", "yoga", "garden", "wedding", "fashion","flowers", "ooo", "durban","africa", "com.lk", "capetown", "hu", "biz.pl", "info.pl", "com.pl", "web.id", "wiki", "com.cm", "net.cm", "co.cm", "co.at","or.at", "it", "ink","ar.com", "com.sg", "net.pl", "lu", "com.kz", "idv.tw", "qc.com", "de.com", "degree", "bayern","tw", "com.tw", "mortgage","kr.com", "lc", "co.lc", "com.lc", "africa.com", "villas", "bingo", "apartments", "tennis","limo", "recipes", "partners", "insure", "lease", "fund", "furniture", "healthcare", "holdings","holiday", "diamonds", "dental", "dating", "engineering", "flights", "expert", "finance","financial", "cruises","condos", "codes", "claims", "clinic", "capital", "careers", "ventures","tax", "university", "surgery", "sg", "voyage", "kz", "coach", "delivery", "legal", "pizza","restaurant","memorial", "wien", "cat", "com.gr", "gb.com", "gb.net", "in.rs", "co.rs","biz.tr", "tv.tr", "info.tr", "web.tr", "com.ru", "net.ru", "su", "dk", "co.ee","idv.hk", "hk.com","ltd.hk", "inc.hk", "gd", "brussels", "osaka", "com.hk","net.hk", "com.my", "net.my", "name.my","gr", "london","tv", "la", "hk", "berlin", "co.il", "com.mx", "lk", "meet", "black", "com.im", "net.im", "co.im", "ru", "vegas", "scot", "za.com", "com.pe", "net.pe", "nom.pe", "io", "com.ph","cd", "ae", "si", "sx", "tl", "pl", "vg", "co.id", "my.id", "biz.id","jp.net", "per.sg", "co.je", "com.pt", "pt", "mp", "sk", "se", "se.net", "uk.net", "paris","uy.com", "ru.com", "sa.com", "se.com", "uk.com", "hu.com", "jpn.com", "no.com", "br.com","cn.com", "hamburg", "com.ly", "qa", "co.kr", "ne.kr", "or.kr", "co.cr", "pe", "voting", "ph","my", "press", "ms","gs", "build", "cl", "ug", "co.ug", "cricket", "bio", "bar", "global","vote", "com.do", "com.br", "net.br", "tv.br", "com.bz", "net.bz", "kr", "com.tr", "com.af","edu.sg", "melbourne", "com.tt", "biz.tt", "co.tt", "sydney", "lv","so", "sh", "im", "com.pa", "co.ve", "ac", "physio", "mx", "mn", "co.gg", "ee","ie", "ro", "com.ro", "ir", "co.ir", "co.ke", "or.ke", "st", "ski", "co.th", "in.th","archi", "hn", "co.ag", "com.ag", "net.ag", "nom.ag", "com.ms", "co.ms", "com.hn", "com.gt", "tires", "accountants","credit", "loans", "investments", "host", "energy","ceo", "best", "vc", "com.vc", "net.vc", "organic", "co.vi", "com.vi", "xxx", "tc", "by","id", "com.sb", "net.sb", "jp", "com.vn", "net.vn", "do", "com.ai", "to","as", "com.pk", "net.pk", "web.pk", "biz.pk", "rs", "co.no", "am", "tm", "vu","com.vu", "gt", "mw", "co.mw", "com.mw", "coop.mw", "pk", "vn", "fi", "ht", "com.ht","net.ht", "com.ni", "co.ni", "com.ar", "gy", "co.gy", "com.gy", "ec", "com.ec","info.ec", "net.ec", "com.sc", "sl", "co.na", "com.bi", "co.bi", "or.bi", "com.uy", "green","sc", "ps", "com.ps", "net.ps", "co.jp", "ne.jp", "cx", "com.hr", "is", "mk","com.mk", "com.mt", "net.mt", "ua", "gg", "mu", "je", "cm", "fm", "com.ve", "ly","ai", "ba", "bg", "uy", "com.bo", "com.bd", "creditcard", "com.jm", "career", "bi","af", "co.gl", "com.gl", "biz.fj", "info.fj", "name.fj", "net.fj", "pro.fj","com.py", "com.pr", "net.pr", "biz.pr", "gp", "com.gp", "ag", "com.fj", "or.jp","com.sv", "kn", "com.kn", "cr", "travel", "mg", "com.mg", "co.mg", "net.mg", "com.jo", "jo", "md", "hiv", "com.bs", "hr", "no", "com.sa", "com.ki", "net.ki", "biz.ki", "info.ki", "mobi.ki", "phone.ki", "co.dm", "dm", "com.ng", "bs", "sa", "rw","com.az", "net.az", "ng", "bo", "com.cu", "az", "luxury", "cg", "cu","tt", "com.na", "com.nf", "net.nf", "info.nf", "web.nf", "bh", "com.bh","pr","nf", "ki", "rich", "na" };
static void Main(string[] args) { foreach (var suffix in IDomainSuffix) { var pattern = string.Format("([a-zA-Z0-9-_.])+@+([a-zA-Z0-9-])+\\.+{0}", suffix); var collect = Regex.Matches(string.Empty, pattern); } }
来源:http://www.cnblogs.com/petson/p/6688537.html